Baixe o app para aproveitar ainda mais
Prévia do material em texto
Métodos Estadísticos 2008 Universidade de Averio Profª Gladys Castillo Jordán Aula 5. Intervalos de Confiança 2 Duas Fases da Estatística ◼ Estatística Descritiva: descrever e estudar uma amostra ◼ Estatística Indutiva (inferencial): a partir de uma amostra inferir sobre as características de uma população Fonte Diagrama: Projecto ALEA – Noçoes de Estatística http://alea-estp.ine.pt/Html/nocoes/html/exemplo2_4_1_11.html 3 População vs. Amostra População: colecção de unidades individuais (pessoas ou resultados experimentais) com uma ou mais características comuns, que se pretendem estudar. Amostra: Conjunto de dados ou observações, recolhidos a partir de um subconjunto da população, que se estuda com o objectivo de tirar conclusões para a população de onde foi recolhida Podemos inferir (deduzir) determinadas características de uma população se extraímos uma amostra representativa desta amostragem Imagens extraídas da referência 2 4 Amostragem ◼ Amostragem Aleatória Simples: cada elemento da amostra é retirado aleatoriamente de toda a população (com ou sem reposição) cada possível amostra tem a mesma probabilidade de ser recolhida ◼ Amostragem Estratificada: subdividir a população em, pelo menos, dois subgrupos distintos que partilham alguma característica e, em seguida, recolher uma amostra de cada um dos subgrupos (estratos) ◼ Amostragem por clusters: dividir a população em secções (clusters); seleccionar aleatoriamente alguns desses clusters; escolher todos os membros dos clusters seleccionados. Processo pelo qual se extraem dados de uma população Vamos usar apenas este tipoExistem vários tipos de amostragem: 5 Inferência Estatística amostra inferir certas características da população distribuição conhecida/desconhecida e/ou parâmetros desconhecidos n indivíduos (ou objetos) da população ex: sortear n pixels de uma imagem (com ou sem reposição) n realizações de uma v.a. X ex: medir a reflectância de um objeto n vezes a amostra constitui um conjunto de n v.a. X1, X2, ..., Xn independentes e identicamente distribuídas com distribuição FX Amostra Aleatória acetato adaptado de referencia 3 6 Estimação de Parâmetros População Amostra Distribuição da População Parâmetros Distribuição Amostral Estatísticas (valor fixo) estimar (função da amostra) pontual (estatísticas) por intervalo (intervalos de confiança) Estimação OBS: estatística: é a v.a. que estima (pontualmente) um parâmetro (populacional) as vezes é chamada simplesmente de estimador estimativa: é o valor do estimador obtido para uma amostra específica acetato adaptado de referencia 3 7 Intervalo de Confiança Um intervalo de confiança para um parâmetro , a um grau de confiança 1-, é um intervalo aleatório (Linf, Lsup) tal que: P(Linf < < Lsup) = 1- , (0,1) onde deve ser um valor muito reduzido por forma a temos confianças elevadas Valores usuais para o grau de confiança: 95%, 99% e 90% 8 Intervalo de Confiança (IC) I. IC para a média com variância conhecida ◼ Caso 1: população Normal ◼ Caso 2: população qualquer (n>>30) aproximada pela Normal II. IC para a média com variância desconhecida ◼ Caso 1: população Normal ◼ Caso 2: população qualquer (n>>30) aproximada pela Normal III. IC para a diferença de médias de duas populações Normais ◼ Caso 1: duas amostras independentes, variâncias conhecidas ◼ Caso 2: duas amostras independentes, variâncias desconhecidas ◼ Caso 3: amostras emparelhadas, variâncias desconhecidas IV. IC para uma proporção 9 IC para com variância conhecida Caso 1: População Normal ~ ?X ~ ? X n − (0,1)N (Normal Padrão) ( ) 1P z Z z − = − ( ) 1 X P z z n − − = − ( ) 1P z X z n n − − = −( ) 1P X z X z n n − + = −2~ ( , )X N desconhecido, mas 2 conhecido 2 ~ ( , )X N n IC para a grau de confiança 1- +−= −−− n zX n zXIC 2121)1( ,)( 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0 5 10 15 20 - + 0 (0,1)N 2 2 z /2 z1 - /2 quantil de ordem 1-/2quantil de ordem /2 Z z-z 1 − acetato adaptado de referencia 3 centrando e reduzindo: Linf Lsup 10 Determinando o Quantil de Ordem 1-/2 Distribuição Normal Padronizada Tabela 3.a. Normal Distribution Para nível de significância =0.05 grau de confiança 95% (z) = P(Z < z) = 1 - /2 z = z 1 - /2 quantil de ordem 1-/2 (z) = P(Z < z) = 1- (0.05/ 2) = 0.975 buscar valor de z na tabela: (z) = 0.9750 z = 1.96 2 2 Grau de Confiança Valor z 90% 1.65 95% 1.96 99% 2.58 90% grau de confiança – existem 10 possibilidades de 100 que o IC não contenha a média populacional 95% grau de confiança – existem 5 possibilidades de 100 que o IC não contenha a média populacional 99% grau de confiança – existe 1 possibilidade de 100 que o IC não contenha a média populacional 11 Interpretação do IC para Para uma amostra aleatória de tamanho 50 seguindo uma distribuição Normal com média = 10 e variância 2 = 4 , determinamos o IC para com 95% de grau confiança: 2 2 ( 1,96 1,96 ) 95% 50 50 P X X− + = ~ (10,4)X N→ ( 0,5544 0,5544) 95%P X X− + =( )5544.0,5544.0)(%95 +−= XXIC Interpretação: 95% dos possíveis ICs obtidos a partir de uma amostra de tamanho 50, conterão de facto o verdadeiro valor da média =10 =10 12 IC para com variância conhecida Caso 1: População Normal Uma v.a. qualquer tem uma distribuição Normal com média desconhecida e variância 2 = 16. Retira-se uma amostra de 25 valores e calcula-se a média amostral. Construa um IC de 95% para supondo que 12,7.X = (11,132 14,268) 0,95P = +−= −−− n zX n zXIC 2121)1( ,)( +−= n zX n zXIC 9750.09750.0%95 ,)( +−= 25 4 96.17,12, 25 4 96,17,12 ( )568,17,12 ,568,17,12 +−= ( )268.14 ,132.11)(%95 =IC Exemplo: 2,5% z0,9750=1,96 2,5% 0 12.7 95% Java Applet em: http://psych.colorado.edu/~mcclella/java/normal/normz.html 13 Como poderia obter intervalos de confiança mais estreitos, ou seja, com limites mais próximos a média verdadeira? Diminuindo o grau de confiança IC & Grau de Confiança Diminuindo o grau de confiança de 99% a 95%, aumentamos o risco de estar errados: de 1% de risco passamos a 5% de risco, ou seja temos mais possibilidades (5/100 em vez de 1/100) de que o IC não contenha a média populacional. Ao aumentar o risco, o intervalo deve ser mais preciso fi g u ra e x tr a íd a d a r e fe rê n c ia 2 14 IC & Dimensão da Amostra Como poderia obter intervalos de confiança mais estreitos, ou seja, com limites mais próximos a média verdadeira? Aumentando a dimensão da amostra Tabela extraída da referência 2 15 Teorema do Limite Central ◼O Teorema do Limite Central indica que a soma (e por conseguinte a média) de n variáveis independentes seguirá o modelo Normal, independentemente da distribuição das variáveis individuais. ◼A aproximação melhora na medida em que n aumenta. Se as distribuições individuais não são muito diferentes da Normal, basta n = 4 ou 5 para se obter uma boa aproximação. ◼Se as distribuições individuais forem radicalmente diferentes da Normal, então será necessário n = 20 ou mais. 16 Teorema do Limite Central ◼Na figura abaixopode ser visto um desenho esquemático do teorema do limite central. n n 17 Exemplo 5: A distribuição de probabilidade da variável resultante do lançamento de um dado segue a distribuição uniforme, ou seja, qualquer valor (1,2,3,4,5,6) tem a mesma probabilidade (1/6) de ocorrer. No entanto, se ao invés de lançar um dado, sejam lançados dois dados e calculada a média, a média dos dois dados seguirá uma distribuição aproximadamente Normal. Teorema do Limite Central 18 10 dado 20 dado Soma Média 10 dado 20 dado Soma Média 1 1 2 1,0 5 2 7 3,5 1 2 3 1,5 3 4 7 3,5 2 1 3 1,5 4 3 7 3,5 1 3 4 2,0 2 6 8 4,0 3 1 4 2,0 6 2 8 4,0 2 2 4 2,0 3 5 8 4,0 1 4 5 2,5 5 3 8 4,0 4 1 5 2,5 4 4 8 4,0 3 2 5 2,5 3 6 9 4,5 2 3 5 2,5 6 3 9 4,5 1 5 6 3,0 4 5 9 4,5 5 1 6 3,0 5 4 9 4,5 2 4 6 3,0 4 6 10 5,0 4 2 6 3,0 6 4 10 5,0 3 3 6 3,0 5 5 10 5,0 1 6 7 3,5 5 6 11 5,5 6 1 7 3,5 6 5 11 5,5 2 5 7 3,5 6 6 12 6,0 19 Teorema do Limite Central ◼Tabela de freqüência da média dos dois dados Média de dois dados Freqüência 1,0 1 1,5 2 2,0 3 2,5 4 3,0 5 3,5 6 4,0 5 4,5 4 5,0 3 5,5 2 6,0 1 20 Teorema do Limite Central ◼Histograma da média dos dois dados 1,0 1,5 3,52,52,0 3,0 6,04,0 4,5 5,0 5,5 1/36 2/36 3/36 x f(x) 4/36 5/36 6/36 21 Teorema do Limite Central ◼Conforme pode ser visto no histograma anterior, o histograma da média dos dois dados resulta aproximadamente Normal. Além disso, observa-se que a aproximação da distribuição Normal melhora na medida que se fizesse a média do lançamento de mais dados. 22 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0 5 10 15 20 - + 0 (0,1)N 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0 5 10 15 20 - + 0 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0 5 10 15 20 - + 0 (0,1)N 1 − z-z 2 2 z1 - /2quantil de ordem 1-/2 z-z 2 2 2 2 z1 - /2quantil de ordem 1-/2 z1 - /2quantil de ordem 1-/2 IC para com variância conhecida Caso 2: População Genérica aproximada pela Normal IC para a grau de confiança 1- +− −−− n zX n zXIC 21211 ,)( Se uma distribuição qualquer tiver média (desconhecida) e variância 2 (conhecida) e se forem validas as condições do TLC (n>>30) podemos obter um IC aproximado para a média 23 A expressão é chamada erro padrão (standard error) IC para com variância conhecida Resumo IC para a grau de confiança 1- n zXIC 21)( −= quanto maior n menor o erro padrão IC mais preciso quanto maior z IC menos preciso Se aumentarmos o grau de confiança a precisão diminui porque aumenta o valor z se 90% z = 1.65 se 95% z = 1.96 se 99% z = 2.58 desconhecido, mas 2 conhecido n zXIC 21)( − n zX n 24 IC para com variância desconhecida Se o valor de 2 é desconhecido substituir por uma estimativa = −== n i i XX n S 1 2)( 1 = − − == n i ic XX n S 1 2)( 1 1 Estimadores pontuais para o desvio padrão : desvio padrão amostral não-corrigido desvio padrão amostral corrigido Se 2 desconhecida podemos distinguir dois casos: − = −1~),(~ 2 n c t nS X TNX Caso1. população Normal usar distr.t de Student (pequenas amostras) Caso2. q.q. distribuição aproximada pela Normal, amostras grandes usar distribuição Normal padronizada − = )1,0(30 com q.q. ~ N nS X ZnX ac +−= −−−−− n S tX n S tXIC cn c n 1211211 ,,,)( +− −−− n S zX n S zXIC cc 21211 ,)( 25 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0 5 10 15 20 - + 0 24t t-t 2,5%2,5% Distribuição t de Student com 24 graus de liberdade 95% IC para com variância desconhecida Caso 1: População Normal Uma v.a. qualquer tem uma distribuição Normal com média e variância 2 desconhecidas. Retira-se uma amostra de 25 valores e calcula-se a média amostral e variância amostral . Construa um IC de 95% para supondo que e S2 = 16 ?t0,9750, 24 = 2,06 +−= −−−−− n S tX n S tXIC nn 1,21121)1( ,,)( +−= n S tX n S tXIC 24,9750.024,9750.0%95 ,)( +−= 25 4 06,27,12 , 25 4 06,27,12 ( )648,17,12 ,648,17,12 +−= ( )648.13 ,052.11)(%95 =IC 12,7X =Exemplo: 26 Determinando t1-/2, n-1 - quantil de ordem 1-/2 de uma distribuição t-Student com n-1 graus de liberdade Tabela 8. Student s t-Distribution Por definição de quantil de ordem 1-/2: z = z 1 - /2 F(z) = P(Z < z) =1 - /2 Para grau de confiança 95% nível de significância =0.05 F(z) = P(Z < z) = 1- (0.05/ 2) = 0.975 F(z) = 0.9750 Para n=25 24 graus de liberdade Determinar t0.9750, 24 usando Tabela 8: t0.9750, 24 = 2.06 27 IC para com variância desconhecida Caso 1: População Normal Uma amostra aleatória de 20 cigarros foi analisada para estimar a quantidade de nicotina por cigarro, observando-se a média de 1,2 mg e variância amostral corrigida de 0.4. Pressupondo que as observações têm distribuição Normal, determine um IC para o valor médio da quantidade de nicotina por cigarro, grau de confiança de 99% Usando esta amostra determinamos um IC aproximado para a 99%: exercício 5, capítulo 4 +−= −−−−− n S tX n S tXIC cn c n 1,211,21)1( ,)( +−= n S tX n S tXIC CC 19,995,019,995,0%99 ,)( ( )044721,086,22,1 ,044721,086,22,1 +−= ( )3279.1 ,0721.1)(%99 =IC Para grau de confiança 99%: (1-) x 100% = 99% (1-) =0.99 =0.01 Por definição de quantil de ordem 1-/2: F(z) = P(Z < z) = 1- (0.01/ 2) = 0,995 F(z) = 0.995 Para n=20 19 graus de liberdade Determinar t0.995, 19 usando Tabela 8 +−= 20 04,0 86,22,1 , 20 04,0 86,22,1)(%99 IC t0.995, 19 = 2.86 Métodos Estadísticos 2008 Universidade de Averio Profª Gladys Castillo Jordán PROBLEMA ? Para se determinar o pH de uma solução tampão foram efectuadas 7 medições que forneceram os seguintes resultados: 5,12 5,20 5,15 5,17 5,16 5,19 5,15 Calcule: a) a média b) o desvio padrão c) o desvio padrão da média d) o intervalo de confiança da média, a 95% e) o intervalo de confiança da média, a 99% Métodos Estadísticos 2008 Universidade de Averio Profª Gladys Castillo Jordán PROBLEMA ? A temperatura de fusão do nitrato de cálcio tetra-hidratado, Ca(NO3)2.4H2O, foi medida 10 vezes, tendo-se obtido os seguintes resultados, considerando que eles pertencem a uma distribuição Normal: 42,70 42,60 42,78 42,83 42,58 42,68 42,65 42,76 42,73 42,71 Calcule o valor médio da temperatura de fusão do composto e o respectivo intervalo de confiança a 95%. Histograma e análise de dados com o auxílio do Excel 30 IC para com variância desconhecida Exemplo: População qualquer, amostra grande Origem Nº pessoas amostra Rendimento Médio Desvio Padrão Amostral cubanos 3895 $16 368 $3 069 mexicanos 5729 $13 342 $9 414 porto- riquenhos 5908 $12 587 $8 647 Ingressos dos emigrantes hispânicos em EU segundo censo de 1980 IC para a grau de confiança 95% +− n S X n S XIC 96.1,96.1)(%95 ◼ cubanos: ◼ mexicanos:◼ porto-riq.: 17.49 3985 3069 padrão erro == 41.124 5729 9414 padrão erro == 5.112 5908 8647 padrão erro == 17.4996.116368)(%95 IC IC ( 16272, 16464 ) 41.12496.113342)(%95 IC IC ( 13098, 13586 ) 5.11296.112587)(%95 IC IC ( 12367, 12807 ) 31 IC para com variância desconhecida Exemplo: População qualquer, amostra grande Exemplo adaptado de referência 2 32 Inferência entre parâmetros de duas populações P1 P2 Mesmo não se conhecendo as médias 1 e 2, seria possível verificar se elas são iguais a partir de seus valores amostrais? Se 1 e 2 são iguais, então 1 - 2 = 0. acetato adaptado de referencia 3 nX mY XXE =)( YYE =)( Podemos a partir da diferença das médias amostrais inferir o valor da diferença das médias de duas populações YX − 33 Intervalo de Confiança para 1 - 2 Duas populações Normais. Amostras independentes Sejam X1,…, Xn e Y1, …, Ym duas amostras aleatórias constituídas por observações independentes e provenientes de duas populações Normais N(X, X2) e N(Y, Y2), respectivamente Caso 1: variâncias conhecidas Caso 2: variâncias desconhecidas mas iguais IC para 1−2 a grau de confiança 1- 34 Intervalo de Confiança para 1 - 2 Populações Normais. Amostras emparelhadas Sejam X1,…, Xn e Y1, …, Yn duas amostras provenientes de populações Normais Amostras emparelhadas: se pares de observações (Xi, Yi) são dependentes sendo todos os restantes pares (Xi, Yj), ij independentes Consideram-se as diferenças: ✓ D = X- Y – diferença das médias populacionais ✓ D – desvio padrão das diferenças - desconhecido mas pode ser estimado através das diferenças D1, …, Dn D1, D2, ...Dn – a.a. com população Normal e variância desconhecida 1 2 ~),(~ − − = n c D D t nS D TND D D +−= −−−−− n S tD n S tDIC DD C n c nD 1211211 ,,,)( IC para D= X-Y a grau de confiança 1- ScD – desvio padrão amostral corrigido das diferenças ),(~)( 2DDiii NYXD −= 35 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0 5 10 15 20 - + 0 (0,1)N 2 2 z /2 z1 - /2 quantil de ordem 1-/2quantil de ordem /2 z-z 1 − 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0 5 10 15 20 - + 0 (0,1)N 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0 5 10 15 20 - + 0 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0 5 10 15 20 - + 0 (0,1)N 2 2 z /2 z1 - /2 quantil de ordem 1-/2quantil de ordem /2 z-z 1 − 2 2 2 2 2 z /2 z1 - /2 quantil de ordem 1-/2quantil de ordem /2 z /2 z1 - /2 quantil de ordem 1-/2quantil de ordem /2 z-z 1 − z-z 1 −1 − Intervalo de Confiança para Proporção n X p =ˆ (n,p)X Binomial~ npp p n X npp pp )1()1( ˆ − − = − − Se p- desconhecido, um estimador pontual para p é a proporção amostral: (se n é grande, pelo TLC) , Yi ~ Bernoulli sendo p = P(Xi = 1), a probabilidade de se seleccionar um bola vermelha = = n i iYX 1 ) n pp pNp a )1( ,(ˆ ~ − Considere que uma urna contêm bolas vermelhas e azúis e que n bolas são escolhidas ao acaso (com reposição), definindo-se X como o número de bolas vermelhas entre as n seleccionadas centrando e reduzindo: Z )1 ,0(~ N a ( ) 1P z Z z − = − I.C. para Z com grau de confiança 1- −=−+−− 1))ˆ1(ˆˆ,)ˆ1(ˆˆ( nppzpnppzpP 36 Intervalo de Confiança para Proporção − + − − −−− n pp zp n pp zppIC )ˆ1(ˆ ˆ, )ˆ1(ˆ ˆ)( 2121)1( n X p =ˆ Seja a proporção de indivíduos com uma certa característica de interesse numa amostra aleatória de dimensão n, e p a proporção de indivíduos com essa característica na população. Um intervalo de confiança aproximado para p, a um grau de confiança 1-, é dado por: 37 z0,9750=1,96 IC para uma proporção Exemplo: Proporção de acessos a páginas de Internet nacionais 3.0 100 30 ˆ === n X p Em 100 acessos a páginas de internet escolhidos ao acaso 30 são as páginas nacionais. Determine um IC a 95% para a proporção de acessos a páginas nacionais ( )04582,096,13,0 ,04582,096,13,0)(%)95( +−pIC( )089818,03,0 ,089818,03,0 +−= ( ).38980 ,2102.0)(%95 pIC 04582,0 100 7,03,0)ˆ1(ˆ = = − = n pp S p ( ) pp SzpSzppIC 9750.09750.0%)95( ˆ,ˆ)( +− ( )pp SpSppIC +− 96,1ˆ,96,1ˆ)(%)95( )100Binomial(~ ,pX X - número de acessos á páginas de internet nacionais p – proporção de acessos a páginas nacionais (em geral) p – desconhecido Usando esta amostra determinamos um IC aproximado para p a 95%: exercício 8.7 pág 168 ( )pp SzpSzppIC 2121)1( ˆ,ˆ)( −−− +−n pp S p )ˆ1(ˆ − = n X p =ˆ com e 1º. Determinar z1- /2 para =0,05 3º. Substituir na fórmula: 2º. Determinar as estimativas p e Sp ^ 38 Formulário F O R M U L Á R I O 39 Referências Livro: Grande Maratona de Estatística no SPSS Andreia Hall, Cláudia Neves e António Pereira Capítulo 4.1 Intervalos de Confiança Acetatos disponíveis on-line usados na elaboração destes acetatos: ◼ Estatística Inferencial e Intervalos de Confiança, Amostragem Andreia Hall URL: http://www2.mat.ua.pt/pessoais/AHall/me/files/acetatos.htm http://www2.mat.ua.pt/pessoais/AHall/Bioestat%EDstica/Bioestat%EDstica.htm ◼ Chapter 11: Sampling and Sampling Distribution, Chapter 12: Estimation Prof. J. Schwab , University of Texas at Austin disciplina: Data Analysis I (spring 2004) URL: www.utexas.edu/courses/schwab/sw318_spring_2004/TextbookLectureNotes ◼ Estimação Camilo Daleles Rennó, Instituto Nacional de Pesquisas Espaciais, Brasil disciplina:Estatística: Aplicação ao Sensoriamento Remoto (2008) URL: http://www.dpi.inpe.br/~camilo/estatistica/notas.html ◼ Estimação por Intervalos Ana Pires, IST Lisboa disciplina: Probabilidades e Estatística URL: : http://www.math.ist.utl.pt/~apires/materialpe.html
Compartilhar