Baixe o app para aproveitar ainda mais
Prévia do material em texto
131 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Essa Unidade está no capítulo 7, 8 9 e 10 do livro base: MONTGOMERY, Douglas C, RUNGER, George C. Estatística aplicada e Probabilidade para Engenheiros. 4ª edição. Rio de Janeiro: LTC, 2009. Você também pode, se preferir, fazer a leitura dos capítulos 7, 8 e 9 do livro do Mario Triola, Introdução à Estatística, LTC, 2005. Cópias desses capítulos podem ser obtidas por meio da Pasta do Professor (www.pastadoprofessor.com.br), fazendo login nessa página e enviando-as para serem impressas na Copiadora Set (casa amarela) da Unidade do Coração Eucarístico, ou em alguma outra copiadora da Unidade a que o aluno pertence. Não deixem de ler! Nota importante: • Essas aulas foram produzidos por meio de coletânea dos textos indicados na bibliografia. Não são citadas diretamente para não poluir o visual dos mesmos. • Os textos estão organizados e traduzidos para minha linguagem didática pessoal. • Um estudo mais aprofundado deverá ser baseado nas referências bibliográficas indicadas. Algumas notas de aulas: Introdução Falamos anteriormente que conhecer o tipo de uma variável aleatória é necessário para a escolha adequada das técnicas estatísticas. Vamos lidar agora, com as informações geradas por elas! 1. ESTIMAÇÃO O interesse num determinado parâmetro de uma população, lançamos mão de uma amostra extraída dessa população, estudamos seus elementos e procuramos, através dessa amostra, estimar o parâmetro populacional. Uma estatística desse tipo é chamada de estimador. Temos dois tipos de estimador: 1. PONTUAL: procura fixar um valor numérico único que esteja satisfatoriamente próximo do verdadeiro valor do parâmetro 132 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística 2. INTERVALAR: procura determinar intervalos com limites aleatórios, que abranjam o valor do parâmetro populacional, com margem de segurança pré-fixada. Um estimador é uma variável aleatória, podendo assumir valores diferentes para cada amostra. Para caracterizá-lo é preciso conhecer sua distribuição de probabilidade. 1.1 Distribuição amostral da MÉDIA Exemplo 1: Uma companhia eletrônica fabrica resistores que têm uma resistência média de 100 ohms e um desvio padrão de 10 ohms. A distribuição das resistências é normal. Considere um lote de 1.000 resistores de sua fabricação. Podemos observar pelo histograma que esse lote preserva a distribuição normal Retirando 6 diferentes amostras de tamanhos 30 dessa população e calculando a media e o desvio-padrão para cada uma delas: Variável N Média Desvio-padrão A1 30 100,25 10,35 A2 30 100,69 8,48 A3 30 102,07 8,96 A4 30 97,86 11,39 A5 30 97,31 10,01 A6 30 100,92 9,38 Pode-se observar que essas amostras produzem médias e desvios-padrão diferentes. Então se for considerado o conjunto de médias dessas amostras, obtêm-se uma nova variável aleatória, denominada de Média Amostral. Agora o interesse está em se conhecer a distribuição de probabilidade dessa nova variável aleatória. O próximo gráfico apresenta a distribuição da produção de resistores para amostras de tamanhos: 10, 20, 30 e 50 Resistores Fre qu en cia 130120110100908070 90 80 70 60 50 40 30 20 10 0 Normal Histograma do lote de Resistores 133 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Observa-se que a média da distribuição concentra-se em torno da média populacional (100 ohms) e o desvio-padrão vai diminuindo em torno da média, à medida que o tamanho da amostra aumenta (formato da curva vai se alongando à medida que o n aumenta). Genericamente, Considere uma amostra de tamanho n de uma variável aleatória X com média e desvio- padrão , que vamos denotar por X1, X2,..., Xn, e que satisfaça as seguintes condições: • todos os Xi’s , i=1,2,...,n, são independentes • cada Xi tem a mesma distribuição de probabilidade de X. Uma amostra com as condições acima é chamada de AMOSTRA ALEATÓRIA. Se X ~ N( , ) então temos: E(Xi) = e Var(Xi) = 2 , para i=1,2,...,n Se de cada Xi for calculado sua média e ela for armazenada, então será obtida uma nova variável aleatória, constituída por todas elas, que pode ser denotada por X . Essa nova variável aleatória pode ser escrita como: E terá como média (valor esperado): Ou seja, a média da variável aleatória X será a mesma da população X. 1201101009080 10 8 6 4 2 0 resistores (ohms) Fre qu en cia Média=100 ohms n = 10 n = 50 n = 30 n = 20 n21 X.....XX n 1 X n n ).....( n 1 )]X(E.....)X(E)X(E[ n 1 )X.....XX(E n 1 )XE( n21n21 134 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Analogamente, calculando sua variância: Ou seja, a variância da variável aleatória X será a variância da população X diminuída pelo fator n, tamanho da amostra. Desses resultados, podemos concluir: Se X ~ N( , ) então a Média Amostral terá um distribuição Isso significa que se a população for normalmente distribuída as amostras, de qualquer tamanho, também terão distribuição de probabilidade normal. O próximo gráfico exemplifica com as distribuições de amostras de tamanhos 10, 20, 30 e 50 provenientes de uma população normalmente distribuída: Agora, se a variável aleatória X não for proveniente de uma distribuição normal então a distribuição da média amostral será aproximadamente normal quando o tamanho da amostra for grande. nn n )...( n 1 )]X(Var...)X(Var)X(Var[ n 1 )X...XX(Var n 1 )X(Var 2 2 2 222 2 n212 n212 n ,N~X População com distribuição N (0;1) X - população Fre qu en cia 2,41,60,80,0-0,8-1,6-2,4 90 80 70 60 50 40 30 20 10 0 Histograma - População Normal (0,1) Fre qu en cia 0,60,30,0-0,3-0,6 30 20 10 0 0,60,30,0-0,3-0,6 30 20 10 0 Mean10 Mean20 Mean30 Mean50 Histograma Média Amostral para n=10; n=20; n=30 e n=50 População N(0,1) 135 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Esse resultado é assegurado pelo Teorema Central do Limite (TCL). Nos próximos gráficos podemos observar claramente o resultado desse teorema: População com distribuição Uniforme – U[0,1] X - população Fre qu en cia 0,900,750,600,450,300,150,0035 30 25 20 15 10 5 0 Histograma - População U(0,1) Fre qu en cia 0,720,640,560,480,400,32 30 20 10 0 0,720,640,560,480,400,32 30 20 10 0 Mean10 Mean20 Mean30 Mean50 Histograma Media Amostral para n=10; n=20; n=30 e n=50 População U[0,1] População com distribuição Uniforme – U[0,1] X - população Fre qu en cia 0,900,750,600,450,300,150,00 35 30 25 20 15 10 5 0 Histograma - População U(0,1) Fre qu en cia 0,720,640,560,480,400,32 30 20 10 0 0,720,640,560,480,400,32 30 20 10 0 Mean10 Mean20 Mean30 Mean50 Histograma Media Amostral para n=10; n=20; n=30 e n=50 População U[0,1] População com distribuição Binomial (10; 0,15) X - população Fre qu en cia 6543210 350 300 250 200 150 100 50 0 População Binomial (10; 0,15) Fre qu en cia 2,22,01,81,61,41,21,0 24 18 12 6 0 2,22,01,81,61,41,21,0 24 18 12 6 0 Mean10 Mean20 Mean30 Mean50 Histograma Média Amostral para n=10; n=20; n=30 e n=50 População Bin(10; 0,15) População com distribuição Binomial (10; 0,15) X - população Fre qu en cia 6543210 350 300 250 200 150 100 50 0 População Binomial (10; 0,15) Fre qu en cia 2,22,01,81,61,41,21,0 24 18 12 6 0 2,22,01,81,61,41,21,0 24 18 12 6 0 Mean10 Mean20 Mean30 Mean50 Histograma Média Amostral para n=10; n=20; n=30 e n=50 População Bin(10; 0,15) 136 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Esses resultados podem ser apresentados no quadro a seguir: Síntese dos resultados do Teorema Central do Limite Distribuição de X Distribuição de X Tamanho da amostra (n) ),( N n N , Qualquer Qualquer Aproximadamente n N , n > 30 A média amostral pode ser padronizada da mesma maneira que a população, para efeito de facilitação do cálculo de suas probabilidades por meio dos valores previamente tabelados: Lembrando apenas que o desvio-padrão a ser utilizado é o da Média Amostral, X . expo10 Fre qu en cia 76543210 180 160 140 120 100 80 60 40 20 0 Histograma População Exponencial (1) População com distribuição Exp (1) Fre qu en cia 1,81,61,41,21,00,80,60,4 30 20 10 0 1,81,61,41,21,00,80,60,4 30 20 10 0 Mean10 Mean20 Mean30 Mean50 Histograma Média Amostral para n=10, n=20, n=30 e n=50 População Exp(1) expo10 Fre qu en cia 76543210 180 160 140 120 100 80 60 40 20 0 Histograma População Exponencial (1) População com distribuição Exp (1) Fre qu en cia 1,81,61,41,21,00,80,60,4 30 20 10 0 1,81,61,41,21,00,80,60,4 30 20 10 0 Mean10 Mean20 Mean30 Mean50 Histograma Média Amostral para n=10, n=20, n=30 e n=50 População Exp(1) )1,0(~ N n X Z 137 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística 1.2 Estimativa Intervalar para a MÉDIA de uma distribuição Normal e Variância Conhecida Exemplo 2: Voltando ao exemplo 1, da Companhia eletrônica, suponha que tenha sido levada para o controle de qualidade, uma amostra de 100 resistores, selecionada aleatoriamente do lote de 1.000. Suponha que o desvio-padrão de 10 ohms seja conhecido como verdadeiro. (1) Qual a estimativa pontual da resistência média para os resistores dessa companhia? (2) Determine um intervalo simétrico em torno da média que concentre 95% dos valores amostrados. Solução de (1): A estimativa será fornecida pela média calculada diretamente dos 100 dados dessa amostra: ohms. Solução de (2): Precisam ser encontrados os valores a e b tais que, Que é equivalente à sua transformação na Normal padronizada: Lembrando que na distribuição N(0,1), P (-1,96 < Z < 1,96) = 0,95 Tem-se que za = -1,96 e zb = 1,96. Logo, e Dessa maneira, um intervalo em torno da média que concentra 95% dos valores da média amostral é de 99,15 a 103,07 ohms. Conclusão: nesse exemplo 2 tem-se que, em uma amostra de 100 resistores a estimativa média pontual das resistências é 101,11 ohms e a intervalar, com 95% de confiança, é de 99,15 a 103,07 ohms. Genericamente, uma estimativa intervalar para a média com 100(1- )% de confiança é dada por: 11,101xˆ 95,0)bXa(P 95,0zZzP 100 10 11,101b Z 100 10 11,101a P ba 0,950,95 15,99a96,1 100 10 11,101a za 07,103b96,1 100 10 11,101b zb 1z n X zP 22 138 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Que pode ser reescrita por: Ou seja, o intervalo: é um intervalo com 100(1- )% de confiança para , a média populacional. Ou podemos escrevê-lo: Em que, , é denominado de o erro máximo provável ou precisão amostral. Esse é o famoso erro “para mais” ou “para menos” tão difundido em épocas eleitorais... Mas.... O que quer dizer “confiança”? Sabe-se que para cada amostra diferente retirada de uma população poderá ser observado valores diferentes para a média e o desvio-padrão e consequentemente ter-se-á intervalos diferentes, pois os limites dos intervalos são aleatórios. Não pode-se afirmar com certeza que o valor estará incluído dentro do intervalo, mas, pode- se dizer que com 100(1- )% de confiança o verdadeiro valor de pertence ao intervalo. Isso quer dizer que se for observado um grande número de amostras de mesmo tamanho e para cada amostra for calculado um intervalo de 95% de confiança ( =0,05), por exemplo, cerca de 95% dos intervalos conterão o verdadeiro valor de . No exemplo da produção dos resistores, foram retiradas 30 amostras de tamanho 30 cada da população de 1.000 resistores e para cada uma delas foi calculado o intervalo de 95% de confiança para o verdadeiro valor da média da população, , conforme apresentado no próximo gráfico: 1 n zX n zXP 22 n zX; n zX 22 EX xEx Ex E E xEx Ex E E n zE 2 139 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Observe que 29 dentre os 30 intervalos, o que corresponde a 96,7% dos intervalos, contiveram o verdadeiro valor da média =100 ohms. Se o númerode amostras for aumentado, a proporção de intervalos que conterão tenderá a ficar mais próxima de 95%. Se o tamanho da amostra for grande ( n > 30) esses resultados podem ser obtidos independentemente da distribuição da população ser Normal ou não, pois podem ser utilizados os resultados do Teorema Central do Limite, mesmo que a variância da população seja desconhecida. Por outro lado, se a variância da população for desconhecida e a amostra for pequena, torna-se necessário fazer algumas suposições sobre a distribuição da distribuição para se obter resultados válidos para uma estimativa intervalar. 1.3 Estimativa Intervalar para a MÉDIA de uma distribuição Normal e Variância Desconhecida Se a variância ( 2 ) é conhecida, sabe-se que n X Z tem distribuição Normal Padrão. Por outro lado, se a variância ( 2 ) for desconhecida será utilizada a variância (s2) obtida na amostra. Se a amostra for grande ( n > 30) a troca de por S terá pouco efeito, mas se a amostra for pequena terá que ser considerado a proveniência normal de cada uma das amostras e a distribuição da Média Amostral será uma t-Student, ou seja: Se X1 , X2 , ...., Xn forem amostras aleatórias provenientes de uma distribuição Normal com média e variância 2 desconhecida, a variável aleatória n s X T Da ta A30A29A28A27A26A25A24A23A22A21A20A19A18A17A16A15A14A13A12A11A10A9A8A7A6A5A3A2A1 108 106 104 102 100 98 96 94 92 100 Intervalos 95% confiança para 30 amostras de tamanho 30 I.C. 95% para a média 140 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística tem uma distribuição t-Student, com n – 1 graus de liberdade. Lembrando que a distribuição t-Student depende do tamanho da amostra, conforme pode ser observado no gráfico abaixo, página 51 da Unidade 2, que apresenta comparações entre a curva da distribuição N(0,1), uma curva t com 5 graus de liberdade (t5) e outra com 30 graus de liberdade (t30): Em resumo, quando a variância é desconhecida em uma população Normal, podem ser considerados dois procedimentos: 1) Se n > 30, usa-se a distribuição normal com o estimado s2 de 2 , ou seja, )1,0(N n s X Z 2) Se n ≤ 30, usa-se a distribuição t-Student, ou seja, n s X T com n – 1 graus de liberdade. A tabela 4 da Unidade 2, também apresentada no Formulário Completo anexado às provas presenciais, fornece a o valor da área acima do ponto desejado considerando os graus de liberdade. Por exemplo, o valor de t com 10 graus de liberdade com uma área de 0,05 à direita dele, é t0,05;10 = 1,812, conforme ilustração de leitura: Dados Fre qu en cia 4,53,01,50,0-1,5-3,0-4,5 100 80 60 40 20 0 Histograma para T-gl=5; T-gl=30; N(0,1) N(0,1) T, gl=5 T, gl=30 141 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Tem-se portanto, que o intervalo: é um intervalo com 100(1- )% de confiança para , a média populacional. Que pode ser escrito: Em que, , também é o erro máximo provável ou precisão amostral. Exemplo 3: (adaptado de Morettin) De uma população Normal com parâmetros desconhecidos, é retirada uma amostra de tamanho 100, sendo obtidos: x = 112 e s = 11. Construir um intervalo de confiança ao nível de 10% de significância. Solução: Como a amostra é grande, pode-se utilizar o estimador s para o desvio-padrão da população e nesse caso calcula-se o intervalo de confiança da mesma maneira que o apresentado no item anterior, ou seja, Para n = 100, x = 112 e s = 11 e = 10% 64,105,0 2 zz gl 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,025 0,001 0,005 0,0005 1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657 636,619 2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 31,598 3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,541 12,924 4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 8,610 5 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 6,869 6 0,131 0,265 0,404 0,553 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 5,959 7 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 2,365 2,365 3,499 5,408 8 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 5,041 9 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 4,781 10 0,129 0,260 0,397 0,542 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 4,587 11 0,129 0,260 0,396 0,540 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 4,437 12 0,128 0,259 0,395 0,539 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 4,318 13 0,128 0,259 0,394 0,538 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 4,221 14 0,128 0,258 0,393 0,537 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 4,140 15 0,128 0,258 0,393 0,536 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 4,073 16 0,128 0,258 0,392 0,535 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 4,015 17 0,128 0,257 0,392 0,534 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,965 18 0,127 0,257 0,392 0,534 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,922 19 0,127 0,257 0,391 0,533 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,883 20 0,127 0,257 0,391 0,533 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,850 21 0,127 0,257 0,391 0,532 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,819 22 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,792 23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,767 24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,745 25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,726 26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,707 27 0,127 0,256 0,389 0,531 0,684 0,856 1,057 1,314 1,703 2,052 2,473 2,771 3,690 28 0,127 0,256 0,389 0,530 0,683 0,856 1,056 1,313 1,701 2,048 2,467 2,763 3,674 29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,659 30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,646 40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 3,551 60 0,126 0,254 0,387 0,527 0,679 0,848 1,046 1,296 1,671 2,000 2,390 2,660 3,460 120 0,126 0,254 0,386 0,526 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617 3,373 > 120 0,126 0,253 0,385 0,524 0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576 3,291 p ptTP gl )( EX xEx Ex E E xEx Ex E E n tE n 1;2 n tX n tX nn 1;21;2 ; 142 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Tem-se que E 80,1)1,1)(64,1( 100 11 )64,1( 2 n s z Logo, um intervalo com 90% de confiança para a verdadeira média da população é: 80,1112 Ex (110,20 ; 113,80) Donde se conclui que, apesar de usar o desvio-padrão da amostra, tem-se um grau de certeza de 90%, de que o verdadeiro valor da média populacional está entre 110,20 e 113,80. Exemplo 4: (Adaptado de Montgomery, p.165) Uma marca particularde margarina dietética foi analisada para determinar o nível (em porcentagem) de ácidos graxos insaturados. Uma amostra de seis pacotes resultou nos seguintes dados: 16,8; 17,2; 17,4; 16,9; 16,5 e 17,1. a) Teste a suposição de que o nível de ácido graxo poliinsaturado é normalmente distribuído; b) Calcule um intervalo de confiança de 95% para a média. Forneça uma interpretação prática desse intervalo; c) Calcule um limite inferior de 95% de confiança para a média. Compare esse limite com o limite inferior do intervalo bilateral de confiança e discuta por que eles são diferentes. Solução (a): Como a amostra é pequena, o primeiro passo é verificar se a amostra é proveniente de uma população com distribuição Normal, conforme solicitado no item (a). a) A verificação é feita por meio de um gráfico, chamado de Normal Plot, o qual utiliza uma escala transformada para que a curva da distribuição Normal fique retificada. Dessa maneira, cada ponto amostral é “plotado” (desenhado) nessa escala considerando como valor no eixo ordenado o percentual de valores na amostra que são menores ou iguais a ele. Todos os pontos são desenhados ao longo da linha retificada (azul, nesse exemplo). O gráfico abaixo foi feito no software Minitab® 17,817,617,417,217,016,816,616,416,2 99 95 90 80 70 60 50 40 30 20 10 5 1 Acido Graxo Pe rc en tu al Mean 16,98 StDev 0,3189 N 6 RJ 0,994 P-Value >0,100 Normal Probability Plot para Acido Graxo 143 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Observe que os pontos amostrais (em vermelho) encontram-se bastante próximos da linha retificada da distribuição Normal, indicando, portanto, que a amostra é proveniente de uma população com distribuição de probabilidade Normal. Solução (b): b) Para construir um intervalo de confiança é necessário o cálculo da média e do desvio- padrão dessa amostra, pois por ser pequena será utilizada a distribuição t-Student. Tem-se: n = 6; média: x = 16,98 e desvio-padrão: s = 0,319 Com = 5% 571,25;025,05; 2 tt (dado encontrado na tabela 4) Então, 34,0)130,0)(571,2( 6 316,0 )571,2( 1; 2 n s tE n Logo, um intervalo com 95% de confiança para a verdadeira média da população é: 34,06,81 Ex (16,64; 17,32) Isso significa que com 95% de confiabilidade podemos dizer que o verdadeiro percentual de ácidos graxos nessa margarina está entre 16,64 e 17,32. Solução (c): c) A construção de um limite inferior apenas considera que a área abaixo do valor abrange uma área total do nível de significância desejado, ou seja, P(tn-1 < t) = 0,05, isto significa, que P(t5 < t) = 0,05 então t = 2,015. Em outras palavras ele troca o 1; 2 n t pelo 1; nt Nesse caso, o erro máximo provável unilateral será 26,0)130,0)(015,2( E E o limite inferior dado pelo intervalo );( Ex (16,98-0,26; ∞) (16,72; ∞). Isso significa que o limite mínimo considerado de ácido graxo será de 16,72, ou seja, espera-se que 95% das margarinas tenham verdadeiramente uma média percentual ≥ 16,72 de ácidos graxos. 1.4 Estimativa Intervalar para a Variância e o Desvio-padrão de uma distribuição Normal Quando for necessário construir um intervalo de confiança para a variância e o desvio-padrão de uma população normalmente distribuída e com variância desconhecida, será necessário utilizar o auxílio de outra distribuição conhecida como qui-quadrado ( 2 ), cuja tabela de valores encontra-se em anexo nessas Anotações de Aula, a qual pode ser assim definida: Seja X1 , X2 , ...., Xn uma amostra aleatória proveniente de uma distribuição Normal com média e variância 2 e seja s2 a variância da amostra. Então a variável aleatória 2 2 2 )1( sn X tem uma distribuição qui-quadrado ( 2 ), com n – 1 graus de liberdade. 144 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística A tabela 5, anexa a essa Unidade 4, fornece o valor da área acima do ponto desejado considerando os graus de liberdade. Por exemplo, o valor de X2 com 10 graus de liberdade com uma área de 0,05 à direita dele, é X20,05;10 = 18,307, conforme ilustração de leitura: Esse ponto é chamado de ponto superior 5%,ou seja, P(X2 > 18,307) = 0,05. O ponto inferior, ou seja, P(X2 < x) = 0,05, pode ser encontrado na mesma tabela, considerando que se a área inferior ao ponto é de 0,05, então a área superior à ele é de 0,95. Isso é, Se P(X2 < x) = 0,05 → P(X2 > x) = 0,95. Se for considerado 10 graus de liberdade, pode-se observar na mesma linha de gl=10 e p=95, que o valor de x será 3,94, conforme figura abaixo: p)x(P 2gl gl 0,0005 0,005 0,010 0,025 0,05 0,10 0,15 0,20 0,25 0,50 0,90 0,95 0,99 1 12,116 7,879 6,635 5,024 3,841 2,706 2,072 1,642 1,323 0,455 0,016 0,004 0,000 2 15,202 10,597 9,210 7,378 5,991 4,605 3,794 3,219 2,773 1,386 0,211 0,103 0,020 3 17,730 12,838 11,345 9,348 7,815 6,251 5,317 4,642 4,108 2,366 0,584 0,352 0,115 4 19,997 14,860 13,277 11,143 9,488 7,779 6,745 5,989 5,385 3,357 1,064 0,711 0,297 5 22,105 16,750 15,086 12,833 11,070 9,236 8,115 7,289 6,626 4,351 1,610 1,145 0,554 6 24,103 18,548 16,812 14,449 12,592 10,645 9,446 8,558 7,841 5,348 2,204 1,635 0,872 7 26,018 20,278 18,475 16,013 14,067 12,017 10,748 9,803 9,037 6,346 2,833 2,167 1,239 8 27,868 21,955 20,090 17,535 15,507 13,362 12,027 11,030 10,219 7,344 3,490 2,733 1,646 9 29,666 23,589 21,666 19,023 16,919 14,684 13,288 12,242 11,389 8,343 4,168 3,325 2,088 10 31,420 25,188 23,209 20,483 18,307 15,987 14,534 13,442 12,549 9,342 4,865 3,940 2,558 11 33,137 26,757 24,725 21,920 19,675 17,275 15,767 14,631 13,701 10,341 5,578 4,575 3,053 p 145 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Esse ponto é chamado de ponto percentual inferior 5%,ou seja, P(X2 < 3,94) = 0,05. Agora é possível calcular um intervalo bilateral de confiança para a Variância, ou seja, Se s2 for a variância amostral de uma amostra aleatória de n observações provenientes de uma distribuição normal, com variância desconhecida 2 , então um intervalo de confiança de 100(1- )% para 2 é dado por: 2 1; 2 1 2 2 2 1; 2 2 )1()1( nn snsn Sendo 2 1; 2 n e 2 1; 2 1 n os pontos percentuais superior e inferior 100 2 % da distribuição qui-quadrado com n – 1 graus de liberdade, respectivamente. Um intervalo de confiança de 100(1- )% para o desvio-padrão tem limites inferior e superior obtidos pela raiz quadrada dos limites correspondentes dos calculados para a variância 2 . Os limites unilaterais de confiança para variância são calculados pela troca de 2 por nos pontos percentuais da qui-quadrado, ou seja, 2 2 1; 2)1( n sn e 2 1;1 2 2 )1( n sn Exemplo 5: (Adaptado de Montgomery, p.167) O conteúdo de açúcar na calda de pêssegos em lata é normalmente distribuído. Uma amostra aleatória de n = 10 latas resulta em um p)x(P 2gl gl 0,0005 0,005 0,010 0,025 0,05 0,10 0,15 0,20 0,25 0,50 0,90 0,95 0,99 1 12,116 7,8796,635 5,024 3,841 2,706 2,072 1,642 1,323 0,455 0,016 0,004 0,000 2 15,202 10,597 9,210 7,378 5,991 4,605 3,794 3,219 2,773 1,386 0,211 0,103 0,020 3 17,730 12,838 11,345 9,348 7,815 6,251 5,317 4,642 4,108 2,366 0,584 0,352 0,115 4 19,997 14,860 13,277 11,143 9,488 7,779 6,745 5,989 5,385 3,357 1,064 0,711 0,297 5 22,105 16,750 15,086 12,833 11,070 9,236 8,115 7,289 6,626 4,351 1,610 1,145 0,554 6 24,103 18,548 16,812 14,449 12,592 10,645 9,446 8,558 7,841 5,348 2,204 1,635 0,872 7 26,018 20,278 18,475 16,013 14,067 12,017 10,748 9,803 9,037 6,346 2,833 2,167 1,239 8 27,868 21,955 20,090 17,535 15,507 13,362 12,027 11,030 10,219 7,344 3,490 2,733 1,646 9 29,666 23,589 21,666 19,023 16,919 14,684 13,288 12,242 11,389 8,343 4,168 3,325 2,088 10 31,420 25,188 23,209 20,483 18,307 15,987 14,534 13,442 12,549 9,342 4,865 3,940 2,558 11 33,137 26,757 24,725 21,920 19,675 17,275 15,767 14,631 13,701 10,341 5,578 4,575 3,053 p 146 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística desvio-padrão amostral de s = 4,8 miligramas. (a) Calcule um intervalo bilateral de confiança de 95% para ; (b) Calcule um limite superior para . Solução de (a): a) Primeiramente é necessário calcular o intervalo de confiança para a variância 2 , considerando 025,0 2 05,0 : 2 1; 2 1 2 2 2 1; 2 2 )1()1( nn snsn 2 110;025,01 2 2 2 110;025,0 2 8,4)110(8,4)110( 70,2 36,207 023,19 36,207 2 8,769,10 2 Logo, o intervalo de confiança para o desvio-padrão é obtido pela extração da raiz quadrada de todos os elementos da expressão obtida para a variância: 76,830,3 Dessa maneira, o desvio-padrão da população varia entre 3,30 e 8,76 miligramas, com 95% de confiabilidade. Solução de (b): b) Analogamente, calcula-se o limite superior para a variância 2 considerando 05,0 : 2 1;1 2 2 )1( n sn 2 110;95,0 2 2 8,4)110( 36,62 325,3 36,2072 9,7 147 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Ou seja, o limite superior, com 95% de confiança, para o desvio-padrão é de aproximadamente 7,9 miligramas. 1.5 Distribuição amostral de uma proporção Considere uma amostra de tamanho n de uma variável aleatória X, representada por X1, X2, ..., Xn, em que cada Xi será definida por: Seja p a probabilidade de sucesso que será estimada pela proporção amostral de sucessos Ou seja, uma proporção amostral pode ser analisada pela técnica demonstrada para uma média amostral de uma variável aleatória que assume valores 0’s e 1’s. Como os Xi’s são ensaios de Bernoulli, então = p e 2 = p(1-p). Por outro lado n e p são parâmetros de uma distribuição binomial, mas se np e n(1-p) forem menores ou iguais a 5, então pelo Teorema Central do Limite, a distribuição de pˆ será aproximada pela normal, ou seja, Portanto, um intervalo com 100(1- )% de confiança para a média populacional é dado por: Se o erro máximo provável ou precisão amostral for definido como: Então o intervalo de 100(1- )% pode ser escrito: Ep Exemplo 6: (Adaptado do Montgomery) Em uma amostra aleatória de 85 mancais de eixos motores de automóveis, 10 têm uma rugosidade no acabamento de superfície que excede as especificações. Qual a estimativa pontual e a intervalar para a rugosidade no acabamento dos mancais. Considere o nível de significância de 5% ( =0,05). Solução: A estimativa pontual é: Para o cálculo da estimativa intervalar com 95% de confiança, será obtido primeiramente o erro da precisão amostral: fracasso ocorre se 0, sucesso ocorre se,1 X i X n X n sucessos de número pˆ n 1i i N(0,1) )1( ˆ n pp pp n pp zp n pp zp )ˆ1(ˆ ˆ ; )ˆ1(ˆ ˆ 22 1176,0 85 10 ˆ p n pp zE )ˆ1(ˆ 2 148 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística E a estimativa intervalar será: 0685,01176,0 (0,0491; 0,1861). Isso significa que com 95% de confiança pode-se dizer que de 4,9% a 18,6% dos mancais de eixos dos motores terão rugosidade no acabamento da superfície que excede as especificações. 2. TESTE DE HIPÓTESES PARA UMA AMOSTRA 2.1 – Testes de hipóteses para a média – Distribuição Normal e Variância Conhecida Problema ilustrativo: Exemplo 7: Um fabricante de resistores afirma que suas resistências são normalmente distribuídas com média de 100 ohms e desvio-padrão de 10 ohms. Suspeita-se, entretanto, que a resistência média é menor do que o anunciado. Para decidir se a suspeita sobre a média tem procedência ou não, foi retirada uma amostra aleatória de 25 resistências e foi considerado o desvio-padrão do fabricante como correto. Existem duas hipóteses: - Hipótese nula: H0 (resistência média é igual a 100 ohms) - Hipótese alternativa: H1 ou Ha ( resistência média é menor que 100 ohms) Para decidir qual dessas hipóteses é verdadeira é preciso um critério para tomada de decisão: Critério de decisão é baseado na estatística do teste que mede a discrepância entre o que foi observado na amostra (25 resistências) e o que seria esperado se a hipótese nula fosse verdadeira, ou seja, H0 será julgada. Erro do tipo I: A probabilidade de se cometer esse erro recebe o nome de nível de significância do teste, sendo usualmente representado pela letra grega . No exemplo: 0685,0 85 )1176,01(1176,0 96,1 E Decisão incorreta (Erro tipo II) Decisão correta Não rejeitar H0 (resistência é 100) Decisão correta Decisão incorreta (Erro tipo I) Rejeitar H0 (resistência não é 100 ohms) H0 falsaH0 verdadeira Situação real Decisão Decisão incorreta (Erro tipo II) Decisão correta Não rejeitar H0 (resistência é 100) Decisão correta Decisão incorreta (Erro tipo I) Rejeitar H0 (resistência não é 100 ohms) H0 falsaH0 verdadeira Situação real Decisão 149 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística • Erro tipo I: concluir que a resistência média é menor que 100 ohms quando na realidade ela é igual a 100 ohms; • Erro tipo II: concluir que a resistência média é igual a 100 ohms quando na realidade ela é diferente de 100 ohms Para um tamanho de amostra fixo (dados coletados) não é possível controlar os dois erros simultaneamente, conforme pode ser observado na figura a seguir: Por outro lado, os dois tipos de erro são indesejáveis. O erro tipo I é considerado, na maioria dos testes, como o mais grave sendo então controlado na análise dos dados. Ele é equivalente a julgar um assassino e dar o veredicto: inocente. Ou dizer que uma pessoa está sadia, quandona realidade ela está com um tumor maligno (câncer).... O erro tipo II pode ser controlado no planejamento do estudo por meio da determinação de um tamanho de amostra adequado. Dessa maneira, o erro tipo I será utilizado no processo de julgamento de H0 , feito na análise dos dados. Para esse julgamento, precisamos de algum critério para tomada de decisão. Por exemplo: fixando = 0,05 e determinando um valor crítico, xc tal que a probabilidade dos valores das médias estarem abaixo dela seja de 5%, temos: Como, temos, ou seja, a probabilidade de uma média amostral ser menor que 96,72 ohms é de 0,05. Critério de decisão para julgamento de H0: 05,0 2 100x ZP)xX(P cc 05,064,1ZP 72,96x64,1 2 100x c c Sob H1 Sob H0 Sob H1 Sob H0 150 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Nesse exemplo, de uma população com =100 ohms e =10 ohms, fixando =0,05 (5%) obteve-se x0=92,72 ohms tal que para qualquer média de uma amostra com 25 elementos tem- se: Retirando-se uma amostra, cuja média é x0 , pode-se estabelecer o seguinte: O nível de significância, , é a probabilidade do erro tipo I: A região em que se rejeita H0, quando a média da amostra pertencer a ela, é chamada de REGIÃO CRÍTICA ou REGIÃO DE REJEIÇÃO DO TESTE. Conclusão: Se a média x0 de uma amostra de 25 resistências for menor que xc=96,72 ohms , tem-se uma das duas alternativas: 1. O fabricante está certo, a média da população de resistências é =100 ohms e foi obtida uma amostra com pouca chance de ocorrer erro por puro acaso. 2. O fabricante não diz a verdade, pois obteve-se tal média amostral porque a probabilidade de sua ocorrência não era tão pequena, ou seja, a média da população é menor que 100 ohms. Qual delas escolher? Nesse exemplo foi utilizado o teste Z para uma média em que foi suposto que o desvio- padrão da população ( ) era conhecido. A estatística do teste, calculada para os dados observados (zobs), é dada por: 05,0)xX(P c 0c0 H se-aceita x xSe )H seaceitando(H se-rejeita x xSe 10c0 )verdadeira é H|H rejeitar(PI) tipo erro(P 00 xcxc n x z 0obs 151 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Que é comparada com um valor crítico (zc) que depende do nível de significância adotado ( ) e do tipo do teste (unicaudal ou bicaudal). No exemplo acima, zc = -1,64 A síntese do teste Z para uma média, nesse exemplo é: O próximo quadro apresenta as regiões críticas para teste unilateral (unicaudal) e bilateral (bicaudal): 96,72 -1,64 0-2 = 0,05 96,72 -1,64 0-2 = 0,05 96,72 -1,64 0-2 96,72 -1,64 0-2 96,72 -1,64 0-2 = 0,05 Desde que a hipótese nula seja verdadeira, apenas 5% dos resistores terão resistência menor que 96,72 ohms. Se a informação do fabricante é incorreta, então a média real é menor que 100 ohms e a probabilidade de uma média de 25 resistores ser menor que 96,72 ohms é maior que 5%. Supondo que a média de 96 ohms seja correta, a probabilidade de se obter uma amostra de média menor que 96,72 ohms é 64,06%. 96,72 0,6406 96,72 96,72 0,6406 152 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Teste Z Hipóteses Rejeitar Ho se p-valor = Unilateral à esquerda 01 00 : : H H z n x zobs 0 P(Z < zobs) Unilateral à direita 01 00 : : H H z n x zobs 0 P(Z > zobs) Bilateral 01 00 : : H H ou 2 0 2 0 z n x z z n x z obs obs 2P(Z < -zobs) (pela simetria) O p-valor ou probabilidade de significância é a probabilidade do erro cometido ao rejeitar H0 sendo H0 verdadeira e é calculado com base nos dados observados sendo maior ou menor que o nível tolerável Se essa probabilidade (p-valor) é menor do que , decide-se por rejeitar H0. Se essa probabilidade (p-valor) é maior do que , decide-se por não rejeitar H0. Para facilitar a memória por meio de efeito visual, a figura a seguir apresenta as áreas de rejeição da hipótese nula: 153 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Exemplo 8: (Adaptado do Montgomery) Um mancal usado em uma aplicação automotiva deve ter um diâmetro nominal de 38,01 mm. Sabe-se que o diâmetro do mancal é normalmente distribuído com desvio-padrão de 0,254 mm. Foi selecionada uma amostra aleatória de 36 mancais e o diâmetro interno médio desses mancais é de 37,97 mm. Verifique, ao nível de 5% de significância, se esses diâmetros diferem do valor nominal exigido. Solução: As hipóteses de interesse são: em que é o verdadeiro valor dos diâmetros e 0 é o valor nominal especificado pela indústria automobilística (38,01 mm) A estatística de teste é Para = 0,05 rejeita-se H0 se |zobs| > z0,025 = 1,96. Teste Z Região de Rejeição de Ho (R.R.H0) Unilateral à esquerda Unilateral à direita Bilateral 0,4 0,3 0,2 0,1 0,0 0 N(0,1) z R.R. H0 0,4 0,3 0,2 0,1 0,0 0 N (0,1) z R.R. H0 0 N(0,1) 2 z R.R. H0 2 z 2 2 R.R. H0 mm 01,38 :H mm 8,013 :H 1 o 95,0 36 254,0 01,3897,37 zobs 154 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Como |zobs| = 0,95 < 1,96 - a evidência é a não rejeição de H0. Conclui-se então que os mancais estão com os diâmetros dentro da especificação. O p-valor é P(|z| > 0,95) = 2 x 0,171056 = 0,342 >> 0,05 A probabilidade observada do erro tipo I é de 34,2% bem maior que 5% confirmando que as evidências indicam que H0 não é falsa Um intervalo de 95% de confiança para o diâmetro dos mancais é: Observe que o valor de 0 = 38,01 pertence ao intervalo de confiança obtido! Equivalência entre testes de hipóteses (bicaudal ou bilateral) e intervalos de confiança Nesse exemplo, foram testadas as hipóteses: Considerações: - Se o valor de 0 pertencer ao intervalo de confiança, não existem evidências para rejeitar H0 ao nível de significância . - Se o valor 0 de não pertencer ao intervalo de confiança, existem evidências para rejeitar H0 ao nível de significância . Conclusãodo exemplo: o intervalo com 95% de confiança acima confirma a conclusão do teste efetuado. Erro tipo II e escolha do Tamanho da Amostra Em um teste bilateral são propostas as seguintes hipóteses: 0,025 0,025 0,17106 0,17106 0,025 0,025 0,17106 0,17106 38,053 ; 887,37[]083,097,37 36 254,0 96,197,37 38,01 :H 38,01 :H 01 0o 155 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística 01 00 : : H H Suponha que a hipótese nula seja falsa e que o valor verdadeiro da média seja 0 , em que > 0. A estatística do teste pode ser rescrita por: n n x nn x n x n x zobs )()( 0000 Então a distribuição de Zobs quando H1 for verdadeira será aproximadamente 1, n N , pois está sujeita à distribuição sob a hipótese nula H0 e à da hipótese alternativa H1, conforme figura a seguir: Pode-se observar que o erro tipo II, , será cometido somente se 22 zZz obs , quando H1 for verdadeira, ou seja, quando Zobs ≈ 1, n N . Então a probabilidade de um erro tipo II para um teste bilateral para a média com variância conhecida será: nzZPnzZP obsobs 22 Foi colocado anteriormente que o erro tipo I, , é controlado pelo analista e que o erro tipo II, , é controlado no cálculo da amostra. 00 :H Sob 01 :H Sob )1,0(N 1, n N 0bsZ n0 2 z 2 z 156 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Dessa maneira, quando > 0, n zZP obs 2 , pois a probabilidade do segundo termo é aproximadamente nula. Por outro lado, se for definido por: zZP obs , então por comparação tem-se: n zz 2 Ou seja, podemos estimar o tamanho da amostra, n, para um teste bilateral para a média, de uma população normal com variância conhecida por: 2 2 2 2 zz n em que 0 Analogamente, pode-se estimar o tamanho da amostra para testes unilaterais para a média de amostras provenientes de uma população normal com variância conhecida, por meio da substituição do 2 z pelo z , ou seja: 2 22 zz n em que 0 Obs.: Se n não for um inteiro, por convenção, o tamanho da amostra será arredondado para cima, ou seja, para o maior inteiro mais próximo. 2.2 – Testes de hipóteses para a média – Distribuição Normal e Variância Desconhecida Se a população é normalmente distribuída, mas a variância é desconhecida então o teste considera as condições similares ao que foi estuda na estimação intervalar. Nesse caso a estatística do teste irá utilizar a distribuição t-Student com n-1 graus de liberdade definida por: n s x Tobs 0 Os procedimentos dos testes são muito similares ao teste Z para a média com variância conhecida, exceto pelos pontos percentuais da curva que a estatística do teste T utiliza os da distribuição t-Student com n-1 graus de liberdade. O próximo quadro apresenta um resumo das regiões críticas para teste unilateral (unicaudal) e bilateral (bicaudal) para o teste T: 157 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Teste T Hipóteses Rejeitar Ho se Unilateral à esquerda 01 00 : : H H 1; 0 nobs t n s x t Unilateral à direita 01 00 : : H H 1; 0 nobs t n s x t Bilateral 01 00 : : H H ou 1; 2 0 1; 2 0 nobs nobs z n s x t t n s x t Os gráficos das regiões de rejeição são similares aos do teste Z. O cálculo exato do p-valor ou probabilidade de significância (probabilidade do erro cometido ao rejeitar H0 sendo H0 verdadeira) é mais trabalhoso, pois pode ser feito manualmente pelo método de interpolação linear. Dessa maneira, a avaliação do p-valor é feita por meio dos valores dos limites superiores e inferiores nas tabelas que o contenham. Por exemplo, considere uma situação em que a estatística do teste seja, 761,172,2 15 02456,0 82,083725,0 14;05,0 ttobs Com conclusão de rejeição da hipótese nula ao nível de significância de 5%. Observando na tabela 5, verifica-se que com 14 graus de liberdade, o valor de tobs está entre 2,624 e 2,977, os quais correspondem à área de extremidade de 0,01 e 0,005, nesse caso, o p-valor está dentro desses limites, ou seja, 0,005 < p-valor < 0,01 Donde se conclui pela rejeição de H0, dado que esses limites são inferiores a 05,0 (5%). Usualmente o teste T é realizado com recursos computacionais dos softwares estatísticos os quais calculam o p-valor exato. Essas mesmas considerações são feitas para o cálculo do tamanho da amostra e do poder do teste. 2.4 - Testes de hipóteses para a Variância e o Desvio-padrão de uma Distribuição Normal Analogamente às considerações feitas pata o teste T, o teste utilizado para verificar se uma variância desconhecida de uma população normal é igual ou não a um determinado valor 158 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística específico, considera a estatística utilizada no intervalo de confiança para a variância do item 1.4, para uma distribuição qui-quadrado com n-1 graus de liberdade: 2 0 2 2 )1( sn X obs Cujas regiões críticas para teste unilateral (unicaudal) e bilateral (bicaudal) são similares aos do teste Z e do teste T: Teste X2 Hipóteses Rejeitar Ho se Unilateral à esquerda 2 0 2 1 2 0 2 0 : : H H 2 1;2 0 2 2 )1( nobs sn x Unilateral à direita 2 0 2 1 2 0 2 0 : : H H 2 1;2 0 2 2 )1( nobs sn x Bilateral 2 0 2 1 2 0 2 0 : : H H 2 1; 2 2 0 2 2 2 1; 2 2 0 2 2 )1( ou )1( nobs nobs sn x sn x O p-valor, erro tipo I, é calculado de maneira similar ao do teste T, considerando aqui, a distribuição qui-quadrado com n-1 graus de liberdade. Os erros tipo II e a escolha do tamanho da amostra são feitos por meio de Curvas Características Operacionais (Curvas CO), que não serão abordadas no escopo desse curso. 2.5 - Testes de hipóteses para uma proporçãoVimos que para testar 00 :H , quando as amostras são grandes, a estatística do teste é Como uma proporção pode ser considerada como uma média, a estatística do teste para 00 pp:H é A síntese do teste Z para uma proporção é )X(dp X Z 0 n pp pp pdp pp zobs )( ˆ )( ˆ 00 0 0 0 1 159 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Teste Hipóteses Rejeitar Ho se p-valor = Unilateral à esquerda 01 00 ppH ppH : : z n pp pp zobs )( ˆ 00 0 1 P(Z < zobs) Unilateral à direita 01 00 ppH ppH : : z n pp pp zobs )( ˆ 00 0 1 P(Z > zobs) Bilateral 01 00 ppH ppH : : 1 ou 1 200 0 200 0 z n pp pp z z n pp pp z obs obs )( ˆ )( ˆ 2P(Z < - zobs) (pela simetria) Observe que as áreas de Rejeição da Hipótese nula são similares as do teste para médias!!! Exemplo 9: A garantia para baterias de telefones móveis é estabelecida em 48 horas operacionais, seguindo os procedimentos apropriados de carga. Um estudo com 5.000 baterias é executado e 15 param de operar antes das 48 horas. Esses experimentos confirmam a afirmação de que menos de 0,2% das baterias das companhias falhará durante o período de garantia? Considere um nível de significância de 1%. Solução: O valor observado da estatística do teste é Ao nível de significância de 1% o valor crítico é -2,33 0,002 0,2%p p :H 002,0%2,0p p :H 01 0o 003,0 000.5 15 pˆ 58,1 000.5 )002,01(002,0 002,0003,0 Zobs 160 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Então, ao nível de significância de 1% não existem evidências amostrais para rejeitarmos a hipótese nula. A conclusão é que a proporção de baterias que falham não é menor que 0,2% ao nível de 1% de significância. Mesmo que o teste fosse considerado ao nível de 5% de significância, a hipótese nula não seria rejeitada, pois zobs= 1,58 > -1,96 Um intervalo com 95% de confiança para a verdadeira proporção de baterias de telefones celulares que falham é: Ou seja, com 95% de confiança, a verdadeira proporção de baterias dos telefones celulares que falham está entre 0,15% e 0,5%. Observe que este intervalo contém o valor p0 = 0,2%, o que confirma a decisão de não rejeição de H0 do teste de hipóteses, considerando o nível de significância de 5%. 3. TESTE DE HIPÓTESES PARA DUAS AMOSTRAS 3.1 – Testes de hipóteses para duas médias – Distribuição Normal e Variâncias Conhecidas As suposições para ser feita inferência sobre a diferença entre duas médias , 21 , de duas distribuições normais com variâncias conhecidas, 2 1 e 2 2 , são: 1. X11, X12, ......., X1n é uma amostra aleatória proveniente da população 1; 2. X21, X22, ......., X2n é uma amostra aleatória proveniente da população 2; 3. As duas populações representadas por X1 e X2 são independentes; 4. Ambas as populações são normais. Um estimador lógico para a diferença de 21 é a diferença das médias amostrais 21 xx . Baseando-se nas propriedades dos valores esperados tem-se: 212121 XEXEXXE 0,01 R.R. de H0 1,58 0,943 -2,33 0,01 R.R. de H0 1,58 0,943 -2,33 %5,0 ; %15,0005,0 ; 0015,0 000.5 997,0x003,0 96,1003,0 161 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística E a variância de é: 2 2 2 1 2 1 2121 nn XVarXVarXXVar Dessas suposições e resultados pode ser estabelecido que 2 2 2 1 2 1 2121 )( nn XX Z tem uma distribuição N(0, 1). E essa estatística é considerada para fazer o teste para a diferença entre duas médias 21 de duas populações normais com variâncias conhecidas, 2 1 e 2 2 . O teste segue a mesma lógica do teste Z para uma amostra, apenas considera, agora, a diferença entre as médias de duas amostras. A síntese para esses testes pode ser feita pelo quadro a seguir: Teste Z Hipóteses Rejeitar Ho se p-valor = Unilateral à esquerda 0: 0: 211 210 H H z nn xx zobs 2 2 2 1 2 1 21 P(Z < zobs) Unilateral à direita 0: 0: 211 210 H H z nn xx zobs 2 2 2 1 2 1 21 P(Z > zobs) Bilateral 0: 0: 211 210 H H 2 2 2 2 1 2 1 21 2 2 2 2 1 2 1 21 ou z nn xx z z nn xx z obs obs 2P(Z < -zobs) (pela simetria) Exemplo 10: Dois tipos de plásticos são adequados para uso por um fabricante de componentes eletrônicos. A resistência à quebra desse plástico é importante. É sabido que 0,721 psi e são normalmente distribuídas. A partir de amostras aleatórias de tamanho n1 = 10 e n2 = 12, foram obtidos 1x = 162,5 e 2x = 155,0. A companhia adotará o plástico com maior resistência média à quebra. Baseado nessas informações, qual plástico eles deveriam utilizar, considerando um nível de 5% de confiança? Solução: 21 xx 162 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Tem-se as seguintes hipóteses: 0: 0: 211 210 H H A estatística do teste: 5,2 997,2 5,7 32 49 24 49 0,1555,162 obsz Ao nível de significância de 5%, tem-se 2 z =1,96. Como zobs > 2 z a indicação do teste é de rejeição de H0. O p-valor = 2P(Z< -2,5) = 2 P(Z > 2,5) = (2) (0,00621) = 0,01242 < 0,05. Confirma a rejeição de H0. Conclusão: Com 95% de confiabilidade, o fabricante deveria utilizar o plástico 1, pois em média, seus valores são diferentes de zero, e o plástico 1 possui maior média de resistência. Se o teste analisar a hipótese unilateral 0: 211 H O resultado indicaria a rejeição da hipótese nula, pois ao nível de significância de 5%, tem-se z =1,64 e zobs > z . Analogamente o p-valor seria P(Z > 2,5) = 0,00621 < 0,05. Em algumas situações deseja-se verificar se a diferença entre as médias é maior que um determinado valor fixo, nesses casos :basta troca o valor zero pelo valor desejado, por exemplo, 0 Nesse caso as hipóteses serão: 0211 0210 : : H H E a estatística do teste será 2 2 2 1 2 1 021 )( nn xx zobs As áreas de rejeiçãoda hipótese nula são as mesmas designadas para a situação analisada nesse item. Por exemplo, suponha que no exemplo 10 o fabricante esteja interessada no plástico que tenha uma diferença da resistência média maior que 5. Nesse caso tem-se: 5: 5: 211 210 H H 83,0 997,2 5,2 32 49 24 49 5)0,1555,162( obsz Ao nível de significância de 5%, tem-se z =1,64. Como zobs < 2 z a indicação do teste é de NÃO rejeição de H0, ou seja a diferença entre as médias da resistência dos dois plásticos não supera o valor 5. 163 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística 3.2 – Testes de hipóteses para duas médias – Distribuição Normal e Variâncias Desconhecidas As suposições para ser feita inferência sobre a diferença entre duas médias , 21 , de duas distribuições normais com variâncias desconhecidas, 2 1 e 2 2 , são similares o teste com variâncias conhecidas: 1. X11, X12, ......., X1n é uma amostra aleatória proveniente da população 1; 2. X21, X22, ......., X2n é uma amostra aleatória proveniente da população 2; 3. As duas populações representadas por X1 e X2 são independentes; 4. Ambas as populações são normais; 5. As populações possuem variâncias iguais. Analogamente ao teste para uma amostra, a variância será estimada pela variância amostral e o teste a ser aplicado será o teste T com distribuição t-Student com n1 + n2 - 2 graus de liberdade. Foi demonstrado que a variância da diferença entre as médias é 2 2 2 1 2 1 21 nn XXVar Como as variâncias são supostas iguais para as duas populações, 22 2 2 1 , a expressão pode ser escrita: 21 2 21 11 nn XXVar Um estimador para a variância da população é obtida pela combinação das variâncias das amostras, ou seja, pela média ponderada das variâncias amostrais, denominada de 2 cs ou 2 ps , em que p vem do inglês pooled: Dessa maneira, tem-se: 2 )1()1( 21 2 21 2 112 nn snsn sc A estatística do teste será 21 2121 11 )( nn s XX T c Que tem uma distribuição t-Student com n1 + n2 - 2 graus de liberdade. As áreas de rejeição do teste são similares ao do teste para uma amostra. Exemplo 11: Na comparação de duas topologias de rede de computadores, C1e C2, foram avaliados o tempo de transmissão de pacotes de dados entre duas máquinas. Foram realizados 32 ensaios em C1 e 24 ensaios em C2, cujos resultados são apresentados abaixo. São supostos que as duas populações são normalmente distribuídas com variâncias iguais. Existe diferença significativa entre o tempo médio das duas topologias ao nível de 5% de significância? 164 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Topologia Tamanho da amostra (n) Tempo médio (décimos de segundo) Variância (décimos de segundo)2 C1 32 10,625 6,371 C2 24 13,458 4,781 Solução: Tem-se as seguintes hipóteses: 0: 0: 211 210 H H A variância amostral combinada é obtida por: 6938,5 22432 )781,4)(124()371,6)(132( 2 )1()1( 21 2 21 2 112 nn snsn sc Logo, sc≈ 2,286 E a estatística do teste: 4,4 644,0 833,2 24 1 32 1 286,2 458,13625,10 tbst Pela tabela tem-se que o valor crítico é 54; 2 t não pode ser obtido diretamente na tabela, mas o p-valor = 2P(T < -4,4) < 0,001, pois 4,4 está entre os valores: 3,747 e 4,604. Então pelo p-valor a hipótese nula é rejeitada, indicando que o tempo médio das duas topologias é diferente, com 95% de confiabilidade. 4. RESOLUÇÃO DE ALGUNS EXERCÍCIOS 1) (Provão-ECO-2002) Uma rede de postos de gasolina afirma que, em seus estabelecimentos, não se vende gasolina adulterada. Sabe-se que, de acordo com os padrões de qualidade, a gasolina não pode conter mais que 240 ml de álcool por litro. Um órgão de fiscalização colheu 25 medições do produto nos postos dessa rede, que estão abaixo. Admita que a quantidade de álcool presente na gasolina tem uma distribuição normal com desvio padrão de 2,5 ml/litro. 249,6 242,0 241,1 243,3 241,1 239,4 239,0 239,3 240,6 239,6 243,0 238,0 241,9 233,2 239,7 242,3 240,6 240,0 239,6 242,0 239,4 241,0 242,2 240,0 240,8 a) Qual é a estimativa pontual da quantidade média de álcool presente na gasolina dos postos da rede? b) Construa e interprete um intervalo de 95% de confiança para a quantidade média de álcool presente na gasolina nos postos dessa rede? c) Com base no intervalo de confiança calculado, qual é o erro máximo provável cometido na estimação da verdadeira quantidade média de álcool presente na gasolina dos postos da rede? d) Analise, com um nível de significância de 5%, se a gasolina é ou não adulterada. 165 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Solução: O problema nos forneceu: X: quantidade de álcool presente na gasolina, ml/litro n=25 X ~ N ( ; 2,5) a) A estimativa pontual para a média populacional, , é obtida pela média dos dados coletados: Logo, X ~ N (240,75; 2,5) e a média amostral b) Intervalo com 95% de confiança, então = 5% e pela tabela da Normal: O intervalo é dado por: Em que, Então um intervalo com 95% de confiança: Ou seja, (239,77 ; 241,73) Isso significa, que podemos dizer com 95% de confiança que o verdadeiro valor da quantidade de álcool na gasolina está entre 239,77 e 241,73 ml/litro. c) O erro máximo provável cometido é o E, ou seja, 0,98 ml/litro (esse é o erro conhecido como 0,98 “ para mais” e 0,98 “para menos”.....) d) As hipóteses a serem testadas são: H0: = 240 vs H1: > 240 Obs.: H0 está significando, na realidade, que a quantidade de álcool é menor ou igual a 240 ml/litro, ou seja, a gasolina não é adulterada. Para verificarmos qual dessas hipóteses é a verdadeira, o teste a ser aplicado é o Z. Como o teste é unilateral, o valor crítico de Z, com 95% de confiança será: zc = z0,05 = 1,64 ml/litro 75,240ˆ x 25 5,2 ;75,240N~X 96,1z 2 Ex 98,0 25 5,2 96,1 n zE 2 98,075,240 R.R. de H0 R.A. de H0 Zc=1,64 R.R. de H0 R.A. de H0 Zc=1,64 R.R. de H0 R.A. de H0 Zc=1,64 166 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Isso significa que P(Z > 1,64) = 0,05, que é a probabilidade do erro tipo I ou a probabilidade máxima aceita ao tomar a decisão de rejeitarmos H0 (afirmar que ela é falsa), quando na realidade ela é verdadeira. O teste baseia-se na comparação da estatística do teste observada com esse valor crítico Como zobs < 1,64, ele pertence à região de aceitação de H0, ou seja, podemos afirmarcom 95% de confiança que a quantidade de álcool encontrada na gasolina dessa rede de postos não é considerada como adulterada. Outra maneira de tomarmos essa decisão é por meio do cálculo do p-valor. Se p-valor for menor ou igual a 0,05 (erro máximo aceitável do teste conhecido como nível de significância) então a hipótese nula deverá ser rejeitada. Nesse exemplo, o p-valor = P(Z> zobs), pois o teste é unilateral (ou unicaudal). Então, P(Z > zobs) = P(Z > 1,50) = P(Z < -1,50) = 0,066807 (~6,7%) Ou seja, p-valor = 0,067 > 0,05 – confirmando a indicação de não rejeição de H0. 2) Um fabricante de lâmpadas garante que a vida média de um determinado tipo de lâmpada é 1.600 horas. Se uma amostra ao acaso com 100 lâmpadas tiver uma vida média de 1.570 horas, você tem evidência suficiente para rejeitar a alegação do fabricante, usando = 0,02? Suponha que a população seja normalmente distribuída com um desvio padrão de 120 horas. Solução: Seja: X: tempo de duração da lâmpada, em horas. X ~ N(1.570; 120) – foi estimada pela amostra: n = 100 H0 : = 1.600 vs H1: ≠ 1.600 = 0,02 Calculando a estatística do teste: 50,1 5,0 75,0 25 5,2 24075,240 zobs 50,2 12 100 120 1600570.1 zobs -2,32 2,32 0,01 0,01 R.R. H0 R.R. H0 R.A. H0 Zobs =-2,50 -2,32 2,32 0,01 0,01 R.R. H0 R.R. H0 R.A. H0 Zobs =-2,50 -2,32 2,32 0,01 0,01 R.R. H0 R.R. H0 R.A. H0 Zobs =-2,50 167 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Zobs = -2,50 < z0,01=-2,32 → a indicação é de rejeição da hipótese nula p-valor= P(Z < -2,5) = 0,0062 → a probabilidade de estarmos errando ao tomarmos a decisão de rejeitarmos a hipótese nula (dizer que ela é falsa) é de 0,62%. Confirma que o fabricante está equivocado em sua informação! Conclusão: ao nível de significância de 2%, ou seja, com 98% de confiança, podemos dizer que a duração da lâmpadas se alterou, ou seja, sua duração é diferente de 1.600 horas. A afirmação do fabricante não é verdadeira. Obs.: Como o zobs< 0, a indicação é de que o tempo de duração é menor que 1.600 horas. Equivale a considerar a hipótese alternativa, H1 : < 1.600 Ao nível de significância de 2% ( = 0,02) e considerando o teste unilateral à esquerda, então z = z0,02 = -2,05 Como zobs < z a indicação é de rejeição de H0, confirmando que o tempo de duração das lâmpadas é menor que 1.600 horas. 3) Um censo de há dois anos passados revelou que 20% das famílias de uma grande comunidade viviam abaixo do nível de pobreza. Para determinar se essa porcentagem se modificou, estudou-se uma amostra aleatória de 500 famílias, encontrando-se 91 abaixo do nível de pobreza. a) Qual é a estimativa pontual da proporção de famílias dessa comunidade que vivem atualmente abaixo do nível de pobreza? b) Calcule e interprete um intervalo de 95% de confiança para a proporção de famílias dessa comunidade que vivem atualmente abaixo do nível de pobreza. c) Com base no intervalo de confiança calculado, qual é a margem de erro? d) Ao nível de 5% de significância, o resultado amostral indica que a porcentagem atual difere da porcentagem verificada há dois anos? Não se esqueça de escrever as hipóteses, calcular a estatística do teste, calcular e interpretar o valor p e tirar a conclusão. (faça o teste baseado na distribuição normal) Solução: a) A estimativa pontual é: b) Sabemos que para n > 100, Para um intervalo com 95% de confiança, utilizamos z0,025 = 1,96 O intervalo de confiança será: 182,0 500 91 pˆ )1,0(N n )p1(p ppˆ n )pˆ1(pˆ zE que em ,Epˆ 2 168 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística Então, E o intervalo de 95% de confiança será: (0,1482 ; 0,2158) ou ~ (14,8% ; 21,6%) Isso significa que podemos dizer com 95% de confiança que o verdadeiro valor da porcentagem de famílias que vivem abaixo do nível de pobreza nessa grande comunidade está entre 14,8% e 21,6%. c) margem de erro é E = 0,0338 ≈ 3,4% (“o percentual é 18,2% com 3,4% para mais ou para menos” – fala que ouvimos sempre em época de eleições!!!) d) As hipóteses a serem testadas: H0: p = p0 = 0,20 vs H1: p ≠ 0,20 A estatística do teste é: Zobs= -1,01 > -1,96, logo pertence à região de aceitação de H0. Podemos concluir com 95% de confiança que o percentual de famílias que vivem abaixo do nível de pobreza nessa grande comunidade não se modificou. OBS.: Comparando esse resultado com o intervalo de confiança obtido no item (b) podemos verificar que 20% está dentro dele!! 0338,0)01726,0)(96,1( 500 )182,01(182,0 96,1E 01,1 500 )20,01(20,0 20,0182,0 n )p1(p ppˆ z 00 0 obs 0,025 R.R. H0 R.A. H0 R.R. H0 0,025 zobs-1,96 0,025 R.R. H0 R.A. H0 R.R. H0 0,025 zobs-1,96 169 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística 4. MISCELÂNEA DE EXERCÍCIOS RESOLVIDOS EM ATIVIDADES E PROVAS Questão 1: De uma população normal X, com variância igual a 9, foi retirada uma amostra com 25 observações, obtendo 152 25 1 i ix . Os limites (L) em que se corre o risco de 10% que o verdadeiro valor da média populacional seja menor que Linf ou maior que Lsup, são aproximadamente: a) 3,128 ; 9,032 b) 5,096 ; 7,064 c) 2,551 ; 9,606 d) 4,904 ; 7,256 Correta: B Solução: Temos: X ~ N( ; 3), pois 2 = 9 ; n = 25 e i ix =152 Logo, 08,6 25 152 n x x i i Então a estimativa pontual para a verdadeira média é : 6,0 ;08,6~ 25 3 ;08,6~ 08,6ˆ NXNXx Para =10%, significa que P(-1,64 < Z < 1,64) = 0,90 (pois P(Z<-1,64)=0,05, pela Tabela 3) Calculando um intervalo com 90% de confiança para , tem-se: )064,7 ;096,5( 984,008,6 984,0)6,0)(64,1( 2 Ex n zE Questão 2: Para uma população normal com variância conhecida 2 , o nível de significância para os intervalos: (1) n x n x 14,214,2 e (2) n x n x 85,185,1 . São aproximadamente: a) 1,6% e 3,3% b) 98,4% e 96,7% c) 96,8% e 93,6% d) 3,2% e 6,4% Correta: D Solução: 170 © Tânia F Bogutchi – PUC Minas – Revisão 2012 Estatística e Probabilidade Unidade 4: Introdução à Inferência Estatística X ~ N( ; ) com 2 conhecida (1) tem-se que 14,2 2 z . Pela Tabela 3, verifica-se que P(Z < -2,14) = 0,016177, que por simetria é a mesma P(Z > 2,14). Então, o nível de significância = P(Z < -2,14) + P(Z > 2,14) = 2 P(Z < -2,14) Logo, = (2))(0,016177) 0,032, ou seja, 3,2% (2) Processo análogo ao (1) encontra-se P(Z < -1,85) = 0,032157 6,4% Questão 3: Com base
Compartilhar