Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 8 Estimação Objetivo: Conhecer e compreender a construção dos intervalos de con ança para os principais parâmetros populacionais na Inferência Estatística. Nesta aula serão tratadas as ideias centrais da Teoria de Estimação, com ênfase na estimação intervalar, já que a Teoria de Estimação na Estatística posui uma complexidade cujo tratamento adequado mereceria um curso por si só. Sabe- mos que a problematização central da Estatística consiste em se estimar o valor de determinados parâmetros populacionais à luz das informações obtidas de uma amostra extraída dessa mesma população, por meio de um estimador conveniente- mente escolhido para "acertar" em média o valor do parâmetro. Assim, a ideia é partir inicialmente de um estimador pontual com propriedades desejáveis e obter a distribuição de probabilidade amostral do estimador, a m de estabelecer um intervalo de con ança para o parâmetro em estudo. Para ilustrar a ideia, suponha que o alvoa ser atingido seja o parâmetro populacional e que cada estimativa obtida de diversas amostras da população repre- sente um "tiro". Então quando a média dos valores dos tiros(ou seja, a média de diversas estimativas para o mesmo parâmetro) recai no alvo (parâmetro), dizemos que nosso estimador é não-viesado (ou não-viciado, ou ainda não-tendencioso). Ob- viamente, mais do que ter a média dos tirosno valor do parâmetro, gostaríamos também que o atiradorfosse preciso nos seus resultados, isto é, variasse pouco a sua performance. Assim podemos ter as seguintes situações simbólicas para estimadores de parâmetros populacionais: Não-viesado e preciso. Viesado e preciso. 1 Não-viesado e pouco preciso. Viesado e pouco preciso. Você já deve ter percebido que os melhores estimadores são os não-viesados e precisos, certo? Quando o estimador é viesado e preciso, é possível corrigir o estrabismodo estimador e fazer com que ele passe acertar em média o valor do parâmetro. É o caso da variância amostral, em que discutimos o porquê de se dividir por n � 1 (ao invés de n) a soma dos quadrados dos desvios em relação à média, diferentemente do cálculo da variância populacional. Se dividíssemos a soma dos desvios quadráticos amostrais por n, os tiros gerariam um viés, isto é, a média dos tiros não recairia sobre o valor do parâmetro, levando a um erro de estimação. A tabela abaixo indica os estimadores pontuais não-viesados para os prin- cipais parâmetros populacionais tratados na Estatística. Parâmetro Estimador Média � Xn = Pn i=1Xi n Proporção p p^ = X n (X: no de "sucessos" na amostra) Variância �2 S2 = Pn i=1 � Xi �Xn �2 n� 1 Desvio-Padrão � S = sPn i=1 � Xi �Xn �2 n� 1 Como dissemos anteriormente, a partir da distribuição de probabilidade das variáveis aleatórias envolvidas no estudo, podemos obter as distribuições de probabilidade dos estimadores, a m de construir um intervalo de con ança para o parâmetro em estudo. Para isso o pesquisador precisa arbitrar um nível de con ança, representado por 1� �, onde � é a probabilidade de que o intervalo construído não contenha o valor do parâmetro, chamada de nível de signi cância. Assim temos a seguinte de nição: O nível de con ança, 1� �, é a probabilidade de que a estimativa intervalar contenha o parâmetro populacional em questão. 2 1 Intervalo de Con ança para a Média Popula- cional � (quando a variância populacional �2 é conhecida) Desejamos construir um intervalo de con ança para a média populacional � conhecendo-se o valor da variância �2, uma situação um pouco incomum, e que só se justi ca quando sabemos por estudos anteriores que a variância populacional era �2 e temos a suposição de que continua a mesma, embora a média possa ter mudado. No entanto há também uma situação especial a ser considerada nesse caso. Mesmo desconhecendo a variância populacional, se estivermos lidando com amostras de tamanho grande (n � 30), podemos utilizar a variância amostral S2 no lugar da variância populacional �2, sem problema algum. Portanto, o contexto estudado aqui vale tanto para �2 conhecida, quanto para �2 desconhecida, com amostras grandes. Sabemos, pelo Teorema Central do Limite, que temos a aproximação em distribuição: Z = Xn � � �p n � N (0; 1). Se a população é normalmente distribuída, então a distribuição é exata, isto é, Z = Xn � � �p n � N (0; 1). Suponha que desejemos formar um intervalo de con ança para � com uma probabilidade de 1� �. Então P ��z�=2 � Z � z�=2� = 1� � P 0B@�z�=2 � Xn � ��p n � z�=2 1CA = 1� � P � �z�=2 �p n � Xn � � � z�=2 �p n � = 1� � P � Xn � z�=2 �p n � � � Xn + z�=2 �p n � = 1� � Assim, temos P � Xn � z�=2 �p n � � � Xn + z�=2 �p n � = 1� �. 3 O erro máximo da estimativa, E, é a maior distância possível entre a estimativa pontual e o valor do parâmetro que se está estimando, dado o nível de con ança 1� �, ou seja, E = z�=2 �p n . A partir da fórmula anterior, podemos dimensionar o tamanho da amostra necessário para que se possa estimar a média populacional com um erro E. Para isso, basta isolar o valor de n em E = z�=2 �p n . Assim, o tamanho amostral n necessário para se estimar a média popula- cional com um erro máximo de estimativa E e um nível de signi cância � é dado por n = � z�=2 � � E �2 . Exemplo 1 Seja uma amostra aleatória com 35 preços (em reais) de um aparelho celular especí co. Sabendo-se que a média amostral foi de R$ 101; 77 e o desvio- padrão de R$ 6; 69, pede-se: (a) Determine a estimativa pontual para a média populacional dos preços do celular em estudo. (b) Determine o erro máximo da estimativa E, com base na amostra, ao nível de 95% de con ança. (c) Determine o intervalo de con ança de 95% para a média dos preços do celular em estudo. (d) Deseja-se estimar a média do preço do celular. Quantos preços de aparelhos terão de ser incluídos na amostra se se deseja estar 95% seguro de que a média amostral está a no máximo R$ 2; 00 da média populacional? Solução: Temos as seguintes informações: n = 35, X35 = 101; 77 e S = 6; 69. Apesar de não conhecermos a variância populacional, como n � 30, podemos utilizar o intervalo de con ança para a média populacional, nos valendo da distribuição normal. (a) O melhor estimador pontual para a média populacional é a média da amostra, pois esse estimador é não-viesado. Assim, X35 = 101; 77. (b) Ao nível de con ança de 95%, temos � = 5% e assim o valor tabelado na normal é z�=2 = z0;025 = 1; 96. 4 Assim E = z�=2 �p n = 1; 96� 6; 69p 35 = 2; 22. Portanto o erro máximo da estimativa é da ordem de R$ 2; 22. (c) O intervalo de con ança será dado por P � X35 � E � � � X35 + E � = 0; 95 P (101; 77� 2; 22 � � � 101; 77 + 2; 22) = 0; 95 P (99; 55 � � � 103; 99) = 0; 95. (d) Desejamos n tal que E = 2 e � = 5%. Assim, como z�=2 = z0;025 = 1; 96, temos n = � z�=2 � � E �2 = � 1; 96� 6; 69 2 �2 = 42; 98. Assim devemos ter 43 elementos amostrais. Como já dispomos de 35, teríamos que coletar mais 8 elementos para a amostra. 2 Intervalo de Con ança para a Média Popula- cional � (quando a variância populacional �2 é desconhecida) Esse é certamente o contexto mais natural a se lidar com os problemas estatís- ticos de estimação intervalar da média populacional. Quando a amostra é pequena e precisamos utilizar a variância da amostra no lugar da variância populacional, incorporamos mais incerteza aos intervalos. Daí a nova distribuição amostral ter caudas mais pesadas, isto é, caudas com maior probabilidade para gerar valores mais atípicos. Assim, quando a variância da população �2 é desconhecida, é possível mostrar que, para dados aproximadamente normais, a variável aleatória T = Xn � � Sp n tem Distribuição t-Student com n� 1 grausde liberdade, com S = sPn i=1 � Xi �Xn �2 n� 1 o desvio-padrão (corrigido) da amostra. Assim, escrevemos T = Xn � � Sp n � tn�1 � Student. Essa distribuição tem sua forma semelhante à distribuição Normal, isto é, simétrica e centrada no zero, mas suas caudas são mais pesadas para graus de 5 liberdade pequenos. Como a Distribuição Normal Padrão, a Distribuição t-Student é tabelada, de acordo com os seus graus de liberdade e o nível de signi cância (veja a tabela anexada). Observe que a tabela dá a área à direita do valor de tn�1;�, conforme grá co abaixo com a no lugar de �. Distribuição t-Student Suponha que desejemos formar um intervalo de con ança para � com uma probabilidade de 1� � (nível de con ança), supondo �2 desconhecida. Então P ��tn�1;�=2 � T � tn�1;�=2� = 1� � P 0BB@�tn�1;�=2 � Xn � �Sp n � tn�1;�=2 1CCA = 1� � P � �tn�1;�=2 Sp n � Xn � � � tn�1;�=2 Sp n � = 1� � P � Xn � tn�1;�=2 Sp n � � � Xn + tn�1;�=2 Sp n � = 1� � Assim, temos P � Xn � tn�1;�=2 Sp n � � � Xn + tn�1;�=2 Sp n � = 1� �. O erro máximo da estimativa, E, dado nível de con ança, 1�� é dado por: E = tn�1;�=2 � Sp n . 6 Com isso podemos dimensionar o tamanho da amostra necessário para que se possa estimar a média populacional com um erro E e um nível de signi cância �. Isolando-se o valor de n em E = tn�1;�=2 � Sp n , obtemos o tamanho amostral dado por n = � tn�1;�=2 � S E �2 . Observação: Conforme os graus de liberdade aumentam, a distribuição t-Student se aproxima da distribuição Normal. Isso justi ca o porquê do uso da dis- tribuição normal, na formação do intervalo de con ança para a média populacional, mesmo com �2 desconhecida no contexto de amostras grandes. Exemplo 2 Em uma amostra aleatória de 13 adultos da cidade do Rio de Janeiro, a média de lixo reciclado por pessoa foi de 4; 3 kg por dia, com um desvio padrão de 0; 3 kg. Admita que a variável seja normalmente distribuída e construa um intervalo de con ança de 90% para a média de lixo reciclado por pessoa no Rio de Janeiro. Solução: Temos as seguintes informações: n = 13, X13 = 4; 3 e S = 0; 3. Como a variância populacional é desconhecida, os dados são normalmente distribuídos, e o tamanho da amostra é pequeno, utilizaremos a distribuição t-Student. A um nível de signi cância � = 10%, temos tn�1;�=2 = t12;0;05 = 1; 782. Assim, temos E = tn�1;�=2 � Sp n = 1; 782� 0; 3p 13 = 0; 148. Com isso, temos P � X13 � E � � � X13 + E � = 0; 90 P (4; 3� 0; 148 � � � 4; 3 + 0; 148) = 0; 90 P (4; 152 � � � 4; 448) = 0; 90. 3 Intervalo de Con ança para a Proporção Po- pulacional p Suponha que p seja a proporção dos elementos de uma população de interesse que possuem um certo atributo em estudo. Então p = PN i=1Xi N , onde Xi = 1 se o i-ésimo elemento da população tem o atributo e Xi = 0 se o i-ésimo elemento da população não tem o atributo. Assim Xi � Ber(p) onde E (Xi) = p e V ar (Xi) = p(1� p). O estimador não-viesado para p é dado por p^ = Pn i=1Xi n = X n , 7 onde X é o número de elementos na amostra com o dado atributo em estudo. Se n for su cientemente grande para satisfazer np � 5 e n (1� p) � 5, então, como p^ é uma média de variáveis aleatórias independentes, vale o Teorema Central do Limite, isto é, Z = p^� pr p(1� p) n � N (0; 1). Como r p(1� p) n depende também do parâmetro, a ideia é substituirr p(1� p) n pela estimativa amostral r p^(1� p^) n e assim construir um intervalo de con ança para p com um nível de con ança de 1� �. Temos P ��z�=2 � Z � z�=2� = 1� � P 0BB@�z�=2 � p^� pr p^(1� p^) n � z�=2 1CCA = 1� � P �z�=2 r p^(1� p^) n � p^� p � z�=2 r p^(1� p^) n ! = 1� � Assim, temos P p^� z�=2 r p^(1� p^) n � p � p^+ z�=2 r p^(1� p^) n ! = 1� �. Portanto, o erro máximo da estimativa, E, dado o nível de con ança 1� � é dado por E = z�=2 r p^(1� p^) n . Com isso podemos dimensionar o tamanho da amostra necessário para que se possa estimar a média populacional com um erro E e um nível de signi cância �. Isolando-se o valor de n em E = z�=2 r p^(1� p^) n , chegamos a n = p^(1� p^) �z�=2 E �2 . Observe que a fórmula do tamanho amostral acima depende de uma esti- mativa preliminar p^ retirada de uma amostra piloto. Caso não seja possível obter a amostra preliminar, então tomamos o valor de p^ que maximiza o fator p^(1 � p^), pois assim encontramos o maior valor de n necessário para atender as especi cações 8 de E e �. Mas encontrar o valor de p^ que maximiza o fator p^(1� p^) é equivalente a encontrar o valor de x que maximiza a parábola y = x(1 � x) = x � x2, ou seja, a coordenada x de seu vértice V � 1 2 ; 1 4 � . Assim, p^ = 1 2 é o valor que maximiza p^(1� p^), e, portanto, sem uma amostra preliminar, temos n = 1 2 (1� 1 2 ) �z�=2 E �2 = 1 4 �z�=2 E �2 ou seja, n = �z�=2 2E �2 . Exemplo 3 Em um estudo com 1:907 acidentes de tráfego, 449 estavam relaciona- dos ao uso de álcool. Pede-se: (a) Construir um intervalo de con ança de 99% para a proporção de acidentes fatais relacionados ao álcool. (b) Deseja-se estimar a proporção de acidentes fatais relacionados ao álcool a um nível de con ança de 99%. Determine o tamanho mínimo da amostra necessário para estimar a proporção populacional com uma precisão de 2%, sem uma amostra preliminar. (c) Deseja-se estimar a proporção de acidentes fatais relacionados ao álcool a um nível de con ança de 99%. Determine o tamanho mínimo da amostra necessário para estimar a proporção populacional com uma precisão de 2%, usando a estimativa preliminar do enunciado do problema. Solução: Temos n = 1907 e X = 449. A estimativa pontual para p é dada por p^ = X n = 449 1907 �= 0; 235 (a) Como np^ = 449 � 5 e n(1 � p^) = 1:458 � 5, a distribuição normal pode ser usada. Assim, para � = 0; 01, temos z�=2 = z0;005 = 2; 57 E = z�=2 r p^(1� p^) n = 2; 57 r 0; 235� 0; 765 1907 �= 0; 025. Assim P (p^� E � p � p^+ E) = 0; 99. P (0; 235� 0; 025 � p � 0; 235 + 0; 025) = 0; 99. P (0; 21 � p � 0; 26) = 0; 99. Com 99% de con ança, pode-se dizer que a proporção de acidentes fatais relaciona- dos ao álcool está entre 21% e 26%. (b) Desejamos E = 0; 02. Sem a estimativa pontual, temos n = �z�=2 2E �2 = � 2; 57 2� 0; 02 �2 �= 4:128; 0625. Assim, devemos extrair uma amostra de 4:129 elementos. 9 (c) Desejamos E = 0; 02. Com a estimativa pontual p^ = 0; 235, temos n = p^(1� p^) �z�=2 E �2 = 0; 235� 0; 765� � 2; 57 0; 02 �2 = 2:968; 49. Assim, devemos extrair uma amostra de 2:969 elementos, valor bem abaixo do exigido no item (b) pela ausência de uma amostra piloto. 4 Intervalo de Con ança para Variância Popula- cional �2 A ideia agora é construir um intervalo de con ança para a variância populacional �2 a partir da variância amostral S2. Pode-se mostrar em cursos avançados de Estatística, que se a população é normalmente distribuída (ou aproximadamente normal), então a variável aleatória � = (n� 1)S2 �2 tem distribuição Qui-Quadrado com n�1 graus de liberdade, representada por �2n�1, com � a letra grega chi. Assim � = (n� 1)S2 �2 � �2n�1 Essa distribuição é assimétrica e de nida nos valores reais positivos, sendo também tabelada de acordo com os graus de liberdade e os níveis de signi cância desejados. (Veja a tabela anexada.) Observe que a tabela dá a área à direita do valor de �2n�1;�, conforme grá co abaixo com a no lugar de �. Distribuição Qui-Quadrado Assim, temos P � �2n�1;1��=2 � � � �2n�1;�=2 � = 1� � P � �2n�1;1��=2 � (n� 1)S2 �2 � �2n�1;�=2 � = 1� �P � �2�2n�1;1��=2 � (n� 1)S2 � �2�2n�1;�=2 � = 1� � 10 As duas desigualdades podem ser desenvolvidas como �2�2n�1;1��=2 � (n� 1)S2 =) �2 � (n� 1)S2 �2n�1;1��=2 e (n� 1)S2 � �2�2n�1;�=2 =) �2 � (n� 1)S2 �2n�1;�=2 . Assim, temos P (n� 1)S2 �2n�1;�=2 � �2 � (n� 1)S 2 �2n�1;1��=2 ! = 1� �. Exemplo 4 A m de se estimar o desvio-padrão dos preços de aparelhos de MP3 no Rio de Janeiro, seleciona-se ao acaso uma amostra de 17 preços de aparelhos de MP3, obtendo-se o desvio-padrão amostral de R$ 150; 00. Construa um intervalo de con ança de 95% para a variância e o desvio-padrão dos preços dos aparelhos de MP3 no Rio de Janeiro, assumindo a população normal. Solução: Temos n = 17 e S = 150. Sabemos que (n� 1)S2 �2 � �2n�1. Assim 16S2 �2 = 16� 1502 �2 � �216. Como � = 0; 05, temos �216;0;025 = 28; 845 e � 2 16;0;975 = 6; 908 Assim, temos P � 6; 908 � 16� 150 2 �2 � 28; 845 � = 0; 95 P � 16� 1502 28; 845 � �2 � 16� 150 2 6; 908 � = 0; 95 P � 12:480; 50 � �2 � 52:113; 49� = 0; 95 P �p 12:480; 50 � � � p 52:113; 49 � = 0; 95 P (111; 72 � � � 228; 28) = 0; 95. Exercício 1 Os sistemas de escapamento de uma aeronave funcionam devido a um propelente sólido. A taxa de queima desse propelente é uma característica importante do produto. Sabe-se que o desvio-padrão da taxa de queima seja de 2 cm/s. O experimentalista decide estimar a taxa média populacional a um nível de signi cância de 5%. Para isso ele seleciona uma amostra aleatória de tamanho 25 e obtém uma taxa média amostral de queima de 51; 3 cm/s. (a) Qual o intervalo de con ança obtido? (b) Se o fabricante dos sistemas a rma que a taxa média de seus produtos é de 50 cm/s, devemos aceitar ou rejeitar a a rmação do fabricante? 11 Exercício 2 A tensão de ruptura dos cabos produzidos por um fabricante apresenta média de 1800 kg e o desvio-padrão de 100 kg. Mediante nova técnica no processo de fabricação, proclamou-se que a tensão de ruptura pode ter aumentado. Para testar essa declaração, ensaiou-se uma amostra de 50 cabos, tendo-se obtido a tensão média de 1850 kg. Pode-se con rmar a declaração ao nível de signi cância de 1%? Exercício 3 Um artigo no periódico Materials Engineering (1989, Vol.II, No. 4, pp. 275-281) descreve os resultados de testes de tensão quanto à adesão em 22 corpos de prova de liga U-700. A carga no ponto de falha do corpo de prova é dada a seguir (em MPa): 19; 8 18; 5 17; 6 16; 7 15; 8 15; 4 14; 1 13; 6 11; 9 11; 4 11; 4 8; 8 7; 5 15; 4 15; 4 19; 5 14; 9 12; 7 11; 9 11; 4 10; 1 7; 9 (a) Qual o intervalo de con ança para a média, ao nível de signi cância de 5%? (b) Há evidências de que a carga média na falha excede 10 MPa? Exercício 4 Um fabricante de semicondutores produz controladores usados em apli- cações no motor de automóveis. O consumidor requer que a fração defeituosa em uma etapa crítica de fabricação não exceda 0; 05 e que o fabricante demonstre uma capacidade de processo nesse nível de qualidade. O fabricante de semicondutores retira uma amostra de 200 aparelhos e encontra 4 defeituosos. (a) Qual o intervalo de con ança para a proporção de defeituosos, ao nível de signi cância de 5%? (b) O fabricante pode demonstrar uma capacidade de processo para o consumidor? Exercício 5 Um fabricante de uma droga medicinal reivindicou que ela era 90% e caz em curar alergia, em um período de 8 horas. Para testar essa informação, submetemos 200 pessoas com alergia à droga e 160 pessoas se curaram após o uso da mesma. Determinar se a pretensão do fabricante é legítima a um nível de sig- ni cância de 1%. Exercício 6 Uma amostra de 10 pacotes de café solúvel de um dado fabricante foi retirada, obtendo-se os dados: 46; 4; 46; 1; 45; 8; 47; 0; 46; 1; 45; 9; 45; 8; 46; 9; 45; 2 e 46; 0. Determine um intervalo de con ança de 95% para a variância de tais pacotes de café solúvel, assumindo uma população normal. Exercício 7 (Fórum de Discussões) Suponha uma piscina contendo N bolinhas de plástico nas cores branca e azul em quantidades desconhecidas. Proponha um roteiro para a estimação do número de bolinhas brancas na piscina a partir dos pro- cedimentos estatísticos estudados nesta aula, por meio de uma amostra de tamanho n (n < N). Como você proporia uma atividade em sala de aula para esta estimação, a partir de várias amostras retiradas de mesmo tamanho n, valendo-se apenas dos valores obtidos em cada amostra e não da tabela da Normal? 12
Compartilhar