Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 7 Estimação Objetivo: Conhecer e compreender a construção dos intervalos de con ança para os principais parâmetros populacionais na Inferência Estatística. Nesta aula exporemos as ideias centrais da Teoria de Estimação, dando ên- fase à estimação intervalar, já que a Teoria de Estimação na Estatística é de uma complexidade que vale um curso inteiro para o seu tratamento adequado. Vimos que a problematização mais central da Estatística consiste em se estimar o valor de de- terminados parâmetros populacionais à luz das informações obtidas de uma amostra dessa mesma população, através de um estimador convenientemente escolhido para "acertar" em média o valor do parâmetro. Assim, partimos inicialmente de um estimador pontual com propriedades desejadas e construímos uma distribuição de probabilidade amostral do estimador a m de podermos estabelecer um intervalo de con ança para o parâmetro em estudo. Suponha que o alvo a ser atingido seja o parâmetro populacional e que cada estimativa obtida de diversas amostras da população represente um "tiro". Então quando a média dos valores dos "tiros" (ou seja, a média de diversas estimativas para o mesmo parâmetro) recai no alvo (parâmetro), dizemos que nosso estimador é não-viesado (ou não-viciado, ou ainda não-tendencioso). Obviamente, mais do que ter a média dos "tiros" no valor do parâmetro, gostaríamos também que o atirador fosse preciso nos resultados. Assim podemos ter as seguintes situações para estimadores de parâmetros populacionais: Não-Viesado e Preciso Viesado e Preciso 1 Não-Viesado e Impreciso Viesado e Impreciso Você já deve ter percebido que os melhores estimadores são os não-viesados e precisos, certo? Mas nem sempre é possível obtê-los... Quando o estimador é viesado e preciso, é possível corrigir o "estrabismo" do estimador e fazer com que ele passe acertar em média o valor do parâmetro. É o caso em que discutimos o porquê de se dividir a variância amostral por n�1 ao invés de n, ao contrário do cálculo da variância populacional. Se dividíssemos a variância amostral por n, os tiros gerariam um viés (diferença entre a média dos tiros e o valor do parâmetro) ocasionando um erro de estimação. Assim, para os principais parâmetros populacionais tratados na estatística, temos os seguintes estimadores pontuais não-viesados. Parâmetro Estimador Média � Xn = Pn i=1Xi n Proporção p p^ = X n (X: no de "sucessos" na amostra) Variância �2 S2 = Pn i=1 � Xi �Xn �2 n� 1 Desvio-Padrão � S = sPn i=1 � Xi �Xn �2 n� 1 Como dissemos anteriormente, a partir dos estimadores (variáveis aleatórias), pode-se obter as distribuições de probabilidade dos mesmos, a m de construir um intervalo de con ança para o parâmetro em estudo. Para isso o pesquisador deve arbitrar um nível de con ança dado por 1 � �, onde � é a probabilidade de que o intervalo construído não contenha o valor do parâmetro, chamado de nível de signi cância. Assim temos a seguinte de nição: O nível de con ança, 1� �, é a probabilidade de que a estimativa intervalar contenha o parâmetro populacional em questão. 2 1 Intervalo de Con ança para a média popula- cional (�) quando a variância populacional (�2) é conhecida Desejamos construir um intervalo de con ança para a média populacional � conhecendo-se o valor da variância �2, uma situação um pouco incongruente, e que só se justi ca quando sabemos por exemplo por estudos anteriores da população inteira que a variância era �2 e se supõe que continua a mesma, tendo apenas a hipótese de mudança da média, a qual se deseja estimar. Mas o caso mais relevante que recai ainda assim nesse contexto é quando estamos lidando com amostras de tamanho grande (n � 30). Nesse caso, mesmo desconhecendo o valor da variância populacional, podemos substituir �2 por S2, sem problema algum. Portanto, o contexto estudado aqui vale tanto para �2 conhecida, quanto para �2 desconhecida, com amostras grandes. Vimos, pelo Teorema Central do Limite, que temos a aproximação em dis- tribuição: Z = Xn � � �p n � N (0; 1). Se a população é normalmente distribuída, então a distribuição é exata: Z = Xn � � �p n � N (0; 1). Suponha que desejemos formar um intervalo de con ança para � com uma probabilidade de 1� �. Então P ��z�=2 � Z � z�=2� = 1� � P 0B@�z�=2 � Xn � ��p n � z�=2 1CA = 1� � P � �z�=2 �p n � Xn � � � z�=2 �p n � = 1� � P � Xn � z�=2 �p n � � � Xn + z�=2 �p n � = 1� � Assim temos: P � Xn � z�=2 �p n � � � Xn + z�=2 �p n � = 1� �. 3 O erro máximo da estimativa, E, é a maior distância possível entre a es- timativa pontual e o valor do parâmetro que se está estimando, dado o nível de con ança 1� �. Assim temos: E = z�=2 �p n . Com isso, podemos dimensionar o tamanho da amostra necessário para que se possa estimar a média populacional com um erro E. Isso será dado, isolando-se o valor de n em E = z�=2 �p n . Assim o tamanho n amostral é dado por: n = � z�=2 � � E �2 . Exemplo 1 Seja uma amostra aleatória com 35 preços (em reais) de um aparelho celular especí co. Sabendo-se que a média amostral foi de R$ 101; 77 e o desvio- padrão de R$ 6; 69, pede-se: (a) Determine a estimativa pontual para a média populacional dos preços do celular em estudo. (b) Determine o erro máximo da estimativa E, com base na amostra, ao nível de 95% de con ança. (c) Determine o intervalo de con ança de 95% para a média dos preços do celular em estudo. (d) Você quer estimar a média de preço do celular. Quantos preços de aparelhos terão de ser incluídos em sua amostra se você quiser estar 95% seguro de que a média amostral está a no máximo R$ 2; 00 da média populacional? Solução: Temos as seguintes informações: n = 35, X35 = 101; 77 e S = 6; 69. Apesar de não conhecermos a variância populacional, como n � 30, podemos utilizar o intervalo de con ança para a média populacional, nos valendo da distribuição normal. (a) O melhor estimador pontual para a média populacional é a média da amostra. Assim, X35 = 101; 77. (b) Ao nível de 95%, temos � = 5% e assim o valor tabelado na normal é z�=2 = z0;025 = 1; 96. 4 Assim E = z�=2 �p n = 1; 96� 6; 69p 35 = 2; 22. Portanto o erro máximo da estimativa é da ordem de R$ 2; 22. (c) O intervalo de con ança será dado por P � X35 � E � � � X35 + E � = 0; 95 P (101; 77� 2; 22 � � � 101; 77 + 2; 22) = 0; 95 P (99; 55 � � � 103; 99) = 0; 95. (d) Desejamos n tal que E = 2 e � = 5%. Assim, como z�=2 = z0;025 = 1; 96, temos n = � z�=2 � � E �2 = � 1; 96� 6; 69 2 �2 = 42; 98. Assim devemos ter 43 elementos amostrais. Como já dispomos de 35, teríamos que coletar mais 8 elementos para a amostra. 2 Intervalo de Con ança para a média popula- cional (�) quando a variância populacional (�2) é desconhecida Esse é certamente o contexto mais natural a se lidar com os problemas es- tatísticos de estimação intervalar da média populacional. O problema agora é que, quando a amostra é pequena, e utilizamos a variância da amostra no lugar da var- iância populacional, incorporamos mais incerteza aos intervalos. Daí a distribuição amostral ter caudas mais "pesadas" para gerar valores mais atípicos. Assim, quando a variância da população �2 é desconhecida, é possível mostrar que T = Xn � � Sp n � tn�1 � Student, com S = sPn i=1 � Xi �Xn �2 n� 1 o desvio-padrão (corrigido) da amostra, e tn�1 � Student a distribuição t-Student com n � 1 graus de liberdade. Essa distribuição é, como a Normal, centrada no zero e tabelada, de acordo com os seus graus de liberdade (veja a tabela anexada). Observe que a tabela dá a área à direita do valor de tn�1;�, conforme grá co abaixo com a no lugar de �. 5 Distribuição t-Student Quando os graus de liberdade da t-Student aumentam,a distribuição t- Student tende à distribuição Normal. Daí o fato de termos proposto no caso anterior, para amostras grandes, o uso da distribuição normal, na formação do intervalo de con ança para a média populacional, mesmo com �2 desconhecida. Suponha que desejemos formar um intervalo de con ança para � com uma probabilidade de 1� � (nível de con ança), supondo �2 desconhecida. Então P ��tn�1;�=2 � T � tn�1;�=2� = 1� � P 0BB@�tn�1;�=2 � Xn � �Sp n � tn�1;�=2 1CCA = 1� � P � �tn�1;�=2 Sp n � Xn � � � tn�1;�=2 Sp n � = 1� � P � Xn � tn�1;�=2 Sp n � � � Xn + tn�1;�=2 Sp n � = 1� � Assim, temos: P � Xn � tn�1;�=2 Sp n � � � Xn + tn�1;�=2 Sp n � = 1� �. O erro máximo da estimativa, E, dado nível de con ança, 1�� é dado por: E = tn�1;�=2 � Sp n . 6 Com isso podemos dimensionar o tamanho da amostra necessário para que se possa estimar a média populacional com um erro E. Isso será dado, isolando-se o valor de n em E = tn�1;�=2 � Sp n . Assim o tamanho n amostral é dado por: n = � tn�1;�=2 � S E �2 . Exemplo 2 Em uma amostra aleatória de 13 adultos da cidade do Rio de Janeiro, a média de lixo reciclado por pessoa foi de 4; 3 kg por dia, com um desvio padrão de 0; 3 kg. Admita que a variável seja normalmente distribuída e construa um intervalo de con ança de 90% para a média de lixo reciclado por pessoa no Rio de Janeiro. Solução: Temos as seguintes informações: n = 13, X13 = 4; 3 e S = 0; 3. Como desconhecemos a variância populacional, a distribuição é normal e o tamanho da amostra é pequeno, utilizaremos a distribuição t-Student. Como � = 10%, temos tn�1;�=2 = t12;0;05 = 1; 782. Assim temos E = tn�1;�=2 � Sp n = 1; 782� 0; 3p 13 = 0; 148. Com isso temos: P � X13 � E � � � X13 + E � = 0; 90 P (4; 3� 0; 148 � � � 4; 3 + 0; 148) = 0; 90 P (4; 152 � � � 4; 448) = 0; 90. 3 Intervalo de Con ança para a proporção po- pulacional (p) Suponha que p seja a proporção dos elementos da população que possuem um certo atributo em estudo. Então p = PN i=1Xi N , onde Xi = 1 se o i-ésimo elemento da população tem o atributo e Xi = 0 se o i-ésimo elemento da população não tem o atributo. Assim Xi � Ber(p) onde E (Xi) = p e V ar (Xi) = p(1� p). O estimador para p é dado por p^ = Pn i=1Xi n = X n , onde X é o número de elementos na amostra com o dado atributo em estudo. Se n for su cientemente grande para satisfazer np � 5 e n (1� p) � 5, então vale o Teorema Central do Limite, que nos garante: Z = p^� pr p(1� p) n � N (0; 1). 7 Como r p(1� p) n depende também do parâmetro, a ideia é substituirr p(1� p) n pela estimativa amostral r p^(1� p^) n e assim construir um intervalo de con ança para p com uma probabilidade de 1�� (nível de con ança). Assim, temos: P ��z�=2 � Z � z�=2� = 1� � P 0BB@�z�=2 � p^� pr p^(1� p^) n � z�=2 1CCA = 1� � P �z�=2 r p^(1� p^) n � p^� p � z�=2 r p^(1� p^) n ! = 1� � P p^� z�=2 r p^(1� p^) n � p � p^+ z�=2 r p^(1� p^) n ! = 1� � Assim, temos: P p^� z�=2 r p^(1� p^) n � p � p^+ z�=2 r p^(1� p^) n ! = 1� �. O erro máximo da estimativa, E, dado o nível de con ança 1 � � é dado por: E = z�=2 r p^(1� p^) n . Com isso podemos dimensionar o tamanho da amostra necessário para que se possa estimar a média populacional com um erro E. Isso será dado, isolando-se o valor de n em E = z�=2 r p^(1� p^) n . Assim o tamanho n amostral é dado por: n = p^(1� p^) �z�=2 E �2 . Observe que a fórmula do tamanho amostral acima depende de uma esti- mativa preliminar p^ retirada de uma amostra piloto. Caso não seja possível obter a amostra preliminar, então tomamos o valor de p^ que maximiza o fator p^(1 � p^). Pode-se provar pelo cálculo diferencial que p^ = 1 2 é o valor que maximiza p^(1 � p^). Assim, sem uma amostra preliminar, temos n = �z�=2 2E �2 . 8 Exemplo 3 Em um estudo com 1:907 acidentes de trá co, 449 estavam relaciona- dos ao uso de álcool. Pede-se: (a) Construir um intervalo de con ança de 99% para a proporção de acidentes fatais relacionados ao álcool. (b) Você deseja estimar a proporção de acidentes fatais relacionados ao álcool a um nível de con ança de 99%. Determine o tamanho mínimo da amostra necessário para estimar a proporção populacional com uma precisão de 2%, sem uma amostra preliminar. (c) Você deseja estimar a proporção de acidentes fatais relacionados ao álcool a um nível de con ança de 99%. Determine o tamanho mínimo da amostra necessário para estimar a proporção populacional com uma precisão de 2%, usando a estimativa preliminar do enunciado do problema. Solução: Temos n = 1907 e X = 449. A estimativa pontual para p é dada por p^ = X n = 449 1907 �= 0; 235 (a) Como np^ = 448; 145 � 5 e n(1� p^) = 1:458; 855 � 5, a distribuição normal pode ser usada. Assim, para � = 0; 01, temos z�=2 = z0;005 = 2; 57 E = z�=2 r p^(1� p^) n = 2; 57 r 0; 235� 0; 765 1907 �= 0; 025. Assim P (p^� E � p � p^+ E) = 0; 99. P (0; 235� 0; 025 � p � 0; 235 + 0; 025) = 0; 99. P (0; 21 � p � 0; 26) = 0; 99. Com 99% de con ança, você pode dizer que a proporção de acidentes fatais rela- cionados ao álcool está entre 21% e 26%. (b) Desejamos E = 0; 02. Sem a estimativa pontual, temos n = �z�=2 2E �2 = � 2; 57 2� 0; 02 �2 �= 4:128; 0625. Assim, devemos amostrar 4:129 elementos. (c) Desejamos E = 0; 02. Com a estimativa pontual p^ = 0; 235, temos n = p^(1� p^) �z�=2 E �2 = 0; 235� 0; 765� � 2; 57 0; 02 �2 = 2:968; 49. Assim, devemos amostrar 2:969 elementos. 9 4 Intervalo de con ança para variância popula- cional (�2) A ideia agora é construir um intervalo de con ança para a variância populacional �2 a partir da variãncia amostral S2. Pode-se mostrar em cursos avançados de Estatística, que se a população é normalmente distribuída (ou aproximadamente normal), então (n� 1)S2 �2 � �2n�1 onde �2n�1 representa a distribuição de Qui-Quadrado com n� 1 graus de liberdade. Essa distribuição é de nida nos valores reais não-negativos e é assimétrica, sendo também tabelada de acordo com os graus de liberdade e os níveis de signi cância desejados. (Veja a tabela anexada.) Observe que a tabela dá a área à direita do valor de �2n�1;�, conforme grá co abaixo com a no lugar de �. Distribuição Qui-Quadrado Assim, temos P � �2n�1;1��=2 � (n� 1)S2 �2 � �2n�1;�=2 � = 1� � P � �2�2n�1;1��=2 � (n� 1)S2 � �2�2n�1;�=2 � = 1� � Mas, as duas desigualdades podem ser desenvolvidas como: �2�2n�1;1��=2 � (n� 1)S2 =) �2 � (n� 1)S2 �2n�1;1��=2 e (n� 1)S2 � �2�2n�1;�=2 =) �2 � (n� 1)S2 �2n�1;�=2 Assim temos: P (n� 1)S2 �2n�1;�=2 � �2 � (n� 1)S 2 �2n�1;1��=2 ! = 1� �. 10 Exemplo 4 A m de se estimar o desvio-padrão dos preços de aparelhos de MP3 no Rio de Janeiro, você seleciona ao acaso os preços de 17 MP3 players, obtendo- se o desvio-padrão amostral de R$ 150; 00. Construa um intervalo de con ança de 95% para a variância e o desvio-padrão dos preços dos aparelhos de MP3 no Rio de Janeiro, assumindo a população normal. Solução: Temos n = 17 e S = 150. Assim, sabemos que (n�1)S 2 �2 � �2n�1. Ou seja 16S2 �2 = 16� 1502 �2 � �216 Como � = 0; 05, temos �216;0;025 = 28; 845 e � 2 16;0;975 = 6; 908 Assim, temos P � 6; 908 � 16� 150 2 �2 � 28; 845 � = 0; 95 P � 16� 1502 28; 845 � �2 � 16� 150 2 6; 908 � = 0; 95 P � 12:480; 50 � �2 � 52:113; 49� = 0; 95 P �p 12:480; 50 � � � p 52:113; 49 � = 0; 95 P (111; 72 � � � 228; 28) = 0; 95. Exercício 1 Os sistemas de escapamento de uma aeronave funcionam devido a um propelente sólido.A taxa de queima desse propelente é uma característica importante do produto. Sabe-se que o desvio-padrão da taxa de queima seja de 2 cm/s. O experimentalista decide estimar a taxa média populacional a um nível de signi cância de 5%. Para isso ele seleciona uma amostra aleatória de tamanho 25 e obtém uma taxa média amostral de queima de 51,3 cm/s. (a) Qual o intervalo de con ança obtido? (b) Se o fabricante dos sistemas a rma que a taxa média de seus produtos é de 50 cm/s, devemos aceitar ou rejeitar a a rmação do fabricante? Exercício 2 A tensão de ruptura dos cabos produzidos por um fabricante apresenta média de 1800 kg e o desvio-padrão de 100 kg. Mediante nova técnica no processo de fabricação, proclamou-se que a tensão de ruptura pode ter aumentado. Para testar essa declaração, ensaiou-se uma amostra de 50 cabos, tendo-se obtido a tensão média de 1850 kg. Pode-se con rmar a declaração ao nível de signi cância de 1%? Exercício 3 Um artigo no periódico Materials Engineering (1989, Vol.II, No. 4, pp. 275-281) descreve os resultados de testes de tensão quanto à adesão em 22 corpos de prova de liga U-700. A carga no ponto de falha do corpo de prova é dada a seguir (em MPa): 19,8 18,5 17,6 16,7 15,8 15,4 14,1 13,6 11,9 11,4 11,4 8,8 7,5 15,4 15,4 19,5 14,9 12,7 11,9 11,4 10,1 7,9 11 (a) Qual o intervalo de con ança para a média, ao nível de signi cância de 5%? (b) Há evidências de que a carga média na falha excede 10 MPa? Exercício 4 Um fabricante de semicondutores produz controladores usados em apli- cações no motor de automóveis. O consumidor requer que a fração defeituosa em uma etapa crítica de fabricação não exceda 0,05 e que o fabricante demonstre uma capacidade de processo nesse nível de qualidade. O fabricante de semicondutores retira uma amostra de 200 aparelhos e encontra 4 defeituosos. (a) Qual o intervalo de con ança para a proporção de defeituosos, ao nível de signi cância de 5%? (b) O fabricante pode demonstrar uma capacidade de processo para o consumidor? Exercício 5 Um fabricante de uma droga medicinal reivindicou que ela era 90% e caz em curar alergia, em um período de 8 horas. Para testar essa informação, submetemos 200 pessoas com alergia à droga e 160 pessoas se curaram após o uso da mesma. Determinar se a pretensão do fabricante é legítima a um nível de sig- ni cância de 1%. Exercício 6 Uma amostra de 10 pacotes de café solúvel de um dado fabricante foi retirada, obtendo-se os dados: 46; 4; 46; 1; 45; 8; 47; 0; 46; 1; 45; 9; 45; 8; 46; 9; 45; 2 e 46; 0. Determine um intervalo de con ança de 95% para a variância de tais pacotes de café solúvel, assumindo uma população normal. 12
Compartilhar