Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ESTIMATIVAS E TAMANHOS DE AMOSTRAS As duas principais aplicações da estatística inferencial envolvem a utilização de dados amostrais para estimar o valor de um parâmetro populacional e para formular uma conclusão sobre uma população. Iremos, agora, estudar métodos de estimar valores de parâmetros populacionais e métodos para determinar o tamanho da amostra necessário para estimar esses parâmetros. Estimativa de uma média populacional: grandes amostras Definições: Um estimador é uma estatística amostral (como a média amostral x ) utilizada para obter uma aproximação de um parâmetro populacional. Uma estimativa é um valor específico, ou um intervalo de valores, usado para aproximar um parâmetro populacional. Exemplo 1: São dadas as temperaturas (em ºF) do corpo de 106 pessoas. 98,6 98,6 98,0 98,0 99,0 98,4 98,4 98,4 98,4 98,6 98,6 98,8 98,6 97,0 97,0 98,8 97,6 97,7 98,8 98,0 98,0 98,3 98,5 97,3 98,7 97,4 98,9 98,6 99,5 97,5 97,3 97,6 98,2 99,6 98,7 99,4 98,2 98,0 98,6 98,6 97,2 98,4 98,6 98,2 98,0 97,8 98,0 98,4 98,6 98,6 97,8 99,0 96,5 97,6 98,0 96,9 97,6 97,1 97,9 98,4 97,3 98,0 97,5 97,6 98,2 98,5 98,8 98,7 97,8 98,0 97,1 97,4 99,4 98,4 98,6 98,4 98,5 98,6 98,3 98,7 98,8 99,1 98,6 97,9 98,8 98,0 98,7 98,5 98,9 98,4 98,6 97,1 97,9 98,8 98,7 97,6 98,2 99,2 97,8 98,0 98,4 97,8 98,4 97,4 98,0 97,0 Com base nesses dados, podemos utilizar o estimador x para concluir que a estimativa da temperatura média do corpo de todos os adultos sadios é 98,20ºF. A média amostral é o melhor estimador de uma média populacional. Há duas razões para este fato: 1) Para muitas populações, a distribuição de médias x tende a ser mais consistente (apresentar menor variação) do que as distribuições de outras estatísticas amostrais. (Isto é, se utilizarmos médias amostrais para estimar a média populacional µ, essas médias amostrais terão menor desvio-padrão do que as outras estatísticas amostrais, tais como a mediana ou a moda). 2) Para todas as populações, dizemos que a média amostral x é um estimador não-tendencioso da média populacional µ, o que significa que a distribuição de médias amostrais tende a centrar-se em torno da média populacional µ. 2 Por essas razões, utilizaremos a média amostral x como a melhor estimativa da média populacional µ. Como a média amostral x é um valor único que corresponde a um ponto na escala numérica, ela é chamada de estimativa pontual. Uma estimativa pontual é um valor (ou ponto) único usado para aproximar um parâmetro populacional. Exemplo 2: Com a amostra de temperaturas do exemplo 1, determine a melhor estimativa pontual da média populacional µ das temperaturas de todos os corpos. Solução: A média amostral é a melhor estimativa pontual da média populacional, e para os dados do exemplo 1, temos x =98,20ºF. Com base nesses dados amostrais particulares, a melhor estimativa pontual da média populacional de todas as temperaturas é, pois, 98,20ºF. Ao determinar uma estimativa pontual não temos qualquer indicação sobre quão boa é essa estimativa. Dessa forma os estatísticos desenvolveram outro tipo de estimativa (estimativa intervalar ou intervalo de confiança) que, efetivamente, indica quão boa é uma estimativa pontual. Um intervalo de confiança (ou estimativa intervalar) é uma amplitude (ou um intervalo) de valores que tem probabilidade de conter o verdadeiro valor da população. Um intervalo de confiança está associado a um grau de confiança que é uma medida da nossa certeza de que o intervalo contém o parâmetro populacional. O grau de confiança (ou nível de confiança, ou coeficiente de confiança) é a probabilidade 1-α de o intervalo de confiança conter o verdadeiro valor do parâmetro populacional. São escolhas comuns para o grau de confiança: 90% (α=0,10), 95% (α=0,05), e 99% (α=0,01). Pelo Teorema Central do Limite, sabemos que as médias amostrais tendem a distribuir-se normalmente (como na figura 1). As médias amostrais apresentam uma chance relativamente pequena de estar em uma das caudas extremas da figura 1. Denotando por α/2 a área sombreada de cada cauda, vemos que há uma probabilidade total α de a média amostral estar em uma das caudas. Pela regra do complemento, há uma probabilidade 1- α de uma média amostral estar na região não sombreada da figura 1. O escore z que separa a região da cauda direita é denotado comumente por zα/2, e é chamado valor crítico porque separa as médias amostrais possíveis de ocorrerem, das médias amostrais que provavelmente não ocorrerão. 3 Exemplo 3: Ache o valor crítico zα/2 correspondente a um grau de confiança de 95%. Solução: Um grau de confiança de 95% corresponde a α = 0,05. Dessa forma, a área sombreada em cada cauda é α/2=0,025. Obtemos zα/2 =1,96, notando que a região à sua direita (e delimitada pela média z=0) deve ser 0,5-0,025=0,475. Quando coletamos um conjunto de dados amostrais podemos calcular a média amostral x , mas essa média é diferente da média populacional µ. A margem de erro (E) é a diferença máxima provável (com probabilidade 1- α) entre a média amostral observada e a verdadeira média populacional e é dada por: n zE 2/ σ⋅= α E se não conhecemos o valor do desvio-padrão populacional? Se n>30, podemos substituir σ pelo desvio-padrão amostral s. Se n≤30, a população deve ter distribuição normal, e devemos conhecer σ. Intervalo de confiança (ou estimativa intervalar) para a média populacional com base em grandes amostras: n zEondeExEx 2/ σ⋅=+<µ<− α Exemplo 4: Para as temperaturas do exemplo 1, temos x =98,20 e s=0,62. Para um grau de confiança de 0,95, determine: a) A margem de erro E b) O intervalo de confiança para µ Solução: a) Sabemos que α = 0,05. Assim, zα/2 =1,96. O desvio-padrão populacional é desconhecido, mas n>30. Dessa forma, podemos utilizar o desvio-padrão amostral s. 12,0 106 62,096,1 n zE 2/ =⋅=σ⋅= α b) Como x =98,20 e E=0,12, o intervalo de confiança é: 32,9808,98 12,020,9212,020,92 ExEx <µ< +<µ<− +<µ<− OBS: É incorreto afirmar que µ tem 95% de chance de estar entre os limites específicos de 98,08 e 98,32, porque µ é uma constante, e não uma variável aleatória. Ou µ está entre esses limites, ou não está; não há qualquer probabilidade em jogo. É correto dizermos que, a longo prazo, esses métodos darão intervalos de confiança que conterão µ em 95% dos casos. 4 Determinação do Tamanho da Amostra Em muitos casos é possível determinar o tamanho mínimo de uma amostra para estimar determinado parâmetro, como a média populacional. O tamanho da amostra para estimar µ pode ser calculado como se segue: 2 2/ E z n ⎥⎦ ⎤⎢⎣ ⎡ σ⋅= α OBS: O valor de n deve ser arredondado sempre para o próximo inteiro maior. Exemplo 5: Um economista deseja estimar a renda média para o primeiro ano de trabalho de um bacharel por uma faculdade, que teve a feliz idéia de fazer um curso de estatística. Quantos valores de renda devem ser tomados, se o economista deseja ter 95% de confiança em que a média amostral esteja a menos de R$500,00 da verdadeira média populacional? Suponha que saibamos, por um estudo prévio, que, para tais rendas, σ=R$6250,00. Solução: Dado que α=0,05 (95% de confiança) de forma que zα/2 =1,96, E=500 e σ=6250, temos: 60125,600 500 625096,1 E z n 22 2/ ==⎥⎦ ⎤⎢⎣ ⎡ ⋅=⎥⎦ ⎤⎢⎣ ⎡ σ⋅= α E se σ não for conhecido? Nesse caso, devemos utilizar um valor preliminar obtido por processos como os que se seguem: 1) Utilizar a regra prática para estimar o desvio-padrão da seguinte maneira: σ ≈ amplitude/4. 2) Realizar um estudo piloto, iniciando o processo de amostragem. Com base na primeira coleção de pelo menos 31 valores amostraisselecionados aleatoriamente, calcular o desvio-padrão amostral s e utilizá-lo em lugar de σ. Esse valor pode ser refinado com a obtenção de mais dados amostrais. Exemplo 6: Deseja-se estimar o preço médio de venda de um livro-texto para uma faculdade. Quantos exemplares devemos selecionar, para termos 95% de confiança de que a média amostral esteja a menos de R$2,00 da verdadeira média populacional? Solução: Sabemos que α=0,05 (95% de confiança), de forma que zα/2 =1,96 e E=2. Não conhecemos o desvio-padrão populacional, mas podemos estimá-lo. Admitindo que os preços dos livros típicos de faculdade variem de R$10,00 a R$90,00, tem-se uma amplitude de R$80,00, de modo que: 20 4 )1090( 4 amplitude =−=≈σ Dessa forma, 38516,384 2 2096,1 E z n 22 2/ ==⎥⎦ ⎤⎢⎣ ⎡ ⋅=⎥⎦ ⎤⎢⎣ ⎡ σ⋅= α 5 Exemplo 7: Se queremos estimar o peso médio do plástico descartado por residências em uma semana, quantas residências devemos selecionar aleatoriamente para termos 99% de confiança em que a média amostral esteja a menos de 0,250 lb da verdadeira média populacional? Solução: Sabemos que α=0,01 (99% de confiança), de forma que zα/2 =2,575 e E=0,250. Não conhecemos o desvio-padrão populacional, mas podemos fazer um estudo piloto. Realizando esse estudo com 62 residências, calculamos o valor do desvio-padrão amostral, obtendo s=1,065 lb. Como a amostra é grande (n>30), podemos utilizar s no lugar de σ. 1213,120 250,0 065,1575,2 E z n 22 2/ ==⎥⎦ ⎤⎢⎣ ⎡ ⋅=⎥⎦ ⎤⎢⎣ ⎡ σ⋅= α Estimativa de uma média populacional: pequenas amostras No caso de pequenas amostras, a média amostral x é, em geral, a melhor estimativa pontual da média populacional µ. Podem-se construir intervalos de confiança para pequenas amostras utilizando- se a distribuição normal com mesma margem de erro das amostras grandes, desde que a população original tenha distribuição normal e que se conheça o desvio-padrão populacional. No caso de uma amostra pequena com distribuição normal mas σ desconhecido, podemos utilizar a distribuição t de Student. A Distribuição t de Student Se a distribuição de uma população é essencialmente normal (com a forma aproximadamente de um sino), então a distribuição de n s xt µ−= é essencialmente uma distribuição t de Student (ou distribuição t) para todas as amostras de tamanho n. Essa distribuição é utilizada na determinação de valores críticos denotados por tα/2. Um conceito importante a ser definido para a utilização da distribuição t é o de graus de liberdade. O número de graus de liberdade para um conjunto de dados corresponde ao número de valores que podem variar após terem sido impostas certas restrições a todos os valores. Por exemplo, se 10 estudantes têm em um teste notas com média 80, podemos atribuir valores arbitrários a 9 delas, mas a última fica determinada univocamente. Como as 9 primeiras notas podem ser escolhidas arbitrariamente, dizemos que há 9 graus de liberdade. Por enquanto, utilizaremos a seguinte relação: graus de liberdade=n-1 6 A tabela de distribuição t relaciona os valores da distribuição t juntamente com áreas denotadas por α. Condições para utilização da distribuição t de Student 1) O tamanho da amostra é pequeno (n≤30); e 2) σ é desconhecido; e 3) A população original tem distribuição essencialmente normal. Margem de erro para a estimativa de µ com base em uma amostra pequena e σ desconhecido liberdadedegrausntemtonde n stE 12/2/ −= αα Intervalo de confiança para a estimativa de µ com base em uma amostra pequena e σ desconhecido ExEx +<<− µ Exemplo 8: Com um teste destrutivo, as amostras são destruídas no processo. O teste de colisão de carros é um exemplo muito dispendioso de teste destrutivo. Se o você fosse responsável por tais testes de colisão, dificilmente convenceria seu chefe da necessidade de fazer colidir e destruir mais de 30 carros, a fim de utilizar uma distribuição normal. Suponha que tenhamos feito um teste de colisão em 12 carros esporte Dodge Viper (preço de venda atual: $59300,00) sob uma diversidade de condições que simulam colisões típicas. A análise dos 12 carros danificados resulta em custos de conserto que parecem ter distribuição em forma de sino com média x = $26.227 e desvio-padrão s = $15.873 (com base em dados do Highway Loss Data Institute). Determine: a) A melhor estimativa pontual de µ, o custo médio de conserto de todos os Dodge Vipers envolvidos em colisões. b) A estimativa intervalar de 95% de µ. Solução: a) A melhor estimativa pontual de µ é o valor de x . Nesse caso, a melhor estimativa pontual de µ é $26.227. b) Utilizaremos a distribuição t porque as três condições descritas anteriormente são satisfeitas. O valor tα/2 é obtido na tabela de distribuição t na interseção da coluna rotulada “0,05 bilateral” (95% de confiança) com a linha correspondente a 11 graus de liberdade (n-1=11). Assim, tα/2 é 2,201. A margem de erro é: 29,085.10 12 15873201,22/ === n stE α Dessa forma, a estimativa intervalar é: ExEx +<<− µ 26.227-10.085,29< µ<26.227+10.085,29 $16.142< µ<$36.312 7 Estimativa de uma proporção populacional Notação para proporção: ntamanhodeamostraumaemsucessosxdeamostralproporção n xpˆ alpopulacion proporçãop = = Estimativa pontual: A proporção amostral pˆ é a melhor estimativa pontual da proporção populacional p. OBS: Utilizamos pˆ como estimativa pontual de p assim como usamos x como estimativa pontual de µ. Margem de erro da estimativa de p: n qˆpˆzE /2α= Intervalo de confiança (ou estimativa intervalar) para a proporção populacional p: EpˆpE-pˆ +<< Exemplo 9: Os pesquisadores de opinião são atormentados por uma diversidade de fatores de confusão, como secretárias eletrônicas. Em uma pesquisa junto a 1068 americanos, 673 informaram ter secretária eletrônica (com base em dados da International Mass Retail Association, relatado em USA Today). Com esses resultados amostrais, determine: a) a estimativa pontual da proporção populacional de todos os americanos que têm secretária eletrônica. b) a estimativa intervalar de 95% de confiança da proporção populacional de todos os americanos que têm secretária eletrônica. Solução: a) A estimativa pontual de p é 630,0 1068 673 n xpˆ === b) Sabendo que pˆ = 0,630, qˆ =0,370 e zα/2 = 1,96 (para 95% de confiança), calculamos a margem de erro como se segue: 0290,0 1068 )370,0)(630,0(96,1 n qˆpˆzE /2 === α Agora, podemos encontrar o intervalo de confiança: 0,659p0,601 0,02900,630p0,0290-0,630 EpˆpE-pˆ << +<< +<< 8 Determinação do tamanho da amostra: Quando se conhece uma estimativa pˆ : 2 2 /2 E qˆpˆ][z n α= Quando não se conhece uma estimativa pˆ : 2 2 /2 E 25,0][z n ⋅= α A razão para substituirmos o produto qˆpˆ quando não conhecemos uma estimativa pˆ é que o valor máximo possível do produto qˆpˆ é 0,25 (veja a tabela a seguir). pˆ qˆ qˆpˆ 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,09 0,16 0,21 0,24 0,25 0,24 0,21 0,16 0,09 Exemplo 10: As companhias de seguro estão ficando preocupadas com o fato de que o número crescente de telefones celulares resulte em maior número de colisões de carros; estão, por isso, pensando em cobrar prêmios mais elevados para os motoristas que utilizam celulares. Desejamos estimar, com uma margem de erro de três pontos percentuais, a percentagem de motoristas que falam ao celular enquanto estão dirigindo. Supondo que se pretende um nível de confiança de 95% nos resultados, quantos motoristas devem ser pesquisados? a) Suponhaque tenhamos uma estimativa pˆ com base em estudo anterior, que mostrou que 18% dos motoristas falam ao celular (com base em dados da revista Prevention). b) Suponha que não tenhamos qualquer informação que possa sugerir um valor de pˆ . Solução: a) Sabendo que pˆ =0,18, qˆ =0,82, zα/2 = 1,96 (para 95% de confiança) e E=0,03 (3 pontos percentuais), n pode ser calculado como se segue: 6310224,630 )03,0( )82,0)(18,0()96,1( E qˆpˆ][z n 2 2 2 2 /2 ==== α 9 b) Tal como na parte (a), utilizamos zα/2 = 1,96 e E=0,03. Como não temos conhecimento prévio de pˆ , devemos calcular n como se segue: 10681111,1067 )03,0( 25,0)96,1( E 25,0][z n 2 2 2 2 /2 ==⋅=⋅= α Estimativa de uma variância populacional Em muitas situações reais, como o controle de qualidade em processos de fabricação, devemos estimar valores de variâncias ou desvios-padrão populacionais. Além de medidas que apresentem uma média desejada, o fabricante deve produzir artigos de qualidade consistente, que não variem de extremamente bons a extremamente maus. Essa consistência pode ser geralmente avaliada pela variância ou pelo desvio-padrão, que são, assim, estatísticas vitais para a manutenção da qualidade de produtos. Suposição: Vimos que para a estimativa de uma média populacional, bastava que os dados tivessem uma distribuição aproximadamente em forma de sino. Já no caso de uma estimativa de uma variância ou de um desvio-padrão populacional a população deve ter seus valores distribuídos normalmente. Ao calcular variâncias com os métodos que iremos estudar a seguir, a utilização de populações com distribuições muito não-normais pode levar a erros sérios. A distribuição qui-quadrado Em uma população distribuída normalmente com variância σ2, escolhemos aleatoriamente amostras independentes de tamanho n e calculamos a variância amostral s2 para cada amostra. A estatística amostral χ2 tem uma distribuição chamada distribuição qui-quadrado. 2 2 2 s)1n( σ −=χ Para achar valores críticos da distribuição qui-quadrado, recorremos à tabela de distribuição qui-quadrado. Essa distribuição é determinada pelo número de graus de liberdade. Por enquanto utilizaremos n-1 graus de liberdade. OBS: Cada valor crítico de χ2 corresponde a uma área dada na linha superior da tabela, e essa área representa a região total localizada à direita do valor crítico. Exemplo 11: Determine os valores críticos de χ2 que definem regiões críticas contendo uma área de 0,025 em cada cauda. Suponha que o tamanho da amostra seja 10, de modo que o número de graus de liberdade é 10 - 1= 9. Solução: Para o valor crítico à direita, localiza-se na tabela de distribuição qui- quadrado 9 na coluna de graus de liberdade e 0,025 na parte superior. O valor encontrado para χ2 é 19,023. Para o valor crítico à esquerda, localiza-se na 10 tabela de distribuição qui-quadrado 9 na coluna de graus de liberdade e 0,975 na parte superior. O valor encontrado para χ2 é 2,700. Estimadores de σ2 A variância amostral s2 é a melhor estimativa pontual da variância populacional σ2. Como s2 é a melhor estimativa pontual de σ2, seria natural esperarmos que s fosse a melhor estimativa pontual de σ, mas isso não ocorre, porque s é um estimador tendencioso de σ. Entretanto, se o tamanho da amostra é grande, a tendenciosidade é tão pequena que podemos utilizar s como uma estimativa razoavelmente boa de σ. Intervalo de confiança ou estimativa intervalar para a variância populacional σ2 2 L 2 2 2 R 2 s)1n(s)1n( χ −<σ<χ − Intervalo de confiança ou estimativa intervalar para o desvio-padrão populacional σ 2 L 2 2 R 2 s)1n(s)1n( χ −<σ<χ − Com uma área total α dividida igualmente entre as duas extremidades de uma distribuição qui-quadrado, χ2L denota o valor crítico da extrema esquerda e χ2R denota o valor crítico da extrema direita. Exemplo 12: A confeitaria Hudson Valley fabrica sonhos que são embalados em pacotes com a indicação de que há 12 sonhos pesando um total de 42 oz. Se a variação entre os sonhos é muito grande, algumas caixas terão peso a menos (prejudicando o consumidor) e outras terão peso a mais (diminuindo o lucro). O supervisor de controle de qualidade constatou que esses problemas podem ser evitados se os sonhos tiverem um peso médio de 3,50 oz e um desvio-padrão de 0,06 oz ou menos. Selecionam-se aleatoriamente, na linha de produção, 12 sonhos, que são pesados, dando os resultados a seguir. Construa dois intervalos de confiança de 95%, um para σ2 e outro para σ, e determine se o supervisor de controle está com problemas. 3,58 3,50 3,68 3,61 3,42 3,52 3,66 3,50 3,36 3,42 3,38 3,42 Solução: Com base nos dados amostrais, a média amostral é 3,504 parece satisfatória, pois está muito próxima do valor desejado de 3,50 oz. Os valores 11 dados acusam um desvio-padrão s=0-109, superior ao valor desejado de 0,06 ou menos. Passemos à construção do intervalo de confiança para σ2. Com uma amostra de 12 valores, temos 11 graus de liberdade. Com um grau de confiança de 95%, dividimos α=0,05 igualmente entre as duas caudas da distribuição χ2 e localizamos os valores 0,975 e 0,025 na linha superior. Os valores críticos χ2L e χ2R são, respectivamente, 3,816 e 21,920. Sendo s=0,109 temos: 034,0006,0 816,3 )109,0)(112( 920,21 )109,0)(112(s)1n(s)1n( 2222 2 L 2 2 2 R 2 <σ<⇒−<σ<−⇒χ −<σ<χ − Tomando a raiz quadrada de cada membro (antes de arredondar), vem 185,0077,0 <σ< . Com base no intervalo de confiança de 95%, parece que o desvio-padrão é superior ao valor desejado de 0,06 oz; sugere assim um problema para o supervisor de controle. Determinação do tamanho da amostra Para achar o tamanho da amostra necessário para estimar a variância populacional iremos utilizar a tabela a seguir. Tamanho de amostra para σ2 Tamanho de amostra para σ Para estarmos 95% confiantes de que s2 esteja a menos do valor de do valor de σ2, o tamanho n da amostra deve ser no mínimo Para estarmos 95% confiantes de que s esteja a menos do valor de do valor de σ, o tamanho n da amostra deve ser pelo menos 1% 5% 10% 20% 30% 40% 50% 77.207 3.148 805 210 97 56 37 1% 5% 10% 20% 30% 40% 50% 19.204 767 191 47 20 11 7 Para estarmos 99% confiantes de que s2 esteja a menos do valor de do valor de σ2, o tamanho n da amostra deve ser no mínimo Para estarmos 99% confiantes de que s esteja a menos do valor de do valor de σ, o tamanho n da amostra deve ser pelo menos 1% 5% 10% 20% 30% 40% 50% 133.448 5.457 1.401 368 171 100 67 1% 5% 10% 20% 30% 40% 50% 33.218 1.335 335 84 37 21 13 Exemplo: Com 95% de confiança, queremos estimar σ a menos de 10%. Qual deve ser o tamanho da amostra? Admita que a população tenha distribuição normal. Solução: Pela tabela acima, vemos que 95% de confiança e um erro de 10% para σ correspondem a um tamanho amostral de 191.
Compartilhar