Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estimação de Parâmetros V03 SUMÁRIO 1. INTRODUÇÃO ............................................................................................................. 3 2. DISTRIBUIÇÃO AMOSTRAL E TEOREMA CENTRAL DO LIMITE ........................................ 5 2.1 Distribuição da média amostral .................................................................................. 5 2.2 Distribuição da proporção amostral ........................................................................... 9 3. ESTIMAÇÃO DE PARÂMETROS .................................................................................. 11 3.1 Estimativa Pontual e Intervalar ................................................................................. 11 3.2 Intervalo de confiança para média populacional ...................................................... 12 3.2.1 Intervalo de confiança para média – CASO 1..................................................... 12 3.2.2 Intervalo de confiança para média – CASO 2..................................................... 16 3.2.3 Distribuição t de Student ................................................................................... 17 3.2.4 Cálculo do tamanho da amostra ........................................................................ 20 3.3 Intervalo de confiança para proporção populacional ............................................... 21 3.3.1 Intervalo de confiança para proporção populacional ........................................ 21 3.3.2 Cálculo do tamanho da amostra ........................................................................ 23 3.3 Guias para construção de intervalo de confiança ..................................................... 24 4. ANEXO ..................................................................................................................... 25 Estimação de Parâmetros PUC Minas prof. José Aguinaldo 3 1. Introdução Na estatística é muito comum utilizar os resultados de amostras visando tirar conclusões sobre os valores desconhecidos das características da população, que são denominados de parâmetros populacionais. Para garantir que estas conclusões sejam válidas é necessário trabalhar com uma amostra que seja representativa, ou seja, que apresente um alto grau de similaridade com a população em estudo, e isto é obtido utilizando métodos de seleção que sejam imparciais na hora de escolher os elementos que irão compor a amostra. Tendo em mãos uma amostra representativa, o pesquisador usa alguns procedimentos estatísticos para fazer inferências a respeito dos parâmetros da população. Por exemplo, suponha que um pesquisador esteja interessado em traçar o perfil das pessoas que moram em uma certa região. A população alvo foi definida como todas as pessoas entre 14 e 75 anos que residem nesta região. Uma das características que interessa o pesquisador é o tempo médio que as pessoas ficam navegando na Internet por semana e a proporção de pessoas que consideram a Internet como o meio de entretenimento mais importante que a TV. Esta média e esta proporção seriam os parâmetros da população de interesse do pesquisador. Parâmetro – É uma medida numérica que descreve uma característica da população. Tal medida poderia ser uma média, mediana, variância ou proporção que seriam calculados usando todos os elementos da população. Estatística – É uma medida numérica que descreve uma característica da amostra. A diferença em relação ao parâmetro, é que na estatística usamos apenas os elementos que estão na amostra. Para obter as respostas desejadas, o pesquisador poderia pensar em fazer um censo com as pessoas desta região, ou seja, poderia fazer um estudo com todas as pessoas que fazem parte desta população-alvo. Assim, ele obteria o valor “real” do tempo médio navegando na Internet e o valor “real” da proporção de pessoas que preferem a Internet à TV. Esta solução, seria a ideal, mas ela é demorada e cara. Outra solução mais barata e mais rápida seria escolher uma amostra representativa da população-alvo e calcular a média e a proporção nesta amostra. Estes resultados seriam, estimativas dos parâmetros de interesse, podendo ser projetados para toda a população. Estimação de Parâmetros PUC Minas prof. José Aguinaldo 4 Na Figura 1 abaixo, ilustramos os conceitos vistos até o momento. Na figura, vemos que a população tem N = 200 mil pessoas e que uma amostra de n = 1200 pessoas foi selecionada. Os parâmetros de interesses são o tempo médio navegando na Internet () e a proporção de pessoas que preferem a Internet à TV (p) Com base na amostra foram obtidas as estimativas x = 21 horas e p̂ = 80%. Figura 1 – Ilustração dos conceitos básicos Estimação de Parâmetros PUC Minas prof. José Aguinaldo 5 2. Distribuição amostral e Teorema Central do Limite Na estimação da média de uma população, a média de uma amostra serve como boa aproximação, entretanto é de se esperar que a média amostral nem sempre seja igual a média da população e que amostras diferentes teriam médias amostrais diferentes. No processo de estimação de parâmetros, é necessário entender incialmente o comportamento da estatística utilizada como estimativa do parâmetro. Ou seja, é necessário modelar o seu comportamento por meio de uma distribuição de probabilidade. 2.1 Distribuição da média amostral Como exemplo didático, vamos considerar o exemplo de lançamento de um dado honesto. A tabela e o gráfico abaixo mostram a distribuição de probabilidade da variável x = “valor da face voltada para cima”. Distribuição de probabilidade de X x 1 2 3 4 5 6 f(x) 1/6 1/6 1/6 1/6 1/6 1/6 O valor esperado (ou seja, a média) de X é 𝐸(𝑋) = 𝜇 = ∑[𝑥∙𝑓(𝑥) ] = 1*(1/6) + 2*(1/6) + ... + 6*(1/6) = 3,5 Quando lançamos o dado mais de uma vez e calculamos a média das faces obtidas, vamos observar que a distribuição das médias se aproxima de distribuição em forma de sino (distribuição normal). Veja na figura ao lado, onde temos a distribuição da pontuação média obtida com o lançamento de duas, três, cinco e dez vezes o dado. f(x) 1/6 (d) Cinco dados (b) Dois dados (c) Três dados média ( ) média ( ) média ( ) (e) Dez dados média ( ) Estimação de Parâmetros PUC Minas prof. José Aguinaldo 6 Na figura logo abaixo, temos um outro exemplo ilustrando a ideia da distribuição amostral das médias ( x ). Notem que a população é muito assimétrica à direita, mas as médias têm distribuição aproximadamente normal à medida que aumentamos o tamanho da amostra (n). TEOREMA CENTRAL DO LIMITE - TCL Se X1, X2, ..., Xn é uma amostra de n elementos retirados de uma população com média e desvio-padrão , a média da amostra ( x ) terá uma distribuição aproximadamente normal com média e desvio-padrão n para grandes amostras (n ≥ 30) RESUMINDO: Se a população é normalmente distribuída ou 𝑛 ≥ 30 (grandes amostras), temos: �̅� ~ 𝑛𝑜𝑟𝑚𝑎𝑙 (𝜇 ; 𝜎 √𝑛 ) … … … … … … . (1) Onde, 𝜇�̅� = 𝜇 Média das médias amostrais 𝜎�̅� = 𝜎 √𝑛 Desvio-padrão das médias amostrais, denominada de erro-padrão da média. Comentários ▪ Se a população já tiver uma distribuição normal, então a média amostral também terá uma distribuição normal de forma exata. ▪ Em alguns casos, mesmo com amostras menores do que 30, podemos ainda usar satisfatoriamente os resultados do Teorema Central do Limite, desde que a distribuição da Estimação de Parâmetros PUC Minas prof. José Aguinaldo 7 população não seja muito diferente da normal e que não tenha outliers (valores atípicos) na amostra. ▪ O desvio-padrão x é usado para “medir” a extensão da variabilidade esperada das médias amostraisem torno da média populacional. Veja as duas situações abaixo: (i) Se 𝜎�̅� for pequeno, há uma boa chance de a média amostral ( x ) estar próxima da média da população (). (ii) Se 𝜎�̅� for grande, é mais provável que obtenhamos uma média amostral consideravelmente diferente da média da população (). No caso de usar a média amostral x como estimativa de , teremos uma estimativa muito precisa na situação (i) ou uma estimativa pouco precisa na situação (ii) ▪ A fórmula do desvio-padrão 𝜎�̅� = 𝜎/√𝑛 é válida para o caso da população N ser infinita ou se a amostra foi realizada com reposição. ▪ Se o tamanho da população for finito e conhecido e a amostra for maior que 5% da população (n ≥ 0,05·N), então “sugere-se” usar o fator de correção de população finita √(𝑁 − 𝑛)/(𝑁 − 1). Assim, o desvio-padrão das médias passa a ser: 𝜎�̅� = 𝜎 √𝑛 √ 𝑁 − 𝑛 𝑁 − 1 EXEMPLO 01 - A duração da gravidez das mulheres gestantes tem distribuição aproximadamente normal com média de 268 dias e desvio-padrão de 15 dias. a) Selecionada aleatoriamente uma mulher grávida, determine a probabilidade de a sua gravidez durar menos de 260 dias. Ou seja, determine )260X(P ; b) Selecionada aleatoriamente uma amostra de n = 25 mulheres gestantes, determine a probabilidade de que a duração média da gravidez ( x ) dessas mulheres: (i) Seja inferior a 260 dias, ou seja, determine a probabilidade 𝑃(�̅� < 260). Isso é raro de acontecer? (ii) Seja superior a 270 dias, ou seja, determine probabilidade 𝑃(�̅� > 270). Isso é raro de acontecer? c) Suponha que um médico do hospital notou o período médio da gravidez para uma amostra de 25 mulheres gestantes foi menor que 260 dias? Há motivos para o médico se preocupar com isto? Justifique sua resposta. Solução ----------------------------------------------------------------------------------------------------------------- a) Como é apenas uma mulher, então não precisamos dos resultados do Teorema Central do Limite. 260XP = 15 268260 ZP = 53,0ZP = 0,5 – 0,2019 = 0,2981 (29,81%) Estimação de Parâmetros PUC Minas prof. José Aguinaldo 8 b) Como estamos trabalhando com uma amostra de 25 mulheres, temos que usar os resultados do Teorema Central do Limite para a média amostral �̅� A distribuição de probabilidade da média X será normal com média 𝜇𝑋 = 268 e desvio-padrão 𝜎�̅� = 15 √25 . Para usar a tabela normal padrão devemos fazer a padronização de x 𝑍 = �̅� − 𝜇𝑋 𝜎�̅� = �̅� − 268 15/√25 Comentário: Veja que neste exemplo o tamanho da amostra foi menor que 30 e ainda assim usamos o resultado do TCL. Isto foi possível, pois o tempo de gestação já segue a distribuição normal (veja o enunciado do problema) (i) 260XP = 2515 268260 ZP = 67,2ZP = 0,5 – 0,4962 = 0,0038 (0,38%) Como a probabilidade 0,0038 é muito pequena (apenas 0,38% de chance de acontecer), podemos dizer que é raro uma amostra de 25 mulheres gestantes ter um período médio de gestação menor que 260 dias. (ii) 270XP = 2515 268270 ZP = 67,0ZP = 0,5 – 0,2486 = 0,2514 (25,14%). Como a probabilidade 0,2514 não é pequena (25,14% de chance de acontecer), podemos dizer que é comum uma amostra de 25 mulheres gestantes ter um período médio de gestação maior que 270 dias. c) Ele deveria ficar preocupado, pois este fato é muito raro, como foi visto no item (i) de (b) Estimação de Parâmetros PUC Minas prof. José Aguinaldo 9 2.2 Distribuição da proporção amostral Podemos também usar o Teorema Central do Limite para obter a distribuição amostral da proporção de sucesso na amostra, que será denotado por p̂ (leia-se, p chapéu). Se X1, X2, ..., Xn é uma amostra de n elementos retirados de uma população com proporção de sucessos na população igual a p, a distribuição de probabilidade da proporção de sucessos na amostra ( p̂ ), segue a distribuição normal com média p e desvio-padrão √𝑝(1 − 𝑝)/𝑛 desde que as condições abaixo sejam satisfeitas nº de sucessos = 𝑛 ∙ �̂� > 5 nº de fracassos = 𝑛 ∙ (1 − �̂�) > 5 RESUMINDO: Se as condições forem satisfeitas, temos: �̂� ~ 𝑛𝑜𝑟𝑚𝑎𝑙 (𝑝 ; √ 𝑝(1 − 𝑝) 𝑛 ) … … … … … . (2) Onde, 𝜇𝑝 = 𝑝 Média das proporções amostrais 𝜎𝑝 = √ 𝑝(1 − 𝑝) 𝑛 Desvio-padrão das proporções amostrais, denominada de erro- padrão da proporção. Comentários ▪ Se o tamanho da população for finito e conhecido e a amostra for maior que 5% da população (n ≥ 0,05·N), então o desvio-padrão p̂ deverá ser corrigida usando o fator de correção de população finita. 𝜎𝑝 = √ 𝑝(1 − 𝑝) 𝑛 √ 𝑁 − 𝑛 𝑁 − 1 Estimação de Parâmetros PUC Minas prof. José Aguinaldo 10 EXEMPLO 02 - Em uma pequena cidade, 20% das famílias vivem abaixo da linha da pobreza segundo dados do último censo. a) Se 50 famílias forem selecionadas aleatoriamente, determine a probabilidade de a proporção de famílias vivendo abaixo da linha de pobreza nessa amostra ser maior que 30%. b) Se 50 famílias forem selecionadas aleatoriamente, determine a probabilidade de a proporção de famílias vivendo abaixo da linha de pobreza nessa amostra estar no intervalo de 15% a 25%. c) Se 50 famílias forem selecionadas aleatoriamente, determine a probabilidade do número de famílias vivendo abaixo da linha de pobreza nessa amostra ser no mínimo 6 famílias Solução ----------------------------------------------------------------------------------------------------------------- Verificando as condições np 5 e n(1-p) 5 são satisfeitas 51020,050pn ok 54080,050qn ok Então: �̂� ~ 𝑛𝑜𝑟𝑚𝑎𝑙 (𝑝 ; √ 𝑝(1 − 𝑝) 𝑛 ) → �̂� ~ 𝑛𝑜𝑟𝑚𝑎𝑙 (0,2 ; √ 0,2 ∙ 0,8 50 ) = (0,2 ; √0,0032) a) 𝑃(𝑝𝑟𝑜𝑝𝑜𝑟çã𝑜 ≥ 0,30) = 0032,0 20,030,0 ZP = 77,1ZP = 0,5 – 0,4616 = 0,0384 (3,84%) b) 𝑃(0,15 ≤ 𝑝𝑟𝑜𝑝𝑜𝑟çã𝑜 ≤ 0,25) = 0032,0 20,025,0 Z 0032,0 20,015,0 P = )88,0Z88,0(P = 0,3106 + 0,3106 = 0,6212 (62,12%) c) Seis famílias em 50 corresponde a 12% do total da amostra. Então, vamos calcular a probabilidade da proporção amostral ser no mínimo 12%. 𝑃(𝑝𝑟𝑜𝑝𝑜𝑟çã𝑜 ≥ 0,12) = 0032,0 20,012,0 ZP = 41,1ZP = 0,5 + 0,4207 = 0,9207 Estimação de Parâmetros PUC Minas prof. José Aguinaldo 11 3. Estimação de parâmetros 3.1 Estimativa Pontual e Intervalar As estatísticas (21 horas e 80%) mostradas na Figura 1 da página 4 são consideradas “boas” estimativas dos parâmetros de interesse. Estas estimativas são chamadas de estimativas pontuais, pois elas usam apenas um único valor para estimar os parâmetros. Outra forma é usar um intervalo de valores para estimar o parâmetro. No caso da média do tempo navegando na Internet, poderíamos estimá-la usando o intervalo de 18 a 22 horas, por exemplo. Esta estimativa é denominada de estimativa intervalar. O quadro abaixo mostra a diferença entre a estimativa pontual e intervalar. Parâmetro populacional Estimativa pontual* Estimativa Intervalar* Média populacional () = “Renda média per capita dos habitantes de uma cidade” é estimado em $ 2.500,00 está no intervalo de [$ 3.000 ; $ 3.500] Proporção populacional (p) p = “Proporção de peças com defeito em uma linha de produção” p é estimado em 8% p está no intervalo [6% ; 10%] Desvio-padrão populacional () p = “Desvio-padrãodo tempo útil de vida da lâmpada de marca X” é estimado em 500 horas está no intervalo [300 ; 800] horas * Os valores aqui apresentados são hipotéticos Levando em consideração a distribuição de probabilidade da média amostral, podemos associar à estimativa intervalar um nível de confiança que descreve o quanto acreditamos que o intervalo esteja estimando corretamente o verdadeiro valor do parâmetro da população. Esta estimativa intervalar associada com o nível de confiança é denominada de Intervalo de Confiança para o parâmetro. Se, por exemplo, o intervalo de confiança de 95% para estimar a média populacional for [19; 23], podemos concluir que temos 95% de certeza de que o intervalo obtido inclui a verdadeira média populacional. Nas seções seguintes serão mostradas as formas de se construir intervalos de confianças e como devemos calcular o tamanho da amostra necessário para estimação dos parâmetros. Estimação de Parâmetros PUC Minas prof. José Aguinaldo 12 3.2 Intervalo de confiança para média populacional Nas seções a seguir, vamos calcular o intervalo de confiança para estimar a média populacional, denotada pela letra grega , nas duas situações a seguir1: CASO 1: Quando usamos o desvio-padrão da população () ou n ≥ 30 (grandes amostras CASO 2: Quando usamos o desvio-padrão da amostra (s). Em qualquer situação, a fórmula do intervalo de confiança para a média da população pode ser escrita como média populacional = [estimativa pontual margem de erro] 3.2.1 Intervalo de confiança para média – CASO 1 A média populacional é o nosso parâmetro de interesse e gostaríamos de estimá-la com base nos valores de uma amostra de n elementos x1, x2, ..., xn. Intervalo de confiança de 100(1- )% para a média populacional 𝐼𝐶 = �̅� ± 𝑧𝑐 𝜎 √𝑛 Onde, • n é o tamanho da amostra. • é o desvio-padrão populacional. • 𝑧𝑐 é o valor crítico obtido da tabela normal padrão e que depende do nível de confiança desejado. Algumas vezes, é também denotado por 𝑧𝑡𝑎𝑏 ou 𝑧𝛼/2. • A média amostral ( x ) é a estimativa pontual da média populacional (), enquanto que a quantidade 𝐸 = 𝑧𝑐 𝜎 √𝑛 é a de margem de erro da estimativa. A margem de erro E, é o maior erro cometido na estimação da média populacional e seu valor depende do nível de confiança que desejamos para os resultados. Portanto, a margem de erro ao estimar a média populacional é 𝐸 = 𝑧𝑐 𝜎 √𝑛 1 Para ajudar em decidir pelo uso do Z ou do T, sugiro ver o fluxograma que está na seção 3.3. Amostra de n elementos Média amostral: n x i x População de N elementos = média populacional é conhecido Estimação de Parâmetros PUC Minas prof. José Aguinaldo 13 Como obter o valor crítico zc? Como a tabela que estamos trabalhamos é a tabela normal padrão reduzida, que é aquela que nos fornece a área no intervalo de [0 ; z], então basta procurar na tabela normal o valor crítico 𝑧𝑐 que correspondente à metade do nível de confiança (1 – ). Para entender melhor o que foi dito, observe o exemplo abaixo, onde procuramos obter o valor de 𝑧𝑐 para um nível de confiança de 90% (ou seja, 0,90). Devemos procurar “dentro” da tabela normal padrão pelo valor mais próximo da área 0,45 (= 0,90/2). Uma vez localizado, devemos ir para a 1ª linha e 1ª coluna, encontrando assim o valor crítico 𝑧𝑐 = 1,65. Valores comuns para 𝑧𝑐 Nível de confiança (1- ) zc 90% 1,65 95% 1,96 99% 2,58 Comentários (i) Se o tamanho da população (N) for finito e conhecido e a amostra for maior que 5% da população (n ≥ 0,05·N) é aconselhável incluir um fator de correção para população finita. Neste caso, a margem de erro seria calculada como: 1N nN n zE c (ii) No caso de grandes amostras (n ≥ 30), se o desvio-padrão populacional for desconhecido você pode substituí-lo pelo desvio-padrão amostral s e ainda continuar usando o CASO 1. Isto é possível, pois esperamos que ambos (s e ) sejam próximos à medida que aumentamos o tamanho da amostra. (iii) O nível de confiança (1 - ) expressa o quanto nós acreditamos no intervalo de confiança obtido. Ele é visto como a proporção das vezes que o intervalo acerta se o processo “pudesse” ser repetido um grande número de vezes. Por exemplo, se o nível de confiança for de 95%, podemos dizer que estamos 95% confiantes de que o valor real do parâmetro esteja dentro do intervalo obtido. -zc 0 +zc 0,45 0,45 Estimação de Parâmetros PUC Minas prof. José Aguinaldo 14 (iv) O (alfa) é denominado nível de significância e ele expressa o quanto podemos estar errados com o intervalo de confiança obtido. Por exemplo, se = 5% podemos dizer que 5% das vezes o intervalo não irá “cobrir’ o valor real do parâmetro. O termo “nível de significância” é muito usado em teste de hipótese, um método estatístico voltado para verificar se uma afirmação feita a respeito do valor real do parâmetro pode ser aceita ou não. (v) Alguns livros de estatística costumam pedir a construção de intervalo de confiança usando o termo “nível de significância”. Um intervalo com um nível de significância de corresponde, na realidade, a um intervalo com nível de confiança de 1 - . Por exemplo, um intervalo com um nível de significância de 3%, significa que o intervalo tem um nível de confiança de 97%. O mais comum é usar o termo “nível de confiança” na construção de intervalo de confiança. EXEMPLO 03 - Um pesquisador está interessado no tempo que as pessoas em uma cidade do país UK gastam navegando na Internet. Com base em dados históricos, o tempo segue a distribuição normal com desvio-padrão populacional igual a 6 horas. Uma amostra de 60 pessoas retirada desta cidade apresentou uma média amostral igual a 19,5 horas por semana. Com base nestas informações, responda: a) Construa (e interprete) um intervalo de confiança de 98% para o verdadeiro tempo médio de navegação na Internet. Qual foi a margem de erro na pesquisa? b) Segundo uma notícia veiculada na Internet, o tempo médio no pais UK é de 20 horas. Com base no intervalo que você obteve em “a”, há evidências o tempo médio na cidade é igual ao do país? Justifique sua resposta. Solução ------------------------------------------------------------------------------------------------------------------ a) Foi pedido a construção do intervalo de confiança. Os dados fornecidos foram: Tamanho da amostra: n = 60 pessoas Média da amostra: x = 19,5 horas Desvio-padrão populacional: = 6 horas (veja pelo problema de que se trata do desvio- padrão populacional) Vamos obter o valor de zc para 98% de confiança Intervalo de confiança de 98% para a média populacional ]30,21 ; 70,17[80,15,19 60 6 33,2 5,19 n σ z xμIC c -zc 0 +zc 0,49 0,49 Dividindo 0,98 por dois temos 0,49 de área em cada lado da média. Localizando o valor mais próximo de 0,49 “dentro” da tabela e depois indo para a 1ª coluna e 1ª linha iremos encontrar o valor crítico zc = 2,33 Estimação de Parâmetros PUC Minas prof. José Aguinaldo 15 Interpretação Estamos 98% confiantes de que a média populacional do tempo navegando na Internet na cidade está no intervalo de 17,70 horas a 21,30 horas por semana, com uma margem de erro de 1,80 hora para mais ou para menos. b) Usando o intervalo obtido, há evidências para acreditar que o tempo médio na cidade é igual ao do país UK, pois o valor de 20 horas está dentro do intervalo [17,70 ; 21,30] horas. << Incluir exemplo de população finita >> << Incluir depois o Intervalo unilateralde confiança >> Estimação de Parâmetros PUC Minas prof. José Aguinaldo 16 3.2.2 Intervalo de confiança para média – CASO 2 Neste CASO, a média populacional é o nosso parâmetro de interesse e gostaríamos de estimá- la com base em uma amostra de n elementos x1, x2, ..., xn, porém nada sabemos sobre o valor do desvio-padrão populacional 𝜎. Como não temos desvio-padrão populacional 𝜎 devemos usar, então, o desvio-padrão da amostra (s). Quando isto ocorre, a distribuição normal padrão não é mais adequada devendo usar a distribuição t de Student em seu lugar. Intervalo de confiança de 100(1- )% para a média populacional 𝐼𝐶 = �̅� ± 𝑡𝑐 𝑠 √𝑛 Onde, • n é o tamanho da amostra. • s é o desvio-padrão amostral. • 𝑡𝑐 é o valor crítico obtido da tabela t de Student com GL = n - 1 graus de liberdade e que depende do nível de confiança desejado. Algumas vezes é também denotado por 𝑡𝑡𝑎𝑏 ou 𝑡𝛼/2. • A média amostral ( x ) é a estimativa pontual da média populacional (), enquanto que a quantidade 𝐸 = 𝑡𝑐 𝑠 √𝑛 é a margem de erro. Comentários (i) No caso de grandes amostras (n ≥ 30), mesmo se o desvio-padrão populacional for desconhecido podemos substituí-lo pelo desvio-padrão da amostra (s) e ainda continuar usando o valor zc obtido da tabela normal padrão. Isto é possível, pois esperamos que ambos (s e ) sejam próximos à medida que aumentamos o tamanho da amostra. n s zE c (ii) Se o tamanho da população (N) for finito e conhecido e a amostra for maior que 5% da população (n ≥ 0,05·N) é aconselhável incluir um fator de correção para população finita. Neste caso, a margem de erro seria calculada como: 1N nN n s tE c Amostra de n elementos Média amostral: n x i x Desvio-padrão amostral: 1-n x 2 i x s População de N elementos = média populacional é desconhecido Estimação de Parâmetros PUC Minas prof. José Aguinaldo 17 3.2.3 Distribuição t de Student A distribuição t de Student foi criada por W. S. Gosset, funcionário de uma cervejaria irlandesa no início do século XX. A distribuição de Student recebeu este nome em função do pseudônimo que Gosset empregava para assinar seus trabalhos acadêmicos. Segundo se sabe, a empresa não permitia que os funcionários publicassem trabalhos em seu próprio nome. A tabela t é ligeiramente diferente para cada tamanho da amostra, o que não acontecia com a distribuição normal padrão que era única e independente do valor de n. Para pequenas amostras, a distribuição t de Student é mais sensível apresentando uma cauda mais aberta em ambos lados em relação a distribuição normal padrão (veja a figura abaixo). Para grandes amostras, no entanto, esta diferença fica menos visível e a medida que o tamanho da amostra vai aumentando mais próxima a distribuição t vai ficando da distribuição normal padrão. A tabela t de Student mostra as áreas na cauda superior (ou seja, à direita do valor crítico) para um determinado2 grau de liberdade, que será GL = n - 1. 2 Como vocês notaram a tabela t de Student não é completa. Ela só trabalha com as probabilidades mais usuais em inferência estatística. x f( x ) 43210-1-2-3-4-5 0.4 0.3 0.2 0.1 0.0 Variable Normal t-Student n = 2 x f( x ) 43210-1-2-3-4-5 0.4 0.3 0.2 0.1 0.0 Variable Normal t-Student n = 15 Comparação entre a curva normal padrão e a distribuição t de Student para n = 2 e n = 15 Estimação de Parâmetros PUC Minas prof. José Aguinaldo 18 Como olhar a tabela da distribuição t de Student? Na tabela t de Student, a primeira coluna representa os graus de liberdade (GL) e na primeira linha temos as áreas na cauda superior da curva. Como exemplo vamos encontrar o valor crítico tc para um nível de confiança de 90% e com uma amostra de n = 10 elementos. Considerando ainda o nível de confiança de 90%. Reparem que a medida que os graus de liberdade aumentam o valor tc vai se aproximando de 1,65 que o valor crítico obtido da tabela normal padrão (zc). -tc 0 +tc 0,45 0,45 Dividindo 0,90 por dois temos 0,45 de área em cada lado da média. Fazendo a subtração 0,5 – 0,45 = 0,05 (= 5%) encontramos as áreas em cada uma das duas caudas da curva ao lado. Considerando 5% na primeira linha da tabela e GL = n – 1 = 10 – 1 = 9 graus de liberdade na primeira coluna, iremos obter o valor crítico tc = 1,833. Uma outra maneira, seria: Fazendo a subtração 1 – 0,90 = 0,10 e dividindo o resultado por 2, vamos obter 0,05 (= 5%), que é a área em cada uma das duas caudas da curva ao lado. Considerando 5% na primeira linha da tabela e GL = n – 1 = 10 – 1 = 9 graus de liberdade na primeira coluna, iremos obter o valor crítico tc = 1,833. Estimação de Parâmetros PUC Minas prof. José Aguinaldo 19 EXEMPLO 04 - O responsável pelo laboratório de informática de uma escola deseja estimar o tempo médio que os alunos gastam usando o laboratório. Inicialmente ele selecionou aleatoriamente uma amostra de 12 alunos e registrou o tempo gasto por cada um deles. Os dados estão logo abaixo. Assume que o tempo de uso do laboratório segue uma distribuição aproximadamente normal. 37 36 31 25 29 32 24 30 21 42 30 41 Construa (e interprete) um intervalo de confiança de 95% para o “verdadeiro” tempo médio de uso do laboratório. Qual foi a margem de erro? Solução ------------------------------------------------------------------------------------------------------------------- Reparem que temos uma amostra pequena (n = 12) e o desvio-padrão populacional () não é conhecido. Vamos ter que usar a distribuição t de Student para construir o intervalo de confiança. Média e desvio-padrão da amostra 12 413637 n x x i =31,5 mim 112 5,31415,31365,3137x 2222 1-n x s i = 6,54 min Intervalo de 95% de confiança para a média populacional Como o tamanho da amostra é n = 12 e o nível de confiança de 95%, ao olhar em 11 graus de liberdade e 2,5%, encontramos o valor crítico tc = 2,201 n s t xIC c = 16,45,31 12 6,54 2,201 31,5 = (27,34 ; 35,66) minutos Estamos 95% confiantes de que a média populacional está no intervalo de 27,34 a 35,66 minutos, com uma margem de erro de 4,16 minutos para mais ou para menos. EXEMPLO 05 - Suponha que a escola do exemplo anterior tem um total de 1500 alunos. Construa novamente o intervalo de confiança levando em consideração o tamanho da população desta escola. Solução ------------------------------------------------------------------------------------------------------------------- 1N nN n s t xIC c = 11500 121500 12 6,54 2,201 31,5 14,45,31 = (27,36 ; 35,69) minutos O intervalo praticamente não se alterou, pois o tamanho da amostra é bem menor do que 5% da população. Estimação de Parâmetros PUC Minas prof. José Aguinaldo 20 3.2.4 Cálculo do tamanho da amostra Cálculo do tamanho mínimo de uma amostra para estimar a média da população () de forma a garantir uma margem de erro fixada em E. Para tamanho N da população desconhecida ou infinita 𝑛 = 𝑧𝑐 2𝜎2 𝐸2 Para tamanho N da população conhecido e finito 𝑛 = 𝑧𝑐 2 ∙ 𝑁 ∙ 𝜎2 𝑧𝑐 2 ∙ 𝜎2 + (𝑁 − 1)𝐸2 Comentário Uma estimativa preliminar do desvio-padrão da população poderá ser baseada no desvio- padrão amostral (s) de uma pesquisa feita anteriormente e similar à sua pesquisa ou no desvio- padrão amostral (s) de um estudo piloto. O valor crítico zc é obtido da tabela normal padrãoEXEMPLO 06 - Suponha que o responsável pelo laboratório de informática no exemplo anterior julgou a estimativa pouco precisa. Qual deveria ser o tamanho da amostra para estimar a média populacional de forma a garantir uma margem de erro de 2 minutos para mais ou para menos com uma confiança de 95% nos resultados? Como estimativa de use o desvio-padrão da amostra. Solução ------------------------------------------------------------------------------------------------------------------- No exemplo anterior s = 6,54 minutos e o tamanho da população (N) não foi informado. Então o tamanho da amostra que será necessário será 𝑛 = 𝑧𝑐 2𝜎2 𝐸2 = 1,962 ∙ 6,542 22 = 41,08 Arredondando para cima, temos n = 42 alunos. É necessária uma amostra de 42 alunos para estimar a média populacional com uma margem de erro de 2 minutos para mais ou para menos. Estimação de Parâmetros PUC Minas prof. José Aguinaldo 21 3.3 Intervalo de confiança para proporção populacional O intervalo de confiança para a proporção populacional é construído de forma similar ao da média vista na seção anterior. proporção populacional = [estimativa pontual margem de erro] 3.3.1 Intervalo de confiança para proporção populacional A proporção p de sucessos na população é o nosso parâmetro de interesse e gostaríamos de estimá-la com base em uma amostra de n elementos x1, x2, ..., xn. A proporção populacional p é a o número de elementos com a característica de interesse na população dividida pelo tamanho da população (N). O seu valor é estimado a partir da proporção amostral (denotado de p̂ ) que é a proporção de sucessos na amostra selecionada. n amostra na SUCESSOSde número p̂ O valor de p̂ é usado como estimativa pontual da verdadeira proporção populacional (p). O intervalo de confiança é obtido usando a fórmula abaixo. Intervalo de confiança de 100(1- )% para a proporção populacional p 𝐼𝐶 = �̂� ± 𝑧𝑐√ �̂�(1 − �̂�) 𝑛 Condições para uso do intervalo acima: 𝑛�̂� ≥ 5 𝑒 𝑛(1 − �̂�) ≥ 5 Onde, • N e n é o tamanho da população e da amostra, respectivamente. • 𝑧𝑐 é o valor crítico obtido da tabela normal padrão e que depende do nível de confiança desejado. Algumas vezes é também denotado por 𝑧𝑡𝑎𝑏 ou 𝑧𝛼/2. • A quantidade 𝐸 = 𝑧𝑐√�̂�(1 − �̂�)/𝑛 que é somada e subtraída é denominada de margem de erro. Amostra de n elementos Média amostral: n Sucessos# p̂ População de N elementos p = proporção populacional Estimação de Parâmetros PUC Minas prof. José Aguinaldo 22 EXEMPLO 07 - Um pesquisador está interessado na proporção de pessoas em uma cidade do país UK que preferem a Internet a TV como fonte de entretenimento. De uma amostra de 60 pessoas retirada desta cidade, 48 pessoas indicaram a Internet. Com base nestas informações, responda: a) Construa (e interprete) um intervalo de confiança de 95% para a verdadeira proporção de pessoas que preferem a Internet a TV. Qual foi a margem de erro na pesquisa? b) Segundo uma notícia veiculada em um jornal, ¾ das pessoas no país UK preferem a Internet. Com base no intervalo que você obteve em “a”, há evidências para acreditar na afirmação do jornal? Justifique sua resposta. Solução ------------------------------------------------------------------------------------------------------------------- a) Pelo enunciado temos uma amostra com n = 60 pessoas, sendo com 48 sucessos. Então a proporção amostral será 80,0 60 48 p̂ (ou 80%) Vamos obter o valor de zc para 95% de confiança Intervalo de confiança de 95% para a proporção populacional p 101,080,0 60 )8,01(8,0 800 n q̂p̂ ˆp 1,96 ,z pIC c [0,699 ; 0,901] ou [ 69,9% ; 90,1%] Interpretação Estamos 95% confiantes de que a proporção populacional de pessoas que preferem a Internet na cidade está no intervalo de 69,9% a 90,1%, com uma margem de erro de 10,1% para mais ou para menos. << Incluir exemplo de população finita >> << Incluir depois o Intervalo unilateral de confiança >> -zc 0 +zc 0,475 0,475 Dividindo 0,95 por dois temos 0,475 de área em cada lado da média. Isto na tabela normal padrão corresponde ao valor zc = 1,96 Estimação de Parâmetros PUC Minas prof. José Aguinaldo 23 3.3.2 Cálculo do tamanho da amostra Cálculo do tamanho mínimo de uma amostra para estimar a “verdadeira” proporção p de forma a garantir um erro máximo de estimação E (margem de erro). Para tamanho N da população desconhecida ou infinita 𝑛 = 𝑧𝑐 2 𝐸2 ∙ 𝑝 ∙ (1 − 𝑝) Para tamanho N da população conhecido e finito 𝑛 = 𝑧𝑐 2 ∙ 𝑁 ∙ 𝑝 ∙ (1 − 𝑝) 𝑧𝑐 2 ∙ 𝑝 ∙ (1 − 𝑝) + (𝑁 − 1)𝐸2 Comentário Uma estimativa preliminar razoável da proporção p deverá ser obtida de uma pesquisa anterior ou através de uma amostra piloto (amostra de teste). Na falta de uma estimativa preliminar, use proporção igual a p = 0,50. A razão para isto é que o produto 𝑝(1 − 𝑝) tem seu valor máximo quando p = 0,5. EXEMPLO 08 - Um repórter deseja fazer uma pesquisa para estimar a “verdadeira” proporção dos universitários que têm computador em casa com uma margem de erro de 4% para mais ou para menos e 95% de confiança nos resultados. Qual deve ser o tamanho da amostra, ou seja, quantos universitários deveriam ser pesquisados? a) Suponha que, de um estudo anterior, sabemos que 27% dos estudantes têm computador em casa. b) Assume que você não tem nenhuma informação sobre a proporção p Solução ------------------------------------------------------------------------------------------------------------------- A margem de erro foi fixada em 0,04 (E0 = 0,04) 𝑎) 𝑛 = 𝑧𝑐 2 𝐸2 ∙ 𝑝 ∙ (1 − 𝑝) = 1,962 0,042 ∙ 0,27 ∙ (1 − 0,27) = 473,2 Arredondando para cima, temos n = 474 universitários. b) Como agora não temos informação preliminar sobre a proporção devemos usar 0,50 no lugar de p̂ 𝑛 = 𝑧𝑐 2 𝐸2 ∙ 𝑝 ∙ (1 − 𝑝) = 1,962 0,042 ∙ 0,5 ∙ (1 − 0,5) = 600,25 Arredondando para cima, temos n = 601 universitários. A amostra de 601 universitários é capaz de assegurar, com 95% de certeza, que as estimativas obtidas, não s afastem mais de 5% dos seus verdadeiros valores. Estimação de Parâmetros PUC Minas prof. José Aguinaldo 24 3.3 Guias para construção de intervalo de confiança A seguir são apresentadas duas formas de ajudar na escolha da distribuição Z ou distribuição T no momento de se construir o intervalo de confiança para a média da população. 1) Tabela Z (CASO 1) ou a tabela T (CASO 2)? 2) Tabela Z (CASO 1) ou a tabela T (CASO 2)? No caso da população seguir a distribuição normal, a tabela a seguir resume as possibilidades de usar a distribuição Z ou a distribuição T. Repare que podemos usar tanto o Z quanto o T na situação onde usamos o desvio-padrão da amostra (s) e temos n ≥ 30 (grandes amostras). Quando n < 30 e a população não é normalmente distribuída, você não pode usar nem a distribuição Z e nem a distribuição T. Tamanho da amostra Usar 𝝈 Usar S n < 30 Z T n ≥ 30 Z Z ou T Estimação de Parâmetros PUC Minas prof. José Aguinaldo 25 4. Anexo A figura abaixo é usada para demonstrar as ideias envolvidas ao construir um intervalo de confiança com nível de confiança de 95%. Várias amostras de tamanho n são retiradas da população e, para cada uma delas, um intervalo de confiança é construído. É evidente que os intervalos serão diferentes, mas pelo método usado, é garantido que 95% destes intervalos irão “cobrir” o real valor da média populacional 𝜇. O último gráfico mostra uma simulação de 50 intervalos criadose apenas três desles (seta azul) não cobrem o valor real de 𝜇 = 18 e 47 intervalos (= 47/50 = 0.94 = 94%) estão cobrindo o real valor. 6565656565656565656565656565656565656565656565656565656565656565656565656565656565656565656565656565N = AM49 AM46 AM43 AM40 AM37 AM34 AM31 AM28 AM25 AM22 AM19 AM16 AM13 AM10 AM7 AM4 AM1 9 5 % I n te rv a lo d e C o n fi a n ç a 21 20 19 18 17 16 15 Estimação de Parâmetros PUC Minas prof. José Aguinaldo 26 TABELA NORMAL PADRÃO REDUZIDA (Z) zc 0 1 2 3 4 5 6 7 8 9 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3079 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4773 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4983 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993 3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995 3,3 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997 3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998 ≥ 3,5 0,4999 P(0 Z 1,15) = 0,3749 0 1,15 Z Estimação de Parâmetros PUC Minas prof. José Aguinaldo 27 TABELA T DE STUDENT (T) GL Área à direita (na cauda superior) 10% 5% 4,5% 4% 3,5% 3% 2,5% 2% 1,5% 1% 0,5% 1 3,078 6,314 7,026 7,916 9,058 10,579 12,706 15,895 21,205 31,821 63,657 2 1,886 2,920 3,104 3,320 3,578 3,896 4,303 4,849 5,643 6,965 9,925 3 1,638 2,353 2,471 2,605 2,763 2,951 3,182 3,482 3,896 4,541 5,841 4 1,533 2,132 2,226 2,333 2,456 2,601 2,776 2,999 3,298 3,747 4,604 5 1,476 2,015 2,098 2,191 2,297 2,422 2,571 2,757 3,003 3,365 4,032 6 1,440 1,943 2,019 2,104 2,201 2,313 2,447 2,612 2,829 3,143 3,707 7 1,415 1,895 1,966 2,046 2,136 2,241 2,365 2,517 2,715 2,998 3,499 8 1,397 1,860 1,928 2,004 2,090 2,189 2,306 2,449 2,634 2,896 3,355 9 1,383 1,833 1,899 1,973 2,055 2,150 2,262 2,398 2,574 2,821 3,250 10 1,372 1,812 1,877 1,948 2,028 2,120 2,228 2,359 2,527 2,764 3,169 11 1,363 1,796 1,859 1,928 2,007 2,096 2,201 2,328 2,491 2,718 3,106 12 1,356 1,782 1,844 1,912 1,989 2,076 2,179 2,303 2,461 2,681 3,055 13 1,350 1,771 1,832 1,899 1,974 2,060 2,160 2,282 2,436 2,650 3,012 14 1,345 1,761 1,821 1,887 1,962 2,046 2,145 2,264 2,415 2,624 2,977 15 1,341 1,753 1,812 1,878 1,951 2,034 2,131 2,249 2,397 2,602 2,947 16 1,337 1,746 1,805 1,869 1,942 2,024 2,120 2,235 2,382 2,583 2,921 17 1,333 1,740 1,798 1,862 1,934 2,015 2,110 2,224 2,368 2,567 2,898 18 1,330 1,734 1,792 1,855 1,926 2,007 2,101 2,214 2,356 2,552 2,878 19 1,328 1,729 1,786 1,850 1,920 2,000 2,093 2,205 2,346 2,539 2,861 20 1,325 1,725 1,782 1,844 1,914 1,994 2,086 2,197 2,336 2,528 2,845 21 1,323 1,721 1,777 1,840 1,909 1,988 2,080 2,189 2,328 2,518 2,831 22 1,321 1,717 1,773 1,835 1,905 1,983 2,074 2,183 2,320 2,508 2,819 23 1,319 1,714 1,770 1,832 1,900 1,978 2,069 2,177 2,313 2,500 2,807 24 1,318 1,711 1,767 1,828 1,896 1,974 2,064 2,172 2,307 2,492 2,797 25 1,316 1,708 1,764 1,825 1,893 1,970 2,060 2,167 2,301 2,485 2,787 26 1,315 1,706 1,761 1,822 1,890 1,967 2,056 2,162 2,296 2,479 2,779 27 1,314 1,703 1,758 1,819 1,887 1,963 2,052 2,158 2,291 2,473 2,771 28 1,313 1,701 1,756 1,817 1,884 1,960 2,048 2,154 2,286 2,467 2,763 29 1,311 1,699 1,754 1,814 1,881 1,957 2,045 2,150 2,282 2,462 2,756 30 1,310 1,697 1,752 1,812 1,879 1,955 2,042 2,147 2,278 2,457 2,750 40 1,303 1,684 1,737 1,796 1,862 1,936 2,021 2,123 2,250 2,423 2,704 50 1,299 1,676 1,729 1,787 1,852 1,924 2,009 2,109 2,234 2,403 2,678 90 1,291 1,662 1,714 1,771 1,834 1,905 1,987 2,084 2,205 2,368 2,632 100 1,290 1,660 1,712 1,769 1,832 1,902 1,984 2,081 2,201 2,364 2,626 > 100 1,282 1,645 1,695 1,751 1,812 1,881 1,960 2,054 2,170 2,326 2,576 ATENÇÃO GL = Graus de liberdade. GL = n – 1 para uma amostra. Se GL 30, você pode usar a tabela normal padrão. Para n = 11, então GL = 11 -1 = 10 P(T 2,228) = 0,025 (ou 2,5%) 0 2,289 T
Compartilhar