Prévia do material em texto
Estimativas e Testes Estatísticos Tudo que vamos ver nessa aula, baseia-se no Teorema do Limite Central: ALICAÇÃO I: Estatística Descritiva A Estatística Descritiva tem por objetivo resumir ou descrever características importantes de dados populacionais ou amostrais conhecidos; Inferência Estatística é o processo pelo qual tiram-se conclusões ou generalizações acerca de uma população usando informações de uma amostra. Estimativa Um estimador é uma estatística amostral utilizada para obter uma aproximação de um parâmetro populacional. Uma estimativa pontual é um valor (ou ponto) único usado para aproximar um parâmetro populacional. ◦ A média amostral é a melhor estimativa pontual para a média populacional. ◦ Outra estimativa pontual é a variância amostral para a variância populacional. 1. Estimativa Pontual 𝑥 é uma estimativa pontual para 𝜇; Isto é, a média amostral é um valor usado para aproximar a média populacional; 𝑥 = 1 𝑛 𝑖=1 𝑛 𝑥𝑖 = 1 𝑛 𝑥1 +⋯+ 𝑥𝑛 Onde (𝑥1, … , 𝑥𝑛) é uma amostra. Problema A maioria crê que a temperatura média do corpo humano é 98,6ºF. Uma amostra de dados parece sugerir que a média 98,2ºF. Sabemos que as amostras tendem a variar, de forma que talvez a verdadeira temperatura média seja 98,6ºF e a média amostral 98,2ºF seja resultado de uma flutuação aleatória. ◦ Para quais valores, em relação à média 98,6ºF, e considerando um determinado erro, a média da amostra seria aceitável? (n = 106) 2. Estimativa Intervalar Quão boa é a estimativa pontual da média da população? Definição Estimativa intervalar (ou intervalo de confiança) é o intervalo de valores que contém a média da população com uma determinada probabilidade de acerto. O intervalo de confiança está associado a um grau de confiança que é uma medida de nossa certeza de que o intervalo contém o parâmetro populacional com alta probabilidade (prob = 1-α, com α < 5%). 2. Estimativa Intervalar A construção do intervalo para μ é baseada na distribuição amostral da média amostral e no grau de confiança. Não é necessário que a suposição de normalidade para os dados seja adequada. A variância pode ou não ser conhecida. Para cada caso, usa- se diferentes distribuições. ◦ 2.1 Estimativa Intervalar para variância conhecida; ◦ 2.2 Estimativa Intervalar para variância desconhecida. 2.1 Variância conhecida Usando o teorema central do limite, a média amostral 𝑥 é uma variável aleatória que tem distribuição normal com: ◦ Média 𝜇; ◦ Desvio padrão 𝜎 𝑛 ; Transformando 𝑥 em uma variável aleatória normal padrão, temos: 𝑍 = 𝑥−𝜇 𝜎/ 𝑛 2.1 Variância conhecida −𝑍 𝛼 2 e 𝑍 𝛼 2 são valores críticos; Um valor crítico é um número na fronteira que separa estatísticas amostrais que têm chance de ocorrer daquelas que não têm. Nível de confiança 2.1 Variância conhecida Com o desvio padrão 𝜎 𝑛 e valores críticos −𝑍 𝛼 2 e 𝑍 𝛼 2, podemos definir os valores do intervalo de confiança para a média populacional 𝜇: −𝑍 𝛼 2 ≤ 𝑥 − 𝜇 𝜎 𝑛 ≤ 𝑍 𝛼 2 2.1 Variância conhecida A margem de erro E é a diferença máxima provável (com probabilidade 1-α) entre a média observada (a média amostral) e a verdadeira média (média populacional); O erro máximo é dado por: 𝐸 = 𝑍 𝛼 2 ⋅ 𝜎 𝑛 Logo, 𝑥 − E ≤ 𝜇 ≤ 𝑥 + 𝐸 Exemplo As medidas dos pesos de uma amostra aleatória de 100 caminhões que foram medidos pela Polícia Rodoviária tem média de 3,2 toneladas e desvio padrão de 0,8 toneladas. Qual o intervalo de confiança para o grau de confiança de 95%? 𝐸 = 1,96 ⋅ 0,8 10 = 0,157 3,2 − 0,157 ≤ 𝜇 ≤ 3,2 + 0,157 Intervalo: 3,043 ≤ 𝜇 ≤ 3,357 2.2 Variância desconhecida 1. Estima-se a variância populacional através da variância amostral; 𝑠2 = 1 𝑛 − 1 𝑖=1 𝑛 𝑥𝑖 − 𝑥 2 2. Usa-se s para calcular o intervalo de confiança para a média populacional e o valor 𝑡 𝛼 2 da tabela t-Student com n-1 graus de liberdade. −𝑡 𝛼 2 ≤ 𝑥 − 𝜇 𝑠 𝑛 ≤ 𝑡 𝛼 2 Intervalo de Confiança Devemos ser cuidadosos para interpretar corretamente os intervalos de confiança. Considere o intervalo de confiança 0,476 ≤ μ ≤ 0,544. Correta: “Estamos 95% confiantes de que o intervalo de 0,476 a 0,544 realmente contém o verdadeiro valor de μ.” Errada: “Há uma chance de 95% de que o verdadeiro valor de μ estará entre 0,476 e 0,544.” ou “95% de todos os valores amostrais estão entre 0,476 e 0,544”. Justificativa: μ é uma constante fixa (embora desconhecida), não uma variável aleatória. E o intervalo de confiança não descreve o comportamento de médias amostrais individuais. Exercício 1. As medidas dos diâmetros de uma amostra aleatória de 200 rolamentos esféricos produzidos por certa máquina, durante uma semana, apresentam a média de 0,824 polegada e o desvio padrão de 0,042 polegada. Determine os limites de confiança de (a) 95%, (b) 99%, para o diâmetro médio de todos os rolamentos esféricos. APLICAÇÃO II: Teste de Hipótese Definição Uma hipótese estatística é uma afirmação acerca dos parâmetros de uma ou mais populações (testes paramétricos) ou acerca da distribuição da população. É uma afirmação sobre uma população, e não sobre amostra. Normalmente são formuladas duas hipóteses: H0: (hipótese nula) que é a hipótese que não se quer testar; Ha: (hipótese alternativa) que será aceita se não for possível provar que H0 é verdadeira. Exemplo H0: mulheres vivem o mesmo ou mais que os homens; Ha: mulheres vivem menos que os homens. Teste de Hipótese Exemplo Em um estudo para avaliar um novo motor instalado em automóveis, um grupo de pesquisa está buscando evidências para concluir que o novo motor aumenta a média de quilômetros por litro. H0: µ ≤ 15 (hipótese nula) Ha: µ > 15 (hipótese alternativa) Neste exemplo a hipótese alternativa é a hipótese de pesquisa. Em tal caso as hipóteses nula e alternativa devem ser formuladas de modo que a rejeição de H0 suporte a conclusão e ação que estão sendo procuradas. Teste de Hipótese As hipóteses podem ter várias formas: Onde µ0 é o valor numérico específico que está sendo considerado nas hipóteses nula e alternativa. H0: µ ≤ µ0 Ha: µ > µ0 H0: µ ≥ µ0 Ha: µ < µ0 H0: µ = µ0 Ha: µ ≠ µ0 Teste 1. Bilateral 2. Unilateral 2.1. À direita 2.2. À esquerda Erros de decisão Erro tipo I: rejeitar H0 quando está verdadeira; Erro tipo II: não rejeitar H0 quando está falsa; A probabilidade de cometer erro tipo I é denominada “nível de significância” e é denotada por α (geralmente < 5%). Estatisticamente, recomenda-se que seja usado a declaração “não rejeitar H0” em vez de aceitar H0. Decisão H0 é verdadeira H0 é falsa Não rejeitar H0 Decisão Correta Erro tipo II Rejeitar H0 Erro tipo I Decisão Correta Como realizar Testes de Hipótese Passo 1 Interprete a situação de modo a obter a média μ; Passo 2 Construa as hipóteses, dizendo se é bilateral ou unilateral, considerando a média em questão; Passo 3 Obtenha o grau de significância; Passo 4 Verifique qual o tipo de distribuição mais apropriado (normal ou t- Student); Como realizar Testes de Hipótese Passo 5 Calcule a estatística de teste, usando: ◦ 𝑍 = 𝑥−𝜇 𝜎 𝑛 (para a normal) ◦ 𝑡 = 𝑥−𝜇 𝑠 𝑛 (para a t-Student) Como realizar Testes de Hipótese Passo 6 Interprete a estatística de teste para verificar se a hipótese nula será ou não rejeitada. Se z ou t corresponder a valores daregião crítica, rejeite H0, caso contrário, não rejeite H0. Região crítica Diferentes níveis de significância podem gerar diferentes conclusões. Com um nível de 5%, H0 poderá ser rejeitado, mas com 1% poderá ser aceito. Como realizar Testes de Hipótese Para amostras pequenas (n ≤ 30) ou quando σ for desconhecido, usamos s ao invés de σ e consideramos o grau de liberdade como n-1; Para σ desconhecido, a distribuição é uma t, não uma normal, mas para amostras de tamanho muito grandes, as diferenças entre as distribuições normal e t são desprezíveis, mas o uso da distribuição t dá melhores resultados. 1. Testes de Hipótese Bilateral 𝐻0: 𝜇 = 𝜇0 𝐻𝑎: 𝜇 ≠ 𝜇0 α/2 α/2 Rejeitar H0 Rejeitar H0Não rejeitar H0 1. Testes de Hipótese Bilateral Exemplo Um comprador de tijolos julga que a qualidade dos tijolos está deteriorando. Sabe-se pela experiência passada que a média de resistência ao esmagamento destes tijolos é de 400 libras com desvio padrão de 20 libras. Uma amostra de 100 tijolos deu uma média de 395 libras. Verifique se a qualidade foi alterada (considere o nível de significância de 5%). 𝐻0: 𝜇 = 400 𝐻𝑎: 𝜇 ≠ 400 𝑍 = 𝑥 − 𝜇 𝜎 𝑛 = 395 − 400 20 100 = −5 2 = −2,5 Para 5%, zc = 1,96 Conclusão: rejeitamos H0, isto é, a resistência não é mais de 400 libras. zc = -1,96 zc = 1,96 2.1 Testes de Hipótese Unilateral a direita 𝐻0: 𝜇 ≤ 𝜇0 𝐻𝑎: 𝜇 > 𝜇0 Não rejeitar H0 Rejeitar H0 2.1 Testes de Hipótese Unilateral a direita Exemplo Um trecho de uma rodoviária, quando é utilizado o radar, são verificadas em média 7 infrações diárias por excesso de velocidade. O chefe da polícia acredita que este número pode ter aumentado. Para verificar isso, o radar foi mantido por 10 dias consecutivos. Os resultados foram: 8, 9, 5, 7, 8, 12, 6, 9, 6, 10. Os dados trazem evidências do amento das infrações? 𝐻0: 𝜇 ≤ 7 𝐻𝑎: 𝜇 > 7 Média amostral = 8+9+5+7+8+12+6+9+6+10 10 = 8 Não conhecendo σ, estimamos s, onde s = 2,1 Usando t-Student: 𝑡 = 𝑥−𝜇 𝑠 𝑛 = 8−7 2,1 10 = 1,5 t = 1,5 tc = 1,83 2.2 Testes de Hipótese Unilateral a esquerda 𝐻0: 𝜇 ≥ 𝜇0 𝐻𝑎: 𝜇 < 𝜇0 Rejeitar H0 Não rejeitar H0 Exercício 1) A vida média de uma amostra de 100 lâmpadas fluorescentes produzidas por uma companhia foi calculada em 1570 horas, com desvio padrão de 120 horas. Se µ é a vida média de todas as lâmpadas produzidas pela companhia, teste a hipótese µ = 1600 horas, em face da hipótese alternativa µ ≠ 1600 horas, adotando o nível de significância 0,05 e 0,01 . Exercício 2) Em um estudo para avaliar um novo motor instalado em automóveis, um grupo de pesquisa está buscando evidências para concluir que o novo motor aumenta a média de quilômetros por litro. Numa amostra de 25 carros com o motor antigo, a média de km/l foi de 12 e desvio padrão de 0,5. O que se pode concluir a respeito desse novo motor, sabendo que o fabricante garante uma média de 13km/l? Considere nível de significância de 5%.