Prévia do material em texto
TESTE DE HIPÓTESE 2 1 Hipóteses estatísticas Muitos problemas em engenharia requerem que decidamos qual das duas afirmações competitivas acerca do valor de algum parâmetro é verdadeira. As afirmações são chamadas de hipóteses, e o procedimento de tomada de decisão sobre a hipótese é chamado de teste de hipóteses. Esse é um dos mais úteis aspectos da inferência estatística, uma vez que muitos tipos de problemas de tomada de decisão, teste, ou experimento no mundo da engenharia podem ser formulados como problemas de testes de hipóteses. Estimação de parâmetros com teste de hipóteses estatísticas e com intervalo de confiança é método fundamental usado no estágio de análise de dados de um experimento comparativo, em que o engenheiro está interessado, por exemplo, em comparar a média de uma população com um certo valor especificado. Esses experimentos comparativos simples são frequentemente encontrados na prática. Uma hipótese estatística é uma afirmação sobre os parâmetros de uma ou mais populações. Uma hipótese estatística pode também ser pensada como uma afirmação acerca da distribuição de probabilidades de uma variável aleatória. A hipótese geralmente envolverá um ou mais parâmetros dessa distribuição. 2 Teste de hipóteses estatísticas Um teste de hipótese (ou teste de significância) é um procedimento para o teste de uma afirmativa sobre uma propriedade de uma população. Para realizar um teste de hipótese, devemos identificar uma hipótese nula (H0) e uma hipótese alternativa (H1 ou HA). A hipótese nula é uma afirmativa de que o valor de um parâmetro populacional (como proporção, média ou desvio-padrão) é igual a algum valor especificado. Testamos a hipótese nula diretamente, no sentido de que assumimos que seja verdadeira e chegamos a uma conclusão de rejeitá-la ou aceitá-la. A hipótese alternativa é uma afirmativa de que o parâmetro tem um valor que, de alguma forma, difere da hipótese nula e será verdadeira caso a hipótese nula seja falsa. Ao aceitar ou rejeitar a hipótese nula, pode-se estar cometendo um erro. Há dois tipos de erros possíveis: • Erro tipo I: Consiste em rejeitar uma hipótese nula sendo ela verdadeira • Erro tipo II: Consiste em deixar de rejeitar a hipótese nula quando ela é falsa. 3 O valor de α, chamado de nível de significância do teste, corresponde à probabilidade de vir a cometer um erro do tipo I. Ou seja, α é a probabilidade de vir a rejeitar a hipótese nula, H0, quando na verdade ela é verdadeira. O tamanho da região de rejeição em um problema estatística relacionado com um teste de hipóteses depende do valor atribuída a α, os valore de α habitualmente utilizados são: 0,01; 0,025; 0,05 e 0,10. De modo geral, o valor atribuído a α não excede a 0,10 (ou 10%). β representa a probabilidade de cometer um erro do tipo II, ou seja, representa a probabilidade de que H0 não seja rejeitada quando H0 for efetivamente falsa. O valor de 1-β é chamado de eficácia do teste. A eficácia do teste representa a probabilidade de não cometer um erro do tipo II. Os dois tipos de erro que ocorrem nos testes de hipóteses são dependentes entre si. Não podemos diminuir o valor de α e o valor de β simultaneamente, no que se refere a um teste de hipóteses com tamanho fixo de amostra. Diminuir o valor de α fará com que aumente o valor de β, enquanto diminuir o valor de β fará com que aumente o valor de α. Entretanto, podemos diminuir, simultaneamente, tanto α quanto β, por meio do aumento do tamanho da amostra. A Tabela 1 mostra as decisões possíveis para um teste de hipóteses. Tabela 1: Quatro decisões possíveis para um teste de hipóteses. Situação real H0 é verdadeira H0 é falsa Decisão Não rejeitar H0 Decisão correta Erro do tipo II, ou erro β Rejeitar H0 Erro do tipo I ou erro α Decisão correta 2.1 Caudas de um teste Na estatística, a região de rejeição correspondente a um problema de teste de hipóteses pode estar em ambos os lados, com a região de não rejeição posicionada no meio; ou pode estar do lado esquerdo ou do lado direito da região de não rejeição. Um teste com duas regiões de rejeição é chamado de teste bicaudal, enquanto um teste com uma única região de rejeição é chamado unicaudal. O teste unicaudal é chamada de teste com cauda à esquerda caso a região de rejeição esteja na cauda esquerda da curva de 4 distribuição, e é chamado de teste com cauda à direita se a região de rejeição estiver na cauda direita da curva da distribuição. 2.1.1 Teste bicaudal De acordo com o U.S. Bureau of Labor Statistics, as pessoas nos EUA que tinham um grau de bacheral e estavam empregadas ganhavam uma média de US$ 1038 por semana, em 2010. Suponha que queremos verificar se essa média teria se modificado desde 2010. A média aritmética do rendimento semanal de norte-americanos empregados que tem um grau de bacharel terá se modificado caso a média aritmética tenha aumento ou diminuído ao longo do período desde 2010. Este é um exemplo de um teste bicaudal. As hipóteses nula e alternativa são: H0: µ = US$ 1038 H1: µ ≠ US$ 1038 O fato de um teste ser bicaudal ou unicaudal é determinado pelo sinal apresentado na hipótese alternativa. Caso a hipótese alternativa apresente um sinal de diferente, como é o caso nesse exemplo, o teste é chamado de bicaudal. Um teste bicaudal possui duas regiões de rejeição, uma em cada uma das caudas da curva da distribuição, como mostra a Figura 1. Figura 1: Teste bicaudal 2.1.2 Teste com cauda à esquerda Considere uma empresa que produz refrigerantes. A empresa declara que as latas contêm, em média, 12 onças de refrigerante. Entretanto, se essas latas contiverem menos do que a quantidade declarada de refrigerante, a empresa poderá ser acusada pelo fato de não abastecer plenamente as altas. Suponha que uma agência de proteção ao consumidor deseje testar se a média aritmética da quantidade de refrigerante, por lata, é menor que 12 onças. As hipóteses nula e alternativa são as seguintes: 5 H0: µ = 12 onças H1: µ US$ 459.204 Quando a hipótese alternativa apresenta um sinal de maior que, o teste será sempre com cauda à direita. Conforme ilustrado na Figura 3, em um teste com cauda à direita, a região de rejeição se posiciona na cauda direita da curva de distribuição. A área que corresponde a essa região de rejeição é igual a α, o nível de significância. Do mesmo modo que um teste com cauda à esquerda, um teste com cauda à direita possui somente um único valor crítico. 6 Figura 3: Teste com cauda à direita A Tabela 2 resume a relação entre os sinais em H0 e H1 e as caudas de um teste. Tabela 2: Sinais em H0 e H1 e caudas de um teste hipótese. Teste bicaudal Teste com cauda à esquerda Teste com cauda à direita Sinal na hipótese nula, H0 = = ou ≥ = ou ≤ Sinal na hipótese alternativa, H1 ≠ Região de rejeição Em ambas as caudas Na cauda esquerda Na cauda direita 2.2 Interpretação da estatística de teste: usando o valor pou o valor crítico Depois de determinarmos se o teste hipótese é bilateral, unilateral à esquerda, ou unilateral à direita, podemos prosseguir com a abordagem do valor p, ou com a abordagem do valor crítico. 2.2.1 Método do valor P O valor P é a probabilidade de se obter um valor da estatísticas de teste que seja, pelo menos, tão extremo quanto aquele que representa os dados amostrais, supondo que a hipótese nula seja verdadeira. Para encontrar o valor P, primeiro encontre a área além da estatística de teste: Região crítica na cauda esquerda Valor P = área à esquerda da estatística de teste Região crítica na cauda direita Valor P = área à direita da estatística de teste Região crítica nas duas caudas Valor P = duas vezes a área na cauda além da estatística de teste 7 Por exemplo, a estatística de teste de z=1,60 tem uma área de 0,0548 à sua direita, de modo que um teste unilateral à direita com estatística de teste z=1,60 tem um valor P de 0,0548. 2.2.2 Método do valor crítico Com o método do valor crítico, encontramos os valores críticos que separam a região crítica (na qual rejeitamos a hipótese nula) dos valores da estatística de teste que não levam à rejeição da hipótese nula. Os valores críticos dependem da natureza da hipótese nula, da distribuição amostral que se aplica e do nível de significância α. Procedimento geral para teste de hipóteses 1. Parâmetro de interesse: A partir do contexto do problema, identifique o parâmetro de interesse. 2. Hipótese nula, H0: Estabeleça a hipótese nula H0. 3. Hipótese alternativa, H1: Especifique a hipótese alternativa apropriada, H1. 4. Estatística de teste: Determine uma estatística apropriada de teste. 5. Rejeita H0 se: estabeleça os critérios de rejeição para a hipótese nula. 6. Cálculos: Calcule quais quaisquer grandezas amostrais necessárias, substitua-as na equação para a estatística de teste e calcule esse valor. Exemplo 01: Em cada uma das seguintes situações, estabeleça se esse é um problema corretamente posto de teste hipóteses e por quê. a) 𝐻0: 𝜇 = 25, 𝐻1: 𝜇 ≠ 25 b) 𝐻0: 𝜎 > 10, 𝐻1: 𝜎 = 10 c) 𝐻0: �̅� = 50, 𝐻1: �̅� ≠ 50 d) 𝐻0: 𝑝 = 0,1, 𝐻1: 𝑝 = 0,5 e) 𝐻0: 𝑠 = 30, 𝐻1: 𝑠 > 30 8 2.3 Testes para a média de uma distribuição normal, variância conhecida. Suponha que desejamos testar as hipóteses: 𝐻0: 𝜇 = 𝜇0 𝐻1: 𝜇 ≠ 𝜇0 sendo µ0 uma constante especificada. Temos uma amostra aleatória x1, x2, ..., xn proveniente de uma população normal. Visto que �̅� tem uma distribuição normal (isto é, a distribuição amostra de �̅� é normal) com média µ0 e desvio-padrão 𝜎/√𝑛, se a hipótese nula for verdadeira poderemos construir uma região crítica baseada no valor calculado da média amostral �̅�. É geralmente mais conveniente padronizar a média amostral e usar uma estatística de teste baseada na distribuição normal padrão. Ou seja, o procedimento de teste para 𝐻0: 𝜇 = 𝜇0 usa a estatística de teste: 𝑧0 = �̅� − 𝜇0 𝜎/√𝑛 2.3.1 A abordagem do valor-p Utilizando a abordagem do valor-p, rejeitamos a hipótese nula se 𝑣𝑎𝑙𝑜𝑟 − 𝑝 ≤ 𝛼 ou 𝛼 ≥ 𝑣𝑎𝑙𝑜𝑟 − 𝑝 E não rejeitamos a hipótese nula se 𝑣𝑎𝑙𝑜𝑟 − 𝑝 > 𝛼 ou 𝛼andar corresponde a 12,5 meses. Para verificar se essa afirmativa é verdadeira, uma amostra aleatória de 18 crianças foi extraída e descobriu-se que a média aritmética da idade na qual essas crianças começam a andar corresponde a 12,9 meses, com um desvio-padrão correspondente a 0,80 mês. É conhecido que as idades nas quais todas as crianças começam a andar tem uma distribuição aproximadamente normal. Encontre o valor-p para o teste de que a média aritmética da idade na qual as crianças começam a andar é diferente de 12,5 meses. Qual será a sua conclusão, se o nível de significância for 1%? Exemplo 06: A Grand Auto Corporation produz baterias automotivas. A empresa afirma que as suas baterias de primeira linha funcionam em perfeitas condições, em média, durante no mínimo 65 meses. Uma agencia de proteção aos direitos do consumidor testou 45 de tais baterias no sentido de verificar essa afirmativa. A agência descobriu que a média aritmética da vida útil dessas 45 baterias era de 63,4 meses, com um desvio-padrão de 3 meses. Encontre o valor-p para o teste de que a média aritmética da vida útil de todas essas baterias é menor do que 65 meses. Qual será sua conclusão se o nível de significância for 2,5%? 2.4.2 A abordagem do valor crítico Neste procedimento, temos um valor predeterminado para o nível de significância, α. O valor de α fornece a área total da região ou regiões de rejeição. Em primeiro lugar, encontramos os valores críticos de t na tabela de distribuição t para os graus de liberdade determinados e o nível de significância especificado. Depois, encontramos o valor da 12 estatística do teste, para o valor observado para a estatística da amostra, �̅�. Por fim, comparamos esses dois valores e tomamos uma decisão. Exemplo 07: A administração de um banco está sempre preocupada com a qualidade do serviço fornecido a seus clientes. Com o sistema informatizado antigo, um caixa nesse banco poderia atender, em média, a 22 clientes por hora. A administração observou que com essa taxa de atendimento o tempo de espera para os clientes era demasiadamente longo. Recentemente, a administração desse banco instalou um novo sistema informatizado, esperando que ele pudesse fazer crescer a taxa de atendimento e, consequentemente, tornar os clientes mais satisfeitos em função da redução do tempo de espera. Para verificar se o novo sistema informatizado é mais eficiente do que o sistema antigo, a administração do banco extraiu uma amostra aleatória de 70 horas e descobriu que, durante essas horas, a média aritmética do número de clientes atendidos pelos caixas correspondia a 27 por hora, com uma desvio-padrão correspondente a 2,5. Ao testar no nível de significância de 1%, você concluiria que o novo sistema informatizado é mais eficiente que o antigo sistema informatizado? 13 2.5 Teste de hipóteses em relação a variância Suponha que desejamos testar a hipótese de que a variância de uma população normal σ² seja igual a um valor especifico, como σ²0, ou equivalentemente que o desvio- padrão σ seja igual a σ0. Seja x1, x2, ..., xn uma amostra aleatória de n observações, proveniente dessa população. Para testar: H0: σ² = σ²0 H1: σ² ≠ σ²0 Usaremos a estatística de teste: 𝜒0 2 = (𝑛 − 1)𝑠² 𝜎0 2 Se a hipótese nula H0: σ² = σ²0 for verdadeira, então a estatística de teste 𝜒0 2 segue a distribuição qui-quadrado com n-1 graus de liberdade. Essa é uma distribuição de referência para esse procedimento de teste. De modo a executar um teste de nível de significância fixo, tomaríamos uma amostra aleatória proveniente da população de interesse, calcularíamos 𝜒0 2, o valor da estatística de teste 𝜒0 2, e a hipótese H0: σ² = σ²0 seria rejeitada se: 𝜒0 2 > 𝜒𝛼 2 ,𝑛−1 2 ou se 𝜒0 2 σ²0 rejeitaríamos H0, se 𝜒0 2 > 𝜒𝛼,𝑛−1 2 , enquanto para as outras hipóteses unilaterais H0: σ² = σ²0 H1: σ²tanque, com uma velocidade média observada de �̅� = 102,2 metros por segundo. Considere que a velocidade seja normalmente distribuída, com desvio-padrão conhecido σ = 4 metros por segundo. Teste as hipóteses H0: µ =100 versus H1: µ