Baixe o app para aproveitar ainda mais
Prévia do material em texto
Inferência Estatística: Teste de Hipóteses Média Variância Proporção Teste de Hipóteses Teste de Hipóteses: exemplo inicial A ProCare Industries LTDA lançou, certa vez, um produto chamado “Gender Choice”. De acordo com a propaganda, o Gender Choice permitiria aos casais aumentar em permitiria aos casais aumentar em � 85% a chance de terem um menino � 80% a chance de terem uma menina. "Gender Choice a 'gross deception.'". FDA Consumer. FindArticles.com. 22 Sep, 2009. http://findarticles.com/p/articles/mi_m1370/is_v21/ai_4790727/ Probabilidade “natural” de ter uma menina: 50% Exemplo Inicial Em um experimento para verificar a eficácia do “Gender Choice”, suponha que 100 casais que querem uma menina façam uso da embalagem rosa. Número de meninas esperadas, caso os casais não Número de meninas esperadas, caso os casais não usassem nenhum método: 50 meninas Utilizando somente o bom senso, o que deveríamos pensar se, das 100 crianças nascidas, a) 52 fossem meninas? b) 97 fossem meninas? Discussão (Exemplo Inicial) Situação a) O número de 52 meninas é muito próximo daquele que esperamos sem o uso de nenhum método (50) e poderia ter ocorrido por mero acaso. Aqui, não há evidências suficientes para concluir que o “Gender Choice” tenha eficácia. Discussão (Exemplo Inicial) Situação b) A ocorrência de 97 meninas em 100 nascimentos de maneira natural é muito pouco provável. (< 0.0001)0 . 1 0 0 . 1 2 0 . 1 4 (< 0.0001) 0 6 13 21 29 37 45 53 61 69 77 85 93 numero de meninas 0 . 0 0 0 . 0 2 0 . 0 4 0 . 0 6 0 . 0 8 p = 0.50 p: probabilidade de uma menina em um nascimento Discussão (Exemplo Inicial) Situação b) A ocorrência de 97 meninas em 100 nascimentos poderia ser explicada de duas maneiras : i) ocorreu um evento extremamente raro;i) ocorreu um evento extremamente raro; ii) o “Gender Choice” é realmente eficaz . Diante da probabilidade extremamente baixa de ocorrer 97 meninas em 100 nascimentos de maneira “natural”, a explicação mais sensata é a de que o produto é eficaz. 0 . 0 6 0 . 0 8 0 . 1 0 0 . 1 2 0 . 1 4 0 . 0 6 0 . 0 8 0 . 1 0 0 . 1 2 0 . 1 4 p = 0.50 p = 0.90 p: probabilidade de uma menina em um nascimento 0 6 13 21 29 37 45 53 61 69 77 85 93 numero de meninas 0 . 0 0 0 . 0 2 0 . 0 4 0 6 13 21 29 37 45 53 61 69 77 85 93 0 . 0 0 0 . 0 2 0 . 0 4 p = 0.50 97 meninas são muito mais prováveis quando p > 0.50. Temos que nos decidir por uma de duas hipóteses … H1: Gender Choice não funciona (p = 0.50) H2: Gender Choice funciona (p > 0.50) … na presença de uma única amostra da população de interesse. Teste de Hipóteses Teste de Hipóteses : decidindo na presença de incerteza Hipótese é uma afirmação sobre um parâmetro da população, sobre a média de uma variável na população (µ) ou sobre uma proporção populacional (p).(p). Teste de Hipóteses é o processo de decisão entre duas hipóteses sobre um parâmetro da população. - Hipótese Nula (H0): ponto de partida - Hipótese Alternativa (HA): hipótese do pesquisador Teste de Hipóteses : decidindo na presença de incerteza Vamos utilizar as informações sobre o parâmetro contidas na amostra para testar H0 versus HA. Exemplo Inicial: p = proporção de nascimentos de meninas com o uso do Gender Choice. - Hipótese do pesquisador: o método funciona (p > 0.5) - Hipótese nula: o método não funciona (p = 0.5) Usando as informações da amostra de 100 casais que usaram o método (e, destes, quantos tiveram menina), decide-se entre H0: p =0.5 e HA: p >0.5 Erros associados a um Teste de Hipóteses Decisão baseada no teste Situação real (desconhecida) H0 é verdadeira H0 é falsa Decisão incorreta Rejeitar H0 Não rejeitar H0 Erro tipo I: Rejeitar H0 quando H0 é verdadeira. Erro tipo II: Não rejeitar H0 quando H0 é falsa. Decisão incorreta (Erro Tipo I) Decisão incorreta (Erro Tipo II) Decisão correta Decisão correta Erros associados a um Teste de Hipóteses H : p =0.5 (o Gender Choice não funciona) Exemplo Inicial: p = proporção de nascimentos de meninas com o uso do Gender Choice. H0: p =0.5 (o Gender Choice não funciona) HA: p >0.5 (o Gender Choice funciona) Erro tipo I: Dizer que o Gender Choice funciona, quando ele não funciona Erro tipo II: Dizer que o Gender Choice não funciona, quando ele funciona Erros associados a um Teste de Hipóteses O Erro Tipo I geralmente é o mais grave. Assim pretende-se “controlá-lo”, pré-fixando sua probabilidade de ocorrência em um valor pequeno α : P(Erro tipo I) = P(Rejeitar H0 quando H0 é verdadeira) = α. Este valor pré-fixado para a probabilidade do Erro Tipo I é chamado nível de significância do teste. Usualmente tem-se: α = 0.10 ou α = 0.05 ou α = 0.01. Se for fixado o valor de α = 0.05, diz-se que “é um teste de hipóteses ao nível de significância de 5%”. Componentes de um Teste de Hipóteses Hipótese nula: é a afirmação sobre o valor de um parâmetro populacional (média ou proporção, denotados por µ e p). Usualmente, H0 expressa a condição de igualdade. H0: µ = µ0 , H0: µ ≥ µ0 ou H0: µ ≤ µ0. Hipótese alternativa: é a afirmação verdadeira para o caso de a hipótese nula ser falsa. Comporta-se basicamente de três formas: HA: µ ≠ µ0 , HA: µ > µ0 ou HA: µ < µ0. Nível de significância do teste: Probabilidade máxima tolerada para o Erro Tipo I (rejeitar H0 se ela é verdadeira). Componentes de um Teste de Hipóteses Estatística de teste: mede a distância entre o que foi observado na amostra e o que seria esperado se a hipótese nula fosse verdadeira. Distribuição de Referência do teste: De acordo com o tipo de teste de hipóteses feito, uma distribuição de probabilidades é associada à estatística de teste. Região de Rejeição: conjunto de valores da estatística de teste que levam à rejeição de H0. A região de rejeição (RR) é construída a partir da distribuição de referência. Valor crítico: é o valor ou os valores que separam a região crítica dos demais valores possíveis da estatística de teste. Valor p: probabilidade de errar ao rejeitar a hipótese nula com base nos dados amostrais. É calculado usando-se a distribuição de referência da estatística do teste. Formas das hipóteses sobre uma média populacional µ H0: µ = µ0 HA: µ < µ0 H0: µ = µ0 HA: µ > µ0 H0: µ = µ0 HA: µ ≠ µ0 Teste bilateral Teste unilateral direitoTeste unilateral esquerdo Passos para Teste de Hipóteses 1) Definir o parâmetro (média ou proporção) sobre o qual é feito o teste. 2) Definir a hipótese do pesquisador. 3) Definir a hipótese nula (H0) e hipótese alternativa (HA). 4) Escolher um valor α para o nível de significância do teste. 5) Definir a estatística de teste. 6) Calcular o valor observado da estatística de teste na amostra retirada da população. Passos para Teste de Hipóteses (Método Tradicional) 7) Definir a região de rejeição de H0. Conclusão: a amostra não contém evidências suficientes O valor observado da estatística pertence à região de rejeição ? NÃO SIM contém evidências suficientes para a rejeição da afirmação da hipótese nula. Conclusão: a amostra contém evidências suficientes para a rejeição da hipótese nula. Passos para Teste de Hipóteses (Método do Valor P) 7) Calcular o Valor P Conclusão: a amostra não contém evidências suficientes O valor P é menor do que o valor do que o nível de significância ? NÃO SIM contém evidências suficientes para a rejeição da afirmação da hipótese nula. Conclusão: a amostra contém evidências suficientes para a rejeição da hipótese nula. Teste de Hipóteses para a Média Populacional H0: µ = µ0 HA: µ ≠ µ0 Teste Bilateral x µ− Dados amostrais: , s e nx . o obs xT s n µ− =Estatística de Teste: 0 Região de Rejeição: )2;1( α − −< n tTobs )2;1( α − > n tTobs OU Sob H0, Tobs ~ t(n-1) α/2α/2 Exemplo 1: Um artigo no Materials Engineering* descreve os resultados de testes trativos deadesão em 22 corpos-de-prova de liga U-700. A carga no ponto de falha de corpo-de-prova é dada a seguir (em megapascal). 19.8 10.1 14.9 7.5 15.4 15.4 15.4 18.5 7.9 12.7 11.9 11.4 11.4 14.1 17.6 16.7 15.8 19.5 8.8 13.6 11.9 11.411.4 14.1 17.6 16.7 15.8 19.5 8.8 13.6 11.9 11.4 A carga média nessa amostra é igual a 13.71 megapascal e o desvio-padrão é de 3.55 megapascal. A suspeita é de que a carga média no ponto de falha para este tipo de liga seja diferente de 15.0 megapascal. Os dados desses testes confirmam essa suspeita? *vol. II, n. 4, pp. 275-281, 1989 Exemplo 1: Parâmetro: µ = carga média no ponto de falha (em megapascal). H0: µ = 15.0 Ha: µ ≠ 15.0 α = 0.02 Estatística de teste: 13.71 15.00 1.29 1.700.76/ 3.55 / 22 o obs xT s n µ− − − = = = = − Dados amostrais: , s=3.55 e n=2213.71x = Região de Rejeição: 2.518obsT < − 2.518obsT > OU 2.518-2.518 0.01 0.01 t21 g.l. Exemplo 1: Como o valor de Tobs não pertence à região de rejeição (2.518 < -1.70 < -2.518), então não se rejeita H0 ao nível de 2% de significância. Conclusão em termos do problema: “Ao nível de significância de 2%, não há evidências estatísticas“Ao nível de significância de 2%, não há evidências estatísticas suficientes a favor da hipótese de que a carga média no ponto de falha da liga U-700 seja diferente de 15.0 megapascal” Probabilidade de Significância (valor P) Lembrando que o nível de significância (α) é o valor máximo pré- fixado para a probabilidade de Erro Tipo I; o valor de α é arbitrário e definido pelo pesquisador. De posse dos dados amostrais, podemos perguntar: Qual é a probabilidade de errarmos ao rejeitar a hipótese nula com esses dados amostrais ? Essa probabilidade é o valor P do teste Probabilidade de Significância (valor P) É a probabilidade de errar ao decidir pela rejeição da hipótese nula com base nos dados observados. Se valor p < α→ Rejeita-se H0 ao nível de significância α Se valor p ≥ α→ Não se rejeita H0 ao nível de significância α Método do valor P Raciocínio no qual se baseia o método do valor p Se o valor p é “pequeno”, a probabilidade de cometermos um erro ao rejeitarmos H0 é pequena. Então, devemos rejeitar H0. Se o valor p é “grande”, a probabilidade de cometermos um Se o valor p é “grande”, a probabilidade de cometermos um erro ao rejeitarmos H0 é grande. Então, não devemos rejeitar H0. “pequeno” “grande” α em comparação com Como calcular o valor p de um teste de hipóteses? O valor p é a probabilidade de a estatística de teste ter valores mais “extremos” do que seu valor calculado com os dados amostrais, supondo H0 verdadeira. Exemplo 1 (continuação): H0: µ = 15.0 Ha: µ ≠ 15.0 Valor observado para a estatística de teste: 1.70obsT = − α = 0.02 Valores “mais extremos” do que TValores “mais extremos” do que Tobs -1.70 1.70 menores maiores 1.70-1.70 t21 g.l. Valor p = P[t21 < -1.70] + P[t21 > 1.70] 1.70 P[t21 > 1.323] = 0.10 P[t21 > 1.721] = 0.05 0.05< P[t21 > 1.70] < 0.10 Por simetria, P[t21 < -1.70] = P[t21 > 1.70] 0.05< P[t21 < -1.70] < 0.10 1.70-1.70 t21 g.l. Exemplo 1 (continuação): H0: µ = 15.0 Ha: µ ≠ 15.0 Valor observado para a estatística de teste: 1.70obsT = − α = 0.02 Valores “mais extremos” do que Tobs t21 g.l. Valores “mais extremos” do que Tobs -1.70 1.70 menores maiores 1.70-1.70 < 0.10 < 0.10 t21 g.l. Valor p = P[t21 < -1.70] + P[t21 > 1.70] = 2xP[t21 > 1.70] 0.10 < Valor p < 0.20, pois 0.05< P[t21 < -1.70] < 0.10 Exemplo 1: Como o valor p é maior do que o valor do nível de significância adotado, então não se rejeita H0 ao nível de 2% de significância. Conclusão em termos do problema: Exemplo 1 (continuação): “Ao nível de significância de 2%, não há evidências estatísticas suficientes a favor da hipótese de que a carga média no ponto de falha da liga U-700 seja diferente de 15.0 megapascal” (0.10 < valor p < 0.20)”. Teste de Hipóteses Unilateral H0: µ = 15.0 Ha: µ < 15.0 α = 0.05 13.71 15.00 1.29ox µ− − − = = = = − Dados amostrais: , s=3.55 e n=2213.71x = Estatística de teste: 13.71 15.00 1.29 1.700.76/ 3.55 / 22 o obs xT s n µ− − − = = = = − Região de Rejeição: 1.721obsT < − -1.721 0.05 t21 g.l. Teste de Hipóteses Unilateral H0: µ = 15.0 Ha: µ < 15.0 α = 0.05 Valor observado para a estatística de teste: 1.70obsT = − Valores “mais extremos” do que Tobs -1.70 Valor p t21 g.l. Valores “mais extremos” do que Tobs -1.70 menores Valor p = P[t21 < -1.70] 0.05 < Valor p < 0.10, pois 0.05< P[t21 < -1.70] < 0.10 Como o valor p é maior do que o valor do nível de significância adotado, então não se rejeita H0 ao nível de 5% de significância. Conclusão em termos do problema: Exemplo 1: (continuação, teste unilateral): “Ao nível de significância de 5%, não há evidências estatísticas suficientes a favor da hipótese de que a carga média no ponto de falha da liga U-700 seja menor do que 15.0 megapascal” (0.05 < valor p < 0.10)”. De maneira geral Hipóteses Rejeita-se H0(ao n.s = α) Região de Rejeição de H0 Valor p H0: µ = µ0 HA: µ< µ0 P( T(n-1) < Tobs ));1( α−−< ntTobs ns xT oobs µ− = H0: µ = µ0 HA: µ > µ0 P( T(n-1) > Tobs ) H0: µ = µ0 HA: µ ≠ µ0 2 x P(T(n-1) > |Tobs |) );1( α−> ntTobs )2;1( α − −< n tTobs )2;1( α − > n tTobs ou Intervalos de Confiança e Testes de Hipóteses Intervalos de Confiança podem ser usados para se fazer Testes de Hipóteses Bilaterais. H0: µ = µ00 0 HA: µ ≠ µ0 A região de não-rejeição de um teste bilateral sobre µ é o intervalo de confiança para µ. ( 1; ) 2 n obsT t α − < − )2;1( α − > n tTobs OU ( 1; ) ( 1; ) 2 2 n n obst T tα α − − − < < Intervalos de Confiança e Testes de Hipóteses Região de Rejeição Região de Não-Rejeição oxt t µ− − < < )2;1( −n Se um intervalo com 100(1-α)% de confiança é usado para se fazer um teste bilateral, o nível de significância associado ao teste é α%. ( 1; ) ( 1; ) 2 2 / o n n x t t s n α α µ − − − − < < 0( 1; ) ( 1; ) 2 2 / / n n x t s n x t s nα αµ − − − ⋅ < < − ⋅ Como usar um Intervalo de Confiança para fazer um Teste de Hipóteses ? NÃO rejeitamos H0 ao nível de α% de significância H0: µ = µ0 HA: µ ≠ µ0 O intervalo de 100(1-α)% de confiança para µ contém o valor µ0 ? NÃO SIM de α% de significância não rejeitamos H0 ao nível de α% de significância Exemplo: energia de impacto em placas de aço A238 O teste Charpy V-notch (CVN) mede a energia de impacto (em J) e é frequentemente usado para determinar se um material experimenta ou não uma transição dúctil-frágil com um decréscimo de temperatura. Em um experimento com 10 corpos-de-prova de aço A238, cortados a 60o C, a energia de impacto média foi de 64,46 J e o desvio-padrão foi de 1.07 J. Considerando que energia de impacto seja normalmente distribuída, a energia de impacto média nas placas de aço A238 está entre 63.84 J e 65.08 J, com 95% de confiança. Supondo que uma norma de qualidade determine que a energia de impacto média seja de 64.0 J. Os resultados do experimento mostram evidências estatísticas contra a hipótese de que as placas de aço do lote atendem à norma de qualidade? Nível de confiança =0.95 � α=0.05 Exemplo: energia de impacto em placas de aço A238 [ ]95% 63.84 ; 65.08 ICµ = H0: µ = 65.0 (atende) µHA: µ ≠ 65.0 (não atende) Como o intervalo de 95% de confiança contém o valor de µ sob H0, não podemos rejeitá-la ao nível de 5% de significância Ao nível de 5% de significância, não há evidências estatísticas suficientes contra a hipótese de que as placas de aço do lote atendam à norma de qualidade. Teste de Hipóteses para a Proporção Teste de Hipóteses para a Variância de uma População Normal
Compartilhar