Teste de Hipóteses: Exemplo Gender Choice

•

UFMG

0

Davi Campos Drummond

14/09/2012

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Probabilidade e Estatística

29.896 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Inferência Estatística: 
Teste de Hipóteses
Média 
Variância
Proporção
Teste de Hipóteses
Teste de Hipóteses: exemplo inicial
A ProCare Industries LTDA lançou, certa vez, um 
produto chamado “Gender Choice”.
De acordo com a propaganda, o Gender Choice
permitiria aos casais aumentar em permitiria aos casais aumentar em 
� 85% a chance de terem um menino 
� 80% a chance de terem uma menina.
"Gender Choice a 'gross deception.'". FDA Consumer. FindArticles.com. 22 Sep, 2009. 
http://findarticles.com/p/articles/mi_m1370/is_v21/ai_4790727/ 
Probabilidade “natural” de ter uma menina: 50%
Exemplo Inicial 
Em um experimento para verificar a eficácia do “Gender
Choice”, suponha que 100 casais que querem uma 
menina façam uso da embalagem rosa. 
Número de meninas esperadas, caso os casais não Número de meninas esperadas, caso os casais não 
usassem nenhum método: 50 meninas
Utilizando somente o bom senso, o que deveríamos 
pensar se, das 100 crianças nascidas, 
a) 52 fossem meninas?
b) 97 fossem meninas?
Discussão (Exemplo Inicial) 
Situação a)
O número de 52 meninas é muito próximo daquele que 
esperamos sem o uso de nenhum método (50) e 
poderia ter ocorrido por mero acaso. 
Aqui, não há evidências suficientes para concluir que o 
“Gender Choice” tenha eficácia.
Discussão (Exemplo Inicial) 
Situação b)
A ocorrência de 97 meninas em 
100 nascimentos de maneira 
natural é muito pouco provável.
(< 0.0001)0
.
1
0
0
.
1
2
0
.
1
4
(< 0.0001)
0 6 13 21 29 37 45 53 61 69 77 85 93
numero de meninas
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
p = 0.50
p: probabilidade de uma 
menina em um nascimento
Discussão (Exemplo Inicial) 
Situação b)
A ocorrência de 97 meninas em 100 nascimentos 
poderia ser explicada de duas maneiras :
i) ocorreu um evento extremamente raro;i) ocorreu um evento extremamente raro;
ii) o “Gender Choice” é realmente eficaz .
Diante da probabilidade extremamente baixa de 
ocorrer 97 meninas em 100 nascimentos de maneira 
“natural”, a explicação mais sensata é a de que o 
produto é eficaz.
0
.
0
6
0
.
0
8
0
.
1
0
0
.
1
2
0
.
1
4
0
.
0
6
0
.
0
8
0
.
1
0
0
.
1
2
0
.
1
4
p = 0.50
p = 0.90
p: probabilidade de uma menina em um nascimento
0 6 13 21 29 37 45 53 61 69 77 85 93
numero de meninas
0
.
0
0
0
.
0
2
0
.
0
4
0 6 13 21 29 37 45 53 61 69 77 85 93
0
.
0
0
0
.
0
2
0
.
0
4 p = 0.50
97 meninas são muito mais prováveis quando p > 0.50. 
Temos que nos decidir por uma de duas hipóteses …
H1: Gender Choice não funciona (p = 0.50)
H2: Gender Choice funciona (p > 0.50)
… na presença de uma única amostra da população 
de interesse.
Teste de Hipóteses
Teste de Hipóteses :
decidindo na presença de incerteza
Hipótese é uma afirmação sobre um parâmetro da 
população, sobre a média de uma variável na 
população (µ) ou sobre uma proporção populacional 
(p).(p).
Teste de Hipóteses é o processo de decisão entre 
duas hipóteses sobre um parâmetro da população.
- Hipótese Nula (H0): ponto de partida
- Hipótese Alternativa (HA): hipótese do pesquisador
Teste de Hipóteses :
decidindo na presença de incerteza
Vamos utilizar as informações sobre o parâmetro contidas na 
amostra para testar H0 versus HA.
Exemplo Inicial:
p = proporção de nascimentos de meninas com o uso do Gender 
Choice.
- Hipótese do pesquisador: o método funciona (p > 0.5)
- Hipótese nula: o método não funciona (p = 0.5) 
Usando as informações da amostra de 100 casais que usaram o 
método (e, destes, quantos tiveram menina), decide-se entre 
H0: p =0.5 e HA: p >0.5
Erros associados a um Teste de Hipóteses
Decisão 
baseada
no teste
Situação real (desconhecida)
H0 é verdadeira H0 é falsa
Decisão incorreta
Rejeitar H0
Não rejeitar 
H0
Erro tipo I: Rejeitar H0 quando H0 é verdadeira.
Erro tipo II: Não rejeitar H0 quando H0 é falsa.
Decisão incorreta
(Erro Tipo I)
Decisão incorreta
(Erro Tipo II)
Decisão correta
Decisão correta
Erros associados a um Teste de Hipóteses
H : p =0.5 (o Gender Choice não funciona) 
Exemplo Inicial:
p = proporção de nascimentos de meninas com o uso do 
Gender Choice.
H0: p =0.5 (o Gender Choice não funciona) 
HA: p >0.5 (o Gender Choice funciona) 
Erro tipo I: Dizer que o Gender Choice funciona, 
quando ele não funciona
Erro tipo II: Dizer que o Gender Choice não funciona, 
quando ele funciona
Erros associados a um Teste de Hipóteses
O Erro Tipo I geralmente é o mais grave. 
Assim pretende-se “controlá-lo”, pré-fixando sua 
probabilidade de ocorrência em um valor pequeno α :
P(Erro tipo I) = P(Rejeitar H0 quando H0 é verdadeira) = α.
Este valor pré-fixado para a probabilidade do Erro Tipo I é 
chamado nível de significância do teste.
Usualmente tem-se: α = 0.10 ou α = 0.05 ou α = 0.01.
Se for fixado o valor de α = 0.05, diz-se que “é um teste de 
hipóteses ao nível de significância de 5%”.
Componentes de um Teste de Hipóteses
Hipótese nula: é a afirmação sobre o valor de um parâmetro
populacional (média ou proporção, denotados por µ e p).
Usualmente, H0 expressa a condição de igualdade.
H0: µ = µ0 , H0: µ ≥ µ0 ou H0: µ ≤ µ0.
Hipótese alternativa: é a afirmação verdadeira para o caso de
a hipótese nula ser falsa.
Comporta-se basicamente de três formas:
HA: µ ≠ µ0 , HA: µ > µ0 ou HA: µ < µ0.
Nível de significância do teste: Probabilidade máxima
tolerada para o Erro Tipo I (rejeitar H0 se ela é verdadeira).
Componentes de um Teste de Hipóteses
Estatística de teste: mede a distância entre o que foi
observado na amostra e o que seria esperado se a hipótese
nula fosse verdadeira.
Distribuição de Referência do teste: De acordo com o tipo de
teste de hipóteses feito, uma distribuição de probabilidades é
associada à estatística de teste.
Região de Rejeição: conjunto de valores da estatística de teste
que levam à rejeição de H0. A região de rejeição (RR) é
construída a partir da distribuição de referência.
Valor crítico: é o valor ou os valores que separam a região
crítica dos demais valores possíveis da estatística de teste.
Valor p: probabilidade de errar ao rejeitar a hipótese nula com
base nos dados amostrais. É calculado usando-se a
distribuição de referência da estatística do teste.
Formas das hipóteses sobre 
uma média populacional µ
H0: µ = µ0
HA: µ < µ0
H0: µ = µ0
HA: µ > µ0
H0: µ = µ0
HA: µ ≠ µ0
Teste bilateral
Teste unilateral direitoTeste unilateral esquerdo
Passos para Teste de Hipóteses
1) Definir o parâmetro (média ou proporção) sobre o qual é feito 
o teste.
2) Definir a hipótese do pesquisador.
3) Definir a hipótese nula (H0) e hipótese alternativa (HA).
4) Escolher um valor α para o nível de significância do teste.
5) Definir a estatística de teste.
6) Calcular o valor observado da estatística de teste na amostra 
retirada da população.
Passos para Teste de Hipóteses (Método Tradicional)
7) Definir a região de rejeição de H0.
Conclusão: a amostra não 
contém evidências suficientes 
O valor observado da 
estatística pertence à 
região de rejeição ?
NÃO
SIM
contém evidências suficientes 
para a rejeição da afirmação 
da hipótese nula.
Conclusão: a amostra contém 
evidências suficientes para a 
rejeição da hipótese nula.
Passos para Teste de Hipóteses (Método do Valor P)
7) Calcular o Valor P
Conclusão: a amostra não 
contém evidências suficientes 
O valor P é menor do 
que o valor do que o 
nível de significância ?
NÃO
SIM
contém evidências suficientes 
para a rejeição da afirmação 
da hipótese nula.
Conclusão: a amostra contém 
evidências suficientes para a 
rejeição da hipótese nula.
Teste de Hipóteses para a Média Populacional
H0: µ = µ0
HA: µ ≠ µ0
Teste Bilateral
x µ−
Dados amostrais: , s e nx
.
o
obs
xT
s n
µ−
=Estatística de Teste:
0
Região de 
Rejeição:
)2;1(
α
−
−<
n
tTobs
)2;1(
α
−
>
n
tTobs
OU
Sob H0, Tobs ~ t(n-1)
α/2α/2
Exemplo 1:
Um artigo no Materials Engineering* descreve os resultados de
testes trativos deadesão em 22 corpos-de-prova de liga U-700. A
carga no ponto de falha de corpo-de-prova é dada a seguir (em
megapascal).
19.8 10.1 14.9 7.5 15.4 15.4 15.4 18.5 7.9 12.7 11.9 11.4
11.4 14.1 17.6 16.7 15.8 19.5 8.8 13.6 11.9 11.411.4 14.1 17.6 16.7 15.8 19.5 8.8 13.6 11.9 11.4
A carga média nessa amostra é igual a 13.71 megapascal e o
desvio-padrão é de 3.55 megapascal.
A suspeita é de que a carga média no ponto de falha para este
tipo de liga seja diferente de 15.0 megapascal.
Os dados desses testes confirmam essa suspeita?
*vol. II, n. 4, pp. 275-281, 1989
Exemplo 1:
Parâmetro:
µ = carga média no ponto de falha (em megapascal).
H0: µ = 15.0
Ha: µ ≠ 15.0
α = 0.02
Estatística de teste: 13.71 15.00 1.29 1.700.76/ 3.55 / 22
o
obs
xT
s n
µ− − −
= = = = −
Dados amostrais: , s=3.55 e n=2213.71x =
Região de 
Rejeição: 
2.518obsT < −
2.518obsT >
OU
2.518-2.518
0.01 0.01
t21 g.l. 
Exemplo 1:
Como o valor de Tobs não pertence à região de rejeição 
(2.518 < -1.70 < -2.518), então não se rejeita H0 ao nível de 2% de 
significância.
Conclusão em termos do problema:
“Ao nível de significância de 2%, não há evidências estatísticas“Ao nível de significância de 2%, não há evidências estatísticas
suficientes a favor da hipótese de que a carga média no ponto de
falha da liga U-700 seja diferente de 15.0 megapascal”
Probabilidade de Significância (valor P)
Lembrando que 
o nível de significância (α) é o valor máximo pré-
fixado para a probabilidade de Erro Tipo I;
o valor de α é arbitrário e definido pelo pesquisador.
De posse dos dados amostrais, podemos perguntar: 
Qual é a probabilidade de errarmos ao rejeitar a 
hipótese nula com esses dados amostrais ?
Essa probabilidade é o valor P do teste 
Probabilidade de Significância (valor P)
É a probabilidade de errar ao decidir pela rejeição da 
hipótese nula com base nos dados observados.
Se valor p < α→ Rejeita-se H0 ao nível de significância α
Se valor p ≥ α→ Não se rejeita H0 ao nível de 
significância α
Método do valor P
Raciocínio no qual se baseia o método do valor p
Se o valor p é “pequeno”, a probabilidade de cometermos um 
erro ao rejeitarmos H0 é pequena. 
Então, devemos rejeitar H0. 
Se o valor p é “grande”, a probabilidade de cometermos um Se o valor p é “grande”, a probabilidade de cometermos um 
erro ao rejeitarmos H0 é grande. 
Então, não devemos rejeitar H0. 
“pequeno”
“grande”
α
em comparação com
Como calcular o valor p de 
um teste de hipóteses?
O valor p é a probabilidade de a estatística de 
teste ter valores mais “extremos” do que seu 
valor calculado com os dados amostrais, 
supondo H0 verdadeira.
Exemplo 1 (continuação):
H0: µ = 15.0
Ha: µ ≠ 15.0
Valor observado para a estatística de teste: 1.70obsT = −
α = 0.02
Valores “mais extremos” do que TValores “mais extremos” do que Tobs
-1.70 1.70
menores maiores
1.70-1.70
t21 g.l. 
Valor p = P[t21 < -1.70] + P[t21 > 1.70]
1.70
P[t21 > 1.323] = 0.10
P[t21 > 1.721] = 0.05
0.05< P[t21 > 1.70] < 0.10
Por simetria, 
P[t21 < -1.70] = P[t21 > 1.70] 
0.05< P[t21 < -1.70] < 0.10
1.70-1.70
t21 g.l. 
Exemplo 1 (continuação):
H0: µ = 15.0
Ha: µ ≠ 15.0
Valor observado para a estatística de teste: 1.70obsT = −
α = 0.02
Valores “mais extremos” do que Tobs t21 g.l. Valores “mais extremos” do que Tobs
-1.70 1.70
menores maiores
1.70-1.70
< 0.10 < 0.10
t21 g.l. 
Valor p = P[t21 < -1.70] + P[t21 > 1.70]
= 2xP[t21 > 1.70]
0.10 < Valor p < 0.20, pois 0.05< P[t21 < -1.70] < 0.10
Exemplo 1:
Como o valor p é maior do que o valor do nível de significância 
adotado, então não se rejeita H0 ao nível de 2% de significância.
Conclusão em termos do problema:
Exemplo 1 (continuação):
“Ao nível de significância de 2%, não há evidências estatísticas
suficientes a favor da hipótese de que a carga média no ponto de
falha da liga U-700 seja diferente de 15.0 megapascal” (0.10 <
valor p < 0.20)”.
Teste de Hipóteses Unilateral 
H0: µ = 15.0
Ha: µ < 15.0
α = 0.05
13.71 15.00 1.29ox µ− − −
= = = = −
Dados amostrais: , s=3.55 e n=2213.71x =
Estatística de teste: 13.71 15.00 1.29 1.700.76/ 3.55 / 22
o
obs
xT
s n
µ− − −
= = = = −
Região de 
Rejeição: 1.721obsT < −
-1.721
0.05
t21 g.l. 
Teste de Hipóteses Unilateral 
H0: µ = 15.0
Ha: µ < 15.0
α = 0.05
Valor observado para a estatística de teste: 1.70obsT = −
Valores “mais extremos” do que Tobs
-1.70
Valor 
p
t21 g.l. 
Valores “mais extremos” do que Tobs
-1.70
menores
Valor p = P[t21 < -1.70] 
0.05 < Valor p < 0.10, pois 0.05< P[t21 < -1.70] < 0.10
Como o valor p é maior do que o valor do nível de significância 
adotado, então não se rejeita H0 ao nível de 5% de significância.
Conclusão em termos do problema:
Exemplo 1: (continuação, teste unilateral):
“Ao nível de significância de 5%, não há evidências estatísticas
suficientes a favor da hipótese de que a carga média no ponto de
falha da liga U-700 seja menor do que 15.0 megapascal” (0.05 <
valor p < 0.10)”.
De maneira geral
Hipóteses Rejeita-se H0(ao n.s = α)
Região de Rejeição 
de H0
Valor p
H0: µ = µ0
HA: µ< µ0
P( T(n-1) < Tobs ));1( α−−< ntTobs
ns
xT oobs
µ−
=
H0: µ = µ0
HA: µ > µ0
P( T(n-1) > Tobs )
H0: µ = µ0
HA: µ ≠ µ0
2 x P(T(n-1) > |Tobs |)
);1( α−> ntTobs
)2;1(
α
−
−<
n
tTobs
)2;1(
α
−
>
n
tTobs
ou
Intervalos de Confiança e Testes de Hipóteses
Intervalos de Confiança podem ser usados para se 
fazer Testes de Hipóteses Bilaterais.
H0: µ = µ00 0
HA: µ ≠ µ0
A região de não-rejeição de um teste bilateral sobre µ é o 
intervalo de confiança para µ.
( 1; )
2
n
obsT t α
−
< −
)2;1(
α
−
>
n
tTobs
OU
 
( 1; ) ( 1; )
2 2
 
n n
obst T tα α
− −
− < <
Intervalos de Confiança e Testes de Hipóteses
Região de Rejeição Região de Não-Rejeição
 
oxt t
µ−
− < <
)2;1( −n
Se um intervalo com 100(1-α)% de confiança é usado para
se fazer um teste bilateral, o nível de significância associado
ao teste é α%.
( 1; ) ( 1; )
2 2
 
/
o
n n
x
t t
s n
α α
µ
− −
−
− < <
0( 1; ) ( 1; )
2 2
/ /
n n
x t s n x t s nα αµ
− −
− ⋅ < < − ⋅
Como usar um Intervalo de Confiança 
para fazer um Teste de Hipóteses ?
NÃO
rejeitamos H0 ao nível 
de α% de significância
H0: µ = µ0
HA: µ ≠ µ0
O intervalo de 100(1-α)% de 
confiança para µ contém o 
valor µ0 ?
NÃO
SIM
de α% de significância
não rejeitamos H0 ao 
nível de α% de 
significância
Exemplo: energia de impacto em placas de aço A238
O teste Charpy V-notch (CVN) mede a energia de impacto (em J) e
é frequentemente usado para determinar se um material
experimenta ou não uma transição dúctil-frágil com um decréscimo
de temperatura.
Em um experimento com 10 corpos-de-prova de aço A238,
cortados a 60o C, a energia de impacto média foi de 64,46 J e o
desvio-padrão foi de 1.07 J.
Considerando que energia de impacto seja normalmente 
distribuída, a energia de impacto média nas placas de aço A238 
está entre 63.84 J e 65.08 J, com 95% de confiança.
Supondo que uma norma de qualidade determine que a energia de 
impacto média seja de 64.0 J. Os resultados do experimento 
mostram evidências estatísticas contra a hipótese de que as placas 
de aço do lote atendem à norma de qualidade?
Nível de confiança =0.95 � α=0.05
Exemplo: energia de impacto em placas de aço A238
[ ]95% 63.84 ; 65.08 ICµ =
H0: µ = 65.0 (atende)
µHA: µ ≠ 65.0 (não atende)
Como o intervalo de 95% de confiança contém o valor de µ sob 
H0, não podemos rejeitá-la ao nível de 5% de significância
Ao nível de 5% de significância, não há evidências estatísticas 
suficientes contra a hipótese de que as placas de aço do lote 
atendam à norma de qualidade.
Teste de Hipóteses para a Proporção
Teste de Hipóteses para a Variância 
de uma População Normal