Buscar

Testes de Hipóteses

Prévia do material em texto

Testes de Hipóteses
Henrique Dantas Neder
I
Vimos no capítulo anterior como construir intervalos de
confiança para parâmetros da população. Um outro
procedimento muito utilizado em inferência é o
estabelecimento de um teste de hipóteses referente ao valor de
um dado parâmetro.
I
Da mesma forma como quando contruimos um intervalo de
confiança para o valor do parâmetro, quando fazemos um teste
de hipóteses a respeito do valor do parâmetro, jamais
saberemos o valor verdadeiro deste parâmetro.
I
Um teste de hipóteses refere-se a uma determinada afirmativa
(hipótese) a respeito do parâmetro. Por exemplo, queremos
testar a hipótese de que o valor do parâmetro média
populacional µ é igual a 50 (µ = 50).
I
Quando testamos o valor deste parâmetro, podemos aceitar
uma hipótese central ou rejeitá-la. Desta forma um teste de
hipóteses será realizado com base em uma regra de decisão.
I
O primeiro passo em um teste de hipóteses é o da formulação
das hipóteses. Sempre trabalhamos com uma hipótese central
(ou hipótese nula) e uma hipótese alternativa.
I
Quando aceitamos a hipótese nula (de acordo com a nossa
regra de decisão) automaticamente rejeitamos a hipótese
alternativa e vice-versa (as duas hipóteses são excludentes e
opostas).
I
Vejamos um exemplo: suponhamos que queiramos testar (para
uma dada população) a hipótese de que sua média é igual a
50.
I
A hipótese nula será: H
0
{µ
X
= 50
I
A hipótese alternativa será H
a
{µ
X
6= 50
I
Para testar estas hipóteses selecionamos aleatoriamente
(amostra aleatória simples) uma amostra da população e
calculamos sua média amostral e seu desvio padrão amostral:
X =
∑
n
i=1 Xi/n e s =
√∑
n
i=1(Xi−X
2
)
n−1
I
Suponhamos que após os cálculos (baseados nos valores
amostrais de X) uma amostra de tamanho n = 40 produziu os
seguintes resultados:
X = 53 e s = 10
I
Sabemos que
X−µ
0
s/
√
n
tem distribuição normal padrão (z) onde
µ
0
é o valor considerado na hipótese nula (no caso deste
exemplo 50).
I
Devemos definir um nível de significância para o nosso teste de
hipóteses. Por exemplo, definimos α = 0.05 (um nível de
significância de 5%).
I
Estabelecemos uma regra decisão: se z > −1, 96 e z < 1, 96
aceitamos a hipótese nula e em caso contrário rejeitamos a
hipótese nula e aceitamos a hipótese alternativa.
I
Calculamos o valor da estatística de teste:
z = X−µ0
s/
√
n
= 53−50
10/
√
40
= 1.8973
I
Neste caso, como z cai dentro da região de aceitação da
hipótese nula (−1.96 < z < 1.96) aceitamos esta hipótese ou
seja aformamos que µ = 50.
I
Desta forma para realizar um teste de hipóteses temos que
seguir os seguintes passos:
1. Primeiro etapa: Definir as hipóteses
2. Segunda etapa: Escolher uma estatística de teste (no caso do
exemplo, a estatística de teste é X que através da
padronização se transforma na estatística z .
3. Definir uma regra de decisão: criar as regiões de aceitação de
H
0
(ou rejeição de H
a
) e de rejeição de H
0
(ou de aceitação de
H
a
).
4. Selecionar uma amostra e calcular o valor da estatística de
teste (no exemplo anterior X ).
5. Comparar o valor da estatística de teste com as regiões de
aceitação e de rejeição de H
o
e tomar uma decisão (aceitar ou
rejeitar H
0
).
I
Um teste de hipóteses é semelhante a decisão de um juri em
um tribunal: o juri pode condenar ou inocentar o reu.
Suponhamos que a hipótese nula do julgamento (H
0
) seja {o
reu é inocente}. Então rejeitar a hipótese nula significa declar
o reu inocente e a hipótese alternativa significa que o juri
toma a decisão de declarar o reu culpado.
I
O juri pode cometer dois tipos de erro: decidir que o reu é
culpado quando na verdade o reu é inocente ou decidir que o
reu é inocente quando na verdade o reu é culpado.
I
Da mesma forma em um teste de hipóteses estatístico
podemos também cometer dois tipos de erro: rejeitar H
0
quando H
0
é verdadeira (chamado de erro tipo I) ou aceitar
H
0
quando H
0
é falsa.
I
A probabilidade de cometer um erro tipo I é chamada de nível
de significância (α) do teste de hipóteses.
I
No exemplo anterior aceitamos a hipótese nula ao nível de
significância (α) de 5 % (ou 0.05). Isto porque determinamos
as regiões de aceitação e de rejeição de H
0
com base neste
valor de significância.
I
Mas se definíssemos um nível de significância α = 0.10 para o
teste decidiriamos aceitar H
0
caso −1.6448 < z < 1.6448.
Como o valor de z
calculado
=1.8963 caimos fora da região de
aceitação de H
0
. Isto quer dizer que ao nível de significância
α = 0.10 rejeitamos a hipótese nula.
I
Neste caso poderíamos estar cometendo o erro tipo I (ao
rejeitar H
0
quando na verdade H
0
é verdadeira). Qual seria a
probabilidade exata de estarmos cometendo erro tipo I quando
rejeitamos a hipótese nula?
I
Esta probabilidade seria igual a
P(z < −1.8973 ∪ z > 1.8973) = 2× φ(−1.8973) = .057788.
Esta seria a probabilidade exata de estarmos cometendo um
erro tipo I ao rejeitarmos H
0
quando o valor de
z
calculado
= 1.8963 ou (o que é o mesmo) quando o valor de
X = 53.
I
Exemplo: Os empregados de uma determinada empresa
deveriam trabalhar, em média, 8h diárias. De forma a
investigar se os empregados estão a trabalhar mais do que as
horas previstas, o sindicato registou o número de horas que
150 trabalhadores (escolhidos ao acaso) trabalharam num dia
qualquer, tendo obtido os seguintes resultados:∑
150
i=1 Xi = 1260 e
∑
150
i=1(Xi − X )2 = 1000
a) Teste ao nível de significância de 5%, se a empresa deverá ser
punida por exigir que os seus empregados trabalhem mais do que
deviam.
b) Qual o tipo de erro que pode cometer relativamente à decisão
que tomou?
Solução:
H
0
{µ
X
= 8
H
a
{µ
X
> 8
Este é um caso de teste unilateral porque estamos considerando
como hipótese alternativa apenas uma das caudas (a cauda direita)
da distribuição. Caso a hipótese alternativa fosse H
a
{µ
X
6= 8
teriamos uma situação de teste bilateral. Isto influencia a
determinação das regiões de aceitação e de rejeição de H
0
: no caso
do teste unilateral consideramos todo o valor do nível de
significância em uma das caudas somente e assim definimos a
seguinte regra de decisão:
Se z < z
cr ı´tico = φ
−1
(.95) = 1.6448 aceitamos H
0
e em caso
contrário z > 1.6448 rejeitamos H
0
De acordo com os valores dados temos:
z
calculado
= X−µ0
s
X
= X−µ0
s
x
/
√
n
= (1260/150)−8√
1000/149/
√
150
= 1.8910
Neste caso rejeitamos H
0
ao nível de significância de 5% pois o
valor de z
calculado
cai na região de rejeição de H
0
.
Mas podemos estar cometendo um erro tipo I. Qual é a
probabilidade exata de estarmos cometendo este tipo de erro?
Podemos calcular esta probabilidade como:
P(erro tipo I ) = P(z > 1.8910|H
0
e´ verdadeiro) = P(z >
1.8910) = 1− φ(1.8910) = .02931
A conclusão é que devemos tomar a decisão de rejeitar H
0
mas
estando cientes de que podemos estar cometendo um erro tipo I
(rejeitar H
0
quando H
0
é verdadeira) com uma probabilidade exata
de 2,93%. Como esta probabilidade é relativamente baixa,
podemos rejeitar H
0
. Esta probabilidade exata é chamada de
p − value do teste. É o valor do menor nível de significância para o
qual podemos rejeitar H
0
.
Exemplo: Numa determinada empresa pensa-se importar um
grande lote de instrumentos de precisão, para os quais o fabricante
garante um peso médio igual a 100 gr. Sendo o peso uma
característica importante para a qualidade do produto, resolveu-se
testar a veracidade da afirmaçãodo fabricante. Para tal, o
departamento técnico da empresa importadora obteve uma amostra
de 15 instrumentos, através da qual se obtiveram os seguintes
valores:∑
15
i=1 Xi = 1407 e
∑
15
i=1(Xi − X )2 = 1674
Admitindo a normalidade dos pesos, qual a sua opinião, ao nível de
significância de 1%, relativamente à afirmação do fabricante.
Solução:
Definição das hipóteses:
H
0
{µ
X
= 100 contra H
a
{µ
X
6= 100
Como a amostra é pequena (n < 30) não podemos utilizar a
distribuição normal padrão z . Temos que usar a distribuição t de
Student porque sabemos que a distribuição de X na população é
normal. O valor crítico de t ao nível de significância de 0.01 e para
um número de graus de liberdade n− 1 = 14 é igual a 2.9768. Este
valor pode ser obtido através do comando Stata disp
invttail(14,.005) ou por uma tabela para a t de Student.
Colocamos 0.005 no argumento da probabilidade porque devemos
considerar que as duas caudas da distribuição somam 1%.
As regiões de aceitação e de rejeição de H
0
são definidas como:
Aceitar H
0
se −2.9768 < t
calculado
< 2.9768
Rejeitar H
0
se t
calculado
≤ −2.9768 ou t
calculado
≥ 2.9768
O valor de t calculado, de acordo com os resultados da amostra,
pode ser obtido como:
t
calculado
= X−µ0
s
X
= (1407/15)−100√
1674
14
/
√
15
= −2.1959
Caimos na região de aceitação de H
0
.
Exemplo:Suponha que determinado canal de televisão deseja saber
qual tinha sido a percentagem de pessoas que viram determinado
programa. Para tal, realizou uma sondagem tendo sido inquiridas
220 pessoas, das quais 132 disseram ter visto o referido programa.
a) Determine um intervalo de confiança de nível 95% para
percentagem de pessoas em toda a população que viu esse
programa. b) Qual deveria ser o número de pessoas inquiridas para
se obter um intervalo de confiança de nível 95% com metade da
amplitude do anterior? (Admita que a proporção das pessoas que
viram o programa se mantém.) c) Poder-se-á afirmar, ao nível de
5%, que mais de metade das pessoas viram o programa?
Solução:
a) P(pˆ − z
1−.05/2 × σpˆ < p <pˆ + z1−.05/2 × σpˆ) = 0.95
P(132
220
− 1.96×
√
132
220
×(1− 132
220
)
220
<
p <132
220
+ z
1−.05/2 ×
√
132
220
×(1− 132
220
)
220
) = 0.95
P(.5352 < p < .6647) = 0.95
b) amplitude = (.6647− .5352)/2 = .06475
erro de amostragem = amplitude/2 = .032375
Utilizamos a expressão: e = z
1−α/2 × σpˆ = z1−α/2 ×
√
pˆ×(1−pˆ)
n
Para isolar n, temos:
e
2 = (z
1−α/2)2 × pˆ×(1−pˆ)
n
n =
(z
1−α/2)2×pˆ×(1−pˆ)
e
2
=
1.962× 132
220
×(1− 132
220
)
.0323752
= 879.8 ≈ 880
c) Formulação das hipóteses:
H
0
{p = 0.50 contra H
a
{p > .50 (o teste é unilateral ou unicaudal)
Definição da região de aceitaçao e de rejeição de H
0
:
Aceita-se H
0
se z
calculado
for menor do que
z
cr ı´tico = φ
−1(0.95) = 1.6448
Observe que jogamos todo o valor do nível de significância do teste
em apenas uma das caudas da distribuição porque o teste é
unilateral. Se o teste fosse bilateral teriamos que calcular
φ−1(.975): teriamos que distribuir igualmente o nível de
significância nas duas caudas da distribuição.
Cálculo do valor de z
calculado
:
z
calculado
= pˆ−p0σ
pˆ
=
132
220
−0.5√
132
220
×(1− 132
220
)
220
= 3.0276
Rejeitamos H
0
ao nível de significância de 5%.
Exemplo: Admita que a direcção comercial de uma determinada
empresa pretende lançar um novo serviço de telecomunicações. De
acordo com critérios empresariais, o serviço só deverá ser lançado
no mercado se houver mais de 80% de potenciais compradores.
Assim, para averiguar o eventual lançamento do serviço, a empresa
decidiu efectuar um inquérito a 400 grandes clientes, tendo 340
sido favoráveis à aquisição do novo serviço. a) Para um nível
significância de 5%, poder-se-á concluir que a empresa opta pelo
lançamento do serviço? E para um nível de significância de 1%? b)
Determine o valor p do teste e interprete-o.
Solução:
a) Definição das hipóteses:
H
0
{p ≤ 0.8 contra H
a
{p > 0.8
Determinação das regiões de aceitação e de rejeição de H
0
:
Como o teste é unilateral z
cr ı´tico para um nível de significância de
5% é calculado como φ−1(.95) = 1.6448
Aceita-se H
0
se z
calculado
< z
cr ı´tico = 1.6448
z
calculado
=
340
400
−0.8√
340
400
×(1− 340
400
)
400
= 2.800
Rejeitamos H
0
ao nível de significância de 5%
Ao nível de 1% de significância o valor de z
cr ı´ticoé
φ−1(.99) = 2.3263. Neste caso também rejeitamos H
0
ao nível de
significância de 1% pois z
calculado
> z
cr ı´tico .
b) O valor p do teste é calculado como:p = 1− φ(2.8) = .00255.
Existe uma chance exata de 0.255% de cometermos o chamado
erro tipo I, ao rejeitarmos H
0
.
Exemplo: Admita que uma amostra aleatória de 400 domicílios de
uma determinada cidade revelou que 8% destes são casas de
aluguel, enquanto que, numa outra cidade, uma amostra de 270
domicílios revelou que 37 eram casas de aluguel. a) Construa um
intervalo de confiança de nível 99% para a percentagem de casas de
aluguel em cada cidade. b) Suponha que os intervalos de confiança,
obtidos na alínea anterior, sejam considerados pouco precisos. Qual
deverá ser o tamanho das amostras para que o erro de estimativa
não exceda 2%? c) Poderá afirmar estatisticamente, ao nível de
5%, que há maior percentagem de casas de aluguel em alguma das
duas cidades? Justifique.
Solução:
a) primeira cidade:
pˆ − z
1−.01/2 × σpˆ < p < pˆ + z1−.01/2 × σpˆ
0.08−2.5758×
√
0.08×(1−0.08)
400
< p < 0.08−2.5758×
√
0.08×(1−0.08)
400
0.0451 < p < 0.1149
segunda cidade:
pˆ − z
1−.01/2 × σpˆ < p < pˆ + z1−.01/2 × σpˆ
37
270
− 2.5758×
√
37
270
×(1− 37
270
)
270
< p < 37
270
+ 2.5758×
√
37
270
×(1− 37
270
)
270
0.0831 < p < 0.1909
b) primeira cidade
n =
(z
1−α/2)2×pˆ×(1−pˆ)
e
2
= 1.5758
2×0.08×(1−.08)
.022
= 456.89 ≈ 457
n =
(z
1−α/2)2×pˆ×(1−pˆ)
e
2
=
1.57582× 37
270
×(1− 37
270
)
.022
= 734.12 ≈ 734
c) esta pergunta se refere a um teste de diferença de proporções.
H
a
{p
A
= p
B
contra H
a
{p
a
6= p
b
ou H
a
{p
A
− p
B
= 0 contra
H
a
{p
a
− p
b
6= 0
A estatística de teste é a diferença de proporções das duas
amostras pˆ
a
− pˆ
b
= .08− 37
270
= −.0570
A variância de pˆ
a
− pˆ
b
será dado por
pˆ
a
(1−pˆ
a
)
n
a
+ pˆb(1−pˆb)
n
b
= .08×(1−.08)
400
+
37
270
×(1− 37
270
)
270
= .00062199
O erro padrão de pˆ
a
− pˆ
b
é igual a
√
.00062199 = .0249
Então o valor de z
calculado
será
z
calculado
= pˆa−pˆb−0σ
pˆ
a
−pˆ
b
=
.08− 37
270
.0249 = −2.2906
Para um nível de significância a região de aceitação de H
0
é
−1.96 < z
calculado
< 1.96
Portanto rejeitamos H
0
ao nível de significância de 5 %.
O p-value deste teste pode ser calculado ocmo sendo igual a
φ(−2.2906)× 2 = .02198. Multiplicamos por 2 porque o teste é
bilateral e temos que considerar a área das duas caudas da
distribuição. Interpretação do p-value: 2,20% é o nível de
siginificância exato do teste - ao rejeitarmos H
0
existe uma
probabilidade exata de estarmos rejeitando quando na verdade H
0
é
verdadeira.

Outros materiais

Materiais relacionados

Perguntas relacionadas

Perguntas Recentes