Inferência Sobre Duas Populações

Estatística II

•
UFMG

Giulia Berbel
21/08/2013
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística II

3.265 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Inferência sobre duas populações
INFERÊNCIA SOBRE DUAS POPULAÇÕES
Comparação de duas médias
Vimos anteriormente alguns procedimentos de testes de hipóteses que se relacionam a uma amostra de
dados extraída de uma única população. Porém, há estudos em que o objetivo é comparar amostras de
dados extraídas de duas populações. Neste caso, é preciso veriﬁcar se estas estão ou não relacionadas:
• Amostras independentes: a amostra retirada de uma população não tem qualquer ligação com a
amostra retirada da outra população.
� Ex.: veriﬁcar se há diferença no teor de nicotina de cigarros com e sem ﬁltros.
• Amostras dependentes ou pareadas: a amostra de uma população tem alguma ligação com a
amostra da outra população.
� Ex.: observações tomadas na mesma unidade amostral, antes e depois de alguma intervenção..
2 amostras
Amostras dependentes
teste t
Amostras independentes
Variâncias conhecidas
teste Z
Variâncias desconhecidas
Variâncias iguais
teste t
Variâncias diferentes
teste t
1
Inferência sobre duas populações
1 Amostras dependentes (pareadas)
Os testes são construídos sob as suposições de que as duas amostras são aleatoriamente selecionadas e as
populações são normalmente distribuídas.
Parâmetros: µ1 = média da população 1; µ2 = média da população 2 ou µd = µ1 − µ2 = diferença das
médias das duas populações.
Estrutura dos dados: Amostra constituída de n pares: X1 e X2 correspondem a duas características de
uma mesma unidade amostral. Calculam-se então as diferenças entre as medidas das duas caracterís-
ticas, para cada par.
Unidade amostral (par) X1 X2 Diferenças (d)
1 x11 x21 d1 = x11 − x21
2 x12 x22 d2 = x12 − x22
.
.
.
.
.
.
.
.
.
.
.
.
n x1n x2n dn = x1n − x2n
E a partir dos dados da tabela é possível obter: d¯ = média das diferenças e sd = desvio-padrão das diferenças.
Hipóteses: Para construir as hipóteses, veriﬁquemos que µ1 = µ2 → µd = 0. Assim, as estruturas
possíveis de hipóteses são:
H0 : µd = 0 H0 : µd ≥ 0 H0 : µd ≤ 0
H1 : µd 6= 0 H1 : µd < 0 H1 : µd > 0
Estatística de teste: Tobs = d¯sd/
√
n
∼ tn−1
Região crítica: Ao nível de signiﬁcância α:
Primeiro caso:
Hipóteses: H0 : µd ≥ 0 vs H1 : µd < 0
RC= {Tobs : Tobs < −tα}
−− tαα µµ
2
Inferência sobre duas populações
Segundo caso:
Hipóteses: H0 : µd ≤ 0 vs H1 : µd > 0
RC= {Tobs : Tobs > tα}
µµ tαα
Terceiro caso:
Hipóteses: H0 : µd = 0 vs H1 : µd 6= 0
RC=
{
Tobs : Tobs < −tα/2 ou Tobs > tα/2
}
−− tαα 2 µµ tαα 2
Exemplo 1.1: Uma ﬁrma de pesquisa de mercado usou uma amostra aleatória de indivíduos para avaliar
o potencial de compra de determinado produto antes e depois de as pessoas virem um novo comercial
de televisão a respeito do produto em questão. As avaliações do potencial de compra basearam-se em
uma escala de 0 a 10, e os valores mais altos indicavam maior potencial de compra. A partir de estudos
anteriores, sabe-se que as avaliações do potencial de compra antes e depois de as pessoas virem comerciais
são normalmente distribuídas. A hipótese nula declarava que a avaliação média 'depois' seria menor ou igual
à avaliação média 'antes'. A rejeição dessa hipótese demonstraria que o comercial melhorou a avaliação do
potencial médio de compra. Use α = 0, 05 e os dados apresentados a seguir para testar a hipótese.
Indivíduo Depois Antes
1 6 5
2 6 4
3 7 7
4 4 3
5 3 5
6 9 8
7 7 5
8 6 6
Solução:
Trata-se de um teste em que as amostras são pareadas, porque as informações foram colhidas do mesmo indi-
víduo antes de depois de verem um comercial de televisão a respeito de um produto.
Parâmetros: µ1 : Avaliação média antes de assistir ao comercial sobre o produto; µ2 : Avaliação média depois
de assistir ao comercial sobre o produto; µd = µ2 − µ1 : Médias das diferenças entre as avaliações depois e antes de
assistir ao comercial sobre o produto.
Hipóteses: H0 : µ2 ≤ µ1 → µd ≤ 0 vs H1 : µ2 > µ1 → µd > 0
3
1.1 Construção de intervalo de conﬁança para a média das diferenças Inferência sobre duas populações
Cálculo das diferenças:
Avaliação de compra Diferenças
Indivíduo Depois Antes Depois - Antes
1 6 5 1
2 6 4 2
3 7 7 0
4 4 3 1
5 3 5 -2
6 9 8 1
7 7 5 2
8 6 6 0
Diferença média: 0,625
Desvio-padrão das diferenças: 1,302
Estatística de teste: Tobs =
d¯
sd/
√
n
= 0,625
1,302/
√
8
= 1, 357
Região crítica: Como H1 : µd > 0 e α = 0, 05, precisamos encontrar o valor crítico da distribuição t-Student com 7 graus
de liberdade (n - 1 = 8 - 1 = 7) que deixe 0,05 de área à sua direita. Este valor crítico é 1,8946. A região crítica então é:
RC = {Tobs : Tobs > 1, 8946}.
Decisão: Como Tobs = 1, 357 < 1, 8946 → Tobs /∈ RC → Não se rejeita H0.
Conclusão: A 5% de signiﬁcância, não há evidências amostrais de que o comercial de televisão aumente o potencial de
compra do produto.
1.1 Construção de intervalo de conﬁança para a média das diferenças
O IC de (1− α)100% de conﬁança para µd é dado por:
IC(1−α)100%(µd) =
[
d¯− tα/2 sd√
n
; d¯+ tα/2
sd√
n
]
(1)
onde tα/2 deve ser obtido na tabela t-Student com n − 1 graus de liberdade tal que P(t > tα/2) = α/2.
A quantidade E = tα/2 sd√n é chamada de margem de erro, de modo que o intervalo pode ser obtido,
equivalentemente, por:
d¯− E < µd < d¯+ E (2)
4
1.2 Decisão via p-valor Inferência sobre duas populações
Interpretação: Com (1− α)100% de conﬁança, o valor de µd está entre d¯− E e d¯+ E.
Observação: Construir um intervalo de (1− α)100% de conﬁança para µd corresponde a realizar o teste
bilateral para µd ao nível de signiﬁcância α. A regra de decisão, neste caso, é:
Se µd ∈
[
d¯− tα/2 sd√n ; d¯+ tα/2 sd√n
]
→ Não se rejeita H0
Se µd /∈
[
d¯− tα/2 sd√n ; d¯+ tα/2 sd√n
]
→ Rejeita-se H0
No exemplo 1.1: O teste é unilateral, não poderemos conclui-lo pelo intervalo de conﬁança. Mas podemos
construir o intervalo para interpretá-lo, usando α = 0, 05:
IC95%(µd) =
[
d¯− tα/2
sd√
n
; d¯+ tα/2
sd√
n
]
=
[
0, 625− 2, 3646 1, 302√
8
; 0, 625 + 2, 3646
1, 302√
8
]
= [−0, 463; 1, 713]
Assim, podemos dizer que, com 95% de conﬁança, o valor de µd está entre -0,463 e 1,713.
1.2 Decisão via p-valor
O p-valor é a probabilidade de ser obtido um valor para a estatística de teste igual ou mais extremo do que
o observado na amostra, considerando verdadeira a hipótese nula.
Regra de decisão:
• Se p-valor < α → H0 deve ser rejeitada, ao nível de signiﬁcância α.
• Se p-valor ≥ α → H0 não deve ser rejeitada, ao nível de signiﬁcância α.
Como calcular o p-valor?
H0 : µd ≥ 0 vs H1 : µd < 0 p− valor = P(tn−1 < Tobs)
H0 : µd ≤ 0 vs H1 : µd > 0 p− valor = P(tn−1 > Tobs)
H0 : µd = 0 vs H1 : µd 6= 0 p− valor = 2P(tn−1 > |Tobs|)
Cálculo do p-valor no exemplo 1: Como n=8 e a estatística de teste Tobs = 1, 357, para um teste de comparação de duas
médias a partir de amostras pareadas cuja hipótese alternativa é H1 : µd > 0:
p-valor = P(tn−1 > Tobs) = P(t7 > 1, 357) > 0, 10 → Não se rejeita H0.
2 Amostras independentes
Os testes são construídos sob as seguintes suposições: as duas populações são independentes; as amostras
foram aleatoriamente selecionadas em cada população e as populações das quais foram extraídas as amostras
X1 e X2 são normalmente distribuídas: X1 ∼ N(µ1, σ21) e X2 ∼ N(µ2, σ22).
5
2.1 Caso 1: Variâncias conhecidas Inferência sobre duas populações
Estrutura dos dados: No caso de amostras independentes, teremos estatísticas descritivas para as duas
amostras e não mais trabalharemos com as diferenças entre as duas amostras. Outro detalhe impor-
tante é que as amostras podem ser de tamanhos diferentes.
Amostras X1 X2
Tamanho n1 n2
Média x¯1 x¯2
Desvio-padrão s1 s2
Hipóteses: Estruturas possíveis:
H0 : µ1 = µ2 H0 : µ1 ≥ µ2 H0 : µ1 ≤ µ2
H1 : µ1 6= µ2 H1 : µ1 < µ2 H1 : µ1 > µ2
2.1 Caso 1: Variâncias conhecidas
Parâmetros: µ1: média da população da qual foi extraída a amostra X1 e µ2: média da população da
qual foi extraída a amostra X2.
Estatística de teste: Zobs = x¯1−x¯2√
σ21
n1
+
σ22
n2
∼ N(0, 1).
Região crítica:
Primeiro caso:
Hipóteses: H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2
RC= {Zobs: Zobs < −zα}
−− zαα µµ
Segundo caso:
Hipóteses: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2
RC= {Zobs : Zobs > zα}
µµ zαα
6
2.1 Caso 1: Variâncias conhecidas Inferência sobre duas populações
Terceiro caso:
Hipóteses: H0 : µ1 = µ2 vs H1 : µ1 6= µ2
RC=
{
Zobs : Zobs < −zα/2 ou Zobs > zα/2
}
−− zαα 2 µµ zαα 2
Exemplo 2.1 : Um estudo realizado pela Cornell University dos diferenciais de salário entre homens e
mulheres relatou que uma das razões pelas quais os salários dos homens são mais altos que os das mulheres
é o fato de os homens tenderem a ter mais anos de experiência no trabalho que as mulheres. Supondo que
os resumos amostrais abaixo apresentem os anos de experiência correspondente a cada grupo e que os anos
de experiência de homens e mulheres tenham distribuição normal, pode-se dizer, a 5% de signiﬁcância, que
a aﬁrmação do estudo é verdadeira?
Homens Mulheres
n1 = 100 n2 = 85
x¯1 = 14, 9 anos x¯2 = 10, 3 anos
σ1 = 5, 2 anos σ2 = 3, 8 anos
Solução:
Trata-se de um caso de amostras independentes com variâncias conhecidas.
Parâmetros: µ1: tempo médio de experiência (em anos) dos homens e µ2: tempo médio de experiência (em anos) das mulheres.
Hipóteses: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2.
Estatística de teste: Zobs =
x¯1−x¯2√
σ21
n1
+
σ22
n2
= 14,9−10,3√
5,22
100 +
3,82
85
= 6, 933.
Região crítica: Como H1 : µ1 > µ2 e α = 0, 05, é preciso encontrar o valor crítico da distribuição normal padrão que
deixe 0,05 de área à sua direita.
O valor crítico é 1,64 e a região crítica é: RC = {Zobs : Zobs > 1, 64}.
Decisão: Como Zobs = 6, 933 > 1, 64 → Zobs ∈ RC → Rejeita-se H0.
Conclusão: Há evidências amostrais suﬁcientes para apoiar a informação de que o tempo médio de experiência em anos
dos homens é maior que o das mulheres, a 5% de signiﬁcância.
7
2.1 Caso 1: Variâncias conhecidas Inferência sobre duas populações
2.1.1 Construção de intervalo de conﬁança para µ1 − µ2
O IC de (1− α)100% de conﬁança para µ1 − µ2 é dado por:
IC(1−α)100%(µ1 − µ2) =
(x¯1 − x¯2)− zα/2
√
σ21
n1
+
σ22
n2
; (x¯1 − x¯2) + zα/2
√
σ21
n1
+
σ22
n2

(3)
onde zα/2 deve ser obtido na tabela Normal tal que P(Z > zα/2) = α/2. A margem de erro nesse caso é:
E = zα/2
√
σ21
n1
+ σ
2
2
n2
e podemos construir o intervalo como (x¯1 − x¯2)− E < µ1 − µ2 < (x¯1 − x¯2) + E.
Interpretação: Com (1−α)100% de conﬁança, o valor de µ1−µ2 está entre (x¯1− x¯2)−E e (x¯1− x¯2)+E.
Observação: Construir um intervalo de (1 − α)100% de conﬁança para µ1 − µ2 corresponde a realizar o
teste bilateral para µ1 − µ2 ao nível de signiﬁcância α. A regra de decisão, neste caso, é:
Se 0 ∈
[
(x¯1 − x¯2)− zα/2
√
σ21
n1
+ σ
2
2
n2
; (x¯1 − x¯2) + zα/2
√
σ21
n1
+ σ
2
2
n2
]
→ Não se rejeita H0
Se 0 /∈
[
(x¯1 − x¯2)− zα/2
√
σ21
n1
+ σ
2
2
n2
; (x¯1 − x¯2) + zα/2
√
σ21
n1
+ σ
2
2
n2
]
→ Rejeita-se H0
No exemplo 2.1: O teste é unilateral, não poderemos conclui-lo pelo intervalo de conﬁança. Mas podemos
construir o intervalo para interpretá-lo, usando α = 0, 05:
IC95%(µ1 − µ2) =
(x¯1 − x¯2)− zα/2
√
σ21
n1
+
σ22
n2
; (x¯1 − x¯2) + zα/2
√
σ21
n1
+
σ22
n2

=
(14, 9− 10, 3)− 1, 96
√
5, 22
100
+
3, 82
85
; (14, 9− 10, 3) + 1, 96
√
5, 22
100
+
3, 82
85
 = [3, 299; 5, 901]
Assim, podemos dizer que, com 95% de conﬁança, o valor de µ1 − µ2 está entre 3,299 e 5,901.
2.1.2 Decisão via p-valor
A regra de decisão é a mesma apresentada na seção 1.1. Neste caso, o cálculo do p-valor será feito da
seguinte forma:
H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2 p− valor = P(Z < Zobs)
H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2 p− valor = P(Z > Zobs)
H0 : µ1 = µ2 vs H1 : µ1 6= µ2 p− valor = 2P(Z > |Zobs|)
Cálculo do p-valor no exemplo 2: Como a estatística de teste Zobs = 6, 933, para um teste de comparação de duas médias a
partir de amostras independentes com variâncias conhecidas cuja hipótese alternativa é H1 : µ1 > µ2:
p-valor = P(Z > Zobs) = P(Z > 6, 933) < 0, 001 → Rejeita-se H0.
8
2.2 Comparação de duas variâncias Inferência sobre duas populações
2.2 Comparação de duas variâncias
Em alguns estudos é necessário testar se duas populações independentes possuem variâncias iguais. Este
teste é usado, por exemplo, no caso em que se deseja comparar médias de populações independentes com
variâncias desconhecidas, para determinar se deve ser usado o teste t para variâncias iguais ou o teste t
para variâncias diferentes.
Estrutura dos dados: Por se tratar de amostras independentes, segue a mesma estrutura apresentada na
seção 2. Para este teste, porém, deve-se adotar s1 obrigatoriamente como a maior das duas variâncias
amostrais. Consequentemente, n1 e σ
2
1 serão, respectivamente, o tamanho da amostra e a variância
da população da qual foi extraída a amostra que apresentou maior variância.
Amostras X1 X2
Tamanho n1 n2
Média x¯1 x¯2
Desvio-padrão s1 s2
Parâmetros: σ21 : variância da população da qual foi extraída a amostra com maior variância e σ
2
2 : var-
iância da outra população.
Hipóteses: Estudaremos apenas o teste bilateral para variâncias, porque nos interessa saber apenas se são
iguais ou diferentes para aplicarmos o teste t para comparação de médias. Observemos que as duas
estruturas de hipóteses apresentadas abaixo são equivalentes:
H0 : σ21 = σ
2
2 H0 : σ1 = σ2
H1 : σ21 6= σ22 H1 : σ1 6= σ2
Estatística de teste: Fobs =
s21
s22
∼ F(n1−1;n2−1)
A distribuição F tem as seguintes características: É assimétrica, os valores da distribuição F não podem
ser negativos, a forma da distribuição F depende de dois graus de liberdade diferentes.
Região crítica:
Hipóteses: H0 : σ1 = σ2 vs H1 : σ1 6= σ2
RC=
{
Fobs : Fobs > f1−α/2
}
f1−−αα 2
Observemos que, assim como no teste de comparação de médias do tipo bilateral, no teste bilateral de
variâncias também dividimos o nível de signiﬁcância α em dois e determinamos os valores críticos como
sendo os valores tabelados que deixam α/2 de área acima e α/2 de área abaixo deles. Porém, a estatística
de teste foi deﬁnida de forma assumir apenas valores maiores que 1, de modo que a evidência contra H0
9
2.2 Comparação de duas variâncias Inferência sobre duas populações
será encontrada apenas para valores 'grandes' de Fobs. Por isso, apesar de ser um teste bilateral, precisamos
encontrar apenas um valor crítico, o que deixa α/2 de área acima dele.
O valor f(1−α/2) pode ser encontrado na tabela da distribuição F com (n1 − 1) graus de liberdade no
numerador e (n2 − 1) graus de liberdade no denominador, tal que P(F > f(1−α/2)) = α/2.
Exemplo 2.2 : Em um estudo sobre salários de comissários de bordo, selecionaram-se aleatoriamente salários
pagos por duas companhias diferentes. Para 40 comissários de bordo da American Airlines, a média é de
$23.870 e o desvio-padrão $2.960. Para 35 comissários de bordo da TWA, a média é $22.025 e o desvio-
padrão $3.065. No nível de signiﬁcância de 10%, teste a aﬁrmação de que os salários da American Airlines
e da TWA têm o mesmo desvio-padrão.
TWA American Airlines
n1 = 35 n2 = 40
x¯1 = $22.025 x¯2 = $23.870
s1 = $3.065 s2 = $2.960
Solução:
Seja X1 : salários dos comissários da TWA (população da qual se extraiu a amostra com maior variância) e X2 : salários dos
comissários da American Airlines.
Parâmetros: σ1: desvio-padrão dos salários dos comissários da TWA e σ2: desvio-padrão dos salários dos comissários da
American Airlines.
Hipóteses: H0 : σ1 = σ2 vs H1 : σ1 6= σ2.
Estatística de teste: Fobs =
s21
s22
= 3.065
2
2.9602
= 1, 072.
Região crítica: Como H1 : σ1 6= σ2 e α = 0, 10, é preciso encontrar o valor crítico da distribuição F com n1 − 1 = 34
graus de liberdade no numerador e n2 − 1 = 39 graus de liberdade no denominador que deixe 0,05 de área à sua direita.
O valor crítico é 1,7444 e a região crítica é: RC = {Fobs : Fobs > 1, 7444}.
Decisão: Como Fobs = 1, 072 < 1, 7444 → Fobs /∈ RC → Não se rejeita H0.
Conclusão: Há evidências amostrais suﬁcientes para apoiar a informação de que o desvio-padrão dos salários dos comissários
da TWA e da American Airlines são iguais, a 10% de signiﬁcância.
10
2.3 Caso 2: Variânciasdesconhecidas e iguais Inferência sobre duas populações
2.3 Caso 2: Variâncias desconhecidas e iguais
Este teste se aplica quando a hipótese nula H0 : σ1 = σ2 do teste das variâncias não é rejeitada, e é
construído sob as seguintes suposições: as duas populações são independentes e normalmente distribuídas
e as amostras foram aleatoriamente selecionadas em cada população.
Parâmetros: µ1: média da população da qual foi extraída a amostra X1 e µ2: média da população da
qual foi extraída a amostra X2.
Estatística de teste: Tobs = x¯1−x¯2√
S2p
n1
+
S2p
n2
∼ tn1+n2−2, onde S2p = (n1−1)S
2
1+(n2−1)S22
n1+n2−2 .
Região crítica:
Primeiro caso:
Hipóteses: H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2
RC= {Tobs : Tobs < −tα}
−− tαα µµ
Segundo caso:
Hipóteses: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2
RC= {Tobs : Tobs > tα}
µµ tαα
Terceiro caso:
Hipóteses: H0 : µ1 = µ2 vs H1 : µ1 6= µ2
RC=
{
Tobs : Tobs < −tα/2 ou Tobs > tα/2
}
−− tαα 2 µµ tαα 2
11
2.3 Caso 2: Variâncias desconhecidas e iguais Inferência sobre duas populações
Exemplo 2.3 : Pesquisadores estão testando sistemas comerciais de ﬁltragem de ar fabricados pela Winston e
pela Barrington. Testam-se amostras aleatórias de cada companhia, registrando-se a eﬁciência da ﬁltragem
em uma escala padrão, onde os escores mais altos correspondem a melhor ﬁltragem, com os seguintes
resultados:
Winston Barrington
n1 = 18 n2 = 24
x¯1 = 85, 7 x¯2 = 80, 6
s1 = 2, 8 s2 = 4, 1
Ao nível de signiﬁcância de 0,05 teste a aﬁrmação de que ambos os sistemas têm a mesma eﬁciência média.
Solução:
Estamos em um caso de comparação de duas médias de populações com variâncias desconhecidas. Precisaremos primeiro
testar as variâncias para saber se podemos assumí-las iguais ou diferentes.
TESTE DAS VARIÂNCIAS
Parâmetros: σ1 = Desvio-padrão dos escores de eﬁciência na ﬁltragem da Barrington (maior desvio-padrão amostral) e σ2 =
Desvio-padrão dos escores de eﬁciência na ﬁltragem da Winston.
Hipóteses: H0 : σ1 = σ2 vs H1 : σ1 6= σ2.
Estatística de teste: Fobs =
s21
s22
= 4,1
2
2,82
= 2, 144.
Região crítica: Como H1 : σ1 6= σ2 e α = 0, 05, é preciso encontrar o valor crítico da distribuição F com n1 − 1 = 23
graus de liberdade no numerador e n2 − 1 = 17 graus de liberdade no denominador que deixe 0,025 de área à sua direita.
O valor crítico é 2,5598 e a região crítica é: RC = {Fobs : Fobs > 2, 5598}.
Decisão: Como Fobs = 2, 144 < 2, 5598 → Fobs /∈ RC → Não se rejeita H0.
Conclusão: A 5% de signiﬁcância, há evidências de que os desvios-padrão dos escores de eﬁciência da Barrington e da
Winston sejam iguais.
Podemos então aplicar o teste para comparação de médias, no caso de variâncias desconhecidas e iguais.
12
2.3 Caso 2: Variâncias desconhecidas e iguais Inferência sobre duas populações
TESTE DAS MÉDIAS
Parâmetros: µ1 = Escore médio de eﬁciência da Winston e µ2 = Escore médio de eﬁciência da Barrington.
Hipóteses: H0 : µ1 = µ2 vs H1 : µ1 6= µ2.
Estatística de teste: Precisamos calcular o valor da variância combinada S2p , para substituirmos na estatística de teste.
S2p =
(n1−1)S21+(n2−1)S22
n1+n2−2 =
17×2,82+23×4,12
18+24−2 = 12, 998.
Tobs =
x¯1−x¯2√
S2p
n1
+
S2p
n2
= 85,7−80,6√
12,998
18 +
12,998
24
= 4, 537
Região crítica: Como H1 : µ1 6= µ2 e α = 0, 05, é preciso encontrar o valor crítico da distribuição t-Student com n1 +n2−2 =
18 + 24− 2 = 40 graus de liberdade que deixe 0,025 de área à sua direita.
O valor crítico é 2,0211 porque o teste é bilateral, e a região crítica é:
RC = {Tobs : Tobs < −2, 0211 ou Tobs > 2, 0211}.
Decisão: Como Tobs = 4, 537 > 2, 0211 → Tobs ∈ RC → Rejeita-se H0.
Conclusão: A 5% de signiﬁcância existem evidências amostrais de que os escores médios de eﬁciência das empresas Win-
ston e Barrington sejam diferentes.
2.3.1 Construção de intervalo de conﬁança para a diferença das médias
O IC de (1− α)100% de conﬁança para µ1 − µ2 é dado por:
IC(1−α)100%(µ1 − µ2) =
[
(x¯1 − x¯2)− tα/2
√
S2p
(
1
n1
+
1
n2
)
; (x¯1 − x¯2) + tα/2
√
S2p
(
1
n1
+
1
n2
)]
(4)
onde tα/2 deve ser obtido na tabela t-Student com n1 +n2−2 graus de liberdade tal que P(t > tα/2) = α/2.
A margem de erro neste caso é E = tα/2
√
S2p
(
1
n1
+ 1n2
)
e o IC pode ser obtido também por (x¯1− x¯2)−E <
µ1 − µ2 < (x¯1 − x¯2) + E.
Interpretação: Com (1−α)100% de conﬁança, o valor de µ1−µ2 está entre (x¯1− x¯2)−E e (x¯1− x¯2)+E.
Observação: Construir um intervalo de (1 − α)100% de conﬁança para µ1 − µ2 corresponde a realizar o
teste bilateral para µ1 − µ2 ao nível de signiﬁcância α. A regra de decisão, neste caso, é:
Se 0 ∈
[
(x¯1 − x¯2)− tα/2
√
S2p
(
1
n1
+ 1n2
)
; (x¯1 − x¯2) + tα/2
√
S2p
(
1
n1
+ 1n2
)]
→ Não se rejeita H0
13
2.4 Caso 3: Variâncias desconhecidas e diferentes Inferência sobre duas populações
Se 0 /∈
[
(x¯1 − x¯2)− tα/2
√
S2p
(
1
n1
+ 1n2
)
; (x¯1 − x¯2) + tα/2
√
S2p
(
1
n1
+ 1n2
)]
→ Rejeita-se H0
No exemplo 2.3: Como desejamos realizar um teste bilateral (hipóteses: H0 : µ1 = µ2 vs H1 : µ1 6= µ2), podemos realizar o
teste, a 5% de signiﬁcância, construindo um intervalo de 95% de conﬁança. Calculemos primeiro a margem de erro:
E = tα/2
√
S2p
(
1
n1
+
1
n2
)
= 2, 0211
√
12, 998
(
1
18
+
1
24
)
= 2, 272
E então o IC será:
IC95%(µ1 − µ2) = [(x¯1 − x¯2)− E; (x¯1 − x¯2) + E] = [(85, 7− 80, 6)− 2, 272; (85, 7− 80, 6) + 2, 272] = [2, 828; 7, 372]
Como 0 /∈ IC → Rejeita-se H0. A interpretação do IC é: com 95% de conﬁança podemos inferir que a diferença da eﬁciência
média das duas companhias esteja entre 2,828 e 7,372.
2.4 Caso 3: Variâncias desconhecidas e diferentes
Este teste se aplica quando a hipótese nula H0 : σ1 = σ2 do teste das variâncias é rejeitada, e é construído
sob as seguintes suposições: as duas populações são independentes e normalmente distribuídas e as amostras
foram aleatoriamente selecionadas em cada população.
Parâmetros: µ1: média da população da qual foi extraída a amostra X1 e µ2: média da população da
qual foi extraída a amostra X2.
Estatística de teste: Tobs = x¯1−x¯2√
S21
n1
+
S21
n2
∼ tn∗ , onde n∗ = min {n1 − 1, n2 − 1}.
Região crítica:
Primeiro caso:
Hipóteses: H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2
RC= {Tobs : Tobs < −tα}
−− tαα µµ
Segundo caso:
Hipóteses: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2
RC= {Tobs : Tobs > tα}
µµ tαα
14
2.4 Caso 3: Variâncias desconhecidas e diferentes Inferência sobre duas populações
Terceiro caso:
Hipóteses: H0 : µ1 = µ2 vs H1 : µ1 6= µ2
RC=
{
Tobs : Tobs < −tα/2 ou Tobs > tα/2
}
−− tαα 2 µµ tαα 2
Exemplo 2.4 : Periodicamente, os clientes da Merrill Lynch são convidados a avaliar os consultores e os
serviços ﬁnanceiros dessa empresa. Avaliações mais elevadas sobre a satisfação do cliente indicam um
atendimento melhor, sendo 7 nota máxima. Amostras independentes de avaliações do serviço prestado por
dois consultores ﬁnanceiros estão resumidas aqui. O consultor A tem dez anos de experiência, enquanto
que o consultor B tem um ano de experiência. Use α = 0,05 e teste a aﬁrmação de que o consultor com
mais experiência possui avaliação melhor que o consultor com menos experiência.
Consultor A Consultor B
n1 = 16 n2 = 10
x¯1 = 6, 82 x¯2 = 6, 25
s1 = 0, 32 s2 = 0, 75
Solução:
Estamos em um caso de comparação de duas médias de populações com variâncias desconhecidas. Precisaremos primeiro
testar as variâncias para saber se podemos assumí-las iguais ou diferentes.
TESTE DAS VARIÂNCIAS
Parâmetros: σ1 : Desvio-padrão da avaliação do consultor B (maior desvio-padrão amostral) e σ2 : = Desvio-padrão da
avaliação do consultor A.
Hipóteses: H0 : σ1 = σ2 vs H1 : σ1 6= σ2.
Estatística de teste: Fobs =
s21
s22
= 0,75
2
0,322
= 5, 493.
Região crítica: Como H1 : σ1 6= σ2 e α = 0, 05, é preciso encontrar o valor crítico da distribuição F com n1 − 1 = 9
graus de liberdade no numerador e n2 − 1 = 15 graus de liberdade no denominador que deixe 0,025 de área à sua direita.
O valor crítico é 3,1227 e a região crítica é: RC = {Fobs : Fobs > 3, 1227}.
Decisão: Como Fobs = 5, 493 > 3, 1227 → Fobs ∈ RC → Rejeita-se H0.
15
2.4 Caso 3: Variânciasdesconhecidas e diferentes Inferência sobre duas populações
Conclusão: A 5% de signiﬁcância, há evidências de que os desvios-padrão das avaliações dos consultores A e B sejam diferentes.
Podemos então aplicar o teste para comparação de médias, no caso de variâncias desconhecidas e diferentes.
TESTE DAS MÉDIAS
Parâmetros: µ1 : avaliação média do Consultor A e µ2 : = avaliação média do Consultor B.
Hipóteses: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2.
Estatística de teste: Tobs =
x¯1−x¯2√
S21
n1
+
S21
n2
= 6,82−6,25√
0,322
16 +
0,752
10
= 2, 277
Região crítica: Como H1 : µ1 > µ2 e α = 0, 05, é preciso encontrar o valor crítico da distribuição t-Student com n∗ =
min {n1 − 1, n2 − 1} = min {16− 1, 10− 1} = 9 graus de liberdade que deixe 0,05 de área à sua direita.
O valor crítico é 1,8331, e a região crítica é: RC = {Tobs > 1, 8331}.
Decisão: Como Tobs = 2, 277 > 1, 8331 → Tobs ∈ RC → Rejeita-se H0.
Conclusão: Há evidências amostrais suﬁcientes para apoiar a informação de que o consultor com mais experiência possui
avaliação melhor que o consultor com menos experiência, a 5% de signiﬁcância.
2.4.1 Construção de intervalo de conﬁança para a diferença das médias
O IC de (1− α)100% de conﬁança para µ1 − µ2 é dado por:
IC(1−α)100%(µ1 − µ2) =
(x¯1 − x¯2)− tα/2
√
s21
n1
+
s22
n2
; (x¯1 − x¯2) + tα/2
√
s21
n1
+
s22
n2

(5)
onde tα/2 deve ser obtido na tabela t-Student com n
∗
graus de liberdade tal que P(t > tα/2) = α/2. A
margem de erro neste caso é E = tα/2
√
s21
n1
+ s
2
2
n2
e o IC pode ser obtido também por (x¯1 − x¯2) − E <
µ1 − µ2 < (x¯1 − x¯2) + E.
Interpretação: Com (1−α)100% de conﬁança, o valor de µ1−µ2 está entre (x¯1− x¯2)−E e (x¯1− x¯2)+E.
Observação: Construir um intervalo de (1 − α)100% de conﬁança para µ1 − µ2 corresponde a realizar o
teste bilateral para µ1 − µ2 ao nível de signiﬁcância α. A regra de decisão, neste caso, é:
Se 0 ∈
[
(x¯1 − x¯2)− tα/2
√
s21
n1
+ s
2
2
n2
; (x¯1 − x¯2) + tα/2
√
s21
n1
+ s
2
2
n2
]
→ Não se rejeita H0
16
Inferência sobre duas populações
Se 0 /∈
[
(x¯1 − x¯2)− tα/2
√
s21
n1
+ s
2
2
n2
; (x¯1 − x¯2) + tα/2
√
s21
n1
+ s
2
2
n2
]
→ Rejeita-se H0
No exemplo 2.4: O teste é unilateral, não poderemos conclui-lo pelo intervalo de conﬁança. Mas podemos construir o intervalo
para interpretá-lo, usando α = 0,05:
E = tα/2
√(
s21
n1
+
s22
n2
)
= 2, 2622
√(
0, 322
16
+
0, 752
10
)
= 0, 566.
E então o IC será:
IC95%(µ1 − µ2) = [(x¯1 − x¯2)− E; (x¯1 − x¯2) + E] = [(6, 82− 6, 25)− 0, 566; (6, 82− 6, 25) + 0, 566] = [0, 004; 1, 136]
Com 95% de conﬁança podemos inferir que a diferença da avaliação média dos dois consultores está entre 0,004 a 1,136.
3 Comparação de duas proporções
Vimos anteriormente testes para comparação de duas populações quando os parâmetros de interesse eram
médias ou variâncias. Veremos agora o procedimento para comparar duas populações em relação ao
parâmetro proporção, para duas amostras independentes.
Parâmetros: p1: Proporção da população da qual foi extraída a amostra 1 e p2: Proporção da população
da qual foi extraída a amostra 2.
Estrutura dos dados:
Amostra 1 Amostra 2
Tamanho n1 n2
N
o
sucessos m1 m2
Proporção amostral de sucessos pˆ1 =
m1
n1
pˆ2 =
m2
n2
Hipóteses: Estruturas possíveis:
H0 : p1 = p2 H0 : p1 ≥ p2 H0 : p1 ≤ p2
H1 : p1 6= p2 H1 : p1 < p2 H1 : p1 > p2
Estatística de teste: Zobs = pˆ1−pˆ2√
p¯(1−p¯)
(
1
n1
+ 1n2
) ∼ N(0, 1), onde p¯ = m1+m2n1+n2 .
Região crítica:
17
Inferência sobre duas populações
Primeiro caso:
Hipóteses: H0 : p1 ≥ p2 vs H1 : p1 < p2
RC= {Zobs : Zobs < −zα}
−− zαα µµ
Segundo caso:
Hipóteses: H0 : p1 ≤ p2 vs H1 : p1 > p2
RC= {Zobs : Zobs > zα}
µµ zαα
Terceiro caso:
Hipóteses: H0 : p1 = p2 vs H1 : p1 6= p2
RC=
{
Zobs : Zobs < −zα/2 ou Zobs > zα/2
}
−− zαα 2 µµ zαα 2
Exemplo 3.1 : Karl Pearson coletou dados sobre crimes em 1909. Dos indivíduos condenados por incêndio
criminoso, 50 faziam uso de bebidas alcoólicas e 43 eram abstêmios. Dos condenados por crimes de fraude,
63 eram usuários de bebidas alcoólicas e 144 eram abstêmios. Com o nível de 0,01 de signiﬁcância, teste a
aﬁrmação de que a proporção dos alcoólatras entre os condendados por incêndio é maior do que entre os
condenados por fraude.
Solução:
Parâmetros: p1: = proporção dos indivíduos que bebem entre os condenados por incêndio criminoso e p2: proporção dos
indivíduos que bebem entre os condenados por fraude.
Hipóteses: H0 : p1 ≤ p2 vs H1 : p1 > p2.
Amostras Condenados por incêndio criminoso Condenados por fraude
Tamanho n1 = 93 n2 = 207
N
o
sucessos m1 = 50 m2 = 63
Proporção de sucessos pˆ1 =
m1
n1
= 50
93
= 0, 538 pˆ2 =
63
207
= 0, 304
Estatística de teste: Precisamos calcular primeiro o p¯ = m1+m2
n1+n2
= 50+63
93+207
= 0, 377.
Zobs =
pˆ1−pˆ2√
p¯(1−p¯)
(
1
n1
+ 1
n2
) = 0,538−0,304√
0,377(1−0,377)( 193+ 1207 )
= 3, 868.
Região crítica: Como H1 : µ1 > µ2 e α = 0, 01, é preciso encontrar o valor crítico da distribuição normal padrão que
18
3.1 Construção de intervalo de conﬁança para p1 − p2 Inferência sobre duas populações
deixe 0,01 de área à sua direita.
O valor crítico é 2,33 e a região crítica é: RC = {Zobs : Zobs > 2, 33}.
Decisão: Como Zobs = 3, 868 > 2, 33 → Zobs ∈ RC → Rejeita-se H0.
Conclusão: A 1% de signiﬁcância, há evidências amostrais de que a proporção de consumidores de bebida alcoólica entre
os condenados por incêndio criminoso é maior que a proporção de consumidores de bebida alcoólica entre os condenados por
fraude.
3.1 Construção de intervalo de conﬁança para p1 − p2
O IC de (1− α)100% de conﬁança para p1 − p2 é dado por:
IC(1−α)100%(p1 − p2) =
[
(pˆ1 − pˆ2)− zα/2
√
p¯(1− p¯)
(
1
n1
+
2
n2
)
; (pˆ1 − pˆ2) + zα/2
√
p¯(1− p¯)
(
1
n1
+
1
n2
)]
(6)
onde zα/2 deve ser obtido na tabela Normal tal que P(Z > zα/2) = α/2. A margem de erro nesse caso é:
E = zα/2
√
p¯(1− p¯)
(
1
n1
+ 1n2
)
e podemos construir o intervalo como (pˆ1− pˆ2)−E < p1−p2 < (pˆ1− pˆ2)+E.
Interpretação: Com (1−α)100% de conﬁança, o valor de p1− p2 está entre (pˆ1− pˆ2)−E e (pˆ1− pˆ2) +E.
Observação: Construir um intervalo de (1 − α)100% de conﬁança para p1 − p2 corresponde a realizar o
teste bilateral para p1 − p2 ao nível de signiﬁcância α. A regra de decisão, neste caso, é:
Se 0 ∈
[
(pˆ1 − pˆ2)− zα/2
√
p¯(1− p¯)
(
1
n1
+ 2n2
)
; (pˆ1 − pˆ2) + zα/2
√
p¯(1− p¯)
(
1
n1
+ 1n2
)]
→ Não se rejeita H0
Se 0 /∈
[
(pˆ1 − pˆ2)− zα/2
√
p¯(1− p¯)
(
1
n1
+ 2n2
)
; (pˆ1 − pˆ2) + zα/2
√
p¯(1− p¯)
(
1
n1
+ 1n2
)]
→ Rejeita-se H0
No exemplo 3.1: O teste é unilateral, não poderemos conclui-lo pelo intervalo de conﬁança. Mas podemos construir o intervalo
para interpretá-lo, usando α = 0,01, a margem de erro será:
E = zα/2
√
p¯(1− p¯)
(
1
n1
+
2
n2
)
= 2, 58
√
0, 377(1− 0, 377)
(
1
93
+
2
207
)
= 0, 156.
E então o IC será:
IC99%(p1−p2) =
[
(pˆ1 − pˆ2)∓ zα/2
√
p¯(1− p¯)
(
1
n1
+ 2
n2
)]
= [(0, 538− 0, 304)− 0, 156; (0, 538− 0, 304) + 0, 156] = [0, 078; 0, 390]
Com 99% de conﬁança podemos inferir que p1 − p2 está entre 0,078 a 0,390.
19