Aula 8 - Bioestatística

Bioestatística I

•

UFRJ

Rafaella Rodrigues

04/02/2016

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.423 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Aula 8
Testes de Hipóteses
Objetivo: Conhecer e compreender a construção dos Testes de Hipóteses para
os principais parâmetros populacionais.
Nesta aula exporemos as ideias centrais dos Testes de Hipóteses: sua con-
strução e seu elementos fundamentais para uma tomada de decisão sob incerteza,
concluindo assim os conceitos fundamentais da Estatística Básica.
Uma hipótese estatística é uma alegação sobre um parâmetro da população.
Uma vez estabelecida a alegação, o que se deseja é, à luz da informação obtida por
uma amostra dessa população, decidir se aceitamos nossa hipótese inicial (chamada
de hipótese nula, H0) por não haver evidências contra ela, ou se a rejeitamos em
favor de uma hipótese alternativa (chamada de hipótese primo, H1) contrária à
alegação inicial, pelo fato de uma estimativa obtida da amostra ser atípica dentro
do contexto armado pela hipótese nula.
Vejamos então como se estrutura um teste de hipóteses em geral.
Seja � um parâmetro qualquer de uma população em estudo.
A hipótese nula H0 deverá conter uma armação do tipo:
� = �0, � � �0 ou � � �0
para algum valor �0 estabelecido numericamente, e será contraposta a uma hipótese
complementar alternativa do tipo
� 6= �0, � < �0 ou � > �0,
respectivamente.
Assim temos em geral as seguintes congurações para os testes de hipóteses
envolvendo uma única população em estudo:�
H0 : � = �0
H1 : � 6= �0 ou
�
H0 : � � �0
H1 : � < �0
ou
�
H0 : � � �0
H1 : � > �0
.
Heurística para os Testes de Hipóteses
(1) Admitimos sempre que a Hipótese Nula H0 é verdadeira a priori, e tomamos
como verdade a priori que � = �0, qualquer que seja a hipótese contemplada (� = �0,
� � �0 ou � � �0).
1
(2) Colhemos os dados através de uma amostra aleatória, retirada da população,
e calculamos as estatísticas amostrais cabíveis no contexto de cada parâmetro e
situação.
(3) Se a estatística amostral tiver baixa probabilidade de ter sido extraída de
uma população supostamente com o parâmetro � = �0, ou seja sob a hipótese nula,
rejeitaremosH0. Neste caso, aceitaremos a hipótese alternativa, pois consideraremos
que a baixa probabilidade de a amostra ter sido obtida sob a hipótese de � = �0
indicaria que essa amostra veio na verdade de uma população em que o parâmetro
era diferente de �0. Se, por outro lado, a probabilidade não for baixa o bastante,
não teremos evidências sucientes para rejeitarmos H0.
Tipos de Erros e Nível de Signicância
Ao tomarmos uma decisão a respeito de uma armação sobre um parâmetro,
estaremos sujeitos a dois tipos de erros: o Erro do Tipo I e o Erro do Tipo II.
Conforme o quadro abaixo:
Vemos que cometemos o Erro do Tipo I, quando a hipótese nula é realmente
verdadeira, mas optamos por rejeitá-la. Chegamos assim à importante denição na
Estatística de nível de signicância.
O nível de signicância, �, é a probabilidade máxima que estamos
dispostos a incorrer para cometer o Erro do Tipo I.
Assim, devemos estabelecer a priori o nosso erro do tipo I, �, isto é, quanto
estamos dispostos a errar ao armar que H0 é falsa quando ela é verdadeira. Quanto
menor �, mais evidências amostrais exigiremos para rejeitar H0. Como consequên-
cia, aumentamos o nosso erro do tipo II, pois como estamos muito rigorosos para
rejeitar H0, corremos mais riscos de aceitá-la quando ela de fato é falsa (erro tipo
II). Assim os erros do tipo I e II estão relacionados: diminuir o erro tipo I im-
plica aumentar o erro tipo II e vice-versa, conforme gráco abaixo, representando
as hipóteses H0 : � = �0 e H1 : � = �1.
2
Erros Tipo I e II
A área em azul representa o erro tipo I, �, arbitrado, de se rejeitar H0,
quando ela é de fato verdadeira. Já a área em vermelho representa o erro tipo II, �,
univocamente denido a partir da denição de �, de se aceitar H0, quando ela é de
fato falsa, pois se situa na região de aceitação de H0, embora a população tenha o
parâmetro � = �1.
Para cada cenário de teste de hipóteses, devemos estabeler nossas regiões de
rejeição de H0, a partir do nível de signicância �. Vejamo-los agora:
Teste Bicaudal (ou Bilateral)
Desejamos testar �
H0 : � = �0
H1 : � 6= �0
Assim, devemos distribuir o nível de signicância � nas duas caudas da
distribuição amostral, isto é �=2 à esquerda e �=2 à direita da distribuição, conforme
a gura abaixo:
Se a estatística do teste se situar na região em vermelho (perfazendo �
de probabilidade), então há evidências para se rejeitar H0 : � = �0 ao nível de
signicância � estabelecido.
Teste Monocaudal (ou Unilateral) à Esquerda
Desejamos testar �
H0 : � � �0
H1 : � < �0
3
Assim, devemos distribuir o nível de signicância � na cauda esquerda da
distribuição amostral, conforme a gura abaixo:
Se a estatística do teste se situar na região em vermelho (perfazendo �
de probabilidade), então há evidências para se rejeitar H0 : � � �0 ao nível de
signicância � estabelecido.
Teste Monocaudal (ou Unilateral) à Direita
Desejamos testar �
H0 : � � �0
H1 : � > �0
Assim, devemos distribuir o nível de signicância � na cauda direita da
distribuição amostral, conforme a gura abaixo:
Se a estatística do teste se situar na região em vermelho (perfazendo �
de probabilidade), então há evidências para se rejeitar H0 : � � �0 ao nível de
signicância � estabelecido.
Muitas das vezes, os estatísticos tomam suas decisões através do p-valor da
estatística, contrapondo-o com o nível de signicância estabelecido, pois em geral
os softwares estatísticos devolvem o p-valor do teste. Mas em que consiste o p-valor
na Estatística?
O p-valor é a probabilidade de se obter uma estatística amostral com um
valor tão ou mais extremo que o determinado pelos dados da amostra.
Assim, se o p-valor de uma dada estatística amostral é de 0; 046, devemos
interpretar que a chance de termos obtido nosso resultado amostral sob a hipótese
nula verdadeira era de 4; 6% antes da ocorrência dele.
Após comparar o p-valor ao valor de �, o nível de signicância do teste,
podemos decidir se há evidência suciente para rejeitar a hipótese nula. Assim:
4
Se p � �, rejeitamos a hipótese nula.
Se p > �, não rejeitamos a hipótese nula.
Por que isso? Porque se a probabilidade de se ter obtido a estatística
amostral, supondo a hipótese nula verdadeira, é p com p � �, então o valor dessa
estatística tem uma probabilidade ainda menor (ou igual) do que aquela em que esta-
belecemos para uma situação atípica supondo H0 verdadeira. Assim, há evidências
amostrais de que essa estatística vem de uma população com um parâmetro dife-
rente do estabelecido na hipótese nula. Se p > �, então ainda não consideramos que
o resultado da estatística do teste seja atípico sob a hipótese de H0 verdadeira, pois
consideramos atípicos apenas aqueles eventos com probabilidade igual ou inferior a
�. Assim, nesse último caso, não rejeitamos H0.
Por exemplo, se o p-valor de um teste de hipóteses é p = 7; 49%, então a um
nível de signicância de � = 5% não devemos rejeitarH0, pois estamos considerando
neste caso que todo resultado amostral com probabilidade inferior ou igual a 5% seria
considerado atípico de ter vindo de uma população sob a hipótese nula considerada,
mas a amostra obtida teve chance superior a 5% e não deve nesse caso ser considerada
como atípica de uma população regida sob a hipótese nula. No entanto se nosso
nível de signicância fosse de 8%, então deveríamos nesse caso rejeitar H0, pois
estaríamos considerando que todo resultado amostral com probabilidade inferior ou
igual a 8% seria considerado atípico de ter vindo de uma população sob a hipótese
nula considerada.
Agora, se p = 0; 0246 = 2; 46%, então a um nível de signicância de � = 5%
devemos rejeitar H0; mas a um nível de signicância de � = 1% não devemos
rejeitar H0, pois nesse caso não consideramos 2; 46% um evento raro ou atípico, sob
a hipótese nula verdadeira.
Etapaspara o Teste de Hipóteses
(1) Estabeleça as hipóteses nula e alternativa: Escreva H0 e H1 como armati-
vas matemáticas. Lembre que H0 sempre contém o símbolo =, mesmo quando as
hipóteses são � � �0 ou � � �0.
(2) Estabeleça o nível de signicância �: Ele representa a probabilidade má-
xima de se rejeitar a hipótese nula, caso ela seja realmente verdadeira (ou seja, a
probabilidade de se cometer um Erro do Tipo I).
(3) Identique a distribuição amostral : A distribuição amostral é a distribuição
da estatística do teste, supondo-se que a condição de igualdade naH0 seja verdadeira.
(4) Determine a estatística do teste e padronize-a: Faça os cálculos para padroni-
zar sua estatística amostral.
(5) Verique o valor da estatística do teste à luz da amostra obtida.
(6) Tome sua decisão: Se o valor da estatística do teste cair na região de rejeição,
rejeite a hipótese nula; caso contrário, não rejeite a hipótese nula.
5
(7) Interprete sua decisão: Dada a alegação da hipótese nula, você poderá
rejeitá-la ou determinar que não há evidência suciente para isso.
1 Teste de Independência para Tabelas de Con-
tingência
Um teste qui-quadrado pode ser usado para determinar se duas variáveis qual-
itativas em tabelas de contingência são independentes. Já vimos que duas variáveis
são independentes se a ocorrência de uma não afeta a ocorrência da outra. Suponha
a tabela no domínio da frequência dada como a seguir:
B B1 B2 � � � Bs Total
A
A1 O11 O12 � � � O1s N1�
A2 O21 O22 � � � O2s N2�
...
...
...
...
...
...
Ar Or1 Or2 � � � Ors Nr�
Total N�1 N�2 � � � N�s N
Denotamos por Oij a frequência observada no cruzamento das categorias Ai
e Bj.
Denotamos por Eij a frequência esperada no cruzamento das categorias Ai
e Bj, caso Ai e Bj fossem independentes. Vimos na Aula 5 que esse cálculo é dado
por
Eij =
Ni� �N�j
N
.
A ideia do teste é comparar se a distância entre os valores observados e os
valores esperados é grande estatisticamente. Se for considerado grande, então há
evidências de que as categorias A e B não são independentes.
Assim as hipóteses a serem contempladas são:�
H0 : A e B são independentes
H1 : A e B não são independentes
A estatística do teste é dada por:
�0 =
rX
i=1
sX
j=1
(Oij � Eij)2
Eij
que tem distribuição Qui-Quadrado com n = (r � 1) (s� 1) graus de liberdade.
Denindo um nível de signicância �, tomamos o valor tabelado da Qui-Quadrado
com n graus de liberdade, denotado aqui por �2n;� e podemos agora tomar nossa de-
cisão.
Decisão:
6
(i) Se �0 > �
2
n;�, então devemos rejeitar H0 e aceitar H1. Ou seja, há evidências
de que as categorias são dependentes.
(ii) Se �0 � �2n;�, então devemos rejeitar H0 e aceitar H1. Ou seja, há evidências
de que as categorias são dependentes.
Restrições: Para se utilizar o teste Qui-Quadrado para Tabelas de Contingência
é preciso garantir as seguintes condições:
(a) Só pode ser utilizado quando o tamanho da amostra é maior que 20.
(b) Quando o tamanho da amostra é maior que 20 e menor do que 40, só pode
ser utilizado se todas as caselas têm frequência esperada maior do que 5.
(c) Só pode ser utilizado se todas as frequências esperadas assumirem valores
iguais ou maiores que 1.
(d) Para tabelas de contingência 2 � 2, aconselha-se que a estatística do teste
seja calculada com a correção de Yates dada por
�0 =
2X
i=1
2X
j=1
(jOij � Eijj � 0; 5)2
Eij
onde jOij � Eijj é o valor absoluto da diferença entre o valor observado e o valor
esperado.
Vejamos um exemplo:
Exemplo 1 Deseja-se testar, ao nível de signicência de 5%, a hipótese de que
gênero e desempenho prossional sejam variáveis independentes na prodissão de
Contador. Para isso, foram selecionadas 220 contadores (112 homens e 108 mul-
heres) e seus desempenhos foram avaliados, obtendo-se a seguinte tabela de con-
tingência.
Baixo Médio Superior Total
Homem 22 81 9 112
Mulher 14 75 19 108
Total 36 156 28 220
Solução: Nossas hipóteses a serem testadas são�
H0 : gênero e desempenho são independentes
H1 : gênero e desempenho são dependentes
Supondo-se que as variáveis sejam independentes, o valor esperado de cada célula
será:
E11 =
112� 36
220
= 18; 33, E12 =
112� 156
220
= 79; 42, E13 =
112� 28
220
= 14; 25
E21 =
108� 36
220
= 17; 67, E22 =
108� 156
220
= 76; 58, E23 =
108� 28
220
= 13; 75
7
A estatística do teste é dada por
�0 =
2X
i=1
3X
j=1
(Oij � Eij)2
Eij
=
(22� 18; 33)2
18; 33
+
(81� 79; 42)2
79; 42
+
(9� 14; 25)2
14; 25
+
(14� 17; 67)2
17; 67
+
(75� 76; 58)2
76; 58
+
(19� 13; 75)2
13; 75
�0 = 5; 51
O valor tabelado da Qui-Quadrado com n = (2� 1)� (3� 1) = 2 graus de liberdade
e � = 0; 05 é dado por
�22;0;05 = 5; 991.
A estatística teste, 5; 51, não cai na região de rejeição, portanto não rejeitamos
H0. Podemos concluir que gênero e desempenho prossional são variáveis indepen-
dentes. Não se deve portanto contratar contadores com base no gênero, já que ser
homem ou mulher não inuencia seu desempenho prossional.
Exemplo 2 Deseja-se testar, ao nível de signicência de 1%, a hipótese de que
a ausência ou presença de aberração cromossômica é independente da idade da
gestante. Para isso, 985 gestantes foram selecionadas e divididas segundo duas
faixas etárias e quanto à presença ou não de aberrações cromossômicas. Os dados
encontram-se na tabela abaixo:
Idade n Aberração Presente Ausente Total
35 ` 40 10 447 457
40 e mais 18 510 528
Total 28 957 985
Solução: Nossas hipóteses a serem testadas são�
H0 : idade e aberrações são independentes
H1 : idade e aberrações são dependentes
Supondo-se que as variáveis sejam independentes, o valor esperado de cada célula
será:
E11 =
457� 28
985
�= 13, E12 = 457� 957
985
�= 444
E21 =
528� 28
985
�= 15, E22 = 528� 957
985
�= 513
A estatística do teste é dada por
�0 =
2X
i=1
2X
j=1
(jOij � Eijj � 0; 5)2
Eij
=
(j10� 13j � 0; 5)2
13
+
(j447� 444j � 0; 5)2
444
+
(j18� 15j � 0; 5)2
15
+
(j510� 513j � 0; 5)2
513
= 0; 48 + 0; 014 + 0; 42 + 0; 012
�0 = 0; 926
8
O valor tabelado da Qui-Quadrado com n = (2� 1)� (2� 1) = 1 grau de liberdade
e � = 0; 01 é dado por
�21;0;01 = 6; 635.
A estatística teste, 0; 926, não cai na região de rejeição, portanto não rejeita-
mos H0. Podemos concluir que não há dependência entre a idade e a presença ou
ausência de aberração cromossômica.
2 Testes de Signicância do Coeciente de Cor-
relação r de Pearson
Vimos na Aula 4 que o coeciente de correlação (r) é a medida comumente
utilizada para se avaliar a correlação linear entre duas variáveis quantitativas e que
quanto mais próximo de 0 menor é a correlação entre duas variáveis X e Y . Nosso
objetivo é testar as seguintes hipóteses:�
H0 : � = 0
H1 : � 6= 0
com � o parâmetro representando o coeciente de correlação da população. A partir
dos dados obtidos na forma tabelar
Covariável (X) x1 x2 : : : xn
Variável Resposta (Y ) y1 y2 : : : yn
vimos que o coeciente de correlação amostral é calculado como:
r =
Pn
i=1
�
xi � �Xn
�
:
�
yi � �Yn
�qPn
i=1
�
xi � �Xn
�2qPn
i=1
�
yi � �Yn
�2
ou então de forma mais simplicada para o cálculo:
r =
n
Pn
i=1 xi:yi � (
Pn
i=1 xi) : (
Pn
i=1 yi)q
n
Pn
i=1 x
2
i � (
Pn
i=1 xi)
2
q
n
Pn
i=1 y
2
i � (
Pn
i=1 yi)
2
onde �Xn e �Yn são as médias da covariável e da variável resposta, respectivamente.
A estatística do teste a ser utilizada nesse caso é dada por
t0 =
r
p
n� 2p
1� r2
Denindo um nível de signicância �, obtemos o valor tabelado na tabela da
t-Student com n � 2 graus de liberdade e �=2, pois o teste é bilateral e podemos
agora tomar nossa decisão:
9
Decisão:
(a) Se t0 =2
��tn�2;�=2; tn�2;�=2�, então rejeitamosH0 e aceitamos H1 : � 6= 0. Ou
seja, há evidências de que a correlação entre X e Y é de fato signicativa.
(b) Se, por outro lado, t0 2
��tn�1;�=2; tn�1;�=2�, então não rejeitamos H0. Ou
seja, não há evidências ao nível de signicância escolhido de que X e Y sejam
correlacionadas.
Teste Bilateral
Exemplo 3 Deseja-se saber se há uma correlação linear entre o número de anos de
estudos completados pelo pai (X) e o número de anos de estudo completado pelo lho
(Y). Para isso, uma amostra de 8 pares de pai e lho foi selecionada, obtendo-se os
seguintes dados.
X Y X2 Y 2 XY
1 12 12 144 144 144
2 10 8 100 64 80
3 6 12 36 144 72
4 16 11 256 121 176
5 8 10 64 100 80
6 9 8 81 64 72
7 12 16 144 256 192
8 11 15 121 225 165
Total 84 92 946 1118 981
Obtenha o coeciente de correlação de Pearson e teste se o mesmo é signicativo
ao nível de signicância de 5%.
Solução: Assim temos
8X
i=1
xi:yi = 981,
8X
i=1
xi = 84,
8X
i=1
yi = 92,
8X
i=1
x2i = 946 e
8X
i=1
y2i = 1:118.
Utilizando a fórmula simplicada para r, temos
r =
8
P8
i=1 xi:yi �
�P8
i=1 xi
�
:
�P8
i=1 yi
�q
8
P8
i=1 x
2
i �
�P8
i=1 xi
�2q
8
P8
i=1 y
2
i �
�P8
i=1 yi
�2
=
8� 981� 84� 92p
8� 946� 842p8� 1:118� 922
=
120p
512
p
480
10
r �= 0; 24 ou r �= 24%
Temos as seguintes hipóteses a serem testadas:�
H0 : � = 0
H1 : � 6= 0
Assim, nosso teste é bilateral e com o nível de signicância dado por � = 0; 05,
temos o valor tabelado
tn�2;�=2 = t6;0;025 = 2; 447.
Teste Bilateral
A estatística do teste, sob H0, é dada por:
t0 =
r
p
n� 2p
1� r2 =
0; 24
p
8� 2p
1� 0; 242 = 0; 61.
Como t0 = 0; 61 2 [�t6;0;025; t6;0;025] = [�2; 447; 2; 447], não rejeitamos H0 ao nível
de signicância 5%. Assim, não há evidência suciente para se acreditar que haja
uma correlação entre o número de anos de estudos completados pelo pai e o número
de anos de estudo completado pelo lho.
3 Teste de Hipóteses para Diferença de Médias
para Dados Pareados
O objetivo desse teste é avaliar se duas respostas obtidas de uma mesma unidade
experimental do tipo antes e depois podem ser consideradas diferentes estatistca-
mente. Portanto os dois grupos de dados pertencem à mesma população e são
sonsiderados pareados. Teremos então um quadro do tipo:
X (antes) Y (depois)
1 x1 y1
2 x2 y2
...
...
...
n xn yn
A ideia central aqui é avaliar se a diferença entre as duas médias �Xn e �Yn, isto
é, �Yn � �Xn pode ser considerada estatísticamente como diferente de zero, para se
concluir que há diferença entre o antes e o depois.
Denindo di = yi � xi, temos o seguinte quadro
11
X (antes) Y (depois) D
1 x1 y1 d1 = y1 � x1
2 x2 y2 d2 = y2 � x2
...
...
...
n xn yn dn = yn � xn
Devemos calcular a média e a variância das diferenças di, isto é,
�Dn =
Pn
i=1 di
n
= �Yn � �Xn
e
S2D =
Pn
i=1
�
di � �Dn
�2
n� 1
As hipóteses a serem testadas são:
�
H0 : �D = 0
H1 : �D 6= 0 ou
�
H0 : �D � 0
H1 : �D < 0
ou
�
H0 : �D � 0
H1 : �D > 0
.
A estatística do teste para todos os casos é dada por
t0 =
�Dn
SDp
n
que tem distribuição t-Student com n� 1 graus de liberdade.
Denindo um nível de signicância �, podemos agora tomar nossa decisão:
Decisão:
(a) No contexto de um teste bilateral: Se t0 =2
��tn�1;�=2; tn�1;�=2�, então
rejeitamos H0 e aceitamos H1 : �D 6= 0, ou seja, há diferença siginicativa entre o
antes e o depois. Se, por outro lado, t0 2
��tn�1;�=2; tn�1;�=2�, então não rejeitamos
H0, ou seja, não há evidências de que houve mudança entre o antes e o depois.
Teste Bilateral
(b)No contexto de um teste unilateral à esquerda: Se t0 < �tn�1;�, então
rejeitamos H0 e aceitamos H1 : �D < 0, ou seja, há diferença entre o antes e depois
e a média do depois pode ser considerada inferior à média do antes. Se, por outro
lado, t0 � �tn�1;�, então não rejeitamos H0, ou seja, a média do depois não pode
ser considerada inferior à média do antes.
12
(c) No contexto de um teste unilateral à direita: Se t0 > tn�1;�, então
rejeitamos H0 e aceitamos H1 : �D > 0, ou seja, há diferença entre o antes e depois
e a média do depois pode ser considerada superior à média do antes. Se, por outro
lado, t0 � tn�1;�, então não rejeitamos H0, ou seja, a média do depois não pode ser
considerada superior à média do antes.
Exemplo 4 A tabela abaixo mostra a freqüência cardíaca (em batidas por minuto)
de cinco pessoas antes e depois de uma sessão de exercícios físicos. Há evidência
suciente para se concluir que o exercício acelera a freqüência cardíaca? Use um
nível de signicância de 5%.
Indivíduo X (antes) Y (depois) D
1 65 127 d1 = 62
2 72 135 d2 = 63
3 85 140 d3 = 55
4 78 136 d4 = 58
5 93 150 d5 = 57
Solução: Devemos calcular a média e a variância das diferenças di, isto é,
�D5 =
P5
i=1 di
5
=
295
5
= 59
e
S2D =
P5
i=1
�
di � �D5
�2
5� 1 =
9 + 16 + 16 + 1 + 4
4
=
46
4
= 11; 5
e
SD =
p
11; 5 = 3; 39
Desejamos testar as seguintes hipóteses�
H0 : �D � 0
H1 : �D > 0
A estatística do teste é dada por
t0 =
�D5
SDp
5
=
59
3;39p
5
= 38; 92:
Ao nível de signicância de 5% e no contexto de teste unilateral à direita, temos o
valor tabelado t4;0;05 = 2; 132.
Como t0 = 38; 92 > t4;0;05 = 2; 132, rejeitamos H0 e aceitamos H1 : �D > 0, ou
seja, há diferença entre o antes e depois e a média do depois pode ser considerada
superior à média do antes. Em outras palavras, há evidência suciente para aceitar
a alegação de que o exercício acelera a freqüência cardíaca.
4 Teste de Hipóteses para a Diferença entre duas
Médias (amostras grandes e independentes)
Nesse contexto os membros de uma amostra não têm relação com os membros
da outra. É o caso em que há dois grupos independentes de unidades experimentais
(tratamento e controle).
13
Suponha que um estudo seja conduzido com n1 do Grupo I e n2 do Grupo
I, com n1 � 30 e n2 � 30, e que os resultados de cada grupo sejam:
Grupo I: fx1; x2; :::; xn1g
Grupo I: fy1; y2; :::; yn2g
Desejamos avaliar se a diferença entre as médias �Xn1 e �Yn2, isto é, �Yn2� �Xn1 ,
pode ser considerada estatísticamente como diferente de zero, para se concluir que
há diferença entre os dois grupos independentes.
Nossas hipóteses a serem testadas são:
�
H0 : �2 � �1 = 0
H1 : �2 � �1 6= 0 ou
�
H0 : �2 � �1 � 0
H1 : �2 � �1 < 0 ou
�
H0 : �2 � �1 � 0
H1 : �2 � �1 > 0 .
com �1 a média da população do Grupo I e �2 a média da população do Grupo
II.
A estatística do teste para todas as hipóteses acima é dada por
z0 =
�Yn2 � �Xn1q
S21
n1
+
S22
n2
com S21 e S
2
2 as variâncias amostrais dos Grupos I e II, respectivamente, isto é,
S21 =
Pn1
i=1
�
xi � �Xn1
�2
n1 � 1 e S
2
2 =
Pn2
i=1
�
yi � �Yn2
�2
n2 � 1 .
A estatística z0 tem distribuição normal padrão.
Denindo um nível de signicância �, podemos agora tomar nossa decisão a
partir do valor tabelado na normal padrão:
Decisão:
(a) No contexto de um teste bilateral: Se z0 =2
��z�=2; z�=2�, então rejeita-
mos H0 e aceitamos H1 : �2 � �1 6= 0, isto é, os dois grupos têm médias diferentes.
Se, por outro lado, z0 2
��z�=2; z�=2�, então não rejeitamos H0, e podemos concluir
que não há diferença entre o grupo tratado e o grupo controle.
(b) No contexto de um teste unilateral à esquerda: Se z0 < �z�, rejeita-
mos H0 e aceitamos H1 : �2 � �1 < 0, ou seja, a média do grupo II é diferente e
inferior à média do Grupo I. Se, por outro lado, z0 � �z�, não rejeitamos H0, ou
seja, �2 � �1.
(c) No contexto de um teste unilateral à direita: Se z0 > z�, rejeitamos
H0 e aceitamos H1 : �2��1 > 0, ou seja, a média do grupo II é diferente e superior à
média do Grupo I. Se, por outro lado, z0 � z�, não rejeitamos H0, ou seja, �2 � �1.
Exemplo 5 Para testar o efeitobenéco de um tratamento toterápico sobre a
memória, selecionou-se aleatoriamente uma amostra de 95 pessoas, as quais re-
ceberão o tratamento, e uma amostra de 105 pessoas que tomarão um placebo. Um
mês depois, ambos os grupos submetem-se a um teste. A nota média do grupo ex-
perimental é de 77, com um desvio padrão de 15. No grupo de controle, a média é
14
73 e o desvio padrão, 12. Teste a alegação de que o tratamento toterápico melhora
a memória a um nível de signicância de 1%.
Solução: Temos n1 = 95 (tratado, Grupo I) e n2 = 105 (controle, Grupo II).
Além disso: �X95 = 77, S1 = 15 e �Y105 = 73, S2 = 12.
Desejamos testar as seguintes hipóteses:�
H0 : �1 � �2
H1 : �1 > �2
ou equivalentemente
�
H0 : �1 � �2 � 0
H1 : �1 � �2 > 0
A estatística do teste é dada por
z0 =
�X95 � �Y105q
S21
95
+
S22
105
=
77� 73q
152
95
+ 12
2
105
= 2; 07
O valor tabelado é z0;01 = 2; 33.
Como z0 = 2; 07 � z0;01 = 2; 33, não rejeitamos H0, ou seja, não há evidên-
cia suciente para aceitar a alegação de que o tratamento toterápico aumenta a
memória.
5 Teste de Hipóteses para a Diferença entre duas
Médias (amostras pequenas e independentes)
Quando não se pode colher amostras de 30 ou mais itens, pode usar um teste t, se
as duas populações forem normalmente distribuídas.
A distribuição amostral depende do fato de as variâncias populacionais serem ou
não iguais. O primeiro passo, portanto, é testar se as duas variâncias amostrais po-
dem ser consideradas estatisticamente iguais ou não, para em seguida direcionarmos
para o teste apropriado.
5.1 Testando se as duas variâncias dos dois grupos são iguais
Suponha que um estudo seja conduzido com n1 do Grupo I e n2 do Grupo I, com
n1 < 30 e n2 < 30, e que os resultados de cada grupo sejam:
Grupo I: fx1; x2; :::; xn1g
Grupo I: fy1; y2; :::; yn2g
Sejam S21 e S
2
2 as variâncias amostrais dos Grupos I e II, respectivamente,isto é,
S21 =
Pn1
i=1
�
xi � �Xn1
�2
n1 � 1 e S
2
2 =
Pn2
i=1
�
yi � �Yn2
�2
n2 � 1 .
Desejamos testar as seguintes hipóteses:�
H0 : �
2
1 = �
2
2
H1 : �
2
1 6= �22
onde �21 e �
2
2 são as variâncias populacionais dos grupos I e II, respectivamente.
A estatística do teste é dada por
F0 =
S21
S22
, se S21 � S22
15
ou
F0 =
S22
S21
, se S22 � S21
Se S21 � S22 pode-se mostrar que F0 tem distribuição F-Snedecor com n1� 1
graus de liberdade no numerador e n2 � 1 graus de liberdade no denominador,
denotada por Fn1�1;n2�1.
Se S22 � S21 pode-se mostrar que F0 tem distribuição F-Snedecor com n2� 1
graus de liberdade no numerador e n1 � 1 graus de liberdade no denominador,
denotada por Fn2�1;n1�1.
Denindo um nível de signicância �, podemos agora tomar nossa decisão a
partir do valor tabelado da distribuição F.
Decisão:
(a) No contexto S21 � S22 : Se F0 = S
2
1
S22
> Fn1�1;n2�1;�=2, então rejeitamos H0
e aceitamos H1 : �21 6= �22, isto é, os dois grupos têm variâncias diferentes. Se, por
outro lado, F0 =
S21
S22
� Fn1�1;n2�1;�=2, então não rejeitamos H0, e podemos concluir
que não há diferença entre as duas variâncias.
(b) No contexto S22 � S21 : Se F0 = S
2
2
S21
> Fn2�1;n1�1;�=2, então rejeitamos H0
e aceitamos H1 : �21 6= �22, isto é, os dois grupos têm variâncias diferentes. Se, por
outro lado, F0 =
S22
S21
� Fn2�1;n1�1;�=2, então não rejeitamos H0, e podemos concluir
que não há diferença entre as duas variâncias.
Exemplo 6 Um engenheiro quer realizar um teste t para vericar se o consumo
médio de combustível do carro A é inferior ao do B. Uma amostra aleatória do
consumo de combustível de 16 carros A tem um desvio padrão de 4; 5. Já a amostra
aleatória do consumo de 22 carros B tem um desvio padrão de 4; 2. O engenheiro
deveria usar o teste t com variâncias iguais ou com variâncias diferentes? Use um
nível de signicância de 5%.
Solução: Temos n1 = 16 (carro A, Grupo I) e n2 = 22 (carro B, Grupo II).
Além disso: S1 = 4; 5 e S2 = 4; 2.
Como S21 � S22 , temos que a estatística do teste é dada por
F0 =
S21
S22
=
(4; 5)2
(4; 2)2
= 1; 148
A um nível de signicância de 5%, temos que o valor tabelado de F15;21;0;025 =
2; 53.
Como F0 = 1; 148 < F15;21;0;025 = 2; 53, não rejeitamos H0, e podemos concluir
que não há diferença entre as duas variâncias. Ao fazer um teste t para comparar
as médias das duas populações, use o teste para variâncias iguais.
5.2 Testando a Diferença entre duas Médias (com as duas
variâncias dos dois grupos iguais)
Sejam os dois grupos:
Grupo I: fx1; x2; :::; xn1g
16
Grupo I: fy1; y2; :::; yn2g
Sejam S21 e S
2
2 as variâncias amostrais dos Grupos I e II, respectivamente,isto é,
S21 =
Pn1
i=1
�
xi � �Xn1
�2
n1 � 1 e S
2
2 =
Pn2
i=1
�
yi � �Yn2
�2
n2 � 1 e
sejam �Xn1 e �Yn2, as médias dos grupos I e II, respectivamente.
Se as variâncias das duas populações são consideradas estatisticamente iguais, é
possível combinar ou agruparinformação das duas amostras, a m de formar uma
estimativa agrupada do desvio padrão, da seguinte forma:
�^ =
s
(n1 � 1)S21 + (n2 � 1)S22
n1 + n2 � 2
A estatística do teste para se testar as hipóteses
�
H0 : �2 � �1 = 0
H1 : �2 � �1 6= 0 ou
�
H0 : �2 � �1 � 0
H1 : �2 � �1 < 0 ou
�
H0 : �2 � �1 � 0
H1 : �2 � �1 > 0
é dada por
t0 =
�Yn2 � �Xn1
�^
q
1
n1
+ 1
n2
que tem distribuição t-Student com n1 + n2 � 2 graus de liberdade.
Denindo um nível de signicância �, podemos agora tomar nossa decisão a
partir do valor tabelado na t-Student com n1 + n2 � 2 graus de liberdade.
Decisão:
(a) No contexto de um teste bilateral: Se t0 =2
��tn1+n2�2;�=2; tn1+n2�2;�=2�,
então rejeitamos H0 e aceitamos H1 : �2��1 6= 0, isto é, os dois grupos têm médias
diferentes. Se, por outro lado, t0 2
��tn1+n2�2;�=2; tn1+n2�2;�=2�, então não rejeitamos
H0, e podemos concluir que não há diferença entre os dois grupos.
(b) No contexto de um teste unilateral à esquerda: Se t0 < �tn1+n2�2;�,
rejeitamos H0 e aceitamos H1 : �2��1 < 0, ou seja, a média do grupo II é diferente
e inferior à média do Grupo I. Se, por outro lado, t0 � �tn1+n2�2;�, não rejeitamos
H0, ou seja, �2 � �1.
(c) No contexto de um teste unilateral à direita: Se t0 > tn1+n2�2;�,
rejeitamos H0 e aceitamos H1 : �2��1 > 0, ou seja, a média do grupo II é diferente
e superior à média do Grupo I. Se, por outro lado, t0 � tn1+n2�2;�, não rejeitamos
H0, ou seja, �2 � �1.
Exemplo 7 Cinco pick-ups pequenas e oito SUVs realizaram testes de colisão a
cinco milhas por hora. Para as pick-ups, o conserto do pára-choques custou em
média US$ 1:520, com um desvio padrão de US$ 403. No caso dos SUVs, o conserto
custou uma média de US$ 937, com um desvio padrão de US$ 382. Sendo � = 0; 05,
teste a alegação de que o conserto de pára-choques das pick-ups custa mais que
17
o dos SUVs. Admita que a partir do teste de igualdade de variâncias tenhamos
comprovado que as mesmas sejam iguais.
Solução: Como na primeira fase se comprovou que as variâncias dos dois grupos
são iguais, devemos utilizar o teste t com n1 + n2 � 2 = 5 + 8 � 2 = 11 graus de
liberdade, pois temos n1 = 5 (carro pick-up, Grupo I) e n2 = 8 (carro SUV, Grupo
II). Temos também os seguintes dados: �X5 = 1:520, S1 = 403 e �Y8 = 937, S2 = 382.
Assim, temos
�^ =
s
(n1 � 1)S21 + (n2 � 1)S22
n1 + n2 � 2
=
s
4� (403)2 + 7� (382)2
11
�^ = 389; 77
Desejamos testar�
H0 : �1 � �2
H1 : �1 > �2
ou equivalentemente
�
H0 : �1 � �2 � 0
H1 : �1 � �2 > 0 .
A estatística do teste é dada por
t0 =
�Xn1 � �Yn2
�^
q
1
n1
+ 1
n2
=
1:520� 937
389; 77
q
1
5
+ 1
8
= 2; 624.
O valor tabelado é t11;0;05 = 1; 796.
Como t0 = 2; 624 > t11;0;05 = 1; 796, rejeitamos H0 e aceitamos H1 : �1��2 > 0,
ou seja, a média do grupo I (pick-ups) é diferente e superior à média do GrupoII
(SUVs).
5.3 Testando a Diferença entre duas Médias (com as duas
variâncias dos dois grupos diferentes)
Sejam os dois grupos:
Grupo I: fx1; x2; :::; xn1g
Grupo I: fy1; y2; :::; yn2g
Sejam S21 e S
2
2 as variâncias amostrais dos Grupos I e II, respectivamente,isto é,
S21 =
Pn1
i=1
�
xi � �Xn1
�2
n1 � 1 e S
2
2 =
Pn2
i=1
�
yi � �Yn2
�2
n2 � 1 e
sejam �Xn1 e �Yn2, as médias dos grupos I e II, respectivamente.
Se as variâncias das duas populações são consideradas estatisticamente diferentes,
então a estatística do teste para se testar as hipóteses
�
H0 : �2 � �1 = 0
H1 : �2 � �1 6= 0 ou
�
H0 : �2 � �1 � 0
H1 : �2 � �1 < 0 ou
�
H0 : �2 � �1 � 0
H1 : �2 � �1 > 0
18
é dada por
t0 =
�Yn2 � �Xn1q
S21
n1
+
S22
n2
que tem distribuição t-Student com � =
�
S21
n1
+
S22
n2
�2
(S21=n1)
2
n1�1 +
(S22=n2)
2
n2�1
graus de liberdade (arredon-
dando para o inteiro menor mais próximo).
Denindo um nível de signicância �, podemos agora tomar nossa decisão a
partir do valor tabelado na t-Student com � graus de liberdade.
Decisão:
(a)No contexto de um teste bilateral: Se t0 =2
��t�;�=2; t�;�=2�, então rejeita-
mos H0 e aceitamos H1 : �2 � �1 6= 0, isto é, os dois grupos têm médias diferentes.
Se, por outro lado, t0 2
��t�;�=2; t�;�=2�, então não rejeitamosH0, e podemos concluir
que não há diferença entre os dois grupos.
(b) No contexto de um teste unilateral à esquerda: Se t0 < �t�;�, rejeita-
mos H0 e aceitamos H1 : �2 � �1 < 0, ou seja, a média do grupo II é diferente e
inferior à média do Grupo I. Se, por outro lado, t0 � �t�;�, não rejeitamos H0, ou
seja, �2 � �1.
(c) No contexto de um teste unilateral à direita: Se t0 > t�;�, rejeitamos
H0 e aceitamos H1 : �2��1 > 0, ou seja, a média do grupo II é diferente e superior à
média do Grupo I. Se, por outro lado, t0 � t�;�, não rejeitamos H0, ou seja, �2 � �1.
Exemplo 8 Suponha dois grupos, tais que �X15 = 400; 9, S1 = 10; 6 e �Y15 = 367; 2,
S2 = 6; 1. Suponha que o teste de igualdade de variâncias tenha comprovado ao
nível de signicância de 5% que as mesmas são diferentes e que desejamos testar as
hipóteses�
H0 : �2 � �1 = 0
H1 : �2 � �1 6= 0
ao mesmo nível de signicância. A estatística do teste é dada por
t0 =
�Yn2 � �Xn1q
S21
n1
+
S22
n2
=
367; 2� 400; 9q
(10;6)2
15
+ (6;1)
2
15
= �10; 67
que tem distribuição t-Student com � =
�
S21
n1
+
S22
n2
�2
(S21=n1)
2
n1�1 +
(S22=n2)
2
n2�1
=
�
(10;6)2
15
+
(6;1)2
15
�2
((10;6)2=15)2
14
+
((6;1)2=15)2
14
=
22; 36 �= 22 graus de liberdade. O valor tabelado para o teste bilaterial é t�;�=2 =
t22;0;025 = 2; 074.
Como t0 = �10; 67 =2 [�2; 074; 2; 074], rejeitamos H0 e aceitamos H1 : �2��1 6=
0, isto é, os dois grupos têm médias diferentes.
19
6 Teste de Hipóteses para a Diferença entre duas
Proporções
Se as amostras independentes colhidas de duas populações forem grandes o bas-
tante, pode-se aplicar um teste para vericar se há diferença entre as proporções
populacionais p1 e p2.
Sejam X1 e X2 representam o número de sucessos na primeira e na segunda
amostra, respectivamente, e sejam n1 e n2 os tamanhos da primeira e da segunda
amostra, respectivamente. Denimos as proporções amostrais dos dois grupos como
p^1 =
X1
n1
e p^2 =
X2
n2
.
Dena também
�p =
X1 +X2
n1 + n2
e �q = 1� �p.
Desejamos testar as seguintes hipóteses:�
H0 : p1 � p2 = 0
H1 : p1 � p2 6= 0 ou
�
H0 : p1 � p2 � 0
H1 : p1 � p2 < 0 ou
�
H0 : p1 � p2 � 0
H1 : p1 � p2 > 0
Se n1�p, n1�q, n2�p e n2�q equivalem a cada um pelo menos 5, então a estatística
do teste utilizada para as hipóteses acima é dada por
z0 =
p^1 � p^2r
�p�q
�
1
n1
+ 1
n2
�
e tem distribuição normal padrão.
Denindo um nível de signicância �, podemos agora tomar nossa decisão a
partir do valor tabelado na Normal Padrão.
Decisão:
(a) No contexto de um teste bilateral: Se z0 =2
��z�=2; z�=2�, então rejeita-
mosH0 e aceitamosH1 : p1�p2 6= 0, isto é, os dois grupos têm proporções diferentes.
Se, por outro lado, z0 2
��z�=2; z�=2�, então não rejeitamos H0, e podemos concluir
que não há diferença entre as duas proporções.
(b) No contexto de um teste unilateral à esquerda: Se z0 < �z�, rejeita-
mos H0 e aceitamos H1 : p1 � p2 < 0, ou seja, a proporção do grupo I é diferente e
inferior à proporção do Grupo II. Se, por outro lado, z0 � �z�, não rejeitamos H0,
ou seja, p1 � p2.
(c)No contexto de um teste unilateral à direita: Se z0 > z�, rejeitamos H0
e aceitamos H1 : p1 � p2 > 0, ou seja, a proporção do grupo I é diferente e superior
à proporção do Grupo II. Se, por outro lado, z0 � z�, não rejeitamos H0, ou seja,
p1 � p2.
20
Exemplo 9 Em um levantamento com 3:420 alunos do ensino médio privado, 917
disseram ter fumado nos 30 dias precedentes. Já em um levantamento com 5:131
alunos do ensino médio público, 1:503 disseram ter fumado nos 30 dias precedentes.
Pode-se aceitar a alegação de que a proporção de alunos de escola privada que dis-
seram ter fumado é inferior à proporção dos alunos do sistema público que disseram
ter fumado ao nível de signicância de 1%?
Solução: Temos os seguintes dados: n1 = 3420, X1 = 917 e n2 = 5131, X2 =
1503. Assim temos
p^1 =
X1
n1
=
917
3420
= 0; 268 e
p^2 =
X2
n2
=
1503
5131
= 0; 293.
Dena também
�p =
X1 +X2
n1 + n2
=
917 + 1503
3420 + 5131
= 0; 283 e
�q = 1� �p = 0; 717.
Desejamos testar�
H0 : p1 � p2
H1 : p1 > p2
ou equivalentemente
�
H0 : p1 � p2 � 0
H1 : p1 � p2 > 0
A estatística do teste é dada por
z0 =
p^1 � p^2r
�p�q
�
1
n1
+ 1
n2
�
=
p^1 � p^2r
�p�q
�
1
n1
+ 1
n2
�
21