Prévia do material em texto
MMMaaattteeerrriiiaaalll
DDDeee
EEEssstttaaatttíííssstttiiicccaaa
IIInnnfffeeerrreeennnccciiiaaalll
Professores: Valéria da S. C. Shiguti
Wanderley Akira Shiguti
Brasília, 2007
ÍNDICE
CONTEÚDO PÁGINA
UNIDADE I – Correlação Linear Simples .............................................................................. 01
UNIDADE II – Estimação ....................................................................................................... 08
UNIDADE III – Teste de Significância ................................................................................... 14
UNIDADE IV – Análise de Variância..................................................................................... 18
UNIDADE V – Testes Não-Paramétricos................................................................................ 25
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
CORRELAÇÃO LINEAR SIMPLES
1
UNIDADE I –CORRELAÇÃO LINEAR SIMPLES
INTRODUÇÃO
A análise de correlação compreende análise de dados amostrais para saber como duas ou mais variáveis
estão relacionadas umas com as outras em uma população. O objetivo nesse item é o estudo de situações de duas
variáveis.
A análise de correlação fornece um número que resume o grau de relacionamento entre duas variáveis.
Ela é útil em um trabalho exploratório, quando um pesquisador ou analista procura determinar quais variáveis
são potencialmente importantes e o interesse está no grau ou na força desse relacionamento. Por exemplo,
quando uma variável aumenta de valor, de que maneira é influenciada a outra variável?
ALGUNS CASOS DE RELACIONAMENTO DE VARIÁVEIS:
1. A idade e a resistência física?
2. Pessoas de maior renda tendem a apresentar maior escolaridade?
3. O sucesso em um emprego pode ser predito com base no resultado de testes?
4. A temperatura parece influenciar a taxa de criminalidade?
Dois tipos de pesquisas são avaliados quando se pretende estudar um conjunto de dado. A pesquisa
Experimental e a pesquisa de um estudo de relacionamento. A primeira manipula-se uma variável e medem-se as
mudanças conseqüentes em uma outra variável, enquanto que o segundo tipo de pesquisa, mede-se ambas
variáveis, procurando relacionar as mudanças que ocorrem naturalmente em uma variável – por exemplo, a
rapidez na leitura – com as mudanças que ocorrem naturalmente com a outra variável – por exemplo, a
inteligência. Para tal medem-se os QI’s e a rapidez em uma grande amostra de pessoas e depois se analisam os
dados, para verificar se as pessoas de elevado QI tendem também a Ter melhores velocidades, e as pessoas de
baixo QI, piores.
Um modo de apresentar os resultados é através de um diagrama de dispersão:
CORRELAÇÃO LINEAR SIMPLES
OBJETIVO DO ESTUDO: medir e avaliar o grau de relação existente entre duas variáveis
aleatórias. Por exemplo, podemos avaliar se a relação entre número de filhos de uma família e sua renda é forte,
fraca ou nula.
A correlação linear procura medir a relação entre as variáveis x e y através da disposição
dos pontos (x, y) em torno de uma reta.
0
2
4
6
8
10
12
90 100 110 120 130 140
QI
R
ap
id
e
z
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
CORRELAÇÃO LINEAR SIMPLES
2
MEDIDA DE CORRELAÇÃO
COEFICIENTE DE PEARSON:
( )( )
( ) ( )
−
−
∑∑−
=
∑ ∑∑ ∑
∑
n
y
y
n
x
x
n
yxxy
rxy
2
2
2
2
Podemos utilizar outras notações a respeito do Coeficiente:
( )( ) ( )( )
( ) ( )
( ) ( )∑∑
∑∑
∑∑
−=∑−=
−=∑−=
−−=∑∑−=
2
2
2
2
2
2
yy
n
yyS
xx
n
xxS
xxyy
n
yxxyS
yy
xx
xy
Portanto,
yyxx
xy
xy SS
S
r ⋅=
Variação do Coeficiente de Pearson:
11 ≤≤− xyr
INTERPRETAÇÃO
a) Correlação Linear Positiva
Gráfico de dispersão
0 < r xy < 1
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
CORRELAÇÃO LINEAR SIMPLES
3
b) Correlação Linear Perfeita Positiva
c) Correlação Linear Negativa
d) Correlação Linear Perfeita Negativa
e) Correlação Nula
Gráfico de dispersão
r xy = 0
Gráfico de dispersão
r xy = 1
Gráfico de dispersão
r xy = -1
Gráfico de dispersão
-1 < r xy < 0
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
CORRELAÇÃO LINEAR SIMPLES
4
CÁLCULO PRÁTICO DO COEFICIENTE DE PEARSON
Exemplo:
( )( )
( ) ( ) 416,08,2040
12
5
46444
5
30220
5
4630288
22
=⋅=
−
−
−
=xyr
Se rxy = 0,416, então temos uma correlação linear positiva.
x y x2 y2 xy
- - - - -
- - - - -
... ... ... ... ...
- - - - -
- - - - -
Σ x Σ y Σ x2 Σ y2 Σ xy
x y x2 y2 xy
2 10 4 100 20
4 8 16 64 32
6 6 36 36 36
8 10 64 100 80
10 12 100 144 120
30 46 220 444 288
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
CORRELAÇÃO LINEAR SIMPLES
5
TESTE DE SIGNIFICÂNCIA PARA O COEFICIENTE DE CORRELAÇÃO
OBJETIVO
Testar a hipótese de que o coeficiente de correlação linear entre duas variáveis é nulo
contra a alternativa de que é não nulo:
H0: rxy = 0
Ha: rxy ≠ 0
TESTE t
Como foi visto anteriormente, o coeficiente de correlação assume valores de -1 a +1. Se
resultasse num resultado igual a zero diz-se que não existe correlação entre duas variáveis. Mesmo se resultasse
em rxy = 0,30 deve-se levar em consideração o tamanho da amostra. O que significa que este tamanho pode
influenciar no valor do coeficiente. Ou seja, um valor de coeficiente alto tem pouco significado se fosse
proveniente de uma amostra muito pequena.
Para tanto, utiliza-se o teste t para verificar se o coeficiente é nulo ou não.
Procedimento
Para aplicar tal teste, utiliza-se a fórmula:
2
1 2
−⋅
−
= n
r
r
t
xy
xy
onde: rxy = coeficiente de correlação linear calculado
n = tamanho da amostra
Este teste está associado a n-2 graus de liberdade.
Exemplo:
Considere o exemplo anterior:
rxy = 0,416
n = 5
graus de liberdade = 3
Então:
7923,0732,1
9094,0
416,025
416,01
416,0
2
=⋅=−⋅
−
=t
Ao nível de significância de 5% a tabela apresentada na página seguinte fornece o valor t =
3,18, com 3 graus de liberdade.
Resultado do teste
Como o valor de t calculado (0,7923) é menor que o tabelado (3,18), a correlação entre as
duas variáveis não é significante ao nível de 5%, ou seja, aceita-se a hipótese de que a correlação é nula.
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
CORRELAÇÃO LINEAR SIMPLES
6
0,10 0,05 0,01
1 6,31 12,71 63,66
2 2,92 4,30 9,92
3 2,35 3,18 5,84
4 2,13 2,78 4,60
5 2,02 2,57 4,03
6 1,94 2,45 3,71
7 1,89 2,36 3,50
8 1,86 2,31 3,36
9 1,83 2,26 3,25
10 1,81 2,23 3,17
11 1,80 2,20 3,11
12 1,78 2,18 3,05
13 1,77 2,16 3,01
14 1,762,14 2,98
15 1,75 2,13 2,95
16 1,75 2,12 2,92
17 1,74 2,11 2,90
18 1,73 2,10 2,88
19 1,73 2,09 2,86
20 1,72 2,09 2,85
21 1,72 2,08 2,83
22 1,72 2,07 2,82
23 1,71 2,07 2,81
24 1,71 2,06 2,80
25 1,71 2,06 2,79
26 1,71 2,06 2,78
27 1,70 2,05 2,77
28 1,70 2,05 2,76
29 1,70 2,05 2,76
30 1,70 2,04 2,75
31 1,70 2,04 2,74
32 1,69 2,04 2,74
33 1,69 2,03 2,73
34 1,69 2,03 2,73
35 1,69 2,03 2,72
36 1,69 2,03 2,72
37 1,69 2,03 2,72
38 1,69 2,02 2,71
39 1,68 2,02 2,71
40 1,68 2,02 2,70
41 1,68 2,02 2,70
42 1,68 2,02 2,70
43 1,68 2,02 2,70
44 1,68 2,02 2,69
45 1,68 2,01 2,69
46 1,68 2,01 2,69
47 1,68 2,01 2,68
48 1,68 2,01 2,68
49 1,68 2,01 2,68
50 1,68 2,01 2,68
TABELA 01. DISTRIBUIÇÃO t DE STUDENT
GRAUS DE
LIBERDADE
α
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
CORRELAÇÃO LINEAR SIMPLES
7
EXERCÍCIOS
1. A tabela abaixo mostra os resultados de uma pesquisa com 10 famílias de uma determinada região:
a) Forme os pares entre as variáveis acima e respondendo o que se pede:
i) Calcule o coeficiente de correlação linear de Pearson;
ii) Aplique o teste de significância ao nível de 5% de significância.
2. Uma cadeia de lojas possui 8 estabelecimentos em oito cidades de uma região. As cidades para a instalação
das lojas são escolhidas quando suas características como população, nível de renda, nível educacional,
concorrências, etc., guardam semelhança com as cidades onde foram instaladas as primeiras lojas, já que
naquelas cidades as lojas se mostraram lucrativas. O diretor de marketing da cadeia acredita que dentro destes
critérios e obedecendo aos limites racionais, pode-se prever o volume de vendas de uma loja com base na área de
vendas. A tabela, que representa a área de vendas em metros quadrados e as vendas correspondentes (em
R$10.000,00) no último ano, foi levantada para um estudo dessa hipótese.
Tabela 2. Informações sobre área de vendas (m2) e as correspondentes vendas (em R$10.000,00) da cadeia de
lojas no último ano
Fonte: RH da empresa
a) Calcule o coeficiente de correlação linear de Pearson;
b) Aplique o teste de significância aos níveis de 1% e 5% de significância.
Famílias Renda (R$100,00) Poupança (R$1.000,00) Número de filhos Média de anos de estudo da família
A 10 4 8 3
B 15 7 6 4
C 12 5 5 5
D 70 20 1 12
E 80 20 2 16
F 100 30 2 18
G 20 8 3 8
H 30 8 2 8
I 10 3 6 4
J 60 15 1 8
Fonte: Toledo e Ovalle (1995)
Tabela 1. Variáveis sócio-econômicas de 10 famílias de uma determinada região
Área de Vendas Vendas
(m2) (R$ 10,000.00)
650 71
800 92
820 84
850 80
940 97
1,000 91
1,100 90
1,120 110
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
ESTIMAÇÃO
8
UNIDADE II – ESTIMAÇÃO
INTRODUÇÃO
O processo de estimação tem por finalidade avaliar parâmetros de uma distribuição.
Podemos utilizar um único número real para avaliar um parâmetro. Neste caso estamos procedendo a
uma estimação pontual.
O valor da média amostral é uma estimação por ponto. Da mesma forma o valor da variância, desvio
padrão e proporção amostrais são estimativas por ponto dos parâmetros variância, desvio padrão e proporção
populacionais, respectivamente.
Estimador Estimativa por ponto Parâmetro
x x = 20 µ
s2(x) s2(x) = 5 ( )xσ 2
s(x) s(X) = 2 ( )xσ
pˆ pˆ = 0,3 p
Fazendo uso da estimativa por ponto encontramos uma dificuldade a de que amostras diferentes
conduzem normalmente a estimativas diferentes. A variabilidade não pode ser controlada neste processo.
O controle estatístico desta variabilidade nos leva então a fixar a estimação através de um intervalo.
INTERVALO DE CONFIANÇA
É um intervalo real, centrado na estimativa pontual que deverá conter o parâmetro com determinada
probabilidade. Esta probabilidade será conhecida como nível de confiança associado ao intervalo.
A notação mais usual para o nível de confiança é 1-α .
Se pensarmos em uma diferença entre o valor estimado e o parâmetro, já que diferentes amostras
conduzem a valores diferentes de estimadores, estaremos calculando o erro-padrão de estimativa.
e = |estimativa – parâmetro |
O controle da precisão se resumirá na determinação do erro-padrão da estimativa.
DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS
Considere a seguinte população x={2, 3, 4, 5}.
Esta população apresenta ( ) ( ) 12,1xσ 25,1xσ 3,5 µ 2 ===
Se nós considerarmos todas as amostras de tamanho n=2 que podemos obter com reposição teremos:
A1 = (2,2) A6 = (3,4)
A2 = (2,3) A7 = (3,5)
A3 = (2,4) A8 = (4,4)
A4 = (2,5) A9 = (4,5)
A5 = (3,3) A10 = (5,5)
Cada uma destas amostras possui um valor médio:
2 x1 = 3,5 x 6 =
2,5 x 2 = 4 x 7 =
3 x 3 = 4 x8 =
3,5 x 4 = 4,5 x 9 =
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
ESTIMAÇÃO
9
3 x 5 = 5 x10 =
Podemos calcular a médias das médias bem como a sua variância e o seu desvio-padrão, assim:
( ) ( ) 87,0xσ 75,0xσ 3,5 x 2 ===
Note que:
A média das médias é igual a média populacional : µ x = ;
A variância das médias amostrais mantém com a variância populacional a seguinte relação :
( ) ( )
n
xσxσ
2
2 =
No exemplo: ( ) ( )
n
xσxσ
2
2 = = 75,0
2
1,25 =
Estes resultados são conclusões gerais dos seguintes teoremas:
1. Se a variável aleatória x admite distribuição Normal de probabilidade com média µ e variância
( )xσ 2 , então a distribuição amostral das médias é também normal com média µ x = e variância
( ) ( )
n
xσxσ
2
2 = ;
2. Se uma variável aleatória x tem média µ e variância ( )xσ 2 , então a distribuição amostral das
médias se aproxima de uma distribuição normal com média µ x = e com variância
( ) ( )
n
xσxσ
2
2= , à medida que o número n de elementos tende a infinito.
EXEMPLO:
1. Uma v.a. x tem distribuição normal com média 20 e desvio-padrão de 3. Calcule a probabilidade de que uma
amostra de 20 elementos selecionada ao acaso tenha média maior que 21.
INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL
Como já foi estudado para se transformar uma distribuição Normal x em uma distribuição Normal z
utilizamos a mudança de variável ( )xσ
µ -x z =
A transformação da distribuição x na distribuição z , é por analogia: ( )xσ
x - x z = como foi visto
anteriormente µ x = e ( ) ( )
n
xσxσ
2
2 = , logo: ( )
n
xσ
µ - x z = .
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
ESTIMAÇÃO
10
Em termos de distribuição normal z o nível de confiança é a probabilidade de o intervalo conter o
parâmetro estimado, isto representa a área central sob a curva normal entre os pontos
2
α
2
α z e z- ,
Observe que a área total sob a curva normal é unitária. Se a área central é 1-α ., a notação
z-
2
α representa o valor de z que deixa a sua esquerda 2
α , e a notação
2
αz representa o valor de z que deixa a
sua direita a área
2
α . Desta forma:
α1 z z z -P
2
α
2
α −=
<<
Se substituirmos o valor de z por ( )
n
xσ
µ - x z = e utilizando alguns cálculos matemáticos encontraremos a
expressão final do Intervalo de Confiança para a estimativa da média populacional.
( )
( )
n
xσz :onde
α1 x µ - xP
2
α ⋅=
−=+<<
e
ee
Para calcular esta expressão deveremos pressupor o conhecimento do desvio-padrão populacional, e que
a amostragem foi obtida com reposição. Além disso, é importante salientar que ( )
n
xσz
2
α ⋅ representa o erro-
padrão de estimativa, e que os limites são estabelecidos pelos valores (estimativa – erro, estimativa +erro)
No caso em que:
• desconhecemos a variância populacional (σ2)
• tamanho da amostra ser menor que 30 (n<30)
O intervalo de confiança para a média populacional torna-se:
( ) α1 x µ - xP −=+<< ee
α
α
α
ciasignificân de nível ao e
liberdade de graus 1 com tabelana encontrado é
n
s :onde
2
2
n-tt
te ⋅=
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
ESTIMAÇÃO
11
EXEMPLO:
O departamento de recursos humanos de uma grande empresa informa que o tempo de execução de tarefas que
envolvem participação manual varia de tarefa para tarefa. Uma nova tarefa está sendo implantada na empresa.
Uma amostra aleatória do tempo de execução de 25 destas novas tarefas forneceu o valor médio de 15 minutos e
um desvio-padrão de 3 minutos. Determine um intervalo de confiança de 95% para o tempo médio de execução
desta nova tarefa.
INTERVALO DE CONFIANÇA PARA A PROPORÇÃO
A construção do intervalo de confiança para uma proporção populacional p segue o mesmo raciocínio
do intervalo de confiança para a média populacional. Basta calcular uma estimativa pontual e logo após calcular
o erro-padrão da estimativa.
Vale salientar que a estimativa pontual pˆ é um ótimo estimador do parâmetro (como foi visto no início
desta unidade):
n
xnq
n
xp
−=
=
ˆ
ˆ
A expressão do Intervalo de Confiança para a estimativa da proporção populacional será: ( )
n
qˆpˆz :onde
1ˆ ˆ
2
α
⋅⋅=
−=+<<−
e
eppepP α
Basta verificar se a distribuição amostral de pˆ pode ser aproximada pela distribuição normal. As
condições são:
5ˆ
5ˆ
≥
≥
qn
pn
EXERCÍCIOS
1. O tempo de reação de motoristas não alcoolizados de certo país da Europa ao perceber um obstáculo em
sua frente e frear tem distribuição normal. Selecionou-se uma amostra de 20 motoristas e obteve-se um
tempo médio de reação igual a 0,83 segundo e desvio-padrão de 0,2 segundo. Determine um intervalo de
confiança de 95% para o tempo médio de reação da população de motoristas deste país. Determine sua
precisão. Caso o nível de confiança fosse de 90%, qual seria o intervalo de confiança? O que aconteceria
com a precisão?
2. Foram retirados 35 parafusos de produção diária de uma máquina, encontrando-se um comprimento
médio de 5,2mm. Sabendo-se que o comprimento tem distribuição normal com desvio-padrão 1,2mm,
construir um intervalo de confiança para a média aos níveis de 90% e 95% e suas respectivas precisões.
Comente sobre estes resultados.
3. As alturas dos alunos do IESB possuem distribuição normal. Foi retirada uma amostra aleatória de 15
alunos obtendo-se a média amostral de 175 cm com desvio-padrão de 15 cm. Construir ao nível de
confiança de 90% e 95% os respectivos intervalos de confiança e precisão. O que aconteceu com a
precisão com a mudança do nível de confiança?
4. Em quatro leituras experimentais de um comercial de 30 segundos, um locutor gastou em média 29,2
segundos com uma variância de 5,72 segundos2. Construir os intervalos de confiança e a precisão para a
média ao nível de confiança de 90% e 95%. Comente sobre os resultados obtidos.
5. Uma amostra aleatória de 5 pessoas escolhidas de um departamento de uma empresa, que possui um
desvio-padrão igual a 2 anos, apresentou a idade média de 52 anos. Determine um intervalo de confiança
e a precisão para a média do departamento ao nível de 90% de confiança. O que aconteceria com a
precisão se o nível de confiança passasse para 95%?
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
ESTIMAÇÃO
12
6. Uma amostra de 1.001 adultos, 58% afirma que o transporte mais seguro é o avião. Construa um intervalo
de confiança de 99% para a proporção de adultos que pensam serem os aviões os meios de transporte mais
seguro.
7. uma amostra aleatória de 90 pessoas foi selecionada ao acaso de um grupo de 1.000 pessoas, fornecendo a
proporção de fumantes pˆ =0,24. Calcule o intervalo de confiança ao nível de 95% para a proporção de
fumantes nas 1.000 pessoas.
8. Uma revista semanal, em artigo sobre a participação das mulheres em um curso superior de psicologia,
afirmou que atualmente a proporção de homens neste curso é superior à das mulheres. Uma pessoa
interessada em testar esta afirmação levantou uma amostra ao acaso de 100 estudantes de psicologia e
obteve na amostra uma porcentagem de 80% de mulheres. Responda:
(a) Qual é o intervalo de confiança para a proporção de mulheres na população ao nível de 98%?
(b) A afirmação da revista é certamente falsa?
9. Para definir as cores dos carros da linha a ser lançada no próximo ano, a montadora selecionou 200 pessoas
a apresentou protótipos em diversas cores, anotando a preferência das pessoas. Setenta destas pessoas
preferiram uma nova cor perolada, e a montadora deseja estimar, com 90%, qual é a proporção de carros
desta cor que serão solicitados no próximo ano. Qual deve ser esta estimativa?
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
ESTIMAÇÃO
13
Stevenson, William J. Estatística aplicada à administração. Harper & Row do Brasil, São Paulo, 1986, p.461
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTE DE SIGNIFICÂNCIA
14
UNIDADE III – TESTES DE SIGNIFICÂNCIA
INTRODUÇÃO
Como foi visto anteriormente, toda avaliação feita sobre um parâmetro populacional, o qual não possui
nenhuma informação, pode ser resultado do processo de estimação feito através do Intervalo de Confiança.
Se já possuímos alguma informação, podemos testá-la no sentido de aceitá-la como verdadeira ou
rejeitá-la.
O Teste de Significância tem por finalidade, a partir da elaboração de uma Hipótese Nula H0 e de uma
Hipótese Alternativa Ha, verificar a aceitabilidade ou não da informação. Por isso é conhecida como Regra de
Decisão.
Para sermos mais claros, isto significaque a partir de uma amostra de uma determinada população
iremos confirmar ou não o valor do parâmetro através da análise de decisão sobre aceitar H0 ou rejeitar H0.
Quando nos propusermos a utilizar tal procedimento deveremos ter em mente que estaremos sujeitos a erros e
acertos na decisão. De um modo geral, em qualquer tipo de decisão, os acertos e os erros podem ser dispostos
segundo o quadro abaixo:
Estado da Natureza
Decisão H0 é verdadeira H0 é falsa
Aceita-se H0 Decisão Correta Erro tipo II
Rejeita-se H0 Erro tipo I Decisão Correta
Erro Tipo I - Consiste em rejeitar H0 quando H0 é verdadeira
Erro Tipo II - Consiste em aceitar H0 quando H0 é falsa
Nível de Significância do Teste - é a probabilidade de se cometer o erro Tipo I, ou seja, rejeitar uma
Hipótese verdadeira. O Nível de significância será denotado por α .
A probabilidade do erro Tipo II não possui um nome em especial mais será conhecida como erro β .
A fixação da Hipótese alternativa é que diferencia os vários tipos de Teste.
EXEMPLOS
1. Julgamento do Réu
Estado da Natureza
Decisão Inocente Culpado
Inocente Decisão Correta Erro tipo II
Culpado Erro tipo I Decisão Correta
O erro Tipo I, no caso, seria julgar o réu culpado, quando na verdade ele é inocente.
O erro Tipo II seria julgar o réu inocente, quando na verdade ele é culpado.
2. Decisão de um médico sobre uma cirurgia
Estado da Natureza
Decisão Precisa Operar Não Precisa Operar
Opera Decisão Correta Erro tipo II
Não Opera Erro tipo I Decisão Correta
O erro Tipo I seria não operar, quando na verdade o paciente precisa ser operado.
O erro Tipo II seria operar, quando o paciente não precisa ser operado.
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTE DE SIGNIFICÂNCIA
15
Na realização dos testes, controlaremos o erro tipo I, procurando diminuir a probabilidade de sua
ocorrência.
Quando controlarmos os níveis β e α , estaremos realizando um Teste de Hipótese.
TIPOS DE TESTES.
1º Tipo -
>
=
rparâmetro:H
rparâmetro:H
a
0 2º Tipo -
<
=
rparâmetro:H
rparâmetro:H
a
0 3º Tipo -
≠
=
rparâmetro:H
rparâmetro:H
a
0
A realização de um Teste Compreende as seguintes etapas
1. Identificar H0;
2. Identificar Ha ( atenção, pois Ha define o tipo de teste a ser empregado)
3. Construir a região crítica para o teste escolhido;
4. Calcular o estimador e verificar se ele se situa na região de aceitação ou na região de rejeição da
hipótese H0.
5. Decisão do teste – Se o estimador estiver na região de aceitação Aceita-se H0
Se o estimador estiver na região de rejeição, Rejeita-se H0
TESTE DE SIGNIFICÂNCIA PARA A MÉDIA
O melhor estimador para µ e x . A distribuição amostral das médias é normal, com: ( )
n
xσ
µ - x z =
1º Teste -
>
=
b µ :H
b µ :H
a
0
A região crítica (de Rejeição – RR) é: ( )
n
xσ
µ - x z =
2º Teste –
<
=
b µ :H
b µ :H
a
0
A região crítica (de Rejeição – RR) é: ( )
n
xσ
µ - x z =
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTE DE SIGNIFICÂNCIA
16
3º Teste –
≠
=
b µ :H
b µ :H
a
0
A região crítica (de Rejeição – RR) é: ( )
n
xσ
µ - x z =
EXEMPLO
1. Uma amostra Aleatória de 40 elementos retirados de uma população normal com desvio padrão igual
a 3 apresentou um valor médio igual a 60. Teste, ao nível de significância de 5%, a hipótese de que a média
populacional seja igual a 59, supondo a hipótese alternativa µ >59.
Solução:
>
=
59 µ :H
59 µ :H
a
0
Ao nível de 5% de significância, a região crítica para a hipótese nula é:
O valor de zt = 1,64 é proveniente da tabela normal onde no corpo podemos procurar o valor de
0,5 – 0,05 = 0,45.
O valor de zc é dado por:
( )
n
xσ
µ - x zc = =
40
3
59 - 60 = 2,11
Como o valor de zc = 2,11 está na região de rejeição para a hipótese H0. Não temos motivos para aceitar
H0.
2. Uma amostra aleatória de 20 elementos selecionados de uma população normal com variância 3
apresentou média 53. Teste ao nível de significância de 5% a hipótese µ =50.
Solução
≠
=
50 µ :H
50 µ :H
a
0
Ao nível de 10% de significância, a região crítica para a hipótese nula é:
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTE DE SIGNIFICÂNCIA
17
O valor de zc é dado por:
( )
n
xσ
µ - x zc = =
20
1,73
50 - 53 = 7,755
Como o valor de zc = 7,755 está na região de rejeição para a hipótese H0. Não temos motivos para
aceitar H0.
Exercícios
1. Uma agência de empregos alega que os candidatos por ela colocados nos últimos 6 meses têm salários
médios anuais de R$9.000,00 com um desvio-padrão de R$1.000,00. Uma agência governamental extraiu
uma amostra aleatória daquele grupo, encontrando um salário médio de R$8.000,00 com base em 50
empregados. Teste a afirmação da agência, contra a alternativa de que o salário médio é inferior a
R$9.000,00, ao nível de significância de 0,05.
2. A DeBug Company vende um repelente de insetos que alega ser eficiente pelo prazo de 400 horas no
mínimo. Uma análise de nove itens escolhidos aleatoriamente acusou uma média de eficiência de 380 horas.
Teste a alegação da companhia, contra a alternativa que a duração é inferior a 400 horas, ao nível de 0,01, se
o desvio-padrão é 90 horas.
3. Nove pessoas seguiram um plano especial de dieta durante dois meses. Nessa ocasião, suas perdas
individuais média de peso foram de 0,82 quilo. Teste a hipótese de uma perda média real de 0 (zero) quilo,
contra a alternativa de uma perda maior que zero, ao nível de significância de 0,01. Admita a normalidade da
população com desvio-padrão de 0,59 quilo.
4. Um ambientalista estima que a média do lixo reciclado diariamente por um adulto nos Estados Unidos supera
454g com um desvio-padrão de 46g. Você deseja testar essa alegação. Para isso, determina que o lixo médio
reciclado diariamente por pessoa para uma amostra aleatória de 12 adultos é de 545g. Ao nível de
significância de 5%, você pode confirmar a alegação?
5. Uma associação de restaurantes afirma que uma família típica gasta uma média de R$811,00 por ano e com
um desvio-padrão de R$100,00 em refeições fora de casa. Para testar tal alegação foi selecionada
aleatoriamente uma amostra de 12 famílias e observou que gastam em média R$1.010,00. Você pode rejeitar
a alegação da associação ao nível de 1% de significância?
6. Num determinado Estado, uma amostra ao acaso de 45 estudantes da oitava série tem um escore médio de
265 em um teste nacional de avaliação de matemática. Isso leva um administrador escolar deste Estado a
declarar que o escore médio para os estudantes no teste é superior a 260 com desvio-padrão de 55. Ao nível
de confiança de 5% há evidência suficiente que sustente a alegação do administrador?
7. A fim de acelerar o tempo que um analgésico leva para penetrar na corrente sanguínea, um químico analista
acrescentou certo ingrediente à formula original, que acusa um tempo médio de 43 minutos. Em 36
observações com a nova fórmula, obteve-se um tempo médio de 42 minutos. Suponha que a distribuição seja
aproximadamente normal, com desvio-padrão de 6 minutos. Que se pode concluir, ao nível de significância
de 0,05, sobre a eficiência do novo ingrediente?
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
ANÁLISE DE VARIÂNCIA
18
UNIDADE IV – ANÁLISE DE VARIÂNCIA
INTRODUÇÃO
Se houver a necessidade de se comparar médias utilizando mais de duas populações aplica-se o teste F
como será discutido neste capítulo,admitindo que a variável em questão se aproxime a uma distribuição normal.
Utilizando um exemplo será possível compreender a metodologia em estudo.
Suponha que tenha sido aplicado um questionário a 4 amostras casuais simples (com 5 pessoas cada
amostra) provenientes de populações independentes. Uma das perguntas era: “Quantos anos de casado você
tem?”. As respostas são apresentadas a seguir:
Tabela 01
Tempo de casamento de 4 amostras independentes com suas respectivas médias
A B C D
11 8 5 4
8 5 7 4
5 2 3 2
8 5 3 0
8 5 7 0
MÉDIA 8 5 5 2
Amostras
ELEMENTOS
Fonte: Dados fictícios
Analisando os tempos médios de casamento das 4 amostras, surge uma pergunta: “Será que existe
diferença significativa entre os tempos médios de casamento entre estas amostras de tal forma que torne-as
diferentes?”. Para se responder a este questionamento é preciso aplicar um teste estatístico.
ANÁLISE DE VARIÂNCIA PARA EXPERIMENTOS AO ACASO
Para ser possível aplicar o teste F a variável que está sendo estudada deve se aproximar a uma
distribuição normal. Inicialmente é necessário estudar os motivos de variação:
• Entre as populações: amostras pertencentes de populações diferentes
• Dentro da mesma população: elemento “acaso” atuando como elemento influenciador
A análise de variância se faz necessária para se aplicar o teste F. Tal análise separa a variabilidade
devido aos “tratamentos” da variabilidade residual (acaso).
Inicialmente as hipóteses são determinadas:
H0: hipótese nula
H1: hipótese alternativa
A tabela 01 mostra as fórmulas que devem ser utilizadas para construir uma tabela de análise de
variância (ANOVA).
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
ANÁLISE DE VARIÂNCIA
19
Tabela 01
Fórmulas para Tabela de Análise de Variância
Fonte de Variação Graus de
Liberdade
Soma dos quadrados Quadrados Médios Razão F
Entre Grupos 1−k
C
r
T
SQTr −= ∑ 2 1−= kSQTrQMTr QMRQMTrF =
Resíduo kn − SQTrSQTSQR −=
kn
SQRQMR −=
Total 1−n ∑ −= CXSQT 2
Onde o valor de C é chamado de correção:
( )
n
x
C
2∑=
A tabela 02 apresenta os dados de k tratamentos (quantidade de amostras). A soma das r repetições de
um tratamento representa o total do mesmo. O total geral é dado pela soma dos k totais de tratamentos.
Tabela 02
Notação para Análise de Variância
Tratamento
1 2 3 ... k Total
x11 X21 X31 ... Xk1
x12 X22 X32 ... Xk2
. . . . .
. . . . .
. . . . .
x1r X2r X3r ... Xkr
Total T1 T2 T3 ... Tk ∑ ∑= xT
Nº de Repetições r r r ... r rkn ⋅=
Média
1x 2x 3x ... kx
Após construir a tabela ANOVA é preciso comparar os valores de F calculado com o tabelado. Este
último é encontrado por intermédio das seguintes informações:
• Nível de significância α
• k-1 graus de liberdade no numerador
• n-k graus de liberdade no denominador
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
ANÁLISE DE VARIÂNCIA
20
Tabela 03.
Valores de F para α=5% e α=10% segundo o número de graus de liberdade do numerador e denominador
α = 0,05
g.l.
DENOMI-
NADOR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88 242,98 243,90 244,69 245,36 245,95 246,47 246,92 247,32 247,69 248,02
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,42 19,42 19,43 19,43 19,44 19,44 19,44 19,45
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,73 8,71 8,70 8,69 8,68 8,67 8,67 8,66
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,89 5,87 5,86 5,84 5,83 5,82 5,81 5,80
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,66 4,64 4,62 4,60 4,59 4,58 4,57 4,56
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,98 3,96 3,94 3,92 3,91 3,90 3,88 3,87
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,55 3,53 3,51 3,49 3,48 3,47 3,46 3,44
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,26 3,24 3,22 3,20 3,19 3,17 3,16 3,15
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,05 3,03 3,01 2,99 2,97 2,96 2,95 2,94
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,89 2,86 2,85 2,83 2,81 2,80 2,79 2,77
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,76 2,74 2,72 2,70 2,69 2,67 2,66 2,65
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,66 2,64 2,62 2,60 2,58 2,57 2,56 2,54
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,58 2,55 2,53 2,51 2,50 2,48 2,47 2,46
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,51 2,48 2,46 2,44 2,43 2,41 2,40 2,39
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,45 2,42 2,40 2,38 2,37 2,35 2,34 2,33
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,42 2,40 2,37 2,35 2,33 2,32 2,30 2,29 2,28
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,35 2,33 2,31 2,29 2,27 2,26 2,24 2,23
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,31 2,29 2,27 2,25 2,23 2,22 2,20 2,19
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,28 2,26 2,23 2,21 2,20 2,18 2,17 2,16
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,25 2,22 2,20 2,18 2,17 2,15 2,14 2,12
α = 0,10
g.l.
DENOMI-
NADOR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 39,86 49,50 53,59 55,83 57,24 58,20 58,91 59,44 59,86 60,19 60,47 60,71 60,90 61,07 61,22 61,35 61,46 61,57 61,66 61,74
2 8,53 9,00 9,16 9,24 9,29 9,33 9,35 9,37 9,38 9,39 9,40 9,41 9,41 9,42 9,42 9,43 9,43 9,44 9,44 9,44
3 5,54 5,46 5,39 5,34 5,31 5,28 5,27 5,25 5,24 5,23 5,22 5,22 5,21 5,20 5,20 5,20 5,19 5,19 5,19 5,18
4 4,54 4,32 4,19 4,11 4,05 4,01 3,98 3,95 3,94 3,92 3,91 3,90 3,89 3,88 3,87 3,86 3,86 3,85 3,85 3,84
5 4,06 3,78 3,62 3,52 3,45 3,40 3,37 3,34 3,32 3,30 3,28 3,27 3,26 3,25 3,24 3,23 3,22 3,22 3,21 3,21
6 3,78 3,46 3,29 3,18 3,11 3,05 3,01 2,98 2,96 2,94 2,92 2,90 2,89 2,88 2,87 2,86 2,85 2,85 2,84 2,84
7 3,59 3,26 3,07 2,96 2,88 2,83 2,78 2,75 2,72 2,70 2,68 2,67 2,65 2,64 2,63 2,62 2,61 2,61 2,60 2,59
8 3,46 3,11 2,92 2,81 2,73 2,67 2,62 2,59 2,56 2,54 2,52 2,50 2,49 2,48 2,46 2,45 2,45 2,44 2,43 2,42
9 3,36 3,01 2,81 2,69 2,61 2,55 2,51 2,47 2,44 2,42 2,40 2,38 2,36 2,35 2,34 2,33 2,32 2,31 2,30 2,30
10 3,29 2,92 2,73 2,61 2,52 2,46 2,41 2,38 2,35 2,32 2,30 2,28 2,27 2,26 2,24 2,23 2,22 2,22 2,21 2,20
11 3,23 2,86 2,66 2,54 2,45 2,39 2,34 2,30 2,27 2,25 2,23 2,21 2,19 2,18 2,17 2,16 2,15 2,14 2,13 2,12
12 3,18 2,81 2,61 2,48 2,39 2,33 2,28 2,24 2,21 2,19 2,17 2,15 2,13 2,12 2,10 2,09 2,08 2,08 2,07 2,06
13 3,14 2,76 2,56 2,43 2,35 2,28 2,23 2,20 2,16 2,14 2,12 2,10 2,08 2,07 2,05 2,04 2,03 2,02 2,01 2,01
14 3,10 2,73 2,52 2,39 2,31 2,24 2,19 2,15 2,12 2,10 2,07 2,05 2,04 2,02 2,01 2,00 1,99 1,98 1,97 1,96
15 3,07 2,70 2,49 2,36 2,27 2,21 2,16 2,12 2,09 2,06 2,04 2,02 2,00 1,99 1,97 1,96 1,95 1,94 1,93 1,92
16 3,05 2,67 2,46 2,33 2,24 2,18 2,13 2,09 2,06 2,03 2,01 1,99 1,97 1,95 1,94 1,93 1,92 1,91 1,90 1,89
17 3,03 2,64 2,44 2,31 2,22 2,15 2,10 2,06 2,03 2,00 1,98 1,96 1,94 1,93 1,91 1,90 1,89 1,88 1,87 1,86
18 3,01 2,62 2,42 2,29 2,20 2,13 2,08 2,04 2,00 1,98 1,95 1,93 1,92 1,90 1,89 1,87 1,86 1,85 1,84 1,84
19 2,99 2,61 2,40 2,27 2,18 2,11 2,06 2,02 1,98 1,96 1,93 1,91 1,89 1,88 1,86 1,85 1,84 1,83 1,82 1,81
20 2,97 2,59 2,38 2,25 2,16 2,09 2,04 2,00 1,96 1,94 1,91 1,89 1,87 1,86 1,84 1,83 1,82 1,81 1,80 1,79
NUMERADOR
NUMERADOR
Exemplo: Considere o exemplo anterior:
H0: os tempos médios de casamento não possuem diferenças significativas (médias são iguais)
H1: os tempos médios de casamento possuem diferenças significativas (médiasnão são iguais)
Tabela 04.
Cálculos para tabela da análise de variância
A B C D
11 ( 121 ) 8 ( 64 ) 5 ( 25 ) 4 ( 16 )
8 ( 64 ) 5 ( 25 ) 7 ( 49 ) 4 ( 16 )
5 ( 25 ) 2 ( 4 ) 3 ( 9 ) 2 ( 4 )
8 ( 64 ) 5 ( 25 ) 3 ( 9 ) 0 ( 0 )
8 ( 64 ) 5 ( 25 ) 7 ( 49 ) 0 ( 0 )
TOTAL 40 ( 1.600 ) 25 ( 625 ) 25 ( 625 ) 10 ( 100 ) 100 ( 2.950 )
Nº DE REPETIÇÕES 5 5 5 5 20
MÉDIA 8 5 5 2
TOTAL
( 658 )
Amostras
ELEMENTOS
Tendo apresentado os cálculos acima se constrói agora a tabela de análise de variância:
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
ANÁLISE DE VARIÂNCIA
21
Tabela 05.
Tabela da análise de variância com seus respectivos cálculos
Fonte de
Variação
Graus de
Liberdade
Soma dos quadrados Quadrados Médios Razão F
Entre
Grupos
314 =−
90500
4
950.2 =−=SQTr 30
3
90 ==QMTr 06,7
25,4
30 ==F
Resíduo 16420 =− 6890158 =−=SQR
25,4
16
68 ==QMR
Total 19120 =− 158500658 =−=SQT
Onde a correção será igual a:
( ) 500
20
100 2 ==C
Desta forma teremos a tabela ANOVA:
Tabela 06.
Tabela da análise de variância para os tempos de casamento
Fonte de Variação Graus de Liberdade Soma dos quadrados Quadrados Médios Razão F
Entre Grupos 3 90 30 7,06
Resíduo 16 68 4,25
Total 19 158
Pela tabela 03, ao nível de significância de 5%, com 3 e 16 graus de liberdade do numerador e
denominador respectivamente, tem-se Ftab=3,24. Desta forma, a estrutura do “gabarito” será:
Conclusão do teste:
Ao nível de 5% de significância, aceita-se a hipótese de que as médias não são iguais (há diferença significativa)
entre as anostras, ou seja, as médias do tempo de casamento entre as 4 amostras coletadas são diferentes.
TESTE DE TUKEY PARA COMPARAÇÃO DE MÉDIAS
A análise de variância verifica se as médias possuem diferenças significativas ou não entre si. Agora, se
o objetivo fosse identificar a(s) média(s) que apresenta(m) diferença(s) significativa(s) das demais será
necessário utilizar o teste de Tukey.
O teste de Tukey estabelece a diferença mínima significativa (d.m.s.) em um determinado nível que é
dado por:
r
QMRqsmd ⋅=...
onde: q = valor encontrado na tabela da página seguinte, apresentada a seguir, através das seguintes
informações:
aceitação rejeição
Ftab = 3,24
Fcalc = 7,06
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
ANÁLISE DE VARIÂNCIA
22
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
ANÁLISE DE VARIÂNCIA
23
• nível de significância α
• número de tratamentos
• graus de liberdade no resíduo
Conforme visto na tabela 06 os tempos médios dos casamentos dos 4 grupos possuem diferenças
significativas. Para verificar a(s) média(s) que difere(m) das demais será utilizado o teste de Tukey.
Com 5% de nível de significância, 4 tratamentos com 16 graus de liberdades dos resíduos, o valor de q
será igual a 4,05. Assim:
73,392,005,485,005,4
5
25,405,4... =⋅=⋅=⋅=smd
O teste de Tukey afirma que duas médias são estatisticamente diferentes quando a diferença absoluta
entre elas foi maior ou igual ao valor do d.m.s. Desta forma, utilizando o exemplo anterior:
Tabela 07.
Valores absolutos das diferenças entre as médias dos grupos A, B, C e D
MÉDIAS 8=Ax 5=Bx 5=Cx 2=Dx
8=Ax |8-5| = 3 |8-5| = 3 |8-2| = 6
5=Bx |5-5| = 0 |5-2| = 3
5=Cx |5-2| = 3
2=Dx
Pela tabela 07 é fácil observar que apenas as médias A e D possuem diferença maior que a d.m.s.. Desta
forma, ao nível de significância de 5% o tempo de casamento do grupo A é significativamente maior que a do
grupo D.
EXERCÍCIOS
1. Foram selecionadas aleatoriamente 5 famílias de cada uma das filiações religiosas: protestantes,
católicos e judeus. Os três grupos de famílias são apresentados em termos do número total de membros
da família (pais e filhos conjuntamente):
Religião
Protestante Católico Judeu
2 6 3
5 7 2
4 8 4
3 6 4
Elementos
5 4 3
Total 19 31 16
Média 3,8 6,2 3,2
Determine:
a. Se há diferença significativa no número médio de filhos de acordo com a religião ao nível de
5% de significância.
b. Caso haja diferença, identifique onde se apresenta esta diferença.
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
ANÁLISE DE VARIÂNCIA
24
2. Nas seguintes amostras aleatórias de classes sociais, teste a hipótese de que a amabilidade entre
vizinhos não varia segundo a classe social, ao nível de significância de 5%. Caso haja diferença,
identifique onde ocorreu tal diferença significativa entre as médias.
Classe social
Baixa Trabalhadora Média Alta
8 7 6 5
4 3 5 2
7 2 5 1
Elementos
8 8 4 3
Total 27 20 20 11
Média 6,75 5 6,25 2,75
Nota: escores mais altos indicam maior amabilidade
3. Psicólogos estudam a eficácia relativa de três programas diferentes de tratamento -A, B e C- para uso
ilícito de grogas. Os dados seguintes representam o número de dias de abstinência de drogas
acumulados por 15 pacientes (5 em cada programa de tratamento) para os 3 meses seguintes ao término
de seu programa de tratamento. Assim, um número maior de dias indica um período mais longo sem
uso de drogas.
Tratamento
A B C
90 81 14
74 90 20
90 90 33
86 90 5
Elementos
75 85 12
Total 415 436 84
Média 83 87,2 16,8
Teste a hipótese nula, ao nível de 5% de significância, de que esses programas de tratamento antidroga não
diferem quanto a sua eficiência. Caso a hipótese nula seja rejeitada, identifique onde ocorrem diferenças
significativas nas médias dos tratamentos.
4. Uma pesquisadora está interessada no efeito que o tipo de residência tem sobre a felicidade pessoal de
estudantes universitários. Para isso, ela seleciona amostras de estudantes que moram em dormitórios do
campus, em apartamentos fora do campus e em sua casa e pede a 12 entrevistados que classifiquem seu
grau de felicidade em uma escala de 1 (não é feliz) a 10 (feliz). Teste a hipótese nula que a felicidade
não difere por pito de residência ao nível de significância de 5%. Em caso de rejeição, identifique onde
ocorrem as diferenças significativas.
Tipo de residência
Dormitórios do
campus
Apartamentos
fora do campus
Em casa
8 2 5
9 1 4
7 3 3
Elementos
8 3 4
Total 32 9 16
Média 8 2,25 4
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
25
UNIDADE V – TESTES NÃO-PARAMÉTRICOS
INTRODUÇÃO
Os métodos paramétricos (maioria dos métodos de inferência estatística) se baseiam em amostragem de
uma população especificando parâmetros (tais como a média µ, a variância σ2 e a proporção p). Tais testes
também devem enquadrar-se numa amostra proveniente de uma população normalmente distribuída. Porém,
nesta unidade será abordada os métodos chamados de NÃO-PARAMÉTRICOS que não dependem daquelas
exigências. Os testes de significância/hipótese não-paramétricos costumam chamar-se TESTES DE LIVRE
DISTRIBUIÇÃO.
Vantagens e desvantagens da utilização de testes não-paramétricos
VANTAGENS DESVANTAGENS
• Não exigem população normalmente distribuída
• Podem ser aplicados a variáveis qualitativas
• Cálculos simplificados
• Perda de informação (variáveis quantitativas
transformadas em qualitativas. Ex.: perda de peso
registradas apenas como sinais negativos)
• Ineficiência em relação aos testes paramétricos
(amostras ou diferenças pequenas)
O POSTO DE UMA OBSERVAÇÃO
Para o cálculo da mediana e separatrizes era exigido que os dados estivessem necessariamenteordenados, a fim de verificar seus posicionamentos.
Os postos significam o posicionamento destes dados de acordo com um certo critério de ordenamento
(crescente ou decrescente).
Exemplo:
Dados originais: 5 3 40 50 12
Dados ordenados: 3 5 12 40 50
↑ ↑ ↑ ↑ ↑
POSTOS: 1 2 3 4 5
No caso de itens repetidos, o processo usual consiste em calcular a média dos postos envolvidos e
atribuir este valor numérico médio a cada um destes itens.
Exemplo:
Dados ordenados: 3 5 5 10 12
↑ ↑ ↑ ↑ ↑
POSTOS: 1 2,5 2,5 4 5
Neste caso, o item de valor 5 repetiu duas vezes. Assim, a média entre os postos 2 e 3 é igual a 2,5.
TESTES NÃO-PARAMÉTRICOS PARA DUAS AMOSTRAS RELACIONADAS
TESTE DE McNEMAR PARA A SIGNIFÂNCIA DE MUDANÇAS
Este teste é utilizado para verificar contagens ou proporções em duas amostras relacionadas com
variáveis qualitativas dicotômicas. É apropriado para estudos do tipo “antes” e “depois” para, justamente, testar a
significância de mudanças de estado, opinião, condição, dentre outras, onde o próprio indivíduo é o seu controle.
Uma tabela de contingência 2x2 representa o conjunto de reações dos indivíduos. Devemos deixá-las
bem definidas, principalmente as células A e D.
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
26
- +
+ A B
- C D
antes /
Situação 1
depois / Situação 2
No esquema acima, A sujeitos mudaram da condição “+” para “-”, D sujeitos mudaram da condição “-”
para “+” e os B e C sujeitos não mudaram de condição. Desta forma, deseja-se testar se as mudanças de
estado/condição são aleatórias (onde o tratamento não foi efetivo), ou seja, se a probabilidade da mudança do
estado “+” para “-” (P(A)) é igual ou não à probabilidade de ocorrer a mudança do estado “-” para “+” (P(D)).
Assim, as hipóteses a serem testadas (referente à mudança de estado) serão:
H0: P(A) = P(D)
H1: P(A) ≠ P(D)
A estatística do teste será:
( ) ( )∑ +−=−= DA DAEEO i ii
22
2χ com gl = 1.
Agora, esta estatística pode melhorar se introduzir uma correção de continuidade ou correção de Yates:
( )
DA
DA
+
−−=
2
2 1χ com gl = 1.
Tal correção é importante para amostras pequenas (n ≤ 60).
Resultado do teste:
Aceitação de H0 : quando
22
tabcalc χχ <
rejeição de H0 : quando
22
tabcalc χχ ≥
EXEMPLO:
Depressão pós-parto
Para prevenir este tipo de quadro psicopatológico, após o parto, todas as parturientes foram submetidas a
acompanhamento e aconselhamento profissional. Após o tratamento registrou-se o número de casos de depressão
pós-parto. A fim de justificar a continuidade do programa, a direção clínica pretende saber se o tratamento
proporcionado teve ou não um efeito significativo ao nível de 5% de significância.
não sim
sim 8 3
não 14 5
depressão após
tratamento
depressão
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
27
Hipóteses: H0: P(ter depressão → não ter depressão) = P(não ter depressão → ter depressão)
(situação em que as mudanças foram aleatórias e que desta forma o tratamento não surtiu efeito
significtivo)
H1: P(ter depressão → não ter depressão) ≠ P(não ter depressão → ter depressão)
(situação em que as mudanças não foram aleatórias e que desta forma o tratamento surtiu efeito
significativo)
Estatística do teste:
( )
31,0
13
4
58
158 22 ==+
−−=calcχ
Resultado do teste:
Como ( ) ( )84,331,0 22 =<= tabcalc χχ , aceita-se a hipótese nula.
Conclusão do teste:
Ao nível de significância de 5%, aceita-se a hipótese de que o tratamento não foi eficaz para alterar a incidência
da depressão pós-parto.
EXERCÍCIOS
1. Numa campanha política, um determinado Jornal publicou uma série de artigos apoiando um dos
partidos (A) e difamado o candidato do outro (B). Numa amostra de 200 eleitores, foram observadas as
seguintes mudanças, com relação ao número de eleitores entrevistados.
A B
B 83 47
A 52 18
depois do artigo
antes do
artigo
Os artigos influenciaram os eleitores nível de significância de 5%?
2. Dois supermercados disputam a preferência dos consumidores de uma cidade. Um deles (A), para
aumentar o seu número de fregueses, lança uma campanha publicitária, através de concursos, com
vários brindes. O resultado no final da promoção apresentou a seguinte situação, numa amostra tomada
ao acaso com 100 consumidores. Foi a campanha eficiente ao nível de significância de 2%?
B A
A 37 3
B 13 47
depois da campanha
antes da
campanha
3. Suponha-se que um psicólogo esteja interessado em estudar a iniciação de crianças nos contatos sociais.
Ele observou que as crianças recém-admitidas em uma escola maternal em geral estabelecem contatos
pessoais com adultos ao invés de manter contatos com outras crianças. Supõe, porém, que, na medida
em que aumentam a familiaridade e a experiência, tais contatos passarão a voltar-se de preferência para
outras crianças. O psicólogo observou 25 crianças recém-admitidas em uma escola maternal e observa a
atitude de cada uma delas conforme seus primeiros contatos sociais se eram dirigidas a adultos ou
crianças. Decorrido um mês ele observa as 25 crianças e as classifica segundo seu comportamento atual.
Os dados se encontram a seguir. Teste, ao nível de 5% de significância, se a escola possui influência
significativa na mudança do objeto de interesse da criança.
criança adulto
adulto 14 4
criança 3 4
30º dia
1º dia
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
28
0,99 0,98 0,9 0,8 0,7 0,5 0,3 0,2 0,1 0,05 0,02 0,01 0,001
1 0,00016 0,00063 0,01579 0,06418 0,14847 0,45494 1,07420 1,64238 2,70554 3,84146 5,41190 6,63489 10,82736
2 0,02 0,04 0,21 0,45 0,71 1,39 2,41 3,22 4,61 5,99 7,82 9,21 13,82
3 0,11 0,18 0,58 1,01 1,42 2,37 3,66 4,64 6,25 7,81 9,84 11,34 16,27
4 0,30 0,43 1,06 1,65 2,19 3,36 4,88 5,99 7,78 9,49 11,67 13,28 18,47
5 0,55 0,75 1,61 2,34 3,00 4,35 6,06 7,29 9,24 11,07 13,39 15,09 20,51
6 0,87 1,13 2,20 3,07 3,83 5,35 7,23 8,56 10,64 12,59 15,03 16,81 22,46
7 1,24 1,56 2,83 3,82 4,67 6,35 8,38 9,80 12,02 14,07 16,62 18,48 24,32
8 1,65 2,03 3,49 4,59 5,53 7,34 9,52 11,03 13,36 15,51 18,17 20,09 26,12
9 2,09 2,53 4,17 5,38 6,39 8,34 10,66 12,24 14,68 16,92 19,68 21,67 27,88
10 2,56 3,06 4,87 6,18 7,27 9,34 11,78 13,44 15,99 18,31 21,16 23,21 29,59
11 3,05 3,61 5,58 6,99 8,15 10,34 12,90 14,63 17,28 19,68 22,62 24,73 31,26
12 3,57 4,18 6,30 7,81 9,03 11,34 14,01 15,81 18,55 21,03 24,05 26,22 32,91
13 4,11 4,77 7,04 8,63 9,93 12,34 15,12 16,98 19,81 22,36 25,47 27,69 34,53
14 4,66 5,37 7,79 9,47 10,82 13,34 16,22 18,15 21,06 23,68 26,87 29,14 36,12
15 5,23 5,98 8,55 10,31 11,72 14,34 17,32 19,31 22,31 25,00 28,26 30,58 37,70
16 5,81 6,61 9,31 11,15 12,62 15,34 18,42 20,47 23,54 26,30 29,63 32,00 39,25
17 6,41 7,25 10,09 12,00 13,53 16,34 19,51 21,61 24,77 27,59 31,00 33,41 40,79
18 7,01 7,91 10,86 12,86 14,44 17,34 20,60 22,76 25,99 28,87 32,35 34,81 42,31
19 7,63 8,57 11,65 13,72 15,35 18,34 21,69 23,90 27,20 30,14 33,69 36,19 43,82
20 8,26 9,24 12,44 14,58 16,27 19,34 22,77 25,04 28,41 31,41 35,02 37,57 45,31
21 8,90 9,91 13,24 15,44 17,18 20,34 23,86 26,17 29,62 32,67 36,34 38,93 46,80
22 9,54 10,60 14,04 16,31 18,10 21,34 24,94 27,30 30,81 33,92 37,66 40,29 48,27
23 10,20 11,29 14,85 17,19 19,02 22,34 26,02 28,43 32,01 35,17 38,97 41,64 49,73
24 10,86 11,99 15,66 18,06 19,94 23,34 27,10 29,55 33,20 36,42 40,27 42,98 51,18
25 11,52 12,70 16,47 18,94 20,87 24,34 28,17 30,68 34,38 37,65 41,57 44,31 52,62
26 12,20 13,41 17,29 19,82 21,79 25,34 29,25 31,79 35,56 38,89 42,86 45,64 54,05
27 12,88 14,13 18,11 20,70 22,72 26,34 30,32 32,91 36,74 40,11 44,14 46,96 55,4828 13,56 14,85 18,94 21,59 23,65 27,34 31,39 34,03 37,92 41,34 45,42 48,28 56,89
29 14,26 15,57 19,77 22,48 24,58 28,34 32,46 35,14 39,09 42,56 46,69 49,59 58,30
30 14,95 16,31 20,60 23,36 25,51 29,34 33,53 36,25 40,26 43,77 47,96 50,89 59,70
Probabilidade, sob Ho, de X2 = qui-quadrado
gl
Tabela. Valores Críticos de Qui-Quadrado
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
29
TESTE DE WILCOXON
Este teste também é chamado de Teste de postos com sinais de Wilcoxon. Utilizado para duas
amostras relacionadas, além de levar em consideração os sinais das diferenças, este teste leva em consideração
os valores das diferenças e dos seus postos. Desta forma, o teste de Wilcoxon atribui maior ponderação a um par
que acusa maior diferença.
Tal teste trabalha com o pressuposto de que a população de diferenças (obtidas a partir de pares de
dados) tenha distribuição aproximadamente simétrica.
Hipóteses
H0: os tratamentos são equivalentes
H1: há diferença entre os tratamentos
Estatística do teste - procedimento
Passo 1
Cálculo da diferença di de cada par de dados (subtraindo do segundo do primeiro) mantendo os sinais
Passo 2
Atribua os postos dos di’s desconsiderando os sinais.
Em caso de empate:
• Se di = 0 → desconsidere na análise
• Se aparecer diferenças com o mesmo valor numérico atribua a média dos postos referentes a
estes valores (veja página 24: “O posto de uma observação”)
Passo 3
Atribua a cada posto o respectivo sinal do di.
Passo 4
Calcule as somas absolutas dos postos negativos e positivos separadamente.
Passo 5
Considere T o menor valor encontrado na soma entre os postos negativos e positivos.
Passo 6
Considere n como sendo o número de di’s não nulos
Passo 7
Cálculo da estatística do teste:
• Se n ≤ 25: o próprio T
• Se n > 25: ( )
( )( )
( )
( )( )
24
121
4
1
:
24
121
4
1
++=−
+=
++
+−
=
nnnpadrãodesvio
nnmédia
onde
nnn
nnT
z
Passo 8
Identificação do valor crítico:
• Se n ≤ 25: tabela dos Valores críticos na Prova de Wilcoxon
• Se n > 25: tabela da distribuição normal padronizada
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
30
Passo 9
Conclusão do teste:
• Se n ≤ 25:
? Rejeição de H0: se o valor de T for no máximo o valor crítico.
? Aceitação de H0: em caso contrário.
• Se n > 25:
? Rejeição de H0: se o valor de z for, em termos absolutos, maior que o valor crítico.
? Aceitação de H0: em caso contrário.
0,0025 0,01 0,005
0,05 0,02 0,01
6 0
7 2 0
8 4 2 0
9 6 3 2
10 8 5 3
11 11 7 5
12 14 10 7
13 17 13 10
14 21 16 13
15 25 20 16
16 30 24 20
17 35 28 23
18 40 33 28
19 46 38 32
20 52 43 38
21 59 49 43
22 66 56 49
23 73 62 55
24 81 69 61
25 89 77 68
Fonte: Siegel (1975)
N
Nível de significância para prova unilateral
Nível de significância para prova bilateral
Tabela. Valores Críticos de T na Prova de Wilcoxon
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
31
Exemplo: Compensa fazer um curso preparatório para um determinado teste padronizado? Com nível de 1% de
significância, teste a afirmação de que um determinado curso preparatório não influi nos escores deste teste. Os
dados amostrais estão apresentados a seguir:
Indivíduo Antes do Teste Depois do Teste
A 700 720
B 840 840
C 830 820
D 860 900
E 840 870
F 690 700
G 830 800
H 1.180 1.200
I 930 950
J 1.070 1.080
FONTE: Triola, 1999
Hipóteses: H0: Não há diferenças entre os escores (curso ineficiente)
H1: Há diferenças entre os escores (curso eficiente)
Cálculo da estatística do teste:
Seguindo os passos de 1 a 3 acima descritos teremos os seguintes cálculos:
Indivíduo Antes do Teste Depois do Teste di |di|
posto das
diferenças
posto com
sinais
A 700 720 20 20 5 5
B 840 840 0 0 0
C 830 820 -10 10 2 -2
D 860 900 40 40 9 9
E 840 870 30 30 7,5 7,5
F 690 700 10 10 2 2
G 830 800 -30 30 7,5 -7,5
H 1.180 1.200 20 20 5 5
I 930 950 20 20 5 5
J 1.070 1.080 10 10 2 2
soma dos postos negativos 9,5
soma dos postos positivos 35,5
Como o menor valor encontrado entre as duas somas acima é referente à dos postos negativo, então a
estatística do teste será:
T = 9,5
E como n < 30, então o valor obtido pela tabela dos valores críticos de T nas provas de Wilcoxon que
será:
Valor Crítico = 2
Conclusão do teste:
Como a estatística do teste (T = 9,5) apresentou um valor maior que o valor crítico (igual a 2), ao nível
de 5% de significância a hipótese nula é aceita. Isto significa que NÃO compensa fazer o curso preparatório para
um determinado teste padrozinado.
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
32
Exercícios
1. Captropil é um remédio para baixar a pressão sistólica. Ao testar indivíduos com este remédio, mediu-
se sua pressão sistólica antes e depois de tomar o remédio, obtendo-se os resultados seguintes (em mm
de mercúrio). Ao nível de 5% de significância, teste a afirmação de que o remédio não produziu
qualquer efeito sobre os resultados da pressão sistólica.
Indivíduo Antes da
ingestão
Depois da
ingestão
A 200 191
B 174 170
C 198 177
D 170 167
E 179 159
F 182 151
G 193 176
H 209 183
I 185 159
J 155 145
K 169 146
L 210 177
FONTE: Triola, 1999
2. É feita com freqüência mensuração mental de crianças, dando-lhes blocos e mandando-as construir uma
torre tão alta quanto possível. Um mês depois o experimento de construção com blocos é repetido, com
os seguintes tempos (dado em segundos) registrados. Com 1% de nível de significância, teste a
afirmação de que não há diferença entre os dois tempos.
Criança 1ª PROVA 2ª PROVA
A 30 30
B 19 6
C 19 14
D 23 8
E 29 14
F 178 52
G 42 14
H 20 22
I 12 17
J 398
K 14 11
L 81 30
M 17 14
N 31 17
O 52 15
FONTE: Triola, 1999
3. Um estudo foi realizado para pesquisar a eficiência do hipnotismo na redução da dor. As medidas são
dadas em centímetros, em uma escala de dor. Ao nível de 1% de significância , teste a afirmação de que
o hipnotismo não tem nenhum efeito. Os resultados estão dispostos na tabela a seguir:
Indivíduo Antes da
hipnose
Depois da
hipnose
A 6,6 6,8
B 6,5 2,4
C 9,0 7,4
D 10,3 8,5
E 11,3 8,1
F 8,1 6,1
G 6,3 3,4
H 11,6 2,0
FONTE: Triola, 1999
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
33
TESTES NÃO-PARAMÉTRICOS PARA DUAS AMOSTRAS INDEPENDENTES
TESTE Qui-Quadrado - χ 2
O Teste Qui-quadrado é aplicado para se fazer comparações entre freqüências no lugar de se fazer
comparações entre escores médios. Os dados são dispostos em uma tabela de contingência k x r (onde k é o n°
de colunas e r o n° de linhas).
Tal teste verifica a existência ou não de diferenças significativas entre duas populações independentes
que originaram as duas amostras a respeito de uma certa característica.
Hipóteses
H0: não existe diferença entre as duas amostras
H1: existe diferença entre as duas amostras
Estatística do teste
Para tabelas de contingência k x r:
( )∑ −=
e
eo
f
ff 22χ , com g.l.=(r-1)(k-1)
onde: fo : freqüência observada
fe : freqüência esperada
Para tabelas de contingência 2 x 2:
( )( )( )( )DBCADCBA
nBCADn
++++
−−
=
2
2 2χ , com g.l.=1
Freqüência Esperada
As freqüências esperadas devem refletir a atuação da chance sob as condições da hipótese nula. O que significa
que as freqüências esperadas devem indicar igualdades por meio de todas as amostras e que devem ser
proporcional a seus totais marginais.
O cálculo das freqüências esperadas está apresentado a seguir:
( )( )
n
fe
coluna da marginal totallinha da marginal total=
Valor crítico do qui-quadrado
É observado na tabela (página 27) o valor crítico de acordo com as seguintes informações:
o Graus de liberdade: g.l.
o Nível de significância: α
Conclusão do teste
? Aceitação de H0: estatística do teste < valor crítico.
? Rejeição de H0: estatística do teste > valor crítico.
Exemplo
Deseja-se comprovar se há diferença de qualidade de liderança segundo estatura do indivíduo (alto e baixo) ao
nível de significância de 5%. A tabela abaixo apresenta as freqüências obtidas entrevistando 95 indivíduos:
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
34
baixo alto total
líder 12 32 44
liderado 22 14 36
não-
classificável 9 6 15
total 43 52 95
Calculando as freqüências esperadas teremos:
12 32
19,9 24,1
22 14
16,3 19,7
9 6
6,8 8,2
95
total
líder
liderado
não-
classificável
44
36
15
43 52
baixo alto
total
Cálculo da estatística do teste:
f o f e f o - f e (f o - f e )
2 (f o - f e )
2 / f e
lider 12 19,9 -7,9 62,41 3,14
liderado 22 16,3 5,7 32,49 1,99
não-class 9 6,8 2,2 4,84 0,71
lider 32 24,1 7,9 62,41 2,59
liderado 14 19,7 -5,7 32,49 1,65
não-class 6 8,2 -2,2 4,84 0,59
χ 2 = 10,67
alto
altura e liderança
baixo
Obtenção do valor crítico: ( )( )
99,5
05,0
21312 2 =
=
=−−= χα
gl
Se a estatística do teste apresentou um valor maior que o valor crítico, então a hipótese nula é rejeitada.
Conclusão do teste:
Ao nível de significância de 5%, rejeita-se a hipótese nula como verdadeira. Ou seja, há diferença significativa
de qualidade de liderança segundo estatura do indivíduo.
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
35
Exercícios
1. O nível educacional básico em uma matéria está relacionado à localização da escola? Uma amostra aleatória
de estudantes pela localização da escola e o número de estágios bem-sucedidos em três matérias está
apresentada a seguir. Ao nível de 1% de significância, teste a hipótese de que as variáveis são independentes.
urbana suburbana
leitura 43 63 106
matemática 42 66 108
ciências 38 65 103
total 123 194 317
Matéria
Localização da escola
total
2. A tabela de contingência apresentada abaixo exibe como uma amostra aleatória de adultos classificou suas
universidades estaduais e federais. Você poderia concluir que a classificação dos adultos está relacionada ao
tipo de universidade ao nível de 1% de significância?
estadual federal
excelente 120 41 161
boa 405 238 643
razoável 263 481 744
deficiente 151 179 330
total 939 939 1.878
Classificação
Universidade
total
3. Os resultados de uma amostra aleatória de pacientes com transtornos obsessivo-compulsivo tratados com
medicamentos ou placebo estão apresentados na tabela de contingência a seguir. Você poderia concluir que o
tratamento está relacionado com o resultado ao nível de significância de 10%? Baseado nesses resultados,
você recomendaria o uso de medicamento como parte do tratamento?
melhora sem mudança
placebo 39 25 64
medicamento 54 70 124
total 93 95 188
Tratamento
Resultado
total
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
36
TESTE DE MANN-WHITNEY
PROVA U
O Teste U de Mann-Whitney compara dois grupos (A e B) a fim de verificar se foram extraídos de uma
mesma população ou não.
Este Teste se desdobra em três casos distintos decorrentes aos tamanhos das amostras analisadas. Desta
forma, estabelecendo a relação
n2 > n1 ,
teremos:
• 1º caso: n2 ≤ 8;
• 2º caso: 9 ≤ n2 ≤ 20;
• 3º caso: n2 ≥ 21
1º caso: n2 ≤ 8
Ilustração
Um grupo de 5 adolescentes , escolhidos aleatoriamente, examina, durante 10 minutos, uma relação de
nomes de objetos concretos. Em seguida, cada um dos adolescentes procura recompor, de memória e por escrito,
a relação original, com a única restrição de que o tempo para essa tarefa seria igual para todos.
Outro grupo, composto de 4 adolescentes, também escolhidos aleatoriamente, examina a mesma relação
durante 5 minutos e tenta, a seguir, da mesma forma que o primeiro grupo, reproduzir a lista de memória. A este
grupo foi concedido o mesmo tempo que ao primeiro.
Na tabela abaixo, figuram os erros cometidos pelos sujeitos dos dois grupos.
Queremos testar, ao nível de 5% de significância, se existe significativa diferença de desempenho entre
os dois grupos relativamente à variável memória associada a tempo de estudo.
TA TB
n 1 =4 n 2 =5
12 10
19 14
8 15
25 9
18
Onde: TA: Tratamento A: memória associada a 5 minutos de estudo.
TB: Tratamento B: memória associada a 10 minutos de estudo.
Resolução
1º passo: Determinação das hipóteses:
H0: Tratamento TA = Tratamento TB (as diferenças dos erros cometidos não foram influenciadas pelo tempo de
estudo)
H1: Tratamento TA < Tratamento TB (as diferenças dos erros cometidos foram influenciadas pelo tempo de
estudo, ou seja, o Tratamento TB é melhor que o TA)
2º passo: Estatística do Teste
a) Ordenar (de forma crescente ou decrescente) os valores das duas colunas em um único grupo
b) Associar cada valor ao seu respectivo tratamento
c) Calcular o número de vezes que cada valor do GrupoA é precedido de valores de B.
d) Calcular o número de vezes que cada valor do Grupo B é precedido de valores de A.
Valor 8 9 10 12 14 15 18 19 25
Tratamento A B B A B B B A A
Precedido de B 0 2 5 5
Precediddo de A 1 1 2 2 2
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
37
e) O cálculo de Uo corresponde à menor soma de precedências (à maior soma chamaremos de Uo’). Desta
forma teremos as seguintes somas:
0 + 2 + 5 + 5 = 12 B’s que precederam A
1 + 1 + 2 + 2 + 2 = 8 A’s que precederam B
Assim:
Uo = 8 => U observado
Uo’ = 12
A relação entre os 2 U’s e os tamanhos das amostras podem ser resumidas pela seguinte igualdade:
Uo = n1 n2 - Uo’
f) A estatística do teste será identificada em uma das tabelas (páginas 42 e 43) de acordo com as seguintes
informações:
o Valor de n2
o Valor de n1
o Uo
Desta forma teremos P(Uo = 8) = 0,365 como sendo a estatística do teste.
3º passo: Valor crítico
O valor crítico neste caso será o próprio nível de significância. No exemplo α = 0,05.
4º passo: Conclusão do teste
? Aceitação de H0: estatística do teste > valor crítico.
? Rejeição de H0: estatística do teste < valor crítico.
No exemplo, como [P(Uo = 8) = 0,365] > (α = 0,05) então ocorre a aceitação de H0. Significa que:
“Ao nível de significância de 5% a hipótese nula é aceita como verdadeira. Ou seja, não há evidências
estatísticas de que o tempo influenciou no nível de memorização dos adolescentes.”
2º caso: 9 ≤ n2 ≤ 20
Ilustração
Uma turma de 26 alunos foi dividida aleatoriamente em n1 = 10 alunos (Grupo A) e n2 = 16 alunos
(Grupo B). O grupo A estudou regularmente e diariamente determinado assunto até as vésperas da prova. O
Grupo B ocupou-se de outras atividades e só estudou para a prova à sua véspera.
A tabela a seguir contém as notas que cada aluno tirou nessa prova. Analisar ao nível de 5% de
significância se existe diferença entre os dois tratamentos (métodos de estudo).
Grupo A Grupo B
n 1 =10 n 2 =16
8,0 6,0
6,5 8,0
9,0 6,0
9,5 6,5
8,0 7,0
5,0 5,0
7,5 10,0
7,0 3,5
10,0 4,0
6,0 4,5
9,0
9,0
1,5
2,0
7,0
5,0
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
38
Resolução
1º passo: Determinação das hipóteses:
H0: Tratamento Grupo A = Tratamento Grupo B (as diferenças das notas não foram influenciadas pelo método
de estudo)
H1: Tratamento Grupo A > Tratamento Grupo B (as diferenças das notas foram influenciadas pelo método de
estudo)
2º passo: Estatística do Teste
a) Ordenar (de forma crescente ou decrescente) os valores das duas colunas em um único grupo
b) Associar cada valor ao seu respectivo posto
c) Calcular a soma dos postos de cada grupo separadamente.
Nota Posto (P 1 ) Nota Posto (P 2 )
8,0 19 6,0 10
6,5 12,5 8,0 19
9,0 22 6,0 10
9,5 24 6,5 12,5
8,0 19 7,0 15
5,0 7 5,0 7
7,5 17 10,0 25,5
7,0 15 3,5 3
10,0 25,5 4,0 4
6,0 10 4,5 5
9,0 22
9,0 22
1,5 1
2,0 2
7,0 15
5,0 7
Total 171 Total 180
Grupo A Grupo B
d) Os cálculos de Uo e Uo’ são dado pelas duas fórmulas a seguir:
( )
( )
2
2
21
1
11
21
2
12
2
1
PnnnnU
PnnnnU
−++=
−++=
Desta forma, pelo exemplo, teremos:
( )
( ) 116180
2
116161610
44171
2
110101610
=−++⋅=
=−++⋅=
U
U
Assim:
Uo = 44 => ESTATÍSTICA DO TESTE
Uo’ = 116
Vale frisar que a relação entre os 2 U’s e os tamanhos das amostras podem ser resumidas pela seguinte
igualdade:
Uo = n1 n2 - Uo’
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
39
3º passo: Valor crítico
O valor crítico (Uc) será identificado em uma das tabelas (páginas 44 e 45) de acordo com as seguintes
informações:
o Nível de significância: α (verificar se o teste é unilateral ou bilateral)
o Valor de n2
o Valor de n1
No exemplo:
Uc = 48
4º passo: Conclusão do teste
? Aceitação de H0: estatística do teste > valor crítico.
? Rejeição de H0: estatística do teste < valor crítico.
No exemplo, como (Uo = 44) < (Uc = 48) então ocorre a rejeição de H0. Significa que:
“Ao nível de significância de 5% a hipótese nula é rejeitada como verdadeira. Ou seja, há evidências estatísticas
de que as notas tiveram influências pelo método de estudo.”
3º caso: n2 > 20
Ilustração
Certo professor aplicou o seguinte procedimento a uma turma de 30 alunos: 21 alunos foram por ele
chamados pelos próprios nomes, durante um semestre, contingentemente à apresentação das lições de casa; os
restantes dos 9 alunos, por igual período, foram chamados pelo professor de “você”. Tal professor admitia que
estimulado pelo próprio nome, o aluno era capaz de melhorar seu desempenho acadêmico – desempenho que foi
mensurado em termos de notas escolares. Ao nível de 5% de significância, será possível afirmar que era correta a
hipótese desse professor? A tabela abaixo apresenta as notas dos 30 alunos no fim do semestre em que realizou o
experimento:
TA TB
n 1 =9 n 2 =21
6,5 6,5
8,0 3,5
8,5 6,0
10,0 7,5
8,5 6,0
4,0 3,0
7,0 7,0
6,0 5,5
5,5 6,5
6,0
6,5
5,0
5,0
6,0
3,5
6,5
10,0
8,0
7,5
4,0
5,0
Resolução
1º passo: Determinação das hipóteses:
H0: Tratamento TA = Tratamento TB (o modo de relacionamento professor-aluno não influenciou no desempenho
escolar)
H1: Tratamento TB > Tratamento TA (o modo TB de relacionamento professor-aluno é melhor que o modo TA)
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
40
2º passo: Estatística do Teste
a) Ordenar (de forma crescente ou decrescente) os valores das duas colunas em um único grupo
b) Associar cada valor ao seu respectivo posto
c) Calcular a soma dos postos de cada grupo separadamente.
Nota Posto (P 1 ) Nota Posto (P 2 )
6,5 18 6,5 18
8,0 25,5 3,5 2,5
8,5 27,5 6,0 13
10,0 29,5 7,5 23,5
8,5 27,5 6,0 13
4,0 4,5 3,0 1
7,0 21,5 7,0 21,5
6,0 13 5,5 9,5
5,5 9,5 6,5 18
6,0 13
6,5 18
5,0 7
5,0 7
6,0 13
3,5 2,5
6,5 18
10,0 29,5
8,0 25,5
7,5 23,5
4,0 4,5
5,0 7
Total 176,5 Total 288,5
Tratamento TA Tratamento TB
d) Os cálculos de Uo e Uo’ são dado pelas duas fórmulas a seguir:
( )
( )
2
2
21
1
11
21
2
12
2
1
PnnnnU
PnnnnU
−++=
−++=
Desta forma, pelo exemplo, teremos:
( )
( ) 5,1315,288
2
12121219
5,575,176
2
199219
=−++⋅=
=−++⋅=
U
U
Assim:
Uo = 57,5 => U observado
Uo’ = 131,5
Vale frisar que a relação entre os 2 U’s e os tamanhos das amostras podem ser resumidas pela seguinte
igualdade:
Uo = n1 n2 - Uo’
e) A estatística do teste então será calculada pela seguinte fórmula:
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
41
( )
12
1
2
2121
21
++
−
=
nnnn
nnU
z
o
o
No exemplo: ( )( )
( )( )( ) 67,1
12
1219219
2
2195,57
+
−≅++
−
=oz
3º passo: Valor crítico
O valor crítico (Zt) será identificado pela tabela da normal padronizada:
No exemplo:
Zc = 1,64
4º passo: Conclusão do teste
? Aceitação de H0: zt < zo < zt
? Rejeição de H0: zo > zt (bilateral à direita) ou zo < zt (bilateral à esquerda).
No exemplo, como (zo = 1,67) > (zt = 1,64) ou (zo = -1,67) < (zt = -1,64) então ocorre a rejeição de H0.
Significa que:
“Ao nível de significância de 5% a hipótese nula é rejeitada como verdadeira. Ou seja, há evidências estatísticas
de que ao chamar os alunos pelos próprios nomes ocorreu um melhor desempenho escolar.”
Exercícios
1. Em determinada escola, 7 crianças foram alfabetizadas pelo método A e 11 e pelo método B. Ao finaldo
ano, as provas de leituras produziram as seguintes notas:
Grupo A Grupo B
n 1 =7 n 2 =11
80 60
35 65
70 50
70 85
85 93
90 70
92 61
40
87
75
45
Pode-se afirmar ao nível de 5% de significância que o método A é melhor que o método B?
Zo = 1,67
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
42
2. Participaram de um concurso de elegância infantil 20 crianças de 10 anos. Essas crianças dispunham de um
farto e variado guarda-roupas, devendo elas próprias fazer as escolhas. As notas que elas receberam estão
indicadas a seguir:
Meninos Meninas
n 1 =8 n 2 =12
10 18
35 36
12 100
94 54
58 57
65 44
43 67
51 72
88
85
86
63
Será possível afirmar que os critérios de escolha diferem conforme o sexo?
3. Os distúrbios psiquiátricos sérios estão relacionados com fatores biológicos que possam ser observados
fisicamente? Em um estudo foi utilizada a tomografia computadorizada de raios X (CT) para coletar dados
sobre o tamanho do cérebro de um grupo de pacientes com distúrbios obsessivo-compulsivos, e um grupo de
controle constituído de pessoas sadias. A lista a seguir apresenta resultados amostrais (em milímetros) para
volumes de cordato direito (com base em dados do American Journal of Psychiatry, Vol. 145, Nº9).
TA TB
n 1 =6 n 2 =7
0,308 0,519
0,407 0,501
0,463 0,334
0,304 0,413
0,287 0,349
0,340 0,46
0,594
onde: TA: pacientes obsessivo-compulsivos
TB: pacientes sadios
Com nível de 1% de significância, teste a afirmação e que os pacientes obsessivo-compulsivos e as pessoas
sadias têm os mesmos volumes de cerebrais. Com base neste resultado, podemos concluir que os distúrbios
obsessivo-compulsivos tenham base biológica?
4. Os dados amostrais a seguir apresentam os níveis BAC (blood alcohol concentration = concentração de
álcool no sangue) por ocasião da prisão de criminosos selecionados aleatoriamente, e que foram condenados
por dirigirem embriagados. Os dados são categorizados por tipo de bebida consumida (com base nos dados
do Ministério da Justiça do EUA).
Cerveja Uísque
n 1 =4 n 2 =6
0,129 0,220
0,203 0,190
0,152 0,225
0,165 0,257
0,185
0,234
Ao nível de 5% de significância, teste a hipótese de que os consumidores de cerveja e os de uísque têm os
mesmos níveis de BAC. Com base nestes resultados, ambos os grupos parecem igualmente perigosos?
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
43
(continuação)
1 2 3 1 2 3 4
0 0,250 0,100 0,050 0,200 0,067 0,028 0,014
1 0,500 0,200 0,100 0,400 0,133 0,057 0,029
2 0,750 0,400 0,200 0,600 0,267 0,114 0,057
3 0,600 0,350 0,400 0,200 0,100
4 0,500 0,600 0,314 0,171
5 0,650 0,429 0,243
6 0,571 0,343
7 0,443
8 0,557
1 2 3 4 5 1 2 3 4 5 6
0 0,167 0,047 0,018 0,008 0,004 0,143 0,036 0,012 0,005 0,002 0,001
1 0,333 0,095 0,036 0,016 0,008 0,286 0,071 0,024 0,010 0,004 0,002
2 0,500 0,190 0,071 0,032 0,016 0,428 0,143 0,048 0,019 0,009 0,004
3 0,667 0,286 0,125 0,056 0,028 0,571 0,214 0,083 0,033 0,015 0,008
4 0,429 0,196 0,095 0,048 0,321 0,131 0,057 0,026 0,013
5 0,571 0,286 0,143 0,075 0,429 0,190 0,086 0,041 0,021
6 0,393 0,206 0,111 0,571 0,274 0,129 0,063 0,320
7 0,500 0,278 0,155 0,357 0,176 0,089 0,047
8 0,607 0,365 0,210 0,452 0,238 0,123 0,066
9 0,452 0,274 0,548 0,305 0,165 0,090
10 0,548 0,345 0,381 0,214 0,120
11 0,421 0,457 0,268 0,155
12 0,500 0,545 0,331 0,197
13 0,579 0,396 0,242
14 0,465 0,294
15 0,535 0,350
16 0,409
17 0,469
18 0,531
U
n2=4
n1
n2=3
n2=5 n2=6
n1
Tabela. Probabilidades Associadas ao U de Mann-Whitney
U
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
44
(conclusão)
1 2 3 4 5 6 7
0 0,125 0,028 0,008 0,003 0,001 0,001 0,000
1 0,250 0,056 0,017 0,006 0,003 0,001 0,001
2 0,375 0,111 0,033 0,012 0,005 0,002 0,001
3 0,500 0,167 0,058 0,021 0,009 0,004 0,002
4 0,625 0,250 0,092 0,036 0,015 0,007 0,003
5 0,333 0,133 0,055 0,024 0,011 0,006
6 0,444 0,192 0,082 0,037 0,017 0,009
7 0,556 0,258 0,115 0,053 0,026 0,013
8 0,333 0,158 0,074 0,037 0,019
9 0,417 0,206 0,101 0,051 0,027
10 0,500 0,264 0,134 0,069 0,036
11 0,583 0,324 0,172 0,090 0,049
12 0,394 0,216 0,117 0,064
13 0,464 0,265 0,147 0,082
14 0,538 0,319 0,183 0,104
15 0,378 0,223 0,130
16 0,438 0,267 0,159
17 0,500 0,314 0,191
18 0,562 0,365 0,228
19 0,418 0,267
20 0,473 0,310
21 0,527 0,355
22 0,402
23 0,451
24 0,500
25 0,549
1 2 3 4 5 6 7 8 t Nornal
0 0,111 0,022 0,006 0,002 0,001 0,000 0,000 0,000 3,308 0,001
1 0,222 0,044 0,012 0,004 0,002 0,001 0,000 0,000 3,203 0,001
2 0,333 0,089 0,024 0,008 0,003 0,001 0,001 0,000 3,098 0,001
3 0,444 0,133 0,042 0,014 0,005 0,002 0,001 0,001 2,993 0,001
4 0,556 0,200 0,067 0,024 0,009 0,004 0,002 0,001 2,888 0,002
5 0,267 0,097 0,360 0,015 0,006 0,003 0,001 2,783 0,003
6 0,356 0,139 0,055 0,023 0,010 0,005 0,002 2,678 0,004
7 0,444 0,188 0,077 0,033 0,015 0,007 0,003 2,573 0,005
8 0,556 0,248 0,107 0,047 0,021 0,010 0,005 2,468 0,007
9 0,315 0,141 0,064 0,030 0,014 0,007 2,363 0,009
10 0,387 0,184 0,085 0,041 ,D20 0,010 2,258 0,012
11 0,461 0,230 0,111 0,054 0,027 0,014 2,153 0,016
12 0,539 0,285 0,142 0,071 0,036 0,019 2,048 0,020
13 0,341 0,177 0,091 0,047 0,025 1,943 0,026
14 0,404 0,217 0,114 0,060 0,032 1,838 0,033
15 0,467 0,262 0,141 0,076 0,041 1,733 0,041
16 0,533 0,311 0,172 0,095 0,052 1,628 0,052
17 0,362 0,207 0,116 0,065 1,523 0,060
18 0,416 0,245 0,140 0,080 1,418 0,078
19 0,472 0,286 0,168 0,097 1,313 0,940
20 0,528 0,331 0,198 0,117 1,208 0,113
21 0,377 0,232 0,139 1,102 0,135
22 0,426 0,268 0,164 0,998 0,159
23 0,475 0,306 0,191 0,893 0,185
24 0,525 0,347 0,221 0,788 0,215
25 0,389 0,253 0,683 0,247
26 0,433 0,287 0,578 0,282
27 0,478 0,323 0,473 0,318
28 0,522 0,360 0,368 0,356
29 0,399 0,263 0,396
30 0,439 0,158 0,437
31 0,480 0,052 0,481
32 0,520
FONTE: SIEGEL, 1975
NOTA: As probabilidades acima referem-se a um teste unilateral. Para um teste bilateral dobrar os valores.
n2=8
U
U
n2=7
n1
n1
Tabela. Probabilidades Associadas ao U de Mann-Whitney
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
45
(continuação)
9 10 11 12 13 14 15 16 17 18 19 20
1
2
3 0 0 0 0
4 0 0 0 1 1 1 2 2 3 3 3
5 1 1 2 2 3 3 4 5 5 6 7 7
6 2 3 4 4 5 6 7 8 9 10 11 12
7 3 5 6 7 8 9 10 11 13 14 15 16
8 5 6 8 9 11 12 14 15 17 18 20 21
9 7 8 10 12 14 15 17 19 21 23 25 26
10 8 10 12 14 17 19 21 23 25 27 29 32
11 10 12 15 17 20 22 24 27 29 32 34 37
12 12 14 17 20 23 25 28 31 34 37 40 42
13 14 17 20 23 26 29 32 35 38 42 45 48
14 15 19 22 25 29 32 36 39 43 46 50 54
15 17 21 24 28 32 36 40 43 47 51 55 59
16 19 23 27 31 35 39 43 48 52 56 60 65
17 21 25 29 34 38 43 47 52 57 61 66 70
18 23 27 32 37 42 46 51 56 61 66 71 76
19 25 29 34 40 45 50 55 60 66 71 77 82
20 26 32 37 42 48 54 59 65 70 76 82 88
9 10 11 12 13 14 15 16 17 18 19 20
1
2 0 0 0 0 0 0 1 1
3 1 1 1 2 2 2 3 3 4 4 4 5
4 3 3 4 5 5 6 7 7 8 9 9 10
5 5 6 7 8 9 10 11 12 13 14 15 16
6 7 8 9 11 12 13 15 16 18 19 20 22
7 9 11 12 14 16 17 19 21 23 24 26 28
8 11 13 15 17 20 22 24 26 28 30 32 34
9 14 16 18 21 23 26 28 31 33 36 38 40
10 16 19 22 24 27 30 33 36 38 41 44 47
11 18 22 25 28 31 34 37 41 44 47 50 53
12 21 24 28 31 35 38 42 46 49 53 56 60
13 23 27 31 35 39 43 47 51 55 59 63 67
14 26 30 34 38 43 47 51 56 60 65 69 73
15 28 33 37 42 47 51 56 61 66 70 75 80
16 31 36 41 46 51 56 61 66 71 76 82 87
17 33 38 44 49 55 60 66 71 77 82 88 93
18 36 41 47 53 59 65 70 76 82 88 94 100
19 38 44 50 56 63 69 75 82 88 94 101 107
20 40 47 53 60 67 73 80 87 93 100 107 114
n1
n2
Bilateral --> α = 0,002
Unilateral --> α = 0,001
Critério: 9 = n 2 = 20
Tabela. Valores Críticos de U para a prova ee Mann-Whitney
Bilateral --> α = 0,02
Unilateral --> α = 0,01n1
n2
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
46
(conclusão)
9 10 11 12 13 14 15 16 17 18 19 20
1
2 0 0 0 1 1 1 1 1 2 2 2 2
3 2 3 3 4 4 5 5 6 6 7 7 8
4 4 5 6 7 8 9 10 11 11 12 13 13
5 7 8 9 11 12 13 14 15 17 18 19 20
6 10 11 13 14 16 17 19 21 22 24 25 27
7 12 14 16 18 20 22 24 26 28 30 32 34
8 15 17 19 22 24 26 29 31 34 36 38 41
9 17 20 23 26 28 31 34 37 39 42 45 48
10 20 23 26 29 33 36 39 42 45 48 52 55
11 23 26 30 33 37 40 44 47 51 55 58 62
12 26 29 33 37 41 45 49 53 57 61 65 69
13 28 33 37 41 45 50 54 59 63 67 72 76
14 31 36 40 45 50 55 59 64 67 74 78 83
15 34 39 44 49 54 59 64 70 75 80 85 90
16 37 42 47 53 59 64 70 75 81 86 92 98
17 39 45 51 57 63 67 75 81 87 93 99 105
18 42 48 55 61 67 74 80 86 93 99 106 112
19 45 52 58 65 72 78 85 92 99 106 113 119
20 48 55 62 69 76 83 90 98 105 112 119 127
9 10 11 12 13 14 15 16 17 18 19 20
1 0 0
2 1 1 1 2 2 2 3 3 3 4 4 4
3 3 4 5 5 6 7 7 8 9 9 10 11
4 6 7 8 9 10 11 12 14 15 16 17 18
5 9 11 12 13 15 16 18 19 20 22 23 25
6 12 14 16 17 19 21 23 25 26 28 30 32
7 15 17 19 21 24 26 28 30 33 35 37 39
8 18 20 23 26 28 31 33 36 39 41 44 47
9 21 24 27 30 33 36 39 42 45 48 51 54
10 24 27 31 34 37 41 44 48 51 55 58 62
11 27 31 34 38 42 46 50 54 57 61 65 69
12 30 34 38 42 47 51 55 60 64 68 72 77
13 33 37 42 47 51 56 61 65 70 75 80 84
14 36 41 46 51 56 61 66 71 77 82 87 92
15 39 44 50 55 61 66 72 77 83 88 94 100
16 42 48 54 60 65 71 77 83 89 95 101 107
17 45 51 57 64 70 77 83 89 96 102 109 115
18 48 55 57 64 75 82 88 95 102 109 116 123
19 51 58 65 72 80 87 94 101 109 116 123 130
20 54 62 69 77 84 92 100 107 115 123 130 138
FONTE: SIEGEL. 1975
Bilateral --> α = 0,05
Unilateral --> α = 0,025
Bilateral --> α = 0,10
Unilateral --> α = 0,05
n1
n2
Tabela. Valores Críticos de U para a prova ee Mann-Whitney
Critério: 9 = n 2 = 20
n1
n2
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
47
TESTES NÃO-PARAMÉTRICOS PARA K AMOSTRAS
Algumas circunstâncias exigem que planejemos um estudo simultâneo de três amostras ou mais. Desta
forma, é necessário aplicar um teste estatístico para indicar se existe uma diferença significativa ou não entre as
k amostras.
TESTES NÃO-PARAMÉTRICOS PARA K AMOSTRAS RELACIONADAS
PROVA DE FRIEDMAN
Os dados estão dispostos em uma tabela de dupla entrada com N linhas (tamanho da amostra) e k colunas
(número de amostras). Desta forma teremos dois casos para estudarmos:
1º caso: k=3 e 2 ≤ N ≤ 9
ou
k=4 e 2 ≤ N ≤ 4
Ilustração
Suponha que se queira verificar os escores de 3 grupos (classes sociais) sob 4 condições (metodologias de
ensino) aplicados em seis meses. Então k = 4 e N = 3. Cada grupo (classe social) contém 4 alunos
correspondentes, um associado a cada uma das 4 condições (metodologia de ensino). Os escores obtidos em um
teste ao final do período estão apresentados a seguir:
I II III IV
Grupo A 9 4 1 7
Grupo B 6 5 2 8
Grupo C 9 1 2 6
CondiçõesGrupo
Escores de três grupos correspondentes sob quatro
condições
Teste, ao nível de 5% de significância, a hipótese de que a o desempenho escolar não foi influenciado pela
metodologia de ensino, segundo classe social.
Resolução
1º passo: Determinação das hipóteses:
H0: as metodologias se assemelham (o desempenho escolar não foi influenciado pela metodologia segundo
classe social)
H1: as metodologias não se assemelham (o desempenho escolar foi influenciado pela metodologia segundo
classe social)
2º passo: Estatística do Teste
a) Ordenar (de forma crescente ou decrescente) os valores de CADA grupo
b) Associar cada valor ao seu respectivo posto
c) Calcular a soma (Ri) dos postos de CADA condição.
I II III IV
Grupo A 4 2 1 3
Grupo B 3 2 1 4
Grupo C 4 1 2 3
R i 11 5 4 10
Condições
Postos de três grupos correspondentes sob quatro
condições
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
48
d) Aplicação da fórmula do χ2r de Friedman:
( ) [ ] ( )13112 22 +⋅⋅−⋅+⋅⋅= ∑ kNRkkN irχ
Desta forma, pelo exemplo, teremos:
( ) [ ] ( )
4,7
1433104511
1443
12
2
22222
=
+⋅⋅−+++⋅+⋅⋅=
r
r
χ
χ
Assim:
=
=
=
4,7
3
4
2
r
N
k
Como
χ pela tabela (páginas 51 e 52):
( ) ⇒=≥ 033,04,72rP χ ESTATÍSTICA DO TESTE
3º passo: Valor crítico
O valor crítico neste caso será o próprio nível de significância. No exemplo α = 0,05.
4º passo: Conclusão do teste
? Aceitação de H0: estatística do teste > valor crítico.
? Rejeição de H0: estatística do teste < valor crítico.
No exemplo, como ( )[ ]033,04,72 =≥rP χ < (α = 0,05) então ocorre a rejeição de H0. Significa que:
“Ao nível de significância de 5% a hipótese nula é rejeitada como verdadeira. Ou seja, há evidências estatísticas
de que a metodologia de ensino influenciou no desempenho escolar dos alunos.”
2º caso: Demais situações
Ilustração
Suponha que se queira testar a hipótese de que a hostilidade em crianças varia segundo o grau de violência a que
se exponham assistindo a programas de televisão, ao nível de 5% de significância. A fim de estudar a influência
da violência televisiva, imaginemos que tenhamos condição de expor uma amostra aleatória de 10 crianças a 3
diferentes tipos de níveis de violência televisiva. Admita que foram obtidos os seguintes escores de hostilidade
dessas 10 crianças, nas 3 diferentes condições a que estiveram expostas ( a escala varia de 20 a 60, e quanto
maior o escore, maior a hostilidade:
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
49
Baixa
(B)
Mediana
(M)
Alta
(A)
A 23 30 32
B 41 45 43
C 36 35 39
D 28 29 35
E 39 41 47
F 25 28 27
G 38 46 51
H 40 47 49
I 45 46 42
J 29 34 38
Níveis de violência televisiva
Criança
Resolução
1º passo: Determinação das hipóteses:
H0: a hostilidade em crianças não variou segundo o grau de violência
H1: a hostilidade em crianças variou segundo o grau de violência
2º passo: Estatística do Teste
e) Ordenar (de forma crescente ou decrescente) os valores de CADA grupo
f) Associar cada valor ao seu respectivo posto
g) Calcular a soma (Ri) dos postos de CADA condição.
Baixa
(B)
Mediana
(M)
Alta
(A)
A 1 2 3
B 1 3 2
C 2 1 3
D 1 2 3
E 1 2 3
F 1 3 2
G 1 2 3
H 1 2 3
I 2 3 1
J 1 2 3
R i 12 22 26
Criança
Níveis de violência televisiva
h) Aplicação da fórmula do χ2r de Friedman, onde NESTE CASO SERÁ A PRÓPRIA ESTATÍSTICA DO
TESTE:
( ) [ ] ( )13112 22 +⋅⋅−⋅+⋅⋅= ∑ kNRkkN irχ
Desta forma, pelo exemplo, teremos:
( ) [ ] ( )
4,10
13103262212
13310
12
2
2222
=
+⋅⋅−++⋅+⋅⋅=
r
r
χ
χ
Assim:
⇒= 4,102rχ ESTATÍSTICA DO TESTE
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
50
3º passo: Valor crítico
O valor crítico será obtido fazendo uso da Tabela Qui-Quadrado, utilizando as seguintes informações:
( )
−=
α
1kgl
No exemplo:
( ) ( )
==
=−=−=
99,5
05,0
2131 2χα
kgl
4º passo: Conclusão do teste
? Aceitação de H0: estatística do teste < valor crítico.
? Rejeição de H0: estatística do teste > valor crítico.
No exemplo, como ( ) ( )99,54,10 22 =>= χχr então ocorre a rejeição de H0. Significa que:
“Ao nível de significância de 5% a hipótese nula é rejeitada como verdadeira. Ou seja, há evidências estatísticas
de que a violência televisiva exerceu influência sobre o comportamento hostil das crianças.”
Exercícios
1. Uma máquina para ensaio de desgaste consta de quatro escovas carregadas, sob as quais se fixam amostras
do material,a fim de medir suas resistências à abrasão. A perda de peso do material depois de dado o número
de ciclos usa-se como medida de resistência ao desgaste. Os dados indicam a perda de peso de quatro
materiais ensaiados:
1 2 3 4
A 1,93 2,38 2,20 2,25
B 2,55 2,72 2,75 2,70
C 2,40 2,68 2,31 2,28
D 2,33 2,40 2,28 2,25
Material Posição da Escova
Há uma quantidade significativa de variação de acordo com a posição da escova, ao nível de 5% de
significância?
2. 5 marcas de automóveis foram submetidas a uma experiência para verificar o consumo de gasolina (dado em
distância percorrida em km com 1 litro de combustível). Esta experiência foi repetida em três cidades. Os
resultados foram:
A B C
A 10,2 10,8 9,9
B 9,8 10,1 9,8
C 11,1 10,1 11,2
D 8,8 9,8 9,7
E 11,8 8,8 11,1
Marca Cidades
Determine se existem diferenças significativas no consumo entre as cidades.
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
51
3. Verifique se existe uma diferença significativa entre os escores produzidos por uma amostra de 11
respondentes em três momentos distintos, ao nível de 5% de significância:
T1 T2 T3
A 60 62 64
B 53 54 50
C 59 65 71
D 65 66 68
E 55 63 61
F 71 74 76
G 57 58 63
H 77 76 79
I 63 65 70
J 54 59 62
K 63 62 65
Indivíduo
Momento
4. Em um estudo do efeito de 3 padrões diferentes de reforço (recompensa) sobre a extensão do aprendizado
discriminativo entre ratos, treinaram-se 3 amostras correspondentes (k = 3) de 18 ratos de mesma cria (N =
18) sob 3 tipos de recompensa, para se deslocarem de um determinado ponto em direção ao branco. Ao cabo
desse treinamento, mediu-se a extensão de aprendizado pela rapidez com que os diversos ratos adquiriram
um hábito “oposto”: embora treinados para correrem em direção ao branco, eram agora estimulados a correr
em direção ao preto. Quanto melhor tivesse sido o aprendizado inicial, mais lenta deveria ser essa
transferência de aprendizado. Os diversos tipos de recompensa utilizados resultariam em diferentes graus de
capacidade de transferência de aprendizado ao nível de significância de 5%?
Tabela. Postos de dezoito grupos correspondentes no estudo de transferência de
aprendizado após treinamento sob três condições diferentes de recompensa
R1 R2 R3
1 1 3 2
2 2 3 1
3 1 3 2
4 1 2 3
5 3 1 2
6 2 3 1
7 3 2 1
8 1 3 2
9 3 1 2
10 3 1 2
11 2 3 1
12 2 3 1
13 3 2 1
14 2 3 1
15 3 3 1
16 3 2 1
17 3 2 1
18 2 3 1
R i 39,5 42,5 26
Grupo
Tipo de Recompensa
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
52
(continuação)
χ 2 r p χ 2 r p χ 2 r p χ 2 r p
0 1,000 0,000 1,000 0,0 1,000 0,0 1,000
1 0,833 0,667 0,944 0,5 0,931 0,4 0,954
3 0,500 2,000 0,528 1,5 0,653 1,2 0,691
4 0,167 2,667 0,361 2,0 0,431 1,6 0,522
4,667 0,194 3,5 0,273 2,8 0,367
6,000 0,028 4,5 0,125 3,6 0,182
6,0 0,069 4,8 0,124
6,5 0,042 5,2 0,093
8,0 0,0046 6,4 0,039
7,6 0,024
8,4 0,0085
10,0 0,00077
χ 2 r p χ 2 r p χ 2 r p χ 2 r p
0,00 1,000 0,000 1,000 0,00 1,000 0,000 1,000
0,33 0,956 0,286 0.964 0,25 0,967 0,222 0,971
1,00 0,740 0,857 0,768 0,75 0,794 0,667 0,814
1,33 0,570 1,143 0,620 1,00 0,654 0,889 0,865
2,33 0,430 2,000 0.486 1,75 0,531 1,556 0,569
3,00 0,252 2,571 0,305 2,25 0,355 2,000 0,398
4,00 0,184 3,429 0,237 3,00 0,285 2,667 0,328
4,33 0,142 3,714 0,192 3,25 0,236 2,889 0,278
5,33 0,072 4,571 0,112 4,00 0,149 3,556 0,187
6,33 0,052 5,429 0,085 4,75 0,120 4,222 0,154
7,00 0,029 6,000 0,052 5,25 0,079 4,667 0,107
8,33 0,012 7,143 0,027 6,25 0,047 5,556 0,069
9,00 0,0081 7,714 0,021 6,75 0,038 6,000 0,057
9,33 0,0055 8,000 0,016 7,00 0,030 6,222 0,048
10,33 0,0017 8,857 0,0084 7,75 0,018 6,889 0,031
12,00 0,00013 10,286 0,0036 9,00 0,0099 8,000 0,019
10,571 0,0027 9,25 0,0080 8,222 0,016
11,143 0,0012 9,75 0,0048 8,667 0,010
12,286 0,00032 10,75 0,0024 9,556 0,0060
14,000 0,000021 12,00 0,0011 10,667 0,0035
12,25 0,00086 10,889 0,0029
13,00 0,00026 11,556 0,0013
14,25 0,000061 12,667 0,00066
16,00 0,0000036 13,556 0,00035
14,000 0,00020
14,222 0,000097
14,889 0,000054
16,222 0,000011
18,000 0,0000006
k = 3
N = 5
Tabela. Probabilidades associadas a valores tão grandes quanto os valores
observados de χ2r na Prova de Friedman
N = 6 N = 7 N = 8 N = 9
N = 2 N = 3 N = 4
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
53
(conclusão)
χ 2 r p χ 2 r p χ 2 r p
0,0 1,000 0,2 1,000 0,0 1,000
0,6 0,958 0,6 0,958 0,3 0,992
1,2 0,834 1,0 0,910 0,6 0,928
1,8 0,792 1,8 0,727 0,9 0,900
2,4 0,625 2,2 0,608 1,2 0,800
3,0 0,542 2,6 0,524 1,5 0,754
3,6 0,458 3,4 0,446 1,8 0,677
4,2 0,375 3,8 0,342 2,1 0.649
4,8 0,208 4,2 0,300 2,4 0,524
5,4 0,167 5,0 0,207 2,7 0,508
6,0 0,042 5,4 0,175 3,0 0,432
5,8 0,148 3,3 0,389
6,6 0,075 3,6 0,355
7,0 0,054 3,9 0,324
7,4 0,033 4,5 0,242
8,2 0,017 4,8 0,200
9,0 0,002 5,1 0,190
5,4 0,158
5,7 0,141
6,0 0,105
6,3 0,094
6,6 0,077
6,9 0,068
7,2 0,054
7,5 0,052
7,8 0,036
8,1 0,033
8,4 0,019
8,7 0,014
9,3 0,012
9,6 0,0069
9,9 0,0062
10,2 0,0027
10,8 0,0016
11,1 0,00094
12,0 0,000072
FONTE: SIEGEL (1975)
N = 2 N = 3 N = 4
Tabela. Probabilidades associadas a valores tão grandes quanto os valores
observados de χ2r na Prova de Friedman
k = 4
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
54
TESTES NÃO-PARAMÉTRICOS PARA K AMOSTRAS INDEPENDENTES
TESTE Qui-Quadrado - χ 2
O procedimento do teste qui-quadrado para k amostras independentes é idêntico ao teste para duas
amostras independentes visto anteriormente. Os dados permanecem dispostos em uma tabela de contingência k x
r (onde k é o n° de colunas e r o n° de linhas).
Tal teste também verifica a existência ou não de diferenças significativas entre k populações
independentes que originaram as k amostras a respeito de uma certa característica.
Hipóteses
H0: não existe diferença entre as k amostras
H1: existe diferença entre as k amostras
Estatística do teste
Para tabelas de contingência k x r:
( )∑ −=
e
eo
f
ff 22χ , com g.l.=(r-1)(k-1)
onde: fo : freqüência observada
fe : freqüência esperada
Valor crítico do qui-quadrado
É observado na tabela (página 27) o valor crítico de acordo com as seguintes informações:
o Graus de liberdade: g.l.
o Nível de significância: α
Conclusão do teste
? Aceitação de H0: estatística do teste < valor crítico.
? Rejeição de H0: estatística do teste > valor crítico.
Ilustração
Em uma investigação da natureza e conseqüência da estratificação social em uma comunidade, observou-se que
seus moradores se dividiam entre si em cinco classes sociais (I a V). Os dados abaixo apresentam 390
adolescentes de diferentes classes sociais que se matricularam em diferentes cursos (“tradicional”, técnico ou
normal) no ensino do 2º grau. Teste a hipótese de que a quantidade de matrículas nos cursos possui influência da
classe social dos adolescentes.
I e II III IV V
tradicional 23 40 16 2 81
técnico 11 75 107 14 207
normal 1 31 60 10 102
Total 35 146 183 26 390
Classe social
Curso Total
Resolução
1º passo: Determinação das hipóteses:
H0: a proporção de matrículas dos adolescentes nos cursos se assemelha em relação às classes sociais
H1: a proporção de matrículas dos adolescentes nos cursos difere em relação às classes sociais
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS55
2º passo: Estatística do Teste
Calculado as freqüências esperadas:
23 40 16 2
7,27 30,32 38,01 5,40
11 75 107 14
18,58 77,49 97,13 13,80
1 31 107 10
9,15 38,18 47,86 6,80
39026
Curso
total 35 146
IV
183
técnico 207
normal 102
III total
tradicional 81
VI e II
Calculando a estatística do teste:
f o f e f o - f e (f o - f e )
2 (f o - f e )
2 / f e
tradicional 23 7,27 15,73 247,4329 34,030
técnico 11 18,58 -7,58 57,4564 3,090
normal 1 9,15 -8,15 66,4225 7,260
tradicional 40 30,32 9,68 93,7024 3,090
técnico 75 77,49 -2,49 6,2001 0,080
normal 31 38,18 -7,18 51,5524 1,350
tradicional 16 38,01 -22,01 484,4401 12,750
técnico 107 97,13 9,87 97,4169 1,000
normal 60 47,86 12,14 147,3796 3,080
tradicional 2 5,40 -3,40 11,5600 2,140
técnico 14 13,80 0,20 0,0400 0,003
normal 10 6,80 3,20 10,2400 1,510
Estatística do teste χ 2 = 69,383
III
IV
V
curso e classe social
I e II
3º passo: Valor crítico ( )( )
59,12
05,0
61314 2 =
=
=−−= χα
gl
.
EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL
TESTES NÃO-PARAMÉTRICOS
56
4º passo: Conclusão do teste
Se a estatística do teste apresentou um valor maior que o valor crítico, então a hipótese nula é rejeitada, então:
Ao nível de significância de 5%, rejeita-se a hipótese nula como verdadeira. Ou seja, há diferença significativa
na proporção de matrículas dos adolescentes nos cursos em relação às classes sociais.
Exercícios
1. O diretor de marketing de uma empresa de computação deseja verificar se existe relação entre o tipo de
computador que o indivíduo possui e seu principal uso, ao nível de 2% de significância. Uma amostra
de 182 pessoas que possuem computador revelou os seguintes resultados:
A B C D
Negócio 45 34 5 10 94
Educação 5 13 26 5 49
Diversão 6 5 23 5 39
Total 56 52 54 20 182
Uso
Tipo de computador
Total
2. Uma grande corporação está interessada em estudar se existe associação entre o tempo de intercâmbio
de seus empregados e o nível de stress relacionado a problemas observados no trabalho. Um estudo com
114 empregados revelou o seguinte:
Alto Moderado Baixo
< 15 18 8 7 33
15 a 45 28 8 14 50
> 45 10 10 11 31
Total 56 26 32 114
StressTempo
(minutos) Total
O nível de stress influencia no tempo de intercâmbio entre empregados com 5% de significância?
3. Para determinar a consciência pública com relação à poluição atmosférica, 120 residências foram
selecionadas para a pesquisa. A tabela abaixo mostra as respostas à pergunta: “ Existe problema de
poluição do ar neste bairro?”. Teste ao nível de 10% de significância se o conhecimento a respeito da
poluição possui uma diferença significativa de acordo com o bairro.
A B C
Não 10 10 11 31
Sim 31 21 20 72
Dúvida 5 5 6 16
Não sabe 6 5 10 21
Total 52 41 47 140
Resp
Bairro
Total