Buscar

Analise da variancia

Prévia do material em texto

1
 
 
 
ANÁLISE DA VARIÂNCIA 
 
 
1 INTRODUÇÃO 
 
A análise da variância, também conhecida por ANOVA, consiste 
de uma generalização do teste para a igualdade de duas médias 
populacionais. Enquanto no teste para a igualdade de duas médias 
utilizamos as estatísticas z ou t, conforme os desvios padrões 
populacionais sejam conhecidos ou não, na análise da variância, 
testamos k (k ≥ 2) médias populacionais com base na estatística F. 
Portanto, a análise da variância é um teste para igualdade de médias que 
utiliza variâncias para a tomada de decisões. 
 
 
2 FUNDAMENTOS DA ANOVA 
 
Suponha que se deseja testar a hipótese de k (k ≥ 2) médias 
populacionais, ou seja, 
 
H0: µ1 = µ 2 = … = µk, (1) 
 
contra a alternativa de que pelo menos uma dessas médias seja diferente 
das demais. 
 
Na aplicação do método que será desenvolvido, suponha que as 
populações são normalmente distribuídas e as variâncias populacionais 
iguais (homocedasticidade), ou seja, 
 
 
σ σ σ σ1
2
2
2 2 2
= = = =L k (2) 
Análise da variância 2
Considere as k amostras extraídas das populações cujas médias 
serão testadas. Partindo dessas amostras, pode-se estimar a variância σ2
 
de três maneiras, como será mostrado a seguir. 
 
 
Sejam as k amostras A1, A2, … , Ak, onde: 
 
 xij é o i-ésimo elemento da j-ésima amostra. 
 x j é a média da j-ésima amostra. 
X é a média do conjunto das k amostras. 
 n é o tamanho de cada amostra. 
 N = n.k é o número de elementos do conjunto das k amostras. 
 
 
 População 1 População 2 População k 
 média µ1 média µ2 … média µk 
 variância σ2 variância σ2 variância σ2 
 
 A1 A2 Ak 
 
 x11, x21, … ,xn1 x12, x22, … , xn2 … x1k, x2k, … ,xnk 
 
 
1o ) Variância total 
 
Consiste em estimar a variância σ2, considerando todas as 
amostras reunidas em uma única amostra. Isso será possível em virtude 
da hipótese inicial de que as variâncias populacionais são todas iguais a 
σ2. 
Essa variância será estimada por 
 
 
( )
1N
Xx
s
k
1j
n
1i
2
ij
2
t
−
−
=
∑∑
= =
 , (3) 
 3
onde o numerador é denominado de soma total dos quadrados e 
representaremos por SQT. 
Evidentemente, essa estimativa terá sentido se a hipótese H0, 
dada por (1), for verdadeira, o que implica em termos todas as 
populações normalmente distribuídas de mesma média e mesma 
variância. 
 
2o ) Variância entre amostras 
 
Sendo verdadeira a hipótese H0, pode-se estimar a variância σ2, 
através das médias das k amostras, ou seja, como se fosse uma amostra 
de k valores. Como 
 
n
σ
σ
2
2
X = , (4) 
 
e chamando de 2Xs a estimativa de 
2
Xσ , então, a estimativa 
2
es de σ
2
 
será 
 
 
( )
1k
Xx
sns
k
1j
n
1i
2
j
2
X
2
e
−
−
=⋅=
∑∑
= =
 , (5) 
 
 
onde o numerador da (5) é denominado de soma de quadrados entre 
amostras, sendo representado por SQE. 
 
3o ) Variância residual (ou variância dentro) 
 
Consiste em estimar a variância dentro de cada amostra e em 
seguida estimar um único valor de σ2, através da combinação dessas k 
variâncias. 
 
Análise da variância 4
Para uma amostra qualquer a estimativa individual será dada por 
1n
)x(x
s
n
1i
2
jij
2
j
−
−
=
∑
=
 (6) 
 
Combinando as k variâncias, obtém-se como estimativa de σ2 
 
 
( )
kN
xx
k
s
s
k
1j
n
1i
2
jij
k
1j
2
j
2
r
−
−
==
∑∑∑
= ==
 (7) 
 
 
O numerador de (7) é denominado de soma dos quadrados 
residuais, sendo representado por SQR. 
Para ilustrar o método considere três amostras de cinco elementos 
cada, cujos valores são: 
 
amostra 1: 18 23 21 24 22 
amostra 2: 27 26 30 29 32 
amostra 3: 16 17 18 14 20 
 
 
Figura 1 - Ilustração do método da ANOVA 
 
 
 10 20 30 40 xi1 
 
 
 
 10 20 30 40 xi2 
 
 
 10 20 30 40 xi3 
 
 5
Neste exemplo, nota-se que a hipótese 
 
H0: µ1 = µ2 = µ3 
 
seria rejeitada pela análise da variância, como mostra a Figura 1. Pelas 
figuras nota-se que a hipótese implícita de variância iguais parece ser 
satisfeita. Particularmente neste caso, teríamos 
 
s1
2 5 3= , ; s22 5 7= , e s32 5 0= , . 
 
A variância residual seria sr
2 5 33= , , que poderia estimar σ2; já que a 
mesma é obtida dentro das amostras. Já a variância total não seria uma 
estimativa válida para σ2, pois a faixa total é muito maior que a faixa 
em que os valores ocorrem dentro de cada amostra. Neste caso teríamos 
 
st
2 29 8= , . 
 
Não seria válida também a estimativa da variância entre amostras, 
onde teríamos 
 
176,86s 2e = . 
 
 
Assim, nota-se que st
2
 e se
2
 tendem a superestimar σ2. Portanto, 
sendo falsa a hipótese H0, haverá uma tendência a que st
2
 e se
2
 
superestimem σ2, o que não ocorrerá com sr
2
. Evidentemente, se H0 for 
verdadeira, st
2
, se
2
 e sr
2
 fornecerão estimativas não-tendenciosas para a 
variância comum σ2. 
Caso a hipótese H0 seja verdadeira, demonstra-se que as 
estimativas se
2
 e sr
2
 são independentes. Dessa forma, podemos comparar 
essas variâncias mediante a estatística 
 
 
Análise da variância 6
F
s
s
e
r
=
2
2 (8) 
 
O teste será sempre do tipo unilateral, pois, sendo H0 falsa, F 
tenderá sempre a crescer. O valor crítico de F será, para um nível de 
significância α, dado por Fα, como mostra a Figura 6.2, com ν1 = k – 
1 e ν2 = N – k. Dessa forma, a hipótese H0 será rejeitada para 
 
 
F > Fk-1,N-k(α) 
 
 
Figura 2 – Determinação da região de rejeição 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3 ANÁLISE DA VARIÂNCIA A UM CRITÉRIO DE 
CLASSIFICAÇÃO OU A UM FATOR 
 
Neste modelo, os elementos observados são classificados 
segundo um critério, ou seja, existe apenas uma característica (significa 
 
 
R.R. 
 α 
 
R.A. 
1 - α 
 
f(F) 
 
0 Fα F 
 7
que os diferentes valores obtidos na amostra são devidos apenas a essa 
característica) de interesse a ser testada. 
Sejam as k populações P1, P2, … , Pk, e as amostrascorrespondentes de tamanhos n1, n2, … , nk. 
 
 
P1 P2 … Pk 
 
 
 x11 x12 x1k 
 x21 x22 x2k 
 M M … M 
 xi1 xi2 xik 
 M M M 
 x n11 x n2 2 x n kk 
 
 
Considere que 
 
- xij é o i-ésimo elemento da j-ésima amostra. 
 
- x j é a média da j-ésima amostra. 
 
- X é a média do conjunto das k amostras. 
 
- N é o número total de observações das k amostras. 
 
- nj é o tamanho da j-ésima amostra. 
 
Tem-se então: 
 
(1) H0: µ1 = µ2 = … = µk = µ. 
 
(2) H1: pelo menos uma das médias µj é diferente das demais. 
 
(3) Fixar o nível de significância α. 
Análise da variância 8
 
(4) Determinar a R.R. conforme a Figura 6.2., sendo ν1 = k - 1 e 
ν2 = N - k. 
 
(5) Cálculo da estatística do teste 
- Cálculo das somas de quadrados 
 
 
( )SQE x X
x
n
x
Nji
n
j
k iji
n
jj
k iji
n
j
k
j
j j
= − =




















−






==
=
=
==
∑∑
∑
∑
∑∑
2
11
1
2
1
11
2
 (9) 
 
 
( )SQR x x x
x
nij j iji
n ij
i
n
jj
k
j
k
i
n
j
k j
j
j
= − = −




















=
=
====
∑
∑
∑∑∑∑
2 2
1
1
2
1111
 (10) 
 
 
 
( )SQT x X x
x
Niji
n
j
k
ij
i
n ij
i
n
j
k
j
kj j
j
= − = −






== =
==
=
∑∑ ∑
∑∑
∑
2
11
2
1
11
2
1
 (11) 
 
 
 
onde, demonstra-se que 
 
 
 9
 
SQT = SQE + SQR (12) 
 
 
 
- Quadro da ANOVA 
 
Fonte de 
Variação 
Soma de 
quadrados 
GL Quadrado médio 
= s2 
Estatística F 
 
Entre 
amostras 
 
 
SQE 
 
 
k - 1 
 
1k
SQEQME2es
−
== 
 
QMR
QME
F 2
r
2
e
s
s
==
 
 
 
Residual 
 
 
 
SQR 
 
 
N - k 
 
kN
SQRQMR2rs
−
==
 
 
Total SQT N - 1 
 
(6) Conclusão: se F > Fk-1, N-k(α), rejeita-se H0, caso contrário, 
aceita-se H0. 
 
Exemplo 
 
Em uma indústria, quatro operários executam a mesma operação. 
Com o objetivo de identificar se existe diferença significativa entre os 
tempos gastos para executar a operação mencionada, foram realizadas 
as seguintes observações desses tempos (em segundos): 
 
Operário 1: 8,1 8,3 8,0 8,1 8,5 
Operário 2: 8,4 8,4 8,5 8,3 
 Operário 3: 8,8 8,7 8,9 
Operário 4: 8,3 8,4 8,2 8,2 8,3 8,4. 
 
Verificar se a diferença é significativa ao nível de 5%. 
Análise da variância 10
 
4 MÉTODO DE SCHEFFÉ 
 
Como foi visto, a Análise da Variância testa a existência ou não 
de diferença significativa entre k (k ≥ 2) médias populacionais. Mas, 
caso haja diferença, através da Análise da Variância somente, não se 
pode identificar quais médias diferem das demais. Existem diversos 
métodos para a solução desse problema: método de Tukey, método de 
Scheffé, método de Duncan e método dos contrastes ortogonais. 
Será visto o método de Scheffé por ser o mais geral e mais 
completo, apesar de perder em precisão para os demais. 
Para o modelo de classificação única, se duas médias µi e µj 
diferem significativamente, Scheffé demonstrou que 
 
x xi j− > ∆α , (13) 
onde 
 
( )∆α = +





 −
− −
QMR
n n
k F
i j
k N k
1 1
1 1, ( )α (14) 
 
 
5 PROBLEMAS PROPOSTOS 
 
01. Uma empresa deseja adquirir certa máquina e verificou que existem 
na praça quatro marcas diferentes: A, B, C e D que satisfazem. Decidiu-
se que será comprada a máquina que apresentar melhor rendimento. Foi 
realizado um ensaio com as quatro máquinas em períodos iguais durante 
5 dias e as produções resultantes foram: 
 
 
A 120 123 121 125 122 
B 119 121 118 120 123 
C 125 127 128 127 128 
D 123 121 121 120 120 
 
 11
 
Pergunta-se: com relação ao rendimento, existe diferença 
significativa entre as máquinas no nível de significância de 1%? 
02. Para o problema 01, se necessário, aplicar o teste de Scheffé e 
concluir qual a máquina a ser adquirida. 
 
03. Foram testados três tipos de lâmpadas elétricas e os tempos de vida 
(em horas) obtidos foram: 
 
lâmpada A: 1245 1354 1367 1289 
 
lâmpada B: 1235 1300 1230 1189 1250 
 
lâmpada C: 1345 1450 1320. 
 
Existe diferença significativa entre os tempos médios de vida 
dessas três marcas de lâmpadas, ao nível de significância de 1%? Se 
necessário, aplicar o teste de Scheffé. 
 
04. Seis máquinas produzem parafusos. Em seguida estão relacionados 
os diâmetros correspondentes a uma amostra de 4 parafusos produzidos 
em cada máquina. 
A B C D E F 
8 9 7 8 9 10 
7 7 9 8 7 11 
9 7 7 7 8 9 
7 8 7 9 8 10 
 
Testar se os diâmetros médios são iguais considerando um nível 
de significância de 5%. Se necessário aplique o teste de Scheffé.

Continue navegando