anova2012
32 pág.

anova2012

Disciplina:Estatística Aplicada7.459 materiais64.570 seguidores
Pré-visualização2 páginas
Análise de Variância

para um fator

Aula:

Análise de Médias

Situação 1: Um estudo foi conduzido, no período de um ano,

para acompanhar três grupos de alunos de Eng. Produção com

excesso de peso. No primeiro grupo, aplicou-se dieta, com

redução no consumo de calorias. No segundo, a prática de

exercícios regularmente. No terceiro, mantiveram-se os hábitos

alimentares e o nível de atividade física. A massa corpórea foi

mensurada no início e no final do período. Como avaliar se há

alguma evidência de que exista diferença na variação média da

massa corpórea nessas três populações?

Comparação de Vários Grupos!!

Comparando Três Populações

Grupo

A

1 1, 

Grupo

B

2 2, 

Grupo

C

3 3, 

2
1 1,X s

2
2 2,X s

2
3 3,X s

Populações independentes e normalmente distribuídas.

Como Comparar as

Médias?

Teste z ou t duas a duas:

3 3!
3

2 2!1!
testes

 
  

 

Para 3 amostras teremos:

6 6!
15

2 2!4!
testes

 
  

 

Para 6 amostras teremos:

Problemas ...
1) A quantidade de testes “explode”, quando a quantidade de

amostras aumenta.

Suponha que e  = 0,05 em cada teste t. Então:

p(conclusão correta em todos os testes) = (0,95)3 = 0,857 e

p(rejeitar H0 em pelo menos um teste) = 1 - 0,857 = 0,143.

Portanto, ao realizar múltiplos testes t, aumentamos a chance de

cometer um Erro Tipo I !!

1 2 3   

3) Uma vez que os testes são conduzidos com o mesmo

conjunto de dados, eles não são mais todos independentes.

2) A condução de múltiplos testes t para duas amostras, duas a

duas, pode levar a uma conclusão incorreta!

Deseja-se um teste para comparar as

diversas médias, no qual a probabilidade

de cometermos um Erro Tipo I seja igual a

algum valor predeterminado .

ANOVA

Exemplo
 Um experimento foi conduzido com a finalidade de

verificar se existiam diferenças realmente significativas

entre as médias destas quatro populações (A, B, C e D).

Os dados abaixo referem-se ao valor da dureza da mola

produzida com o aço do fornecedor ( A,B,C,D) medidas

em HB.

 Fornecedor de aço

 A B C D

 64 78 75 55

 72 91 93 66

 68 97 78 49

 77 82 71 64

 56 85 63 70

 95 77 76 68

Total 432 510 456 372 1770
Média 72 85 76 62 73.75

• Existe uma forte suspeita de

que há diferença entre os

quatro fornecedores.

• Distribuições assimétricas.

• Valor discrepante.

Exemplo

Desenho esquemático da medida de dureza das molas produzidas com o

aço de cada fornecedor .

ij

μ

iijiij ετμεμy

i




Para descrever situações como apresentado neste exemplo, adota-se um modelo do tipo:

yij= é a j-ésima medida de dureza das molas produzidas com o aço do

i-ésimo fornecedor.

i é média do i-ésimo fornecedor.

 é uma constante para todas as observações (média geral);

i é o efeito do i-ésimo fornecedor;

ij é o erro aleatório(erros de medida, fatores não controláveis,

diferenças entre as unidades experimentais, etc.).

i=1,2,...,4,

j=1,2,...,6

Objetivo: testar se existe diferenças entre as durezas médias do aço vendido

pelos quatro fornecedores .

1-1 Análise de Variância

Hipóteses: H0: 1= 2=...= 4 = 

 Ha: i  v para pelo menos um par (i,v) sejam diferentes, (i≠v= 1, 2,..,4)

10

1-2 Análise de Variância

Em geral

Tabela 1-2 Dados gerais de um experimento com um único fator

Tratamentos

(níveis)

Observações Totais Médias

1

y11

y12

.

.

.

y1r

y1.

y1

2

y21

y22

.

.

.

y2r

y2.

y2

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

a

ya1

ya2

.

.

.

yar

ya.

ya

11

Modelo estatístico (one-way):

ij

μ

iijiij ετμεμy

i




i=1,2,...,a, (tratamentos)

j=1,2,...,r (observações)

yij= é a j-ésima observação do i-ésimo tratamento;

i é média do i-ésimo tratamento

 é uma constante para todas as observações (média geral);

i é o efeito do i-ésimo tratamento;

ij é o erro aleatório(erros de medida, fatores não controláveis,

diferenças entre as unidades experimentais, etc.).

Pressuposições: 1) os erros aleatórios são independentes;

 2) os erros aleatórios são normalmente distribuídos;

 3) os erros aleatórios tem média 0 (zero) e variância 2;

tesindependen e );(~ 2iij Ny  
Ou, então:

12

1-3 Análise de Variância

Hipóteses: H0: 1= 2=...= a = 

 Ha: i  v para pelo menos um par (i,v) sejam diferentes

Hipóteses: H0: 1=  2=...=  a =0

 Ha:  i  0 para pelo menos um i

Equivalentemente

13

1-3.1 Decomposição da soma de quadrados total

     
    

ESQ
SQtratSQT


  


a

1i

r

1j

2

i.ij

a

1i

2

..i.

a

1i

r

1j

2

..ij yyyynyy

 
 


a

1i

r

1j

2

..ij ,yySQT

A denominação de análise de variância resulta de decompor a variabilidade total dos

dados em suas componentes. A soma de quadrado total (SQT) corrigido pela média

global ,

usa-se como medida de variabilidade total dos dados.

Pode-se mostrar que a soma de quadrados total pode ser expressa através da seguinte

relação:

14

SQT = SQTrat + SQE

Graus de liberdade:

SQT tem ar-1 graus de liberdade; SQTrat tem a-1 g.l. e SQE tem a(r-1) g.l.

Esperanças dos quadrados médios:

E(QME) = 
2

1a

τr

σE(QMTrat)

a

1i

2

i
2






Teste de hipótese:

Quadrados médios:

1)-a(r

SQE

1
QME 

a

SQTrat
QMTrat

QME

QMTrat
F 0

15

1-3.2 Análise Estatística

F0 = QMTrat / QME

Critério para rejeição de H0: F0 > F,a-1,n-a . Pode-se usar o nível descritivo (em

inglês: p-value: É o menor valor de  para o qual rejeitamos a hipótese nula.
Exemplo: para =5%, assim, se o nível descritivo < do que 0,05  rejeitar H0,
caso contrário,  aceitar H0.

Fórmulas para o cálculo das somas de quadrados:


 


a

1i

r

1j

2

..2

ij

y
ySQT

n





a

1i

2

..2

i.

y
y

1
SQTrat

nr

SQTratSQTSQE 

16

Tabela da análise de variância de um experimento com um fator.

Causas de

variação

Soma de

quadrados

Graus de

liberdade

Quadrados

médios

F0

Entre

tratamentos

SQTrat a-1 QMTrat QMTrat
QME

Erro (dentro

tratamentos)

SQE n-a QME

Total SQT n-1

n=ar

Valor p

 Tratamentos (fornecedores)

 A B C D

 64 78 75 55 a = 4

 72 91 93 66 r = 6

 68 97 78 49 ar = 24=n

 77 82 71 64

 56 85 63 70

 95 77 76 68

Total (yi. ) 432 510 456 372 1770 y..

Média
 .iy

 72 85 76 62 73.75
..y


j

2
ijy

 31994 43652 35144 23402 134192


j,i

2
ijy

Exemplo: Considerando o exemplo temos:

Exemplo

1636130559132174
6

372456510432 2222



 FCSQTrat

 
3654130558134192

24

1770
134192

2




FC

SQT

201816363654  SQTratSQTSQE

ou

Análise de Variância

Causas de Variação GL SQ QM F

Fornecedores

(entre fornecedores)
3 1636 545.3 5.40

**

Erro Experimental

(dentro de

fornecedores)

20 2018 100.9

Total 23 3654

    %6,13100x75,739,100100xyQMECV .. 

  94,420;301. F
**SIGNIFICATIVO A 1%

Análise de Variância

94.440.5
)20;3(;01.00
 FF

A diferença entre médias de tratamentos é significativa

(P < 0.01)

Rejeita-se H0

Análise de Variância

 CONCLUSÃO

 Os fornecedores investigados se diferenciam

em termos de medida de dureza do aço

vendido.

>dados=read.table("anovaplicada.txt",header=T)

attach(dados)

# Gráfico de boxplot

>boxplot(dureza~fornecedor,xlab=“Fornecedor",ylab=“ Dureza")

# Tabela de anova

>fit= aov(dureza ~ fornecedor, dados)

> anova(fit)

Analysis of Variance Table

Response: dureza