Prévia do material em texto
MATERIAL DIDÁTICO
Estatística Experimental – Medicina Veterinária
Faculadade de Ciências Agrárias e Veterinárias
Campus de Jaboticabal – SP
Gener Tadeu Pereira
2º SEMESTRE DE 2014
ÍNDICE
INTRODUÇÃO AO R ................................................................................................ 2
AULA 1 – ESTATÍSTICA DESCRITIVA ......................................................................... 3
1º EXERCÍCIO PRÁTICO ESTATÍSTICA EXPERIMENTAL ................................................... 23
AULA 2 – TESTES DE SIGNIFICÂNCIA ..................................................................... 25
2º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ............................................. 35
AULA 3- DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC) .................................. 37
3º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ............................................. 58
AULA 4 TESTE DE COMPARAÇÕES MÚLTIPLAS ....................................................... 61
4º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ............................................. 79
AULA 5 TESTES F PLANEJADOS ............................................................................ 80
5º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ............................................. 89
AULA 6 DELINEAMENTO EM BLOCOS CASUALIZADOS (DBC) .................................... 91
6º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ........................................... 106
AULA 7 DELINEAMENTO QUADRADO LATINO (DQL). .............................................. 109
7º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ........................................... 124
AULA 8 EXPERIMENTOS FATORIAIS ..................................................................... 126
8º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ........................................... 138
AULA 9 EXPERIMENTOS FATORIAIS: ANALISANDO UM FATORIAL A X B ................... 143
9º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ........................................... 155
AULA 10 EXPERIMENTOS EM PARCELA SUBDIVIDIDA ........................................... 157
10º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ......................................... 169
AULA 11 EXPERIMENTOS EM PARCELAS SUBDIVIDIDAS - ANÁLISE DE MEDIDAS
REPETIDAS NO TEMPO. ...................................................................................... 171
AULA 12 TRANSFORMAÇÃO DE DADOS ................................................................ 175
Estatística Experimental
2
Introdução ao R
1 O que é o R?
R é uma linguagem e ambiente para calcular estatísticas e gráficos. Ele
é um projeto “GNU” o qual é similar à linguagem S e ambiente a qual foi
desenvolvida na “Bell Laboratories” , formalmente (AT&T) por John Chambers
e colaboradores. R pode ser considerado uma implantação diferente do S.
Existem algumas diferenças importantes, mas muitos dos códigos escritos para
o S rodam sem modificações no R.
O R fornece uma grande variedade de técnicas estatísticas (modelagem
linear e não linear, testes estatísticos clássicos, análise de séries-temporais, ...)
e gráficas, e é altamente extensível.
Um dos pontos fortes de R é a facilidade com que bem projetados
gráficos para publicações de qualidade pode ser produzidos, incluindo
símbolos matemáticos e fórmulas.
R esta disponível como um programa livre (“Free Software”) sob os
termos da “Free Software Foundation’s GNU General Public License”.
2 Instalando o R
Geralmente, o sistema R consite de duas partes. Uma é denominada de
Sistema básico do R para o núcleo da linguagem R e bibliotecas fundamentais
associadas. A outra consiste de contribições de usuários que desenvolvem
pacotes que são aplicações mais especializadas. Ambas as partes podem
obtidas do “ Comprehensive R Archive Network ” (CRAN) do site:
http://CRAN.r-project.org
A instalação do sistema R é descrito a seguir
2.1 Instalando o Sistema básico do R
Usuários do Windows podem baixar a última versão do R no endereço
http://www.vps.fmvz.usp.br/CRAN/
Em “Dowload and Install R”, acione o “link” que corresponde ao sistema
operacional do seu computador ( no caso do Windows – “Dowload R for
Windows” e depois no link base. Depois de baixar (salvar) o arquivo
executável, basta executá-lo e seguir a rotina de instalação. Neste mesmo
endereço são disponibilizadas versões do R nas plataformas do “Linux” ,e
“MacOS X”.
O endereço acima é o local disponível mais próximo de Jaboticabal, no
caso a USP/Pirassununga, SP.
http://cran.r-project.org/
http://www.vps.fmvz.usp.br/CRAN/
Estatística Experimental
3
Aula 1 – Estatística Descritiva
1 Símbolos: conjunto de dados e da somatória
Conjunto de dados:
Considere uma variável aleatória de interesse representada pela letra
maiúscula Y e os valores específicos assumidos por esta variável aleatória
pelas letras minúsculas y. Para distinguir um valor do outro, utilizamos um
subscrito i. Por exemplo, nyyy ,...,, 21 . Em geral, um valor típico da variável
aleatória será designado por yi e o valor final desta amostra por yn, sendo que
n representa o tamanho da amostra.
Uma notação compacta para representar a soma de todos os valores de
uma variável aleatória de interesse, por exemplo, Y, é
n
n
i
i yyyy
...21
1
A letra grega Σ (sigma) é usada como símbolo da soma para a soma e yi
para o valor da observação i, denominado de sinal de soma, será usado
extensivamente neste curso.
Alguns exemplos e propriedades da somatória:
A soma de n números nyyy ,...,, 21 , como vimos, pode ser expressa por
n
n
i
i yyyy
...21
1
A soma dos quadrados de n números nyyy ,...,, 21 é:
22
2
2
1
2 ... ni
n
i
i yyyy
A soma dos produtos de dois conjuntos de n números nxxx ,...,, 21
e nyyy ,...,, 21 :
nn
n
i
ii yxyxyxyx ...2211
1
Exemplo: Considere um conjunto de 3 números: 1, 3 e 6. Os números
são simbolizados por: 6,3,1,, 321 yyyY
A soma e a soma dos quadrados destes números são:
10631
1
n
i
iy , 46631
222
1
2
n
i
iy
Considere outro conjunto de números .54,2 321 xexx
A soma dos produtos de x e y é:
44)6)(5()3)(4()1)(2(
3
1
i
ii yx
As três principais regras da adição são:
1 A soma da adição de dois conjuntos de números é igual à adição das
somas
n
i
n
i
n
i
iiii yxyx
1 1 1
)(
Estatística Experimental
4
2 A soma dos produtos de uma constante k e uma variável Y é igual ao
produto da constante pela soma dos valores da variável (yi)
n
i
i
n
i
i ykyk
11
3 A soma de n constantes com valor k é igual ao produto kn
knkkkk
n
i
...
1
Atenção: notem que o cálculo da expressão
n
i
ni yyyy
1
22
2
2
1
2 ... ,
denominada de “soma de quadrados” é diferente do cálculo da expressão
n
i
ni yyyy
1
2
21
2 )...()( , denominada de “quadrado da soma”.
Outras notações:
y+ =
n
i
ni yyyy
1
21 ... , e
n
y
n
y
y
n
i
i
1
Notação com dois subescritos. Considere dois grupos de dados
1. grupo controle: { 5, 7, 5, 4 } , o qual é representado por
4,5,7,5 14131211 yyyy ,
2. grupo tratado: { 7 , 9 , 6 , 9 , 8 } , o qual é representado por
8,9,6,9,7 2524232221 yyyyy ,
sendo, i =1, 2, representando os grupos e j = 1, 2,..., ri
representando as repetições dentro de cada grupo.
Calcular o valor da expressão
i
i
r
j
ij
r
y
i
2
1
2
1
)(
Exemplo de Tabela de dupla entrada. Qualquer observação é
representada por yij , sendo que, o índice i refere-se às linhas (i=1, 2,..., k) e o
índice j refere-se às colunas (j=1, 2, ..., r).Colunas
Linhas 1 2 3 ... j ... r Total Média
1 y11 y12 y13 ... ... ... y1r y1+ 1y
2 y21 y22 y23 ... ... ... y2r y2+ 2y
3 y31 y32 y33 ... ... ... y3r y3+
3y
.
.
.
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
yij
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
yj+
.
.
.
.
.
.
jy
.
.
.
k yk1 yk2 yk3 ... ... ... ykr yk+ ky
Total y+1 Y+2 y+3 ... y+j ... y+r y++
Média
1y 2y 3y ... jy ... ry y
Estatística Experimental
5
geralmédiaaéysobservaçõeastodasdesomageraltotaloéy
linhaésimaidamédiaaéylinhaésimaidatotaloéy
colunaésimajdamédiaaéycolunaésimajdatotaloéy
ii
jj
);(
;;
;;
2 Medidas de tendência central
Um dos aspectos mais importantes do estudo de um conjunto de dados
é a posição do valor central. Qualquer valor numérico que representa o centro
de um conjunto de dados é denominado de medida de locação ou medida de
tendência central. As duas medidas mais comumente utilizadas é média
aritmética, ou simplesmente a média, e a mediana.
2.1 Média aritmética.
A mais familiar medida de tendência central é a média aritmética. Ela é
a medida descritiva que a maioria das pessoas tem em mente quando elas
falam de média.
A média pode ser expressa como
n
y
n
yyy
n
y
y n
n
i
i
...211
Vamos supor que a variável aleatória Y assume os seguintes valores,
{ 10, 54, 21, 33, 53 }, então a média destes 5 valores é dada por:
2,34
5
171
5
5333215410
5
5
1
i
iy
y
Script no R para o cálculo da média
# calculo da média pela definição
y <-c(10,54,21,33,53)
media.1<-sum(y)/length(y)
# pela função mean( )
media.2<-mean(y)
Propriedades da média;
a) Única. Para um conjunto de dados existe uma e somente uma média
aritmética.
b) Simplicidade. A média aritmética é fácil de ser entendida e fácil de ser
calculada.
c) Dado que toda observação do conjunto de dados entra no seu
cálculo, ela é afetada por cada valor. Valores extremos têm influência na média
e, em algumas situações podem ocorrer distorções, o que pode torná-la uma
medida indesejável como medida de tendência central.
2.2 Mediana.
Uma alternativa à média aritmética como medida de tendência central
é a mediana. A mediana de um conjunto de valores finitos é o valor que ocupa
a posição central dos dados ordenados, ou seja, aquele valor o qual divide o
conjunto de dados em duas partes iguais tal que o número de valores iguais ou
Estatística Experimental
6
maiores que a mediana é igual ao número de valores menores ou iguais que a
mediana. Temos que considerar duas situações:
)(2)(
2
1
)(12
~
)1()(
)1(
parénknseyy
imparénknsey
y
kk
k
Exemplos:
1. Considere os dados 10, 54, 21, 33, 53 , com n=5 observações, e a
seqüência ordenada fica 10, 21, 33, 53, 54. A mediana é calculada como sendo
a observação que ocupa a 3ª posição da seqüência ordenada, ou seja,
33~2,,2/)1(12 )3()12( yyyksejaounkkn
2. Considere os dados 10, 54, 21, 33, 53, 55, e a seqüência ordenada
fica 10, 21, 33, 53, 54, 55. Como o número de observações é par e a mediana
é calculada como sendo a média das observações que ocupam a posição
central, ou seja,
43)5333(
2
1
)(
2
1
)(
2
1~3,,2/)(2 )4()3()13()3(
yyyyyksejaounkkn
Script no R para o cálculo da mediana
# calculo da mediana pela função median( )
mediana<-median(y)
Propriedades da mediana;
a) Única. Assim como a média, para um conjunto de dados existe
uma e somente uma mediana.
b) Simplicidade. A mediana é fácil de ser calculada.
c) Ela não é drasticamente afetada por valores extremos, como a
média.
2.3 Moda.
A moda é comumente definida como a observação mais freqüente
do conjunto de dados. Se todas as observações são diferentes não existe
moda; por outro lado um conjunto de dados pode ter mais de uma moda.
Exemplo: considere o conjunto de dados
{98, 102, 100, 100, 99, 97, 96, 95, 99, 100}, então a moda é mo =
100, e no conjunto de dados, abaixo,
{ 20, 21, 20, 20, 34, 22, 24, 27, 27, 27} existe duas modas 20 e 27
(bimodal).
Estatística Experimental
7
a)
b)
c)
d)
Figura 1.1 Distribuições de freqüência mostrando as medidas de
tendência central. Distribuições em a) e b) são simétricas, c) é
positivamente assimétrica, e d) é negativamente assimétrica. As
distribuições a), c), e d) são unimodal, e a distribuição b) é bimodal.
3 Medidas de dispersão
Apesar das medidas de tendência central fornecerem uma idéia do
comportamento de um conjunto de dados, elas podem esconder valiosas
informações. Essas medidas não são suficientes para descrever ou discriminar
diferentes conjunto de dados. Por exemplo, a Figura 3.1 mostra os polígonos
de freqüência duas variáveis que possuem a mesma média, mas diferentes
valores de dispersão. A variável B, a qual tem maior variabilidade que a
variável A, é mais espalhada. A dispersão de um conjunto de dados se refere à
variedade que eles exibem. Uma medida de dispersão fornece informação a
respeito da quantidade de variabilidade presente no conjunto de dados.
Figura 3.1 Dois polígonos de freqüência com a mesma média, mas com
diferentes quantidades de dispersão.
Se todos os valores do conjunto de dados são iguais, não existe
dispersão; se eles são diferentes, a dispersão está presente nos dados. A
quantidade de dispersão pode ser pequena, quando os dados, embora
diferentes, são muito próximos.
3.1 Amplitude
A amplitude é definida como a diferença entre o maior e o menor valor
do conjunto de dados. O problema desta mediada é que ela só leva em conta
dois valores do conjunto de dados e, assim, seria mais conveniente
considerarmos uma mediada que utilizasse todas as observações do conjunto
de dados. A primeira idéia que ocorre é considerar o desvio de cada
Estatística Experimental
8
observação em relação a um ponto de referência e então calcular a sua média.
Se tomarmos a média aritmética como este ponto de referência, temos a
seguinte situação:
Seja o conjunto de dados yeyyy n...,,, 21 , a média destes dados.
Definiremos por yyd ii , os desvios destas observações em relação à sua
média. Por exemplo, considere os dados 96,5,4 4321 yeyyy . Assim
temos:
3)69(,0)66(,1)65(,2)64(
,6
4
9654
4321
dddd
y
Reparem que a soma dos desvios é igual a zero, ou seja, 0d
4
1i
i
. Isto
pode ser provado algebricamente, da seguinte forma,
n
i
n
i
n
i
n
i
n
i
n
i
i
n
i
i
n
i
i
iiii
n
i
i yy
n
y
nyynyyyyyd
1 1 1 1 1 11
1
1
0)(
Portanto a soma destes desvios não seria nada informativa sobre a
dispersão dos dados. Definiremos então, uma medida que utiliza o quadrado
dos desvios em relação à média.
3.2 Variância e desvio-padrão
A variância de um conjunto de dados, é definida como média dos
desvios das observações em relação à média ao quadrado, ou seja,
1
)(...)()( 222
2
12
n
yyyyyy
s n
Para manter a mesma unidade dos dados originais, é conveniente
definirmos o desvio-padrão como sendo a raiz quadrada positiva da variância
s2,
1
)(...)()( 222
2
1
n
yyyyyy
s n
A variância amostral é frequentemente calculada usando-se a
fórmula mais rápida e prática
n
i
n
i
i
i
n
n
n
y
y
n
n
yyy
yyy
n
s
1
1
2
2
2
2122
2
2
1
2
)(
1
1
)...(
...
1
1
Exemplo: Os pesos (em pounds) de uma amostra aleatória de trutas em
um lago são:
1,19; 0,93; 2,40; 1,71; 0,89; 1,74; 1,06; 1,16; 1,47; 1,15
A média aritmética destes dados é
.37,1
10
7,13
)15,1...93,019,1(10
1
poundsy
E a variância é
Estatística Experimental
9
2
2222
)(2187,0
)37,115,1(...)37,193,0()37,119,1(
110
1
pounds
s
Alternativamente, temos
.47,02187,0
,)(2187,0
10
70,13
74,20
9
1
10
)15,1...93,019,1(
15,1...93,019,1
110
1
2
2
2222
poundss
epounds
s
Script no R para os cálculos acima
# entrando com os dados pelo comando concaternar c( )
peso <- c(1.19, 0.93, 2.40, 1.71, 0.89, 1.74, 1.06, 1.16, 1.47, 1.15)
# cálculo da média pela definição com os comandos sum() e length()
m.peso1 <- sum(peso)/length(peso)
m.peso1
# cálculo da média pela função mean()
m.peso2 <- mean(peso)
m.peso2
#
# para saber mais detalhes da função mean() execute o comando ??mean()
#
# 3 formas de se calcular a variância pelas fórmulas do item 3.4
v1.peso <- sum((peso-mean(peso))^2)/(length(peso)-1)
v1.peso
v2.peso <- (sum(peso^2)-sum(peso)^2/length(peso))/(length(peso)-1)
v2.peso
# cálculo pela função var( )
v3.peso <- var(peso)
v3.peso
# cálculo do desvio padrão pela definição
sd1.peso <- sqrt(v3.peso)
sd1.peso
# cálculo do desvio padrão pela função sd( )
sd2.peso <- sd(peso)
sd2.peso
3.3 Quartis
Alguns quartis são definidos de modo análogo à mediana. Assim como a
mediana divide o conjunto de dados em duas partes, os quartis dividem os
dados em quatro partes. O segundo quartil, representado por Q2 é igual à
Estatística Experimental
10
mediana, então yQ2
~ . O primeiro quartil, Q1 é definido como aquele valor do
conjunto de dados tal que não mais que 25% dos dados têm valores menores
que Q1 e não mais que 75% dos dados têm valor maior que Q1. O terceiro
quartil, Q3, pode ser definido de maneira similar. Assim como a mediana, mais
de uma observação pode satisfazer a definição dos quartis. As seguintes
fórmulas podem ser utilizadas para calcular o primeiro e o terceiro quartis de
um conjunto de dados
ordenadaobservaçãoésima
n
Q
ordenadaobservaçãoésima
n
Q
4
)1(3
4
1
3
1
3.4 Gráfico “BOX-PLOT”
O gráfico tipo Box-plot é um recurso visual útil de comunicação da
informação contida em conjunto de dados. O objetivo de um gráfico tipo Box-
Plot é mostrar as principais características de um conjunto de dados. Para
interpretar um gráfico Box-Plot adequadamente, os valores devem ser
visualizados como pontos de linha horizontal/vertical localizada no centro do
gráfico. Valores grandes correspondem a grandes pontos na horizontal/vertical.
Existem três componentes importantes no gráfico Box-plot:
A caixa, a qual contém 50% dos valores, começa no primeiro quartil
Q1 e termina no terceiro quartil, Q3.
As duas pontas (whiskers), se extendem acima e abaixo da caixa
até a localização da maior e da menor observação que estão
dentro da distância de 1.5 vezes o intervalo interquartil.
Os valores atípicos “outliers”, são os valores fora das pontas.
Exemplo: Considere os dados a seguir, os quais se referem a peso (g)
de tumores cancerígenos extraídos do abdome de 57 cães
68 63 42 27 30 36 28 32 79 27 22 23 24 25 44 65 43 25 74
51 36 42 28 31 28 25 45 12 57 51 12 32 49 38 42 27 31 50
38 21 16 24 69 47 23 22 43 27 49 28 23 19 46 30 43 49 12
O conjunto ordenado fica:
12 12 12 16 19 21 22 22 23 23 23 24 24 25 25 25 27 27 27
27 28 28 28 28 30 30 31 31 32 32 36 36 38 38 42 42 42 43
43 43 44 45 46 47 49 49 49 50 51 51 57 63 65 68 69 74 79
Assim, a menor e a maior observação é 12 e 79, respectivamente. O
número de observações é 57. O primeiro quartil é a observação
255.14
4
157
)5,14(1
yQ g,
e o terceiro quartil
5,465.43
4
)157(3
)5,43(3
yQ g
Script no R para os cálculos acima
Estatística Experimental
11
# entrando com os dados
p.tumor <- c(68, 63, 42, 27, 30, 36, 28, 32, 79, 27,
22, 23, 24, 25, 44, 65, 43, 25, 74, 51,
36, 42, 28, 31, 28, 25, 45, 12, 57, 51,
12, 32, 49, 38, 42, 27, 31, 50, 38, 21,
16, 24, 69, 47, 23, 22, 43, 27, 49, 28,
23, 19, 46, 30, 43, 49, 12)
# observação mínima dos dados do vetor p.tumor pela função min()
min.ptumor <- min(p.tumor)
min.ptumor
# observação máxima dos dados do vetor p.tumor pela função max()
max.ptumor <- max(p.tumor)
max.ptumor
# cálculo da amplitude pela definição
amplitude<-max.ptumor-min.ptumor
amplitude
# cálculo do quantil 0.20 com a função quantile()
q.20 <- quantile(p.tumor,0.20)
q.20
# cálculo do primeiro quartil Q1
q1 <- quantile(p.tumor,0.25)
q1
# cálculo do primeiro quartil Q2
q2 <- quantile(p.tumor,0.50)
q2
# cálculo do terceiro quartil Q3
q3<- quantile(p.tumor,0.75)
q3
# calculo da mediana
mediana<- median(p.tumor)
mediana
# reparem que a mediana é igual ao segundo quartil
# cálculo dos 3 quartis (0.25, 0.50, 0.75) de uma única vez
quartis <- c(0.25,0.50,0.75)
quantile(p.tumor,quartis)
# apresentando a função summary( )
summary(p.tumor)
# 2 gráficos pela função boxplot()
boxplot(p.tumor) # gráfico default
Estatística Experimental
12
# incrementando o gráfico
boxplot(p.tumor,
col=2, # colocando cor no gráfico
horizontal= T, # na posição horizontal
main= "Gráfico Box-Plot") # colocando título principal
Gráfico produzido pela última função boxplot( )
O exame deste Gráfico revela que 50% das observações estão no
retângulo entre os valores do Q1=25 e Q3=46,5. A linha vertical dentro da caixa
representa o valor da mediana, Q2, a qual é 32. A longa cauda a direita do
gráfico indica que a distribuição de peso de tumores é levemente assimétrica à
direita. O símbolo da bolinha indica que existe uma observação atípica neste
conjunto de dados, observação cujo valor é 79, com uma probabilidade de
ocorrência muito baixa.
3.5 Medidas da forma da distribuição
As medidas da forma de uma distribuição são os coeficientes de
assimetria (skewness) e curtosis (kurtosis).
Assimetria é uma medida da assimetria da distribuição de freqüência.
Ela mostra se os desvios da média são maiores de um lado do que do outro
lado da distribuição. Ela é dada por
3
1)2)(1(
n
i
i
s
yy
nn
n
ass
Para uma distribuição simétrica o coeficiente de assimetria é zero. Ela é
positiva quando a cauda da direita é mais alongada e negativa quando a cauda
da esquerda é mais alongada.
a)
b)
Figura 3.3 Ilustrações da assimetria a) negativa e b) positiva
Curtosis é uma medida da forma das caudas de uma distribuição. Ela é
dada por
Estatística Experimental
13
)3)(2(
)1(3
)3)(2)(1(
)1( 2
4
1
nn
n
s
yy
nnn
nn
ct
n
i
i
Para variáveis, tais como, peso, altura ou produção de leite, espera-se
que a distribuição de freqüência seja simétrica em torno da média e tenha a
forma de um sino. Estas são as distribuições normais. Se as observações têm
distribuição normal então a curtosis é igual a zero (ct = 0). Uma distribuição
com curtosis positiva tem uma grande freqüência de observações próximas da
média e caudas finas. Uma distribuição com curtosis negativa tem as caudas
mais grossas e uma baixa freqüência de dados perto da média.
Script no R para os cálculos dos coeficientes de assimetria e curtosis
# definindo uma função para o cálculo do coef. de assimetria
ass<-function(x){ # início da função
m3<-sum((x-mean(x))^3)
s3<-sd(x)^3
n <- length(x);n_1 <- length(x)-1; n_2 <- length(x)-2
coef<- n/(n_1*n_2)
coef*m3/s3 } # término da função
# aplicando a função ass( ) aos dados de p.tumor
ass(p.tumor)
# definindo uma função para o cálculo do coef. de curtosis
ct <-function(x) { # inicio da função
m4<-sum((x-mean(x))^4)s4<-sd(x)^4
n<-length(x);coef1<-n*(n+1)/((n-1)*(n-2)*(n-3));coef2<- 3*(n-1)^2/((n-2)*(n-3))
coef1*m4/s4 - coef2} # término da função
# aplicando a função aos dados de p.tumor
ct(p.tumor)
# definindo uma função ed( ) que calcula todas as estatísticas descritivas
ed<-function (x) { # inicio da funçao
media<-mean(x) # cálculo da média
dp<-sd(x) # cálculo do desvio padrão
minimo<-min(x) # cálculo do mínimo
maximo<-max(x) # cálculo do máximo
q1<-quantile(x,0.25) # cálculo do 1 quartil
mediana<-median(x) # cálculo da mediana q2
q3<-quantile(x,0.75) # cálculo do terceiro quartil
cv<-sd(x)/mean(x)*100 # cálculo do coef. variação
# cálculo do coef. de assimetria
m3<-sum((x-mean(x))^3)
s3<-sd(x)^3
n <- length(x)
coef<- n/((n-1)*(n-2))
ass<-coef*m3/s3
# cálculo do coef. curtosis
Estatística Experimental
14
m4<-sum((x-mean(x))^4)
s4<-sd(x)^4
n<-length(x)
coef1<-n*(n+1)/((n-1)*(n-2)*(n-3))
coef2<- 3*(n-1)^2/((n-2)*(n-3))
ct<-coef1*m4/s4 - coef2
# definindo a saída
c(mínimo=minimo,Q1=q1,média=media,mediana=mediana,desv_pad=dp,
Q3=q3,máximo=maximo,CV=cv,Assimetria=ass,Curtosis=ct)
} # final da função ed( )
# aplicando a função ed( ) aos dados de p.tumor
round(ed(p.tumor),1) # a função round( ) controla as casas decimais
Abaixo estão estas estatísticas calculadas pelo script acima
mínimo Q1.25% mediana desv_pad Q3.75% máximo CV
12.0 25.0 32.0 15.9 46.0 79.0 43.2
Assimetria Curtosis
0.8 0.1
3.6 Histograma
O gráfico do histograma é outro recurso visual muito usado para a
análise da forma da distribuição. No script do R abaixo são apresentados
alguns exemplos doa função hist( ) e sua correspondência com o gráfico Box-
Plot.
# histograma dos dados p.tumor
hist(p.tumor) # default
# histograma com mais opções
hist(p.tumor,
col="light blue", # colocando a cor azul
xlab=" Classes de Peso (g)", # título do eixo x
ylab="Frequência", # título do eixo y
nclass=8, # número de colunas
border="dark blue") #colocando bordas no gráfico
Saída fornecida pelo script acima
Apresentação do histograma e do Box-Plot juntos
# dividindo a janela gráfica em 2 linhas e 1 coluna
par(mfrow=c(2,1))
Histograma
Classes de Peso (g)
F
re
q
u
ê
n
c
ia
10 20 30 40 50 60 70 80
0
5
1
0
1
5
2
0
Estatística Experimental
15
# histograma
hist(p.tumor,
col="light blue", # colocando a cor azul
xlab=" Classes de Peso (g)", # título do eixo x
ylab="Frequência", # título do eixo y
nclass=8, # número de colunas
border="dark blue", # colocando bordas no gráfico
main="Histograma") # título principal
# gráfico box plot
boxplot(p.tumor,
col=2, # colocando cor no gráfico
horizontal= T, # na posição horizontal
main= "Gráfico Box-Plot") # colocando título principal
Gráficos para dados com uma classificação é uma ferramenta muito útil
na ánalise exploratória de dados. Considere a questão nº 1 da 1ª Lista de
exercícios, apresentada ao final da Aula 1. Nesta questão é solicitado a
construção do gráfico de barras para cada tipo de comida. O script no R para
construir estes gráficos é:
# entrando com todas as observações
n.moscas<-c(15,20,31,16,22,22,23,33,38,28,25,20,21,23,29,26,40,20,19,31,
6,19,0,2,11,12,13,12,5,16,2,7,13,20,18,19,19,9,9,9)
# definindo um vetor para cada tipo de comida
t.comida <- c(rep("c.regular",20),rep("c.suco",20))
#calculando a média para cada tipo de comida com o comando tapply()
m.moscas<-tapply(n.moscas,t.comida,mean)
#calculando o desvio-padrão para cada tipo de comida com o comando tapply()
sd.moscas<-tapply(n.moscas,t.comida,sd)
# gráfico de barras do valor médio de cada tipo de comida
bar.moscas<-barplot(m.moscas, cex.names=0.7,
xlab="Comida",col=c(2,3),
ylab="Comprimento médio (±sd)",
ylim=c(0,max(mean(m.moscas)+sd(m.moscas)*2)))
# colocando os eixos do desvio-padrão no gráfico de barras
Histograma
Classes de Peso (g)
F
re
q
u
ê
n
c
ia
10 20 30 40 50 60 70 80
0
5
1
5
10 20 30 40 50 60 70 80
Gráfico Box-Plot
Estatística Experimental
16
arrows(bar.moscas,m.moscas-sd.moscas,
bar.moscas,m.moscas+sd.moscas, length=0.1, angle=90, code=3)
# gráfico Box-plot para cada tipo de comida
boxplot(n.moscas~t.comida,col=c(2,3))
3.7 Coeficiente de variação (CV)
O desvio-padrão é útil como medida de variação dentro de um conjunto
de dados. Quando desejamos comparar a dispersão de dois conjuntos de
dados, a comparação dos desvios-padrões dos dois conjuntos de dados pode
nos levar a conclusões falsas. Pode acontecer que as duas variáveis
envolvidas estão medidas em unidades diferentes. Por exemplo, podemos
estar interessados em saber se os níveis do soro de colesterol, medido em
miligramas por 100 ml são mais variáveis do que o peso corporal, medido em
kilograma.
O que é necessário nesta situação é o uso de uma medida de variação
relativa do que uma medida absoluta. Tal medida é o COEFICIENTE DE
VARIAÇÃO (CV), a qual expressa o desvio padrão como uma porcentagem da
média, e sua fórmula é
)%(100
y
s
cv ,
a qual é uma medida independente da unidade.
Exemplo: considere os valores abaixo de média e desvio-padrão de dois
grupo de cães, identificados pelas suas idades
Amostra 1 Amostra 2
Grupo 10 anos 4 anos
Peso médio 145 80
Desvio-padrão 10 10
Uma comparação dos seus respectivos desvios-padrões leva a uma
conclusão de que as duas amostras têm a mesma variabilidade. Se
calcularmos os coeficientes de variação, para o grupo 1
%,)( 96100
145
10
cv
e para o grupo 2,
%,)( 512100
80
10
cv ,
e comparando estes resultados temos uma impressão bem diferente. O grupo
2 tem uma variabilidade de 1,8 vezes maior em relação ao grupo 1. O
coeficiente de variação é muito útil na comparação de resultados obtidos por
diferentes pesquisadores que investigam a mesma variável. Visto que o
coeficiente de variação é independente da unidade, ele é útil para comparar a
variabilidade de duas ou mais variáveis medidas em diferentes unidades.
# definindo uma função para o cálculo do coeficiente de variação
cv <- function(x) sd(x)/mean(x)*100
# aplicando a função aos dados de p.tumor
cv(p.tumor)
4.ESTATÍSTICA EXPERIMENTAL
Estatística Experimental
17
4.1 INTRODUÇÃO
Numa pesquisa científica o procedimento geral é formular hipóteses e
verificá-las diretamente ou por suas conseqüências. Para isto é necessário um
conjunto de observações e o planejamento de experimentos é então essencial
para indicar o esquema sob o qual as hipóteses possam ser verificadas com a
utilização de métodos de análise estatística que dependem da maneira sob a
qual as observações foram obtidas. Portanto, planejamento de experimentos e
análises dos resultados estão intimamente ligados e devem ser utilizados em
uma seqüência nas pesquisas científicas das diversas áreas do conhecimento.
Isto pode ser visto por meio da seguinte representação gráfica da circularidade
do método científico.
(2)
Observações
(1) (3)
Formulação de Hipóteses Verificação das Hipóteses formuladas(4)
Desenvolvimento da Teoria
Fica evidente nesta ilustração que as técnicas de planejamento devem
ser utilizadas entre as etapas (1) e (2) e os métodos de análise estatística
devem ser utilizados na etapa (3).
Desenvolvendo um pouco mais está idéia podemos dizer que uma
pesquisa científica estatisticamente planejada consiste nas seguintes etapas:
1. Enunciado do problema com formulação de hipóteses.
2. Escolha dos fatores (variáveis independentes) que devem ser
incluídos no estudo.
3. Escolha da unidade experimental e da unidade de observação.
4. Escolha das variáveis que serão medidas nas unidades de
observação.
5. Determinação das regras e procedimentos pelos quais os diferentes
tratamentos são atribuídos às unidades experimentais (ou vice-
versa).
6. Análise estatística dos resultados.
7. Relatório final contendo conclusões com medidas de precisão das
estimativas, interpretação dos resultados com possível referência a
outras pesquisas similares e uma avaliação dos itens de 1 a 6 (desta
pesquisa) com sugestões para possíveis alterações em pesquisas
futuras.
Ilustrações destas etapas com exemplos.
1. Enunciado do problema.
Como vimos uma pesquisa científica se inicia sempre com a formulação
de hipóteses. Essas hipóteses são primeiramente formuladas em termos
científicos dentro da área de estudo (hipótese científica) e em seguida em
termos estatísticos (hipótese estatística) . Deve haver uma correspondência
perfeita entre as hipóteses científica e estatística para evitar ambigüidade.
Portanto, no enunciado do problema, a hipótese científica deve ser
formulada de maneira precisa e objetiva.
Estatística Experimental
18
Exemplo:Um pesquisador está interessado em estudar o efeito de vários
tipos de ração que diferem pela quantidade de potássio no ganho de peso de
determinado tipo de animal.
Este objetivo pode ser atingido se planejarmos a pesquisa com uma das
seguintes finalidades:
a) comparar as médias dos aumentos de peso obtidas com cada uma
das rações (igualdade das médias);
b) Estabelecer uma relação funcional entre o aumento do peso médio e
a quantidade de potássio.
2. Escolha dos fatores e seus respectivos níveis.
No exemplo apresentado em 2.1, a variável independente “ração” é um
fator e os tipos de rações são os níveis deste fator, ou tratamentos. Assim, em
um experimento para se estudar o efeito de 4 rações e 3 suplementos no
ganho de peso de animais, temos dois fatores: ração com quatro níveis e
suplementos com 3 níveis. Podemos dizer que este experimento envolve 12
tratamentos, correspondentes às combinações dos níveis dos dois fatores.
Pelo próprio conceito de fator, temos que em um experimento, a escolha
dos fatores e seus respectivos níveis é basicamente um problema do
pesquisador. No entanto é importante para o planejamento e análise
distinguirmos as duas situações, descritas a seguir:
a) uma fazenda de inseminação adquiriu 5 touros de uma determinada
raça para a produção de sêmen, e está interessada em realizar um
experimento para verificar se os cinco touros são homogêneos
quanto a produção de sêmen.
b) A mesma fazenda de inseminação está interessada em realizar um
experimento para verificar se a produção de sêmen de touros, de
uma determinada raça, é homogênea. Como a população de touros
da fazenda é muito grande o pesquisador decidiu realizar um
experimento com uma amostra de touros (5 touros), mas as
conclusões devem ser estendidas para a população de touros.
Na situação descrita em a) dizemos que o fator “touro” é fixo e na
situação em b) o fator “touro” é aleatório. A diferença fundamental entre estes
dois tipos de fatores é, então, que no caso de fatores fixos, as conclusões se
referem apenas aos níveis do fator que estão presentes no experimento. No
caso de fatores aleatórios as conclusões devem ser estendidas para a
população de níveis.
3. Escolha da unidade experimental.
Em um grande número de situações práticas a unidade experimental é
determinada pela própria natureza do material experimental. Por exemplo,
experimentos com animais, em geral a unidade experimental é um animal. Em
outras situações a escolha de outras unidades experimentais não é tão
evidente, exigindo do pesquisador juntamente com o estatístico algum estudo,
no sentido de escolher a unidade experimental mais adequada. A escolha de
uma unidade experimental, de um modo geral, deve ser orientada no sentido
de minimizar o erro experimental, isto é, as unidades devem ser as mais
homogêneas possíveis, para, quando submetidas a dois tratamentos
diferentes, seus efeitos, sejam facilmente detectados.
Estatística Experimental
19
4. Escolha das variáveis a serem medidas.
As medidas realizadas nas unidades experimentais após terem sido
submetidas aos tratamentos constituem os valores da variável dependente. A
variável dependente, em geral, é pré-determinada pelo pesquisador, isto é, ele
sabe qual variável que ele quer medir. O que constitui problema, às vezes, é a
maneira como a variável é medida, pois disto dependem a precisão das
observações, e a distribuição de probabilidade da variável a qual é essencial
para a escolha do método de análise. Assim, por exemplo, se os valores de
uma variável são obtidos diretamente por meio de um aparelho de medida
(régua, termômetro, etc.) a precisão das observações vai aumentar se, quando
possível, utilizarmos como observação a média de três medidas da mesma
unidade experimental. Com relação à distribuição de probabilidade em muitas
situações as observações não são obtidas diretamente e sim por expressões
matemáticas que as ligam a outros valores obtidos diretamente. Neste caso, a
distribuição de probabilidade das observações vai depender da distribuição de
probabilidade da variável obtida diretamente e da expressão matemática que
as relaciona.
Portanto, as variáveis, necessariamente presentes em um experimento
são: a variável dependente, medida nas unidades experimentais, e o conjunto
de fatores (variáveis independentes) que determinam as condições sob as
quais os valores da variável dependente são obtidos.
Qualquer outra variável que possa influir nos valores da variável
dependente deve ser mantida constante.
5. Regras segundo as quais os tratamentos são atribuídos às unidades
experimentais.
Nas discussões apresentadas em cada um dos itens anteriores a
colaboração da estatística é bem limitada exigindo-se a essencial colaboração
do pesquisador. Porém, o assunto discutido neste item é o que poderíamos
denominar de planejamento estatístico de experimento. Trata-se das regras
que associam as unidades experimentais aos tratamentos e que praticamente
determinam os diferentes planos experimentais, ou seja, a Aleatorização ou
Casualização. Lembramos, neste ponto, que os tratamentos são cada uma
das combinações entre os níveis de todos os fatores envolvidos no
experimento.
Para que a metodologia estatística possa ser aplicada aos resultados de
um experimento é necessário que em alguma fase do experimento, o principio
a ser obedecido é o da Repetição, segundo o qual devemos ter repetições do
experimento para que possamos ter uma medida da variabilidade necessária
aos testes da presença de efeitos de tratamentos ou a estimação desses
efeitos.
Aleatorização
Aleatorização é a designação dos tratamentos às unidades
experimentais, tal que estas têm a mesma chance (mesma probabilidade) de
receber um tratamento. Sua função é assegurar estimativas não-viesadas das
médias dos tratamentos e do erro experimental. Nesta fase do planejamento de
um experimento já sabemos quais fatores serão estudados e o número de
níveis de cada fator que estarão presentes no experimento. Sabemos ainda
qual é a unidade experimental escolhida e a variável dependente. Podemos
imaginar que de um lado temos um conjunto
Estatística Experimental
20
U de unidades experimentais, e de outro,
T um conjuntode tratamentos, que podem ser as combinações dos
níveis de todos os fatores envolvidos. Precisamos estabelecer
esquemas que associam subconjuntos de elementos de U a cada
elemento de T. Vamos apresentar o esquema mais simples. Para
efeito de notação vamos supor que o conjunto U tem n elementos, o
conjunto T tem a elementos, e o número de elementos de U
submetidos ao tratamento Ti é ni, com i=1, 2, ..., a, de tal modo que
k
i
i nn
1
.
O número de unidades experimentais ni para cada tratamento Ti é
determinado a partir de informações sobre a variabilidade das unidades
experimentais em termos da variabilidade da variável dependente.
O plano completamente aleatorizado é um esquema em que as
unidades experimentais que vão ser submetidas a cada tratamento são
escolhidas completamente ao acaso. Isto significa que cada unidade
experimental tem igual probabilidade de receber qualquer um dos tratamentos.
Por exemplo, um pesquisador quer realizar um experimento para
estudar o efeito de um resíduo industrial que é adicionado em rações de
animais. Ele suspeita que este resíduo contenha uma substância tóxica, cuja
presença no organismo, produz um aumento relativo de alguns órgãos, como o
fígado, por exemplo. Após uma entrevista com o pesquisador conseguimos as
seguintes informações
O experimento irá envolver um único fator, ração, com três níveis: t1 -
ração normal, sem resíduo industrial (grupo controle; t2 - ração normal
com o resíduo tratado, e t3 - ração normal com resíduo não tratado.
Portanto, o conjunto T tem três tratamentos
Um conjunto U, é formado por um grupo de 18 camundongos todos,
recém nascidos, com o mesmo peso inicial e homogêneos com relação
às características genéticas gerais. Por isto foi decidido distribuir
completamente ao acaso 6 animais para cada tratamento.
A variável dependente (resposta) é o peso relativo do fígado após 90
dias do início do experimento.
Uma maneira de se proceder ao sorteio é a seguinte:
enumera-se as unidades experimentais de 1 a 18.
coloca-se os tratamentos em seqüência , por exemplo:
T1 T1 T1 T1 T1 T1 , T2 T2 T2 T2 T2 T2 , T3 T3 T3 T3 T3 T3
sorteia-se uma sequência de 18 números aleatórios. Pode-se obter,
por exemplo, a sequência :
3, 1, 11, 15, 18, 16, 4, 5, 9, 12, 8, 7, 17, 14, 2, 6, 13, 10
Gerando uma seqüência de números aleatórios no R:
# gerando uma sequencia de números de 1 a 18
x<-seq(1:18)
x
# sequencia aleatória de tamanho 18 de x
sample(x,18,replace=F)
Estatística Experimental
21
Saída fornecida pelo R
> # gerando uma sequencia de números de 1 a 18
> x<-seq(1:18)
> x
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
>
> # sequencia aleatória de tamanho 18 de x
> sample(x,18,replace=F)
[1] 4 5 7 10 17 8 16 3 2 14 11 13 9 1 18 6 15 12
Distribuição das unidades experimentais aos tratamentos de acordo
com a seqüência gerada no R
Trat. Repetições
T1 u4 u5 u7 u10 u17 u8
T2 u16 u3 u2 u14 u11 u13
T3 u9 u1 u18 u6 u15 u12
Este plano experimental é mais eficiente quanto maior for o grau de
homogeneidade entre as unidades experimentais em termos da variável
dependente. Se as unidades experimentais são heterogêneas o número n de
unidades experimentais necessárias para uma boa precisão pode ser muito
grande. Algumas alterações no planejamento descrito, tal como, a introdução
de blocos, ou simplesmente a utilização de uma co-variável medida nas
unidades experimentais, a qual é correlacionada com à variável dependente,
podem reduzir consideravelmente o erro experimental.
Observações:
1) o plano experimental completamente aleatorizado não depende do
numero de fatores envolvidos e nem da maneira pela qual os
fatores são combinados.
2) Existem alguns fatores que pela própria natureza, impõe restrições
na aleatorização, porém para efeito de análise, o experimento é
considerado completamente aleatorizado.
Plano experimental em blocos
Quando o conjunto U de unidades experimentais for muito heterogêneo
(em termos da variável independente), o plano experimental completamente
aleatorizado torna-se pouco preciso, pois o erro experimental fica muito grande.
Em algumas situações dispomos de informações segundo as quais, antes da
realização do experimento, é possível agruparmos as unidades experimentais
mais ou menos homogêneas, em que a é o número de tratamentos envolvidos
no experimento. Estes subconjuntos são denominados de blocos. Assim, a
maior parte da heterogeneidade interna do conjunto U é expressa pela
heterogeneidade entre blocos. A distribuição das unidades experimentais entre
os tratamentos obedece a uma restrição imposta pelos blocos, isto é, as a
unidades de cada bloco são distribuídas aleatoriamente entre os tratamentos.
Na análise de um experimento em blocos, além dos fatores de interesse,
deve-se levar em conta o fator experimental bloco, diminuindo desta forma o
erro experimental. Quanto maior for a heterogeneidade entre blocos, maior é a
eficiência deste plano experimental em relação ao completamente aleatorizado.
Exemplo: Um pesquisador deseja testar o efeito de três tratamentos (T1,
T2, T3 ) no ganho de peso de ovelhas . Antes do inicio do experimento as
Estatística Experimental
22
ovelhas foram pesadas e ordenadas de acordo com o peso e atribuídas a 4
blocos. Em cada bloco tinham 3 animais aos quais os tratamentos foram
sorteados. Portanto, 12 animais foram usados.
Repetição
Repetição significa que o mesmo tratamento é aplicado sobre duas ou
mais unidades experimentais. Sua função é fornecer uma estimativa do “erro
experimental” e dar uma medida mais precisa dos efeitos dos tratamentos. O
número de repetições requeridas em um particular experimento depende da
magnitude das diferenças que o pesquisador deseja testar e da variabilidade
da variável dependente em que se esta trabalhando.
Estatística Experimental
23
1º EXERCÍCIO PRÁTICO ESTATÍSTICA EXPERIMENTAL
1) Em um estudo genético, uma alimentação regular era colocada em 20 frascos e o
número moscas de um determinado genótipo era contado em cada frasco. O número de
moscas também era contado em outros 20 frascos que continham suco de uva. O
número de moscas contados foram:
Número de moscas
Comida regular Suco de uva
15 20 31 16 22 22 23 33 38 28
25 20 21 23 29 26 40 20 19 31
6 19 0 2 11 12 13 12 5 16
2 7 13 20 18 19 19 9 9 9
(a) Calcule a média amostral, a variância amostral, o desvio padrão amostral e o
coeficiente de variação de cada conjunto de dados. Comente. Qual destes dois
conjuntos de dados tem maior variabilidade?
(b) Calcule a média amostral, a variância amostral, o desvio padrão amostral de cada
conjunto de dados utilizando os recursos imediatos de sua calculadora.
(c) Para cada conjunto de dados utilize o R para calcular a média, a mediana, o Q1, o
Q3, a observações mínima e máxima, construa os gráficos do Histograma, do Box-
Plot, e o gráfico de barras com os desvio-padrões para cada tipo de comida.
Comente os resultados.
2) Demonstre sua familiaridade com a notação da somatória, desdobrando-as e
calculando as seguintes expressões com
x1 = 1, x2 = -2, x3 = 4, e x4 = 5:
Dica para o item (a)
4
1
4321 854)2(1
i
i xxxxx
(a)
4
1i
ix (b)
4
1
4
i
ix (c)
4
1
)3(
i
ix (d)
4
2
)4(
i
ix (e)
3
1
2)4(
i
ix
(f)
4
1
2
i
ix (g)
4
1
2)2(
i
ix (h)
4
1
2 )44(
i
ii xx
3) Uma observação qualquer do conjunto de dados abaixo pode ser representada por yij ,
com o índice i=1, 2, 3 controlando as linhas e j=1, 2, 3, 4, 5, 6 controlando as colunas.
Por exemplo, y23 = 100. Calcule as seguintes expressões (fazendo o desdobramento):
a)
3
1
2
i
iy b)
6
1
2
j
jy c)
3
1
6
1i j
ijy d)
3
1
6
1
2
i j
ijy e)
2
3
1
6
1
i j
ijy
4) Os dados a seguir referem-se ao nível de glicose em sangue de 10 cães
56 62 63 65 65 65 65 68 70 72
Calcule manualmente e depois utilize o R para calcular: a) média; b) a mediana; c) mínimo e
máximo; d) os quartis Q1 e Q3. Construa o histograma e gráfico tipo Box – Plot. Comente a
respeito da dispersão dos dados.
7) Determinações de açúcar no sangue ( mg/ 100ml ) foram feitas em 5 raças de animais
experimentais, sendo 10 amostras por raça. Os resultados foram:
Raças
A B C D E
124 111 117 104 142
116 101 142 128 139
101 130 121 130 133
118 108 123 103 120
118 127 121 121 127
120 129 148 119 149
110 122 141 106 150
127 103 122 107 149
106 122 139 107 120
130 127 125 115 116
C1 C2 C3 C4 C5 C6
L1 550 950 950 750 650 700
L2 350 500 100 550 350 350
L3 600 450 150 500 100 250
Estatística Experimental
24
Utilize o R para calcular para cada raça: a) média; b) a mediana; c) desvio padrão;
d) o erro padrão; e) mínimo e máximo; f) os quartis Q1 e Q3. Construa o histograma, o
gráfico tipo Box-Plot e o gráfico de barras para cada raça. Comente a respeito da dispersão
dos dados em cada raça.
Somatório e Algebrismo
c) Seja Y a variável tempo de recuperação da anestesia de tilápias, com 10 observações:
Y = { 17,0; 8,9; 28,7; 20,5; 8,9; 26,1; 43,9 }
Calcular passo-a-passo:
a)
7
1i
iy b)
7
7
1
i
iy
c) Quadrado da Soma
2
7
1
i
iy ;
d) Soma de Quadrados
7
1
2
i
iy ; e) Suponha k = 15, calcule
7
1i
iky ;
f) Considerando-se Y como uma constante, desenvolva algebricamente o seguinte quadrado:
n
i
i yy
1
2)( , lembre-se que n
y
y
n
i
i
1
g) Reescreva a expressão
n
i
i yy
n
s
1
22 )(
1
1
em função do desenvolvimento do item f.
h) Considere a variável X tempo (segundos) de indução da anestesia para as mesmas 7
tilápias, respectivamente:
X = {165; 183; 161; 147; 146; 152; 174}
Calcule: i
i
i yx
7
1
Estatística Experimental
25
Aula 2 – Testes de significância
1 Introdução
Um dos principais objetivos da estatística é a tomada de decisões a respeito de
parâmetros da população com base nas observações de amostras.
AMOSTRAGEM
INFERÊNCIA ESTATÍSTICA
POPULAÇÃO AMOSTRA
Ao tomarmos decisões, é conveniente a formulação de Hipóteses
relativas às populações, as quais podem ser ou não verdadeiras.
Exemplo: Um veterinário está interessado em estudar o efeito de 4 tipos
de rações que diferem pela quantidade de potássio no aumento de peso de
coelhos.
osdistpesosdeaumentospropiciamraçõesAsH
scontrolado nãofatores adevidas são observadas diferenças quaisquer
seja,ou rações,as entrediferençaexisteNãoH
1
0
int:
:
H0 é denominada de hipótese de nulidade, a qual assume que não existe
efeito dos tratamentos e H1 é a contra hipótese.
Testes de hipóteses ou testes de significância
São os processos que nos permitem decidir se aceitamos ou rejeitamos
uma determinada hipótese, ou se os valores observados na amostra diferem
significativamente dos valores esperados (População)
2 Tipos de erros nos testes de significância
QUADRO RESUMO: condições sobre as quais os erros Tipo I e Tipo II
podem ser cometidas
Condição da Hi pótese nula
H0 Verdadeiro H0 Falsa
Rejeição de H0 Erro Tipo I () Decisão correta
Não rejeição de H0 Decisão correta Erro Tipo II ()
Erro Tipo I: é o erro cometido ao rejeitar H0, quando H0 é verdadeira.
Erro Tipo II: é o erro cometido ao aceitar H0, quando ela é falsa. E
IITipoErroPeITipoErroP ;
MÉDIA
POPULACIONAL
x
MÉDIA
AMOSTRAL
Possível
ação
Estatística Experimental
26
Esses dois erros estão de tal forma associados que, se diminuirmos a
probabilidade de ocorrência de um deles, automaticamente aumentamos a
probabilidade de ocorrência do outro. Em geral, controlamos somente o Erro
Tipo I, por meio do nível de significância (daí vem a denominação de Testes
de Significância) do teste representado por , o qual é a probabilidade máxima
com que nos sujeitamos a correr um risco de cometer um erro do Tipo I, ao
testar a hipótese. Dado que rejeitar uma hipótese nula, (H0), verdadeira
constitui um erro, parece razoável fixarmos esta probabilidade de rejeitar uma
hipótese nula, (H0), verdadeira pequena, e de fato, é isto que é feito. Na prática
é comum fixarmos = 0,05 (5%) ou = 0,01 (1%).
Se, por exemplo, foi escolhido = 0,05, isto indica que temos 5
possibilidades em 100 de rejeitarmos a hipótese de nulidade (H0), quando na
verdade ela deveria ser aceita, ou seja, existe uma confiança de 95% de que
tenhamos tomado uma decisão correta, esta confiabilidade é denominada grau
de confiança do teste e é representada por 1 - e expressa em porcentagem.
Nós nunca saberemos qual tipo de erro estamos cometendo ao rejeitarmos ou
ao não rejeitarmos uma hipótese nula (H0), dado que a verdadeira condição é
desconhecida. Se o teste nos leva à decisão de rejeitar H0, podemos ficar
tranqüilos pelo fato de que fizemos pequeno e, portanto, a probabilidade de
cometer o erro Tipo I é bem pequena.
3 Teste F para a Análise de Variância (ANOVA)
O teste F é a razão entre duas variâncias e é usado para determinar se
duas estimativas independentes da variância podem ser assumidas como
estimativas da mesma variância. Na análise de variância, o teste F é usado
para testar a igualdade de médias, isto é, para responder a seguinte questão, é
razoável supor que as médias dos tratamentos são amostras provenientes de
populações com médias iguais? Considere o seguinte exemplo de cálculo da
estatística F; vamos supor que de uma população normal ),( 2N foram
retiradas, aleatoriamente, 5 (n=5) amostras de tamanho 9 (r=9).
Calcule as médias das 5 amostras e
)19(
)(
9
1
2
2
i
i
i
yy
s
Estime 2 por meio da fórmula
5
)...( 25
2
12 sss
, a qual é uma
média das variâncias das amostras e será denominada de
variabilidade dentro das amostras ( 2Ds ).
Estime a variância populacional das médias
2
y , por meio das
médias das 5 amostras:
15
)(
5
1
22
2
i
i
y
yy
s
De
2
ys , estime novamente
2 , usando a relação
22
2
2 , yy rssou
r
s
s , denominada de variabilidade entre as
amostras ( 2Es ).
Estatística Experimental
27
Calcule
2
2
D
E
c
s
s
F
A estimativa de 2Es do numerador foi feita com base em n - 1 = 4 graus
de liberdade (n é o número de amostras) e a estimativa de 2Ds do denominador
foi feita com base em n(r – 1) = 5(9-1) = 40. A repetição deste procedimento
amostral muitas vezes gera uma população de valores de F, os quais quando
colocados em um gráfico de distribuição de freqüência tem o seguinte formato
O valor de F = 2,61 é o valor acima do qual, 5% dos valores de F
calculados têm valor acima dele. Este é o valor para um nível de 5%
encontrado na Tabela F para 4 e 40 graus de liberdade (veja Tabela F). Dado
que as estimativasda variância utilizadas no cálculo da estatística F são
estimativas da mesma variância 2 , espera-se que o valor de F seja bem
próximo de 1, a menos que um conjunto de amostras não usual foi retirado.
Para qualquer conjunto de amostras retiradas de n = 5 e r = 9 a probabilidade
(ou a chance) de um valor de F calculado ser maior ou igual a 2,61 é 0,05 (5%)
)05,0]61,2[( FP .
As hipóteses estatísticas que testamos quando aplicamos o teste F são
2
2
2
11
2
2
2
10
:
:
H
H
A hipótese H0 estabelece que as duas variâncias populacionais são
iguais, o que equivale a admitir que as amostras foram retiradas da mesma
população. A hipótese H1 (contra hipótese, ou hipótese alternativa) estabelece
que as variâncias são provenientes de populações diferentes e, mais ainda, a
variância da primeira é maior que a variância da segunda. Os valores de F são
tabelados em função dos graus de liberdade das estimativas de s2 do
numerador (n1) e do denominador (n2) no cálculo da estatística F e para
diferentes valores de níveis de significância (5%, 1%, etc.). Também podem ser
fornecidos por comandos do programa R.
0 1 2 3 4
0
.0
0
.1
0
.2
0
.3
0
.4
0
.5
0
.6
0
.7
Distribuição F(4,40,0.05)
P
ro
b
a
b
il
id
a
d
e
95% 5%
2,61
Estatística Experimental
28
Regra de decisão para o teste da estatística F
Todos os possíveis valores que o teste estatístico pode assumir são pontos no
eixo horizontal do gráfico da distribuição do teste estatístico e é dividido em
duas regiões; uma região constitui o que denominamos de região de rejeição e
a outra região constitui o que denominamos de região de não rejeição. Os
valores do teste estatístico que formam a região de rejeição são aqueles
valores menos prováveis de ocorrer se a hipótese nula é verdadeira, enquanto
que os valores da região de aceitação são os mais prováveis de ocorrer se a
hipótese nula é verdadeira. A regra de decisão nos diz para rejeitar H0 se o
valor do teste estatístico calculado da amostra é um dos valores que está na
região de rejeição e para não rejeitar H0 se o valor calculado do teste
estatístico é um dos valores que está na região de não rejeição. O
procedimento usual de teste de hipóteses é baseado na adoção de um critério
ou regra de decisão, de tal modo que = P(Erro tipo I) não exceda um valor
pré-fixado. Porém, na maioria das vezes, a escolha de é arbitrária. Um
procedimento alternativo consiste em calcular o “menor nível de significância
para o qual a hipótese H0 é rejeitada, com base nos resultados amostrais”. Este
valor, denominado de nível descritivo do teste ou nível mínimo de significância
do teste, será denotado por valor de p ( “p-value”). Todos os modernos
programas computacionais fornecem este valor nos testes estatísticos.
A representação gráfica a seguir mostra uma ilustração da regra de
decisão do teste F, visto anteriormente,
Exemplo: Amostras aleatórias simples e independentes, após dois tipos
de esforços, do nível de glicose no plasma de ratos após uma experiência
traumática forneceram os seguintes resultados:
Esforço 1: 54 99 105 46 70 87 55 58 139 91
Esforço 2: 93 91 93 150 80 104 128 83 88 95 94 97
Estes dados fornecem suficiente evidência para indicar que a variância é
maior na população de ratos submetidos ao esforço 1 do que nos ratos
submetidos ao esforço 2. Quais as suposições necessárias para se aplicar o
teste?
0 1 2 3 4
0
.0
0
.1
0
.2
0
.3
0
.4
0
.5
0
.6
0
.7
Distribuição F(4,40,0.05)
P
ro
b
a
b
il
id
a
d
e
Região de não rejeição Região de rejeição
2,61
95% 5%
Estatística Experimental
29
Solução:
As variâncias amostrais são 9333852s21 , e 2424398s
2
2 , ,
respectivamente.
Suposições: Os dados constituem amostras aleatórias
independentes retiradas, cada uma, de uma população com
distribuição normal. (Esta é a suposição geral que deve ser
encontrada para que o teste seja válido).
Hipóteses estatísticas
2
2
2
11
2
2
2
10
:
:
H
H
Cálculo do Teste Estatístico
1417,2
2424,398
9333,852
2
2
2
1
s
s
Fc
Distribuição do Teste Estatístico: quando H0 é verdadeira a
estatística F tem distribuição F com n1 – 1 e n2 – 1 graus de
liberdade, ou seja, )05,0,11,9(F .
Regra de Decisão: fazendo %5 , o valor crítico de
896,2)05,0,11,9( F , então, rejeita-se H0 se 896,2cF . A ilustração
gráfica desta regra de decisão é mostrada a seguir,
Decisão estatística: não podemos rejeitar H0, dado que
2,1417<2,896; isto é, o Fc calculado caiu na região de não rejeição.
Conclusão: não podemos concluir que as variâncias dos esforços 1 e
2 são diferentes, o nível mínimo de significância do teste é p=0,1168
(p>0.05)
Script no R para o teste F
0 1 2 3 4
0
.0
0
.1
0
.2
0
.3
0
.4
0
.5
0
.6
0
.7
Distribuição F(4,40,0.05)
P
ro
b
a
b
il
id
a
d
e
Região de não rejeição Região de rejeição
2,896
2,1417
Estatística Experimental
30
# definição das variâncias das amostras e do nível de significância (alfa)
alfa<-0.05
v.y1<-852.933;v.y2<-398.2424;n.y1<-10;n.y2<-12
# calculo da estatística F
fc<-v.y1/v.y2
fc
# valor teórico desta distribuição para alfa=0,05
ft<-qf(1-alfa,n.y1-1,n.y2-1)
ft
# valor de p associado a estatística calculada fc
valor.p<-1-pf(fc,n.y1-1,n.y2-1)
Exemplo da construção do gráfico de uma distribuição F com graus de
liberdade 5 e 6 e a 5%.
#valor tabelado da distribuição F(5, 6.,0,05) junto com o gráfico
ft=qf(0.95,5,6)
# valor tabelado
ft
# gráfico da distribuição
xv<-seq(0,4,0.01) # gerando uma sequência de números de 0 a 4
yv<-df(xv,4,40) # gerando os valores de
# distr. F(4,40) com a sequencia xv
plot(xv,yv,type="l",main="Distribuição F(4,40,0.05)",
ylab="Probabilidade",xlab="",lwd=3) # gráfico da distribuição F
fcr=qf(0.95,4,40);fcr # valor crítico para alfa=5%
lines(c(fcr,fcr),c(0,0.6),
col=2,lwd=2,pch=2) # linha sinalizando o valor crítico
# preenchimento da área sob a curva acima do valor crítico
polygon(c(xv1[xv1>=2.605975],2.605975),
c(yv1[xv1>=2.60975],yv1[xv1==4]),col="red")
4 Análise de variância
Embora o teste F possa ser aplicado independentemente, a sua maior
aplicação é na análise de variância dos Delineamentos Experimentais. Vamos
considerar os seguintes dados de Delineamento Inteiramente Casualizado,
(DIC).
Tratamentos
Repetições
1 2 3 4
A 12,4 15,2 14,3 12,6
B 13,2 16,2 14,8 12,9
C 12,1 11,3 10,8 11,4
D 10,9 9,8 9,4 8,3
22 Te
Dentro de um mesmo tratamento o valor observado nas diferentes
repetições não é o mesmo, pois estes valores estão sujeitos à variação ao
2
e
Estatística Experimental
31
acaso ( e
2 ). Quando passamos de um tratamento para outro, os dados também
não são iguais, pois estes estão sujeitos a uma variação do acaso acrescida de
uma variação devida ao efeito do tratamento, i.é, 22 Te
Quadro da análise de variância do DIC
Considere os dados do exemplo anterior, onde tínhamos 4 tratamentos
(k=4) e 4 repetições. A Tabela da Análise de variância fica sendo
Fonte de variação G.L. Soma de Quadrados Quadrado médio Estatística F
Entre k - 1
kr
y
r
yk
i
i
2
1
2 )(
1
...
k
TratQS
.Re..
...
sMQ
TratMQ
Dentro n - k
k
i
r
j
k
i
i
ij
r
y
y
1 1 1
2
2 )(
kkr
sQS
.Re..
Total n - 1
k
i
r
j
ij
kr
y
y
1 1
2
2 )(
Deste quadro notamos que o Quadrado médio do resíduo estima a
variação casual (do resíduo) 2e . Enquanto que o quadrado médio dos
tratamentos estima a variação casual (resíduo) acrescida de uma possível
variância devido ao efeitodos tratamentos ( 22 Te ), então
2
22
e
TeF
Se não houver efeito dos tratamentos os dois quadrados médios
(Quadrado médio dos tratamentos e quadrado médio do resíduo) estimam a
mesma variância, o que implica o valor de F 1,0, e qualquer diferença que
ocorra entre os valores médios dos tratamentos é meramente casual.
5 Teste t – Student.
Considere uma outra retirada de amostras repetidas de um determinado
tamanho, por exemplo, r = 5 de uma população normal. Para cada amostra
calcule a média y o desvio padrão, s , o erro padrão da média ys e uma outra
estatística
y
c
s
y
t
Graficamente temos
-3 -2 -1 0 1 2 3
0
.0
0
.1
0
.2
0
.3
0
.4
População Normal
x
P
ro
b
a
b
il
id
a
d
e
Estatística Experimental
32
1
1
1
1
2
1
2
2
1
1
2
1
2
2
1
;
5
;
15
)(
...........................................................2
;
5
;
15
)(
1
y
my
i
m
y
y
i
s
y
t
s
s
yy
smamostra
amostra
s
y
t
s
s
yy
samostra
m
Organizando estes milhares de valores da estatística t em distribuição
de freqüência. Esta distribuição de freqüência tem a seguinte forma
Existe uma única distribuição t para cada tamanho de amostra. Neste
exemplo em que r = 5 (repetições = 5), 2,5 % dos valores de t serão maiores ou
iguais do que 2,776 e 2,5% serão menores ou iguais do que -2,776. Os valores
da estatística t – student são apresentados em tabelas (ver Tabela da
distribuição t ). Por exemplo, para 10 graus de liberdade, o valor tabelado
esperado para t com probabilidade de 0,01 (1%) é 3,169. A distribuição t –
student converge rapidamente para a distribuição normal. Quanto maior for a
amostra maior é aproximação da distribuição t – student com a distribuição
normal. Quando os valores de t são calculados em amostras de tamanho r =
60, estes são bem próximos dos valores da distribuição normal.
Script no R para a obtenção dos valores teóricos da distribuição t-
student
#valor teórico da distribuição t-student pela função qt( ) para alfa=0.01 e 10
#graus de liberdade
alfa<-0.01
qt(1-alfa/2,10)
#valor teórico da distribuição t-student para alfa=0.05 e 10 graus de liberdade
alfa<-0.05
qt(1-alfa/2,10)
Regra de decisão para a estatística t-student
-3 -2 -1 0 1 2 3
0
.0
0
.1
0
.2
0
.3
Distribuição t-student com 4 graus de liberdade
P
ro
b
a
b
il
id
a
d
e
Valor cr’tico: -2,77 Valor crítico: 2,77
área 95%
área 2,5% área 2,5%
Estatística Experimental
33
Todos os possíveis valores que o teste estatístico pode assumir são
pontos no eixo horizontal do gráfico da distribuição do teste estatístico e é
dividido em duas regiões; uma região constitui o que denominamos de região
de rejeição e a outra região constitui o que denominamos de região de
aceitação. Os valores do teste estatístico que formam a região de rejeição são
aqueles valores menos prováveis de ocorrer se a hipótese nula é verdadeira,
enquanto que os valores da região de aceitação são os mais prováveis de
ocorrer se a hipótese nula é verdadeira. A regra de decisão nos diz para
rejeitar H0 se o valor do teste estatístico calculado da amostra (tc) é um valor
que está na região de rejeição e para não rejeitar H0 se o valor calculado do
teste estatístico é um dos valores que está na região de aceitação. Em
particular, no caso do teste t – student a regra de decisão fica sendo: rejeita-se
H0 se
)
2
,1(
n
c tt . Outra forma de se tomar decisão sobre rejeitar ou não
rejeitar H0 é pelo valor de p associado ao valor calculado da estatística tc . Se
050p , não se rejeita H0 , caso contrário ( 050p , ) rejeita-se H0 . Neste caso
não há necessidade de se consultar a Tabela teórica da distribuição t-student.
Exemplo: Em um hospital veterinário amostras de soro de amilase de 15
animais sadios e 22 animais hospitalizados foram colhidas. Os resultados da
média e dos desvios-padrões foram os seguintes:
mlunidades35smlunidades96y
mlunidades40smlunidades120y
22
11
/,/
/,/
Neste exemplo, o erro padrão amostral ys da fórmula da estatística t,
será substituído pelo erro padrão da média “pooled”, ou seja,
)1()1(
)1()1(
21
2
22
2
112
rr
srsr
sP
Cálculos:
Suposições: os dados constituem duas amostras independentes,
cada uma, retirada de uma população normal. As variâncias
populacionais são desconhecidas e assumidas iguais;
Hipóteses:
211
210
:
:
H
H
;
Teste estatístico:
2
2
1
2
2121 )()(
r
s
r
s
yy
t
pp
c
;
Estatística Experimental
34
Distribuição do teste estatístico: quando H0 for verdadeira, o teste
segue uma distribuição t – Student com r1 + r2 – 2 graus de liberdade;
Regra de decisão: Rejeita-se H0 se
)
2
;2( 21
rr
c tt , neste exemplo,
030,2ct ;
Cálculo do teste estatístico: primeiro o cálculo da variância amostral
93,1
42,12
24
22
1375
15
1375
0)96120(
1375
2114
)35(21)40(14 222
c
p
t
es
Decisão estatística: não se rejeita H0, visto que
- 030,288,1030,2 , ou seja, 1,88 está na região de não rejeição;
Conclusão: com base nestes dados não podemos concluir que as
médias das duas populações são diferentes. Neste teste o nível
mínimo de significância do teste é p= 0,069 (p>0,05).
Script no R para resolver o exemplo acima
# definição das médias, dos desvio padrões e do tamanho das amostras
m.y1<-120;m.y2<-96;sd.y1<-40;sd.y2<-35;n.y1<-15;n.y2<-22
# calculo da variância “pooled”
v.pool<-((n.y1-1)*sd.y1^2+(n.y2-1)*sd.y2^2)/((n.y1-1)+(n.y2-1))
v.pool
# calculo da estatistica t
tc<-(m.y1-m.y2)/sqrt(v.pool/n.y1+v.pool/n.y2)
tc
# valor de t tabelado a 5% e 35 graus de liberdade
alfa<-0.05
t.tab <- qt(1-alfa/2,35)
t.tab
# valor de p correspondente a este valor de t
# multiplica-se o valor de p por 2 pois o teste é bi-lateral
valor.p <- 2*(1-pt(tc,35))
valor.p
Estatística Experimental
35
2º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL
1- A tabela abaixo mostra a porcentagem de gordural corporal para vários homens e mulheres.
Estas pessoas participaram de um programa de controle de peso de três vezes por semana por
um ano. As medidas referem-se a porcentagem de gordura de seus corpos.
Homens 13,3 19,0 20,0 8,0 18,06 22,0 20,0 31,0 21,0
12,0 16,0 12,0 24,0
Mulheres 22,0 26,0 16,0 12,0 21,7 23,2 21,0 28,0 30,0
23,0
a) Faça um gráfico de barras e um gráfico boxplot para cada grupo
a) Quais as suposições sob as quais o teste F pode ser aplicado.
b) Podemos concluir que a variabilidade do grupo das mulheres seja maior que o do grupo
homens. (Use 010e050 ,, ).
2- Em um estudo, a seguintes contagens de linfócitos foi obtido em vacas de dois anos da raça
Holstein e de vacas de dois anos da raça Guernseys. Os resultados estão na Tabela abaixo:
Holstein 5166 6080 7290 7031 6700 8908 4214 5135 5002
4900 8043 6205 3800
Guernseys 6310 6295 4497 5182 4273 6591 6425 4600 5407
5509
Calcular:
a)- a média geral, um gráfico de barras, um gráfico boxplot para cada raça, a média de cada
raça, a variância amostral e o desvio-padrão de cada raça;
b)- declare as suposições sob as quais o teste t –student, para amostras independentes, pode
ser aplicado;
c)- teste se as variâncias das duas populações são iguais. (Teste F)
d)- em função do resultado do teste do item c) podemos concluir que a contagem de linfócitos
nas duas raças diferem assumindo que as variâncias são desconhecidas e iguais? Considere
%5 .
3- Retirou-se 5 amostras de tamanho 5 de uma população N( ,
2
). Para cada amostra foi
aplicado um antiparasitário (tratamentos). Em seguida os pesos dos animais foram analisados
para cada tratamento. Teste se existe efeitode antiparasitário no peso dos animais, ou seja,
teste a hipótese estatística,
jiparaH
H
ji
1
5210 ...
Os tratamentos (antiparasitários) e os pesos, em quilogramas, dos animais estão dados na
tabela abaixo:
Tratamentos
Neguvon Methiridim TH Haloxon Controle
330 315 298 286 279
314 304 289 273 240
331 307 273 269 266
311 320 240 278 269
320 305 121 274 250
(Média) ( jy )
(Variância)
2
iS
(Desvio padrão) iS
Roteiro dos cálculos:
a)- Faça uma estimativa da
2
através de:
15
)(
,
5
...
5
1
2
222
2
5
2
2
2
12
i
j
yyED
yy
ssendorssdee
sss
s
Estatística Experimental
36
Calcule a estatística
2
2
D
E
s
s
F e compare com o valor teórico da distribuição F a 5%, sendo SD
= variância dentro dos tratamentos e SE = variância entre os tratamentos.
4- Obter por meio das tabelas das distribuições F e t os valores de
a)- )01,0,12,11()05,0,12,11()01,0,15,10()05,0,15,10()01,0,6,5()05,0,6,5( ;;;;; FFFFFF .
b)- ;;;;;; )20,0,18()10,0,10()05,0,16()025,0,15()01,0,7()05,0,7( tttttt
(faça os desenhos das distribuições com os respectivos valores). Finalmente, obtenha os
mesmos valores e os mesmos gráficos no R
Estatística Experimental
37
Aula 3- Delineamento inteiramente casualizado (DIC)
1 Introdução
O DIC é mais simples dos delineamentos. Os tratamentos se distribuem
ao acaso em todas as unidades experimentais e o número de repetições por
tratamento pode ser igual ou diferente. O DIC é muito utilizado para estudos
de métodos, técnicas de trabalhos em laboratório, ensaios de vegetação e em
experimentos com animais. Para sua aplicação, há necessidade que o meio
atue de forma uniforme em todas as unidades experimentais e que estas sejam
facilmente identificadas para receber o tratamento.
Vamos começar com um exemplo:
Em um estudo do efeito da glicose na liberação de insulina, 12
espécies de tecido pancreático idênticas foram subdivididas em três
grupos de 4 espécies cada uma. Três níveis (baixo - tratamento 1,
médio tratamento - 2 e alto tratamento - 3) de concentrações de
glicose foram aleatoriamente designados aos três grupos, e cada
espécie dentro de cada grupo foi tratado com o nível de
concentração de glicose sorteado a eles. A quantidade de insulina
liberada pelos tecidos pancreáticos amostrados são as seguintes:
33
Tratamento Repetições
1 2 3 4
ri
Total
Média
Variância
T1
T2
T3
1,59
3,36
3,92
1,73
4,01
4,82
3,64
3,49
3,87
1,97
2,89
5,39
4
4
4
8,93
13,75
18,00
2,23
3,44
4,50
0,91
0,21
0,54
Total 12 40,68
Este é um estudo experimental com 12 unidades experimentais (amostras de
tecido pancreático) e k=3 tratamentos. Cada tratamento é um nível de fator
simples: concentração de glicose. Existem 4 repetições para cada tratamento.
Os dados, quantidade de insulina liberada pelo tecido pancreático podem ser
considerados como três amostras aleatórias, cada uma com r=4 repetições, ou
de tamanho r=4 sorteadas de três populações.
Estatística Experimental
38
Dado que os tratamentos são designados às unidades experimentais
completamente ao acaso, este delineamento é denominado de
DELINEAMENTO INTEIRAMENTE AO ACASO (DIC). Em geral, em um DIC,
um número fixo de k tratamentos são sorteados às N unidades experimentais
de tal forma que o i-ésimo tratamento é sorteado a exatamente ri unidades
experimentais. Assim, ri é o número de repetições do i-ésimo tratamento e
Nrrrr k ...321 . No caso em que ri são iguais, i.é., rrrrr k ...321 ,
então rkN e o delineamento é balanceado.
Notação:
Repetições
Tratamento
1 2 3 ... j ... r Total Média
1 y11 y12 y13 ... ... ... y1r
1y 1y
2 y21 y22 y23 ... ... ... y2r
2y 2y
3 y31 y32 y33 ... ... ... y3r
2y 2y
.
.
.
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
yij
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
k yk1 yk2 yk3 ... ... ... ykr
ky ky
N=rk
y y
Convenções:
ii yey representam, respectivamente, o total e a média do i-
ésimo tratamento, respectivamente,
yey representam, respectivamente, o total geral (soma de
todas as observações) e a média geral de todas as observações.
2 Quadro da Análise de Variância (ANOVA)
O método da análise de variância pode ser visto como uma extensão do
teste t de student para amostras independentes. Como no teste t de amostras
independentes, o método da ANOVA compara uma medida da magnitude da
variabilidade observada dentro das k amostras com uma medida da
variabilidade entre as médias das k amostras.
3 Modelo matemático do DIC com efeitos de tratamentos fixos
O modelo associado ao DIC com efeitos fixos é
ijiij ey ,
sendo,
ijy é a observação na unidade experimental que recebeu o i-ésimo
tratamento na j-ésima repetição;
é a média geral comum a todas as observações definida como
,1
N
r
k
i
ii
com i a média populacional do i-ésimo tratamento;
Estatística Experimental
39
i o efeito do i-ésimo tratamento na variável dependente Y e mede
o afastamento da média i em relação a , isto é, ii ; e
i je é um erro casual não observável.
Pela definição de e i acima, temos que este modelo possui a
restrição
k
i
ii i
n
1
,0 pois, 0)(
111
ii
k
i
ii
k
i
ii
k
i
i nnnn .
4 Suposições associadas ao modelo
As suposições usualmente associadas aos componentes do modelo do
DIC são que os i je são variáveis aleatórias independentes e identicamente
distribuídas com distribuição ),( 20N . Como os ijy são funções lineares dos
i je , das suposições sobre os erros decorre que:
iiijyE )( ;
;)( 2ijyVar
ijy são normalmente distribuídos e independentes, ou,
resumidamente que ),(~ 2iij Ny .
Portanto, estamos supondo que as observações do experimento a ser
analisado correspondem a amostras aleatórias de k populações normais com a
mesma variância e que podem ou não ter médias diferentes. A figura abaixo
representa graficamente esse fato, considerando, no caso, três tratamentos.
1 2 3
Figura: Ilustrações das suposições do modelo matemático associado ao
DIC com um fator fixo.
5 Hipóteses estatísticas
A Hipótese geral é:
0H k210 ...: ,
ou seja, vamos testar a não existência de efeito do fator (tratamento).
6 Partição da soma de quadrados
Voltemos ao quadro de representação das observações no DIC na
página 30
Podemos identificar os seguintes desvios:
1
2
3
Estatística Experimental
40
yy ij , como o desvio de uma observação em relação a média
amostral geral;
iij yy , como o desvio da observação em relação à média de seu
grupo ou do i-ésimo tratamento;
yy i , como o desvio da média do i-ésimo tratamento em
relação á média geral.
Consideremos a identidade
)()()( yyyyyy iiijij ,
a qual diz que a “ a variação de uma observações em relação à média geral
amostral é igual à soma variação desta observação em relação à média de
seu grupo com a variação da média do i-ésimo tratamento em que se encontra
esta observação em relação à média geral amostral “. Elevando-se ao
quadrado os dois membros da identidade acima e somando em relação aos
índices i e j, obtemos:
2
1
2
1 1 11
2 )()()(
yyryyyy i
k
i
i
k
i
r
j
k
i
r
j
iijij
i i
,
os duplos produtos são nulos.
O termo
k
i
r
j
ij
i
yy
1 1
2)( ,
é denominado de Soma de Quadrados Total e vamos denotá-lo por SQT.O
número de graus de liberdade associado à SQT é kr - 1, ou N – 1, pois temos N
observações e a restrição
k
1i
r
1j
ij
i
0yy )( .
A componente:
k
i
r
j
iij
i
yy
1 1
)( ,
é denominada de Soma de Quadrados Residual, representada por SQR, e é
uma medida da homogeneidade interna dos tratamentos. Quanto mais
próximas estiverem as observações dentro de cada grupo (tratamento), menor
é a SQR. Notem que a magnitude da SQR não depende da diferença entre as
médias dos tratamentos. Considerando apenas o i-ésimo tratamento, temos
que
ir
j
iij yy
1
2)(
possui ri – 1 graus de liberdade. Assim, o número de graus de liberdade
associado à SQR é:
k
i
i kNkkrr
1
)1( .
A componente 2
1
)(
yyr i
k
i
i , mede a variabilidade entre as médias
dos tratamentos e por isso é denominada de Soma de Quadrados Entre
Tratamentos, representada por SQTr. Quanto mais diferentes entre si forem
Estatística Experimental
41
as médias dos tratamentos, maior será a SQTr. Desde que temos k
tratamentos e a restrição de que
0)(
1
yyr i
k
i
i ,
A SQTr possui k - 1 graus de liberdade. Com esta notação, podemos
escrever que:
SQT = SQR + SQTr.
6 Quadrados médios
Dividindo a SQR e SQTr pelos seus correspondentes graus de
liberdade, obtemos, respectivamente o Quadrado Médio Residual (QMR) e o
Quadrado Médio Entre Tratamentos (QMTr), isto é,
1
k
SQTr
QMTre
kN
SQR
QMR
7 Estatística e região crítica do teste
A estatística para o teste é
QMR
QMTr
Fc ,
a qual, deve ser próximo de 1 se H0 for verdadeira, enquanto que valores
grandes dessa estatística são uma indicação de que H0 é falsa. A teoria nos
assegura que Fc tem, sob H0 distribuição F – Snedecor com (k -1) e (N – k)
graus de liberdade. Resumidamente, indicamos:
0),1( ,~ HsobFF KNkc .
Rejeitamos H0 para o nível de significância se
,),,1( KNkc FF
sendo, ),,( KN1kF o quantil de ordem )( 1 da distribuição F-Snedecor com
(k -1) e (N – k) graus de liberdade. Graficamente temos:
8 Quadro da análise de variância (ANOVA)
Dispomos as expressões necessárias ao teste na Tabela abaixo
denominada de Quadro de Análise de Variância (ANOVA).
Estatística Experimental
42
Fonte de variação g.l. SQ QM Fc
Tratamentos (Entre)
k - 1 N
Y
r
Yir
i i
i
2
1
2 )(
1
k
SQTr
QMTr
QMR
QMTr
Resíduo (dentro dos trat.)
N - k
k
i
r
j
k
i
i
ij
r
Y
Y
1 1 1
2
2 )(
kN
SQR
QMR
TOTAL
N - 1
k
i
r
j
ij
N
Y
Y
1 1
2
2 )(
Pode-se provar que:
2)( QMRE , ou seja, QMR é um estimador não viesado da
variância 2 ;
k
i
i
k
r
QMTrE
1
2
)1(
)( , ou seja, QMTr é um estimador não
viesado da variância 2 se a hipótese 0...: 210 kH é
verdadeira.
9 Detalhes dos cálculos
Apresentaremos alguns passos que facilitam os cálculos das somas de
quadrados da ANOVA.
Calcule a correção para a média
N
y
CM
2)( ;
Calcule a Soma de Quadrados dos Totais (SQT)
CMySQT
k
i
r
j
ij
i
1 1
2 ;
Calcule a Soma de Quadrados Entre os Tratamentos (SQTr)
CM
r
Y
SQTr
ir
i i
i
1
2
;
Calcule a Soma de Quadrados Residual (SQR) pela diferença, isto
é, SQTrSQTSQR ;
Calcule os Quadrados Médios Entre os Tratamentos (QMTr) e o
Quadrado Médio Residual (QMR)
kN
SQR
QMRe
k
SQTr
QMTr
1
Calcule Fc para tratamentos
QMR
QMTr
Fc
Notem que estas fórmulas computacionais assumem que existe ri
repetições para o i-ésimo tratamento; consequentemente, para um experimento
balanceado com r repetições para cada tratamento, ri deve ser substituído por
r. Estas várias soma de quadrados obtidas nestes cinco passos podem ser
resumidas no quadro da ANOVA apresentado no item 8.
10 Exemplo 1
Vamos considerar os dados apresentados no item 1. Desejamos testar a
hipótese nula
jiparummenospeloparaH
H
ji
:
:
1
3210
Estatística Experimental
43
Os cálculos para montarmos o quadro da ANOVA são: temos k = 3, r =
4, e N = 3 x 4 =12. Então
Graus de liberdade:
9312kNsiduo
2131kTrat111121NTotal
Re
.;
91,137
12
)68,40( 2
CM
28,1518,13718,153)39,5(...)73,1()59,1( 222 CMSQT
30109113720148CM
4
0018
4
7513
4
938
SQTr
222
,,,
),(),(),(
98430102815SQTrSQTSQR ,,,
550
9
984
QMRe155
2
3010
QMTr ,
,
,
,
319
550
984
QMR
QMTr
Fc ,
,
,
O quadro da ANOVA para a variável insulina liberada é o seguinte:
Das tabelas das distribuições F, temos que
0228Fe2574F 0109205092 ,, ),,,(),,,( . O valor Fc=9,31 é maior do que estes
valores tabelados, então rejeitamos a hipótese nula H0 para %,, 1ou010
de probabilidade (se é significativo a 1%, logo também é significativo a 5%).
Podemos concluir que, para um nível de %,, 1ou010 , que a quantidade de
insulina liberada é diferente para pelo menos dois níveis de glicose.
Script da resolução do exemplo 1 no R
#
# exemplo 1 da Aula 3 (DIC) pg 36
#
# entrando com o número de repetições
r <- 4
Fonte de var. g.l. SQ QM Fc
Tratamentos (Entre) 2 10,30 5,15 9,31
Resíduo (dentro dos tratamentos) 9 4,98 0,55
TOTAL 11 15,28
Estatística Experimental
44
# entrando com os dados
insulina <- c(1.59, 1.73, 3.64, 1.97, 3.36, 4.01, 3.49, 2.89, 3.92, 4.82, 3.87,
5.39)
# entrando com os níveis da insulina (Tratamentos)
trat <- c(rep("Baixo", r), rep("Medio", r), rep("Alto", r))
m.geral<- mean(insulina) # calculando a média geral
# estabelecendo o objeto trat com fator e guardando no próprio objeto trat
trat <- factor(trat)
trat
# armazenando os nomes dos níveis dos fatores
n.trat <- levels(trat)
# aplicando o comando tapply ao objeto insulina para o cálculo dos
# totais dos tratamentos
t.trat <- tapply(insulina, trat, sum)
t.trat
# aplicando o comando tapply ao objeto insulina para o cálculo das
# médias dos tratamentos
m.trat <- tapply(insulina, trat, mean)
m.trat
# aplicando o comando tapply ao objeto insulina para o cálculo dos
# desvio-padrões dos tratamentos
sd.trat <- tapply(insulina, trat, sd)
sd.trat
# mostrando o s gráficos box plot para cada tratamento
boxplot(insulina~trat, horizontal=T,xlab="Quantidade de
insulina",col="blue")
boxplot(insulina~trat, vertical=T,ylab="Quantidade de
insulina",col="green")
# fazendo a análise de variância
insulina.av <- aov(insulina~trat)
#imprimindo o quadro da anova
summary(insulina.av)
Quadro da anova fornecido pelos comandos básicos do R
Df Sum Sq Mean Sq F value Pr(>F)
trat 2 10.2967 5.1483 9.3054 0.006445 **
Residuals 9 4.9794 0.5533
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Estatística Experimental
45
Notem que os comandos do script acima não fornecem os resultados do
da fonte de variação do Total e por outro lado fornecem uma coluna a mais
referente a Pr(>Fr) com o valor de p (p-value) da estatística F.
Outra forma de obter o quadro da ANOVA é pela função crd( ) do pacote
ExpDes. Pacotes (packages) ou bibliotecas (library) são os nomes mais
usados para designar conjuntos de funções, exemplos, e documentações
desenvolvidas para determinadas tarefas. Os comandos básicos doR, por
exemplo, estão em uma biblioteca chamada base. Existem inúmeras
bibliotecas, algumas já inclusas na instalação do R. No R podem-se encontrar
pacotes desenvolvidos pelos responsáveis pelo R ou implementados por
usuários.
# instalando o pacote ExpDes (Experimental Designs)
#
install.packages("ExpDes")
# requerendo o ExpDes
require(ExpDes)
# sintaxe do comando que faz a ANOVA no ExpDes
# crd(treat, resp, quali = TRUE, mcomp = "tukey", sigT = 0.05, sigF = 0.05)
crd(trat,insulina,mcomp=F)
Resultados da anova pelo comando da pacote ExpDes
------------------------------------------------------------------------
Analysis of Variance Table
------------------------------------------------------------------------
DF SS MS Fc Pr>Fc
Treatament 2 10.2967 5.1483 9.3054 0.0064452
Residuals 9 4.9794 0.5533
Total 11 15.2760
------------------------------------------------------------------------
CV = 21.94 %
Podemos chegar a mesma conclusão anteriormente, simplesmente analisando
o valor de p (Pr>Fc, (p=0,006445)), o qual é bem menor que 0,01. Assim, sem
recorrer à tabela F, concluímos que o teste F é significativo pelo valor de p
(p=0,006445) fornecido pela função crd() do ExpDes, rejeitamos H0 e
concluímos que a quantidade de insulina liberada é diferente para pelo menos
dois níveis de glicose.
O R, por meio do comando aov( ) armazena os valores da tabela da
anova acima na forma matricial (2 x 5), ou seja, para obtermos, por exemplo, o
valor da soma de quadrados dos tratamentos (SQTr), definimos o seguinte
objeto
sqtr <- anova(insulina.av)[1,2].
A soma de quadrados do resíduo é obtida definindo o objeto
sqr <- anova(insulina.av)[2,2].
Reparem que insulina.av é o objeto que recebeu os resultados do
quadro da análise de variância no script R listado anteriormente.
O esquema das posições de armazenamento dos resultados do quadro
da anova do DIC no R é
Estatística Experimental
46
Df Sum Sq Mean Sq F value Pr(>F)
trat [1,1] [1,2] [1,3] [1,4] [1,5]
Residuals [2,1] [2,2] [2,3]
Para obter o valor do quadrado médio de resíduo basta digitar e
executar o comando anova(insulina.av)[2,3]
Uma forma de se obter ajuda de alguma função no R é por meio da
execução do comando ??nome da função(). Por exemplo, para se obter uma
ajuda da sintaxe da função mean deve-se executar o comando ??mean().
Informações sobre o pacote ExpDes(), basta executar o comando ??ExpDes(),
e clicar nos passos indicados abaixo
ExpDes::ExpDes-package/
Index/
Documentation for package ‘ExpDes’ version 1.1.2/ExpDes-package/
crd
Onde aparecerá a explicação
crd(treat,resp,quali=TRUE,mcomp="tukey",sigT=0.05,sigF=0.05)
sendo:
treat Vetor numeric contendo os tratamentos;
resp Vetor numeric contendo a variável resposta;
quali Logico. Se TRUE (default), os tratamentos são assumidos qualitativos, se
FALSE, quantitativos;
mcomp Permite a escolha do teste de comparação múltiplo; o “default”é o teste de
Tukey, entretanto, as optções são: o teste LSD ('lsd'), o teste LSD com a
proteção de Bonferroni ('lsdb'), o teste de Duncan ('duncan'), o teste de
Student-Newman-Keuls ('snk'), o teste de Scott-Knott ('sk') e o teste de
comparação múltipla bootstrap ('ccboot');
sigT A significância a ser usada para o teste de comparação múltipla; o “default” é
5%;
sigF A significância a ser usada no teste F da ANOVA; o “default” é 5%,
os argumentos desta função.
11 Exemplo 2
Em um experimento em que se mediu o peso corporal (kg), 19 porcos
foram distribuídos aleatoriamente a 4 grupos. Cada grupo foi alimentado com
dietas diferentes. Deseja-se testar se oos pesos dos porcos são os mesmos
para as 4 dietas.
Desejamos testar a hipótese nula
jiparummenospeloparaH
H
ji1
43210
:
:
As observações obtidas foram:
Tratamento Repetições
1 2 3 4 5
Dieta 1 60,8 57,7 65,0 58,6 61,7
Dieta 2 68,7 67,7 74,0 66,3 69,8
Dieta 3 102,6 102,1 100,2 96,5 *
Dieta 4 87,9 84,2 83,1 85,7 90,3
http://127.0.0.1:15067/library/ExpDes/html/ExpDes-package.html
Estatística Experimental
47
Temos um experimento desbalanceado com número de repetições
desigual para os tratamentos. Então, os cálculos para montarmos o quadro da
ANOVA são:
Graus de liberdade:
15419kNs
3141kTrat181191NTotal
Re
.;
44115736
19
91482
CM
2
,
),(
754325
4411573619120062CM390860SQT 22
,
,,),(...),(
0742024411573652119938
CM
5
2431
4
4401
5
5346
5
8303
SQTr
2222
,,,
),(),(),(),(
67123074202754325SQTrSQTSQR .,,
24,8
15
67,123
69,1400
3
07,4202
QMReQMTr
89169
248
691400
QmR
QMTr
Fc ,
,
,
O quadro da ANOVA para a variável peso (kg) é o seguinte:
Fonte de var. g.l. SQ QM Fc
Tratamentos 3 4202,07 1400,69 169,89
Resíduo 15 123,67 8,24
TOTAL 18 4325,75
Script no R para resolver o exemplo 2
Atenção, antes de rodar este script é necessário remover todos os
objetos definidos no script do exemplo 1 com o comando
rm(list=ls(all=TRUE)), ou pelo atalho na aba do menu da janela da console
clicar em Misc/Remover todos os objetos
# exemplo 2 da Aula 3 (DIC) pg 46
# entrando com os dados de peso corporal
pc <- c( 60.8, 57.7, 65.0, 58.6, 61.7,
68.7, 67.7 , 74.0, 66.3, 69.8,
102.6, 102.1, 100.2, 96.5,
81.9, 84.2, 83.1, 85.7, 90.3)
# entrando com os níveis dos tratamentos
trat <- c(rep("Dieta1", 5), rep("Dieta2", 5), rep("Dieta3", 4), rep( "Dieta4",5))
# estabelecendo o objeto trat como fator e guardando no próprio objeto trat
trat <- factor(trat)
trat
# imprimindo os niveis do fator trat
Estatística Experimental
48
n.trat<-levels(trat)
n.trat
# calcula a soma da cada tratamento e guarda em um objeto t.trat
t.trat <- tapply(pc, trat, sum)
t.trat
# calcula a média da cada tratamento e guarda em um objeto m.trat
m.trat <- tapply(pc, trat, mean)
m.trat
# calcula o desvio padrão de cada tratamento e guarda em um objeto sd.trat
sd.trat <- tapply(pc, trat, sd)
sd.trat
# mostrando os gráficos box plot para cada nivel de glicose na horizontal
boxplot(pc~trat, horizontal=T,xlab="Peso corporal (Kg)",col="blue")
# mostrando os gráficos box plot para cada nivel de glicose na vertical
# boxplot(pc~trat, vertical=T,ylab="Peso corporal (Kg)",col="green")
# fazendo a análise de variância pela função aov( )
pc.av <- aov(pc~trat)
summary(pc.av) # imprimindo o quadro da anova
Quadro da anova fornecido pelos comandos básicos do R
Df Sum Sq Mean Sq F value Pr(>F)
trat 3 4202 1400.7 169.9 8.45e-12 ***
Residuals 15 124 8.2
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
O símbolo *** na frente do valor de p (p=8.45e-12) é o código de
significância fornecido pelo R. No caso indica que o teste é significativo para
um valor de muito pequeno em torno de 0,01%.
Obtendo o quadro da ANOVA pela função crd( ) do pacote ExpDes
Atenção! Dado que o pacote ExpDes já foi instalado em seu computador, não
há necessidade de se instalá-lo novamente, basta requerê-lo pelos comandos
require(nome do pacote ) ou library(nome do pacote ).
# requrendo o pacote ExpDes
require(ExpDes)
# comando que faz a ANOVA no ExpDes
# crd( ) – (completely random design)
crd(trat,pc,mcomp=F)Quadro da anova fornecido pela função crd( ) do pacote ExpDes
Estatística Experimental
49
-------------------------------------------------------------------------------
Analysis of Variance Table
-------------------------------------------------------------------------------
DF SS MS Fc Pr>Fc
Treatament 3 4202.1 1400.69 169.88 8.4501e-12
Residuals 15 123.7 8.24
Total 18 4325.7
--------------------------------------------------------------------------------
CV = 3.68 %
A forma tradicional de interpretar o resultado do teste F da anova é
consultar as tabelas das distribuições F. Desta consulta, temos que
4175Fe2873F 010153050153 ,, ),,,(),,,( . O valor da estatística Fc=169,89 é bem
superior que estes valores tabelados, assim, o valor desta estatística fornecida
pelos dados esta na região de rejeição de H0 , logo rejeitamos a hipótese nula
H0 a um nível %,, 1ou010 de probabilidade (se é significativo a 1%, logo
também é significativo a 5%).
Atenção! Pode-se chegar a esta mesma conclusão analisando somente
pelo valor de p associado à estatística F calculada, o qual é apresentado na
forma exponecial p=8,45 e-12 ou p=8,45 x 10-12, bem menor que 0,001,
portanto significativo a 0,1%.
Graficamente a regra de decisão fica
Evidentemente que o valor 189,88 esta bem a direita do valor crítico
5,417, assim podemos concluir que, para um nível de
%,,, 010ou0010 , que os pesos dos porcos são diferentes para pelo
menos duas dietas.
12 Estimadores de mínimos quadrados.
Nesta seção mostraremos os estimadores dos termos do modelo
matemático do DIC ijiij ey , os quais são obtidos minimizando-se a
expressão do erro deste modelo
k
i
r
j
ijij
i
yy
1 1
2)ˆ( ,
Estatística Experimental
50
em relação a ie , i=1, 2, ...k, sujeito a restrição
k
i
iir
1
0 . Assim
procedendo, obtemos os estimadores de ii e , , dados por
yyy ii ˆ,ˆ e de kiy iii ...,,2,1,ˆˆˆ .
Para construir um intervalo de confiança para a média de cada
tratamento, devemos notar que a estatística:
)(~ kn
i
ii t
r
QMR
y
,
i.é., tem distribuição t – Student com (n – k) graus de liberdade. Um intervalo de
confiança para i com um coeficiente de confiança )( 1 é dado pela
expressão
r
sQM
tyIC
kN
ii
Re
)1;(
);
2
(
,
sendo,
),( kN
2
t
o quantil de ordem )(
2
1
da distribuição t – Student com (n –
k) graus de liberdade, os mesmos graus de liberdade do resíduo da ANOVA.
Como exemplo, vamos considerar os dados do experimento
apresentado no item 1, cujos cálculos foram mostrados no item 10. As médias
destes dados são:
39,3
50,4
4
00,18
y ;44,3
4
75,13
y ; 23,2
4
8,93
321
y
ey
;
do quadro da ANOVA temos os valores de SQR para calcular
372,0
4
553,0
r
QMR
;
o valor de 262,2)9,025,0( t .
Assim, os intervalos são dados por:
841,0
4
553,0
262,2%)95;( iii yyIC
Resumindo temos o quadro a seguir
Nível baixo
de glicose
Nível médio
de glicose
Nível alto
de glicose
iy
2,23 3,44 4,50
%),( 95IC i
(1,389; 3,071) (2,599; 4,281) (3,659; 5,341)
Problema: identificar quais os níveis de glicose (tratamentos) que
tiveram efeitos não nulos sobre a liberação de insulina dos tecidos.
Script no R para o calculo dos intervalos de confiança do exemplo 1.
Atenção! É necessário executar novamente o script das páginas 39 e 40.
# definindo os objetos para o cálculo dos IC´s
# obtenção dos gl do residuo no quadro da anova
glr <- anova(insulina.av)[2,1]
glr
Estatística Experimental
51
# obtenção da QMR no quadro da anova
qmr <- anova(insulina.av)[2,3]
qmr
# intervalo de confiança para o nível baixo de glicose
ic.baixo <- m.trat[1] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r)
ic.baixo
# intervalo de confiança para o nível médio de glicose
ic.medio <- m.trat[2] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r)
ic.medio
# intervalo de confiança para o nível baixo de glicose
ic.alto <- m.trat[3] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r)
ic.alto
Como segundo exemplo, vamos considerar os dados do experimento
apresentado no item 11. As médias destes dados são:
13,7924,86
5
2,431
y
;35,100
4
4,401
y ;30,69
5
50,346
y ; 76,60
5
303,8
4
321
yégeralmédiaaee
y
do quadro da ANOVA temos o valor do QMR para calcular desvio
padrão médio para os tratamentos 1, 2 e 4 é
31,1
5
557,8
ir
QMR
. Para o terceiro tratamento o erro padrão
médio é 46,1
4
557,8
ir
QMR
o valor de 13142t 150250 ,);,( .
Assim, os intervalos são dados por:
3,46,1
4
557,8
1314,2%)95;(
4,2,1,31,1
5
557,8
1314,2%)95;(
iparayyICe
eiparayyIC
iii
iii
Resumindo temos o quadro abaixo
Dieta 1 Dieta 2 Dieta 3 Dieta 4
iy
60,76 69,30 100,35 86,24
%),( 95IC i
(58,02; 63,48) (66,56; 72,04) (97,29; 103,41) (83,50; 88,98)
Problema: identificar quais as Dietas (tratamentos) que tiveram efeitos
não nulos sobre o peso dos suínos.
Script no R para calcular os IC´s do exemplo 2. Antes porém execute
novamente o script do R descritos na página 40 e 42.
# definindo os objetos para o cálculo dos IC´s
Estatística Experimental
52
# definindo o vetor de repetições dos tratamentos
r<- c(5,5,4,5)
# obtenção dos gl do residuo no quadro da anova
glr <- anova(pc.av)[2,1]
glr
# obtenção da QMR no quadro da anova
qmr <- anova(pc.av)[2,3]
qmr
# intervalo de confiança para a Dieta1
ic.dieta1 <- m.trat[1] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r[1])
ic.dieta1
# intervalo de confiança para a Dieta2
ic.dieta2 <- m.trat[2] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r[2])
ic.dieta2
# intervalo de confiança para a Dieta3
ic.dieta3 <- m.trat[3] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r[3])
ic.dieta3
# intervalo de confiança para a Dieta4
ic.dieta4 <- m.trat[4] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r[4])
ic.dieta4
13 Coeficientes de determinação (R2) e de variação (CV)
A parte da Soma de Quadrados Total (SQT), a variação total nas
observações , que pode ser explicada pelo modelo matemático do DIC, é
denominada de coeficiente de determinação. Assim, o coeficiente de
determinação para modelo do DIC, ijiij ey , é definido como
%1002 x
SQT
SQTr
R .
Pode ser verificado que 1000 2 R e que %1002 R quando toda
variabilidade nas observações esta sendo explicada pelo modelo matemático
do DIC.
A variabilidade entre as unidades experimentais de experimentos
envolvendo diferentes unidades de medidas e/ou tamanhos de parcelas pode
ser comparada pelos coeficientes de variação, os quais expressam o desvio
padrão por unidade experimental como uma porcentagem da média geral do
experimento, ou seja,
%100x
y
S
CV
.
Da ANOVA sabemos que QMRS , daí resulta que
100*
y
QMR
CV .
Estatística Experimental
53
Como exemplo vamos considerar os dados do experimento apresentado
no item 1, cujos cálculos foram mostrados no item 10. Neste exemplo temos:
%4,67100
28,15
30,10
,30,1028,15
2
x
SQT
SQTr
R
entãoSQTreSQT
%88,21100*
39,3
55,0
100*
y
QMR
CV
Concluímos que 67,4% da variabilidade que existe nas observações
deste experimento em torno de seu valor médio é explicada pelo modelo
matemático do DIC e este experimento apresenta um coeficiente de variação
de aproximadamente 22%.
Script no R para calcular os coeficientes de determinação (R2 ) e de
variação (CV)
# calculo do CV
cv <- sqrt(qmr)/mean(pc)*100
cv
sqtr <- anova(pc.av)[1,2] # obtenção da SQTr da anova
sqtr
sqr <- anova(pc.av)[2,2] # obtenção da SQR da anova
sqr
# cálculo do R2
r2 <- sqtr/(sqtr+sqr)*100
r2
14 Checandoas violações das suposições de normalidade dos dados e
da homogeneidade das variâncias dos tratamentos Anova
De um modo geral, o teste F da ANOVA não é muito sensível às
violações da suposição de distribuição normal. Ele também é moderadamente
insensível às violações de variâncias iguais, se os tamanhos das amostras são
iguais e não muito pequenas em cada tratamento. Entretanto, variâncias
desiguais podem ter um efeito marcante no nível do teste, especialmente se
amostras pequenas estão associadas com tratamentos que têm as maiores
variâncias. Existe uma série de procedimentos para se testar se as suposições
da ANOVA são violadas. Entre estes temos o teste de Anderson-Darling, teste
de Shapiro-Wilks e teste de Kolmogorov-Smirnov, que testam a normalidade da
população. A igualdade das variâncias (homocedasticidade) pode ser testada
pelo teste de Bartlett. Com o advento dos modernos computadores, métodos
gráficos são ferramentas muito populares para a visualização das violações
das suposições teóricas da ANOVA. Alguns destes métodos gráficos mais
comumente usados para checar as suposições da ANOVA são baseados em
gráficos dos resíduos.
Resíduos. O resíduo correspondente a uma observação ijy é definido
como:
iijiijijijij yyyyye ˆˆˆ ,
ou seja, o resíduo corresponde á parte da observação que não foi explicada
pelo modelo. Calculando os resíduos correspondentes a todas as observações
de um experimento e analisando-os descritivamente de forma apropriada,
Estatística Experimental
54
podemos ter alguma indicação, graficamente, se as suposições da ANOVA
estão sendo satisfeitas.
Gráfico dos resíduos para testar a normalidade. Técnicas gráficas
para checar se uma amostra de resíduos é provenientes de uma população
normal incluem os gráficos do Histograma, do Box – Plot, etc. Outra importante
técnica é o gráfico q-q normal (quantile-quantile normal plot). O gráfico q-q
normal, é um gráfico entre os resíduos e um conjunto de percentis
devidamente escolhidos da normal padronizada. Sob a hipótese de
normalidade este gráfico q-q normal deve se aproximar de uma reta. Se o
gráfico é sigmóide é uma indicação de que a população tem as caudas
pesadas ou leves. A assimetria é indicada por gráficos côncavos (assimetria a
esquerda) e convexos (assimetria a direita).
O primeiro passo na construção de um gráfico q-q normal é o cálculo de
,
1
º
N
eresíduosden
p ijij a qual é denominada de probabilidade empírica
acumulada, e está associada a todo i je , de tal forma que
1
N
edeposto
p
ij
ij .
Como exemplo, a probabilidade empírica acumulada associada ao resíduo,
cujo posto é o sexto (seu rank=6) em um conjunto de N=10 resíduos é p=6/11
= 0.545. O gráfico q-q normal de um conjunto de resíduos é obtido com o
gráfico dos resíduos i je vs ,)1( ijij pzq sendo que: z é o valor critico de
nível de uma distribuição normal padronizada
Vamos considerar os dados apresentados no item 1 e construir um
gráfico q-q normal para ver se a suposição de normalidade parece razoável
para a quantidade de insulina liberada do exemplo 1.
O Quadro abaixo apresenta os dados, o valor estimado pelo modelo, os
resíduos e os percentis associados:
i j Yij Yest eij R(eij) Pij Qij
1 1 1.59 2.23 -0.64 1 0.077 -1.426
1 2 1.73 2.23 -0.50 5 0.385 -0.293
1 3 3.64 2.23 1.41 12 0.923 1.426
1 4 1.97 2.23 -0.26 6 0.462 -0.097
2 1 3.36 3.44 -0.08 7 0.538 0.097
2 2 4.01 3.44 0.57 10 0.769 0.736
2 3 3.49 3.44 0.05 8 0.615 0.293
2 4 2.89 3.44 -0.55 4 0.308 -0.502
3 1 3.92 4.50 -0.58 3 0.231 -0.736
3 2 4.82 4.50 0.32 9 0.692 0.502
3 3 3.87 4.50 -0.63 2 0.154 -1.020
3 4 5.39 4.50 0.89 11 0.846 1.020
e o gráfico q-q normal ( )ijij qxe fica sendo:
Estatística Experimental
55
e os gráficos do Histograma e do Box – Plot dos resíduos ficam:
Pelo gráfico qq normal, pelo histograma e pelo Box-Plot é razoável
supor a normalidade para os dados de liberação de insulina.
O script do R que fornece os resultados acima são:
# extraindo os resíduos do objeto pc.av
residuo <-insulina.av$res
resíduo
# fazendo o gráfico q-q plot
qqnorm(residuo, ylab ="Resíduos",main="Gráfico normal de
probabilidade")
qqline(residuo,lwd=2)
# dividindo a tela gráfica em 2 colunas e uma linha
par(mfrow=c(1,2))
# histograma dos resíduos
hist(residuo, main="Histograma dos Resíduos",lwd=2,col="green")
# gráfico boxplot dos resíduos
boxplot(residuo, horizontal=T,main="Boxplot dos resíduos",
col="blue",lwd=2)
Estes recursos gráficos não são quantitativos, é necessário um teste. O
script no R que fornece o teste de normalidade de Shapiro-Wilks , o qual testa
as hipóteses:
Estatística Experimental
56
normaldistruiçãotemnãoamostradapopulaçãoaH
normaldistruiçãotemamostradapopulaçãoaH
1
0
:
:
),0(:
),0(~:
2
1
2
0
NtemnãoeH
NeH
ou
ij
ij
é dado a seguir
# teste de normalidade de Shapiro-Wilks dos dados do exemplo 1
shapiro.test(residuo)
Cujos resultados são:
Shapiro-Wilk normality test
data: res
W = 0.8796, p-value = 0.08657.
No resultado fornecido pelo R e pelo valor de p (p=0,08657) associado a
estatística W=0,8796 do teste de Shapiro-Wilks, não rejeitamos 0H , logo é
razoável supor a normalidade para os dados de liberação de insulina. O teste
de Bartlett testa as hipóteses
jiH
H
2
j
2
i1
2
3
2
2
2
10
:
:
,
ou seja, a homogeneidade das variâncias dos tratamentos.
O script no R que fornece este teste é
# teste de homogeneidade das variâncias dos tratamentos dos dados do
#exemplo 1 (Teste de Bartlett)
# teste de Bartlett para a homogeneidade das variâncias
bartlett.test(insulina ~ trat)
com a seguinte saída
Bartlett test of homogeneity of variances
data: insulina by trat
Bartlett's K-squared = 1.27, df = 2, p-value = 0.5299
Pelos resultados destes testes não rejeitamos 0H , o nível mínimo de
significância do teste é p=0,5299 (p>0,05). O teste é não significativo.
Concluímos, então, que a homogeneidade das variâncias é uma suposição
plausível para os dados da liberação da insulina. Assim é razoável supor que
este conjunto de dados suporta as suposições básicas de normalidade e
homogeneidade da variância para a correta aplicação da ANOVA.
Estatística Experimental
57
14 Vantagens e desvantagens do DIC
As principais vantagens do DIC são:
é fácil de ser planejado e é flexível quanto ao número de
tratamento e de repetições tendo como única limitação o número
de unidades experimentais disponíveis para o experimento;
o número de repetições pode variar de tratamento para tratamento,
embora o desejável é ter o mesmo número de unidades
experimentais em todos os tratamentos;
o DIC proporciona o número máximo de graus de liberdade para o
resíduo;
a análise estatística é simples mesmo que se perca algumas
unidades experimentais.
Algumas desvantagens são:
é mais apropriado para um pequeno número de tratamentos e para
um material experimental homogêneo;
todas as fontes de variação não associadas aos tratamentos farão
parte do resíduo, podendo comprometer a precisão das análises;
super-estima a variância residual.
15 Resumo
O DIC é mais útil onde não existe nenhuma fonte de variação
identificável entre as unidades experimentais, exceto às dos efeitos dos
tratamentos. É o mais flexível com respeito ao arranjo físico das unidades
experimentais. Ele maximiza os graus de liberdade para a estimação da
variância por unidade experimental (erro experimental ou erro residual) e
minimiza o valor da estatística F requerida para a significância estatística.
Estatística Experimental
58
3º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL
1- Para avaliar o efeito de altos níveis de cobre na alimentação de pintinhos, seis
pintinhos foram alimentados com uma dieta basal padrão às quais foram
adicionadas três níveis de cobre (0, 400, e 800 ppm). Os dadosabaixo mostram
a razão da eficiência da dieta (g dieta/ g ganho de peso) ao final de 3 semanas
Use o R para apresentar os resultados.
Tratamentos
(nível de cobre)
Pintinhos
1 2 3 4 5 6
0 1,57 1,54 1,65 1,57 1,59 1,58
400 1,91 1,71 1,55 1,67 1,64 1,67
800 1,88 1,62 1,75 1,97 1,78 2,20
(extraído de Statistical Research Methods in the Life Science, P. V. Rao, pg. 287).
(a) Calcular os totais dos tratamentos yi+ , i=1,2,3, as médias dos tratamentos
iy , os desvios padrões dos tratamentos is , i=1,2,3, o total geral y++, e a média
geral y .
(b) Estabelecer as hipóteses estatísticas H0 e H1 e as suposições básicas para
se testar estas hipóteses.
(c) Monte o quadro da anova
Estatística Experimental
59
(d) Com base nos resultados do teste F da anova faça as conclusões pertinentes
sobre as hipóteses do item (b).
(e) Calcular os intervalos de confiança das médias dos tratamentos IC(µi ; 95%).
Apresente os resultados. (Siga o modelo tabela pg 42 da apostila).
(f) Calcular os coeficientes: de determinação R
2
e o de variação do experimento
(CV). Comente os resultados.
Estatística Experimental
60
(g) Verifique as suposições básicas da ANOVA. Apresente e comente os resultados.
2- Num experimento inteiramente casualizado com 5 tratamentos e 4 repetições, estudou-se o
efeito de 5 carrapaticidas (tratamentos) no controle de carrapatos em bovinos.
Analisando- se o número de carrapatos que cairam por animal, obtiveram-se as
seguintes somas de quadrados:
S.Q. Tratamentos = 41,08
S.Q. Total = 57,46
Estabelecer as hipóteses estatísticas H0 e H1, montar o quadro de análise de variância, concluir
e calcular o coeficiente de determinação R
2
3- Cite as vantagens e as desvantagens do delineamento inteiramente casualizado.
4- Escreva o modelo matemático do delineamento inteiramente casualizado para os dados
apresentados na 2ª questão.
5- Descreva os procedimentos de um experimento cego, e dos experimentos duplamente
cego.
6- Quando um experimento será considerado planejado (Descreva as etapas).
7- Quais os princípios básicos da experimentação.
Estatística Experimental
61
Aula 4 Teste de comparações múltiplas
1 Introdução
Os testes de comparações múltiplas também conhecidos como testes de
comparações de médias servem como um complemento ao teste F da análise
de variância quando este é significativo e são usados para detectar diferença
entre médias. Considere o exemplo a seguir
Exemplo 1. Em um experimento de alimentação de porcos, foram
utilizados quatro rações (A, B, C e D), cada uma fornecida a 5 animais. Os
ganhos de peso, kg, foram:
Rações
A B C D
35 40 39 27
19 35 27 12
31 46 20 13
15 41 29 28
30 33 45 30
Calculando-se as somas de quadrados podemos construir o seguinte
quadro de análise de variância:
F.V. g.l. S.Q. QM Fc
Rações 3 823,75 274,58 3,99
Resíduo 16 1100,00 68,75
Total 19 1923,75
Das tabelas das distribuições F, temos que
295Fe243F 010163050163 ,, ),,,(),,,( . O valor Fc=3,99 é maior que
o valor do F tabelado a 5%, então, rejeitamos a hipótese nula H0 a
%5 de probabilidade.
Dúvida: Qual é a ração que tem o melhor desempenho no ganho
de peso?
Para responder a questão, conheceremos alguns PROCEDIMENTOS
DE COMPARAÇÕES DE MÚLTIPLAS ou MÉTODOS DE COMPARAÇÕES
DE MÉDIAS, como por exemplo, os testes t-Student , Scheffé, Tukey, Duncan,
Dunnett e Bonferroni, dentre outros.
2 Definições básicas
Consideremos um experimento com k tratamentos, cujas médias
populacionais são K ...,,, 21 e seus estimadores kyyy ...,,, 21 foram obtidas
de amostras de tamanhos r1, r2, ..., rK.
Definição 1 Um contraste de médias é qualquer função do tipo
kkcccY ...2211 ,
com
k
i
ki cccc
1
21 0... e i , é a média do tratamento i = 1, 2, ..., k
Estatística Experimental
62
Definição 2 Dizemos que dois contrastes são ortogonais se
k
i i
ii
r
ba
1
0
. Quando o experimento é balanceado (ri = r) a condição de ortogonalidade é
que a soma dos produtos de seus coeficientes é nula, i.é.,
k
i
ii ba
1
0 .
Quando um experimento envolve k tratamentos, podemos definir
diversas comparações entre as k médias, mas somente (k – 1) são
ortogonais;
Nos contrastes envolvendo duas médias podemos definir
2
)1( kk
contrastes possíveis, os quais não são ortogonais.
Supondo que os tratamentos têm variância constante 2 e que uma
estimativa não viesada desta variância é o QMR da ANOVA, tem-se que:
kn xcxcxcxcY 332211ˆ é um estimador não viesado do
contraste kkcccY ...2211 ;
i
n
i
i
i
n
r
c
r
cccYV
2
1
2
2
22
2
2
1 )()
ˆ(
e um estimador não
viesado é dado por
i
n
i
i
i
n
r
QMR
c
r
QMR
cccYV
1
222
2
2
1 )()
ˆ(̂ ,
se o experimento é balanceado r1= r2 = ...= rK =r, as expressões
acima ficam, respectivamente,
r
c
r
cccYV
n
i
in
2
1
2
2
22
2
2
1 )()
ˆ(
e
r
QMR
c
r
QMR
cccYV
n
i
in
1
222
2
2
1 )()
ˆ(̂
Exemplo 1. Em um experimento dois antibióticos em duas dosagens cada um
para a cura da mastite em bovinos. A variável resposta é tempo de cura em
dias
Tratamento Descrição
T1 Dose baixa da droga A
T2 Dose alta da droga A
T3 Dose baixa da droga B
T4 Dose alta da droga B
Podemos definir os seguintes contrastes:
43211 Y : compara as doses da droga A com as doses
da droga B;
212 Y : compara as doses da droga A;
433 Y : compara as doses da droga B.
A afirmação de que o contraste Y1 é nulo (Y1 = 0) é o mesmo que afirmar
que:
22
,, 43214321
queou , ou ainda, que a média dos
tratamentos 1 e 2 é igual à média dos tratamentos 3 e 4.
Estatística Experimental
63
Para verificarmos se estes contrastes são ortogonais é aconselhável
uma tabela com os coeficientes dos (k – 1) contrastes e a partir daí, verificar
que a soma dos produtos dos coeficientes, aos pares, é nula.
Contraste
1 2 3 4
1Y
+1 +1 -1 -1
2Y
+1 -1 0 0
3Y
0 0 +1 -1
Portanto estes contrastes são ortogonais 2 a dois e ortogonais entre si.
3 Teste t - student O teste t – student pode ser utilizado para comparar
médias de tratamentos. Os requisitos básicos para sua utilização são:
as comparações devem ser determinadas a priori, ou seja, antes
de serem examinados os dados.
não existe limite para o número de contrastes envolvendo as
médias de tratamentos, porém, o número de contrastes ortogonais
é, no máximo, igual ao número de graus de liberdade dos
tratamentos.
A ortogonalidade entre os contrastes de médias garante
independência entre as conclusões.
O objetivo é testar a hipótese
0:
0:
1
0
i
i
YH
YH
,
Usamos a estatística
),(
1
2
~
ˆ
)ˆ(̂
ˆ
resglk
i
i
ii t
c
r
QMR
Y
YV
Y
t
, a qual sob H0
verdadeira tem distribuição t-student com o mesmo número de graus de
liberdade do resíduo, no DIC é ( n-k ). Para um valor fixado de nível de
significância , devemos buscar o valor de t tabelado (arquivo Tab_tstudent,
disponibilizado na página ou nos livros indicados na bibliografia) e compará-lo
com o valor da estatística tc , calculada para o contraste Yi e aplicar a regra de
decisão:
Se Tabeladoc tt rejeitamos H0 para um determinado valor de ,
geralmente 5% ou 1%, caso contrário ( Tabeladoc tt ), não rejeitamos
H0.
(veja o esquema gráfico desta regra de decisão apresentadono item 6
da 2ª Aula).
Exemplo 2: Num experimento inteiramente casualizado com 4 tratamentos e 4
repetições, estudaram-se os efeitos de Bacitracina de zinco(BDZ) e Anti-stress
sobre frangos de corte alimentados com rações à base de sorgo, desde a fase
inicial até a final. A resposta medida foi conversão alimentar. Foram utilizados
os seguintes tratamentos:
Tratamento Descrição Média(kg)
1 Concentrado Comercial + Milho 2,03
2 Concentrado Comercial + Sorgo 2,24
Estatística Experimental
64
3 Concentrado Comercial + Sorgo + BDZ 2,04
4 Concentrado Comercial + Sorgo + Anti-stress 2,22
Sabendo-se que da ANOVA o valor do 00443750QMR , , com 12
graus de liberdade. Pode - se estabelecer os contrastes de médias dos
tratamentos para cada componente do desdobramento:
Milho vs. sorgos, o qual é expresso pela combinação linear
4321143211 yyyy3Yporestimado3Y
ˆ, ;
Sorgo vs. Sorgo + Aditivos, o qual é expresso pela combinação
linear 43224322 yyy2Yporestimado2Y
ˆ, ;
Bacitracina vs. Anti-stress, o qual é expresso por
433433 yyYporetimadoY , ;
A verificação se os contrastes são ortogonais pode ser feita facilmente
no quadro abaixo:
Contraste
1 2 3 4 IŶ
4
1I
2
ic
ct
1Y
+3 -1 -1 -1 -0,41 12 -3,55 (p=0,00198)
2Y
0 +2 -1 -1 0,22 6 2,70 (p=0,0097)
3Y
0 0 +1 -1 -0,18 2 -3,82 (p=0,0012)
p< 0,01 significativo a 1% e a 5%; p< 0,05 significativo a 5% e p> 0,05 não-significativo a 5%.
O objetivo é testar a hipótese
0:
0:
1
0
i
i
YH
YH
, para i = 1,2,3.
Assim, para o contraste 1Y , temos que:
0:
0:
11
10
YH
YH
0133,012
4
0044375,0
)ˆ(̂
41,0)22,2()04,2()24,2()03,2(3ˆ
4
1
2
1
1
i
ic
r
QMR
YV
eY
55,3
0133,0
41,0ˆ
4
1
2
1
i
i
c
c
r
QMR
Y
t
179,2)025,0,12( t . Como Tabc tt , então rejeitamos H0
(0,005<p<0,001). (Repetir estes passos para os contrastes Y2 e Y3 ).
Script do R para o cálculo dos resultados apresentados acima
# como não foram fornecidos os dados deste exemplo
# é necessário fornecer os valores
# definindo o número de repetições
r <- 4
# definindo os graus de liberdade do resíduo
glr <- 12
# quadrado médio do resíduo
Estatística Experimental
65
qmr <- 0.0044375
# definindo as médias dos tratamentos
m.trat <- c( 2.03, 2.24, 2.04, 2.22)
# definindo os coeficientes do contraste
c <- c( 3, -1,-1,-1)
#calculo da variância do contraste
var.c<- qmr/r*sum(c1^2)
# cálculo da estatística tc da estatística t-student
tc <- sum(c*m.trat)/sqrt(qmr/r*sum(c^2))
tc
# cálculo do valor de p associado à estatistica t calculada anteriormente
valor.p<- 1-pt(abs(tc),glr)
valor.p
(repita este procedimento adaptando-o aos demais contrastes)
Com base nos resultados dos testes de hipóteses, concluímos que:
os animais tratados com o concentrado comercial + milho têm uma
conversão alimentar melhor do que os animais tratados com
concentrado comercial + sorgo;
os animais tratados com o concentrado comercial + sorgo+aditivos
têm uma conversão alimentar melhor do que os animais tratados
com concentrado comercial + sorgo, ou seja, os aditivos BDZ e
anti-stress quando adicionados ao concentrado comercial não
melhoram a conversão alimentar;
os animais tratados com o concentrado comercial + sorgo+BDZ têm
uma conversão alimentar melhor do que os animais tratados com
concentrado comercial + sorgo+anti-stress.
4 Teste de Scheffé
O teste de Scheffé pode testar qualquer contraste envolvendo
médias de tratamentos do tipo kk2211 cccY ... definido a priori ou
não, sendo baseado na estatística S, definida como:
itodopararri (Experimento balanceado)
;)1(
)ˆ(̂)1(
1
2
),,1(
),,1(
k
i
i
resglk
iresglk
r
c
QMRFk
YVFkS
jipararr ji (Experimento desbalanceado)
;)1(
1
2
),,1(
k
i i
i
resglk
r
c
QMRFkS
Sendo: k – 1 o número de graus de liberdade de tratamentos;
),,1( resglkF é o valor crítico da Tabela F-Snedecor, a qual depende dos graus de
liberdade de tratamentos e do resíduo; ci são os coeficientes do contraste e ri é
o número de repetições do i-ésimo tratamento. A Regra de Decisão do teste de
Scheffé para rejeitarmos ou não se o contraste é diferente de zero é comparar
a estimativa do contraste Ŷ com o valor de S:
Estatística Experimental
66
se SYi , rejeitamos a hipótese 0YH i0 : , e concluímos que o
contraste de médias é diferente de zero;
se SYi , não rejeitamos a hipótese 0YH i0 : , e concluímos que
o contraste de médias não é diferente de zero
Aplicando o teste de Scheffé ao exemplo anterior do teste de t-student,
temos
Contraste
1 2 3 4 IŶ
4
1
2
I
ic
S
1Y
+3 -1 -1 -1 -0,41 12 0,3733 *
2Y
0 +2 -1 -1 0,22 6 0,2640 *
3Y
0 0 +1 -1 -0,18 2 0,1524 ns
* significativo a 5%; ns não significativo a 5%.
O objetivo é testar a hipótese
0:
0:
1
0
i
i
YH
YH
, para i = 1,2,3.
Assim, para o contraste 1Y , temos que:
0:
0:
11
10
YH
YH
0133,012
4
0044375,0
)ˆ(̂
41,0)22,2()04,2()24,2()03,2(3ˆ
4
1
2
1
1
i
ic
r
QMR
YV
eY
3733,01394,0)12)(
4
0044375,0
)(49,3)(14(
)111)3((
4
0044375,0
)14( 2222)05,0,12,3(
FS
Pela regra de decisão SYi , logo rejeitamos H0 a 5% de
probabilidade e concluímos que a ração comercial com milho tem
uma conversão alimentar melhor do que a que a ração comercial
com sorgo.
O script no R para o cálculo da estatística de Scheffé é
# como não foram fornecidos os dados deste exemplo
# é necessário fornecer os valores
# definindo o número de repetições
r <- 4
# definindo os graus de liberdade dos tratamentos
gltr<- 3
# definindo os graus de liberdade do resíduo
glr <- 12
# quadrado médio do resíduo
qmr <- 0.0044375
# definindo as médias dos tratamentos
Estatística Experimental
67
m.trat <- c( 2.03, 2.24, 2.04, 2.22)
# definindo os coeficientes do contraste
c <- c( 3, -1,-1,-1)
# cálculo da variância do contraste
var.c<- qmr/r*sum(c1^2)
# cálculo da estatística S de Scheffé
s<- sqrt(gltr*q(0.95,gltr,glr)*var.c)
s
(Repetir esse procedimento para os contrastes Y2 e Y3 e tirar as conclusões).
5 Teste de Tukey
O Teste de Tukey é baseado na amplitude total “estudentizada”
(studentized range) e pode ser usado para comparar todo contraste entre duas
médias de tratamentos do tipo
Hipóteses:
0:
0:
1
0
jii
jii
YH
jiparaYH
Calcular o valor da diferença mínima significativa (d.m.s):
itodopararri (Experimento
balanceado)
r
QMR
qdms resglk ),;(
jipararr ji (Experimento desbalanceado)
)
11
(
2
),;(
ji
resglk
rr
QMR
qdms
sendo: ),,( resglkq é o valor da amplitude total “estudentizada” e é obtido
de tabela própria, e depende do número de tratamentos (k) e do número de
graus de liberdade para o resíduo, o qual neste exemplo é (n - k). Após calcular
o d.m.s., calculamos a estimativa dos contrastes entre os pares de médias
jii xxY
ˆ e comparamos esses valores com o valor do d.m.s., aplicando a
seguinte regra de decisão:
se ...ˆ smdYi rejeitamos H0, ao nível a de significância, e
concluímos que as médias dos tratamentos envolvidos são
diferentes;
se ...ˆ smdYi não rejeitamos H0 e concluímos que as médias dos
tratamentos envolvidos são iguais.
Exemplo 3: usaremos os dados do exemplo 1 apresentado no início desta
aula, o quadro da anova fornece
k = 4, 7568QMR , com 16 graus de liberdade e 0464q 050165 ,),,,(
e 00,15
5
75,68
046,4),;(
r
QMR
qdms knk
Assim, toda estimativa de contraste do tipo jii yyY
ˆ que exceder o
valor do d.m.s.= 15,00 é significativo a 5%.
Estatística Experimental
68
Estimativa do contraste
ns132639yyY AB1
ˆ
ns62632yyY AC2
ˆns42622yyY AD3
ˆ
ns73239yyY CB4
ˆ
*ˆ 172239yyY DB5
ns102232yyY DC6
ˆ
* - significativo a 5%; ns – não significativo a 5%
Script no R para o cálculo da anova e o teste de Tukey
# entrando com os dados de ganho de peso
gp <- c(35,19,31,15,30,
40,35,46,41,33,
39,27,20,29,45,
27,12,13,28,30)
# entrando com o número de repetições dos tratamentos
r <- 5
# entrando com os níveis dos tratamentos
trat <- c(rep("A",r),rep("B",r),rep("C",r),rep("D",r))
trat
# cálculo das medias dos tratamentos
m.trat <- tapply(gp,trat,mean)
m.trat
# Gráfico Box-Plot
boxplot(gp~trat, vertical=T,ylab="ganho de peso",col="green")
# análise da variância - ANOVA
gp.av <- aov(gp~factor(trat))
summary(gp.av)
# obtendo os residuos
residuo <- aov(gp.av)$res
residuo
# gerando o gráfico normal de probabilidade
qqnorm(residuo,ylab="Residuos", main=NULL,pch=16,col=2)
# colocando a reta da distribuição teórica normal
qqline(resíduo,lwd=2,main="Gráfico Normal de Probabilidade dos
Resíduos")
# testando a normalidade dos resíduos "Teste de Shapiro-Wilks"
shapiro.test(residuo)
Estatística Experimental
69
# teste da homogeneidade das variâncias "Teste de Bartllet"
bartlett.test(gp ~ trat)
# Teste de Tukey
compara.tu <- TukeyHSD(gp.av)
compara.tu
# grafico do teste de Tukey
plot(compara.tu,main="Teste de Tukey")
Saída proporcionada por este script
Média dos tratamentos
A B C D
26 39 32 22
gráfico box-plot para cada tratamento
Quadro da anova fornecido pela função aov( )
Df Sum Sq Mean Sq F value Pr(>F)
trat 3 823.7 274.58 3.994 0.0267 *
Residuals 16 1100.0 68.75
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Conclusão: o teste F é significativo (p=0,0267), rejeitamos H0. Assim existe
pelo menos dois tratamentos que diferem entre si.
teste de Shapiro-Wilks de normalidade
Shapiro-Wilk normality test
data: residuo
A B C D
1
5
2
0
2
5
3
0
3
5
4
0
4
5
g
a
n
h
o
d
e
p
e
s
o
-2 -1 0 1 2
-1
0
-5
0
5
1
0
Gráfico da normalidade
Quantis teóricos
R
e
s
id
u
o
s
Estatística Experimental
70
W = 0.9387, p-value = 0.227
Conclusão: o teste é não significativo (p=0,227), não rejeitamos H0 e
concluímos que os dados deste experimento suportam a suposição de
normalidade.
Teste de Bartlett da homogeneidade das variâncias populacionais dos
tratamentos
Bartlett test of homogeneity of variances
data: gp by trat
Bartlett's K-squared = 1.5284, df = 3, p-value = 0.6757
Conclusão: o teste é não significativo (p=0,6757), não rejeitamos H0 e
concluímos que os dados deste experimento suportam a suposição de
homogeneidade das variâncias populacionais dos tratamentos.
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = gp ~ trat)
$trat
diff lwr upr p adj
B-A 13 -2.003315 28.003315 0.1018285
C-A 6 -9.003315 21.003315 0.6687032
D-A -4 -19.003315 11.003315 0.8698923
C-B -7 -22.003315 8.003315 0.5553529
D-B -17 -32.003315 -1.996685 0.0237354
D-C -10 -25.003315 5.003315 0.2640642
Conclusão: o teste de Tukey é significativo (p=0,0237) para o contraste entre
as médias dos tratamentos D e B. Os outras comparações de pares de médias
populacionais dos tratamentos não são significativas.
Uma forma simples de apresentação destes resultados é a seguinte:
coloque as médias em ordem decrescente;
una as médias que não diferem entre si por meio de uma linha
No exemplo temos:
*BCAD yyyy
22 26 32 39
* médias seguidas pela mesma linha não diferem entre si pelo teste de Tukey a 5% de probabilidade.
Outra forma, muito utilizada pelos pesquisadores é a que substitui a
linha por letras, ou seja,
BCAD yyyy
22a 26ab 32ab 39b,
médias seguidas pela mesma letra minúscula não diferem entre si pelo teste de Tukey a 5% de probabilidade
ou ainda,
Tratamentos Médias
D 22 a
A 26 ab
C 32 ab
B 39 b
médias seguidas pela mesma letra minúscula nas colunas não
diferem entre si pelo teste de Tukey a 5% de probabilidade.
A saída do pacote ExpDes para o teste de Tukey já contempla esta
facilidade das médias seguidas pelas letras.
O script do R usando os recursos deste pacote é dado por:
Estatística Experimental
71
# usando ao função crd( ) do ExpDes
# requerendo o ExpDes
library(ExpDes)
crd(trat,gp,quali=T,mcomp="tukey")
a saída fornecida por este script é:
------------------------------------------------------------------------
Analysis of Variance Table
------------------------------------------------------------------------
DF SS MS Fc Pr>Fc
Treatament 3 823.75 274.58 3.9939 0.026711
Residuals 16 1100.00 68.75
Total 19 1923.75
------------------------------------------------------------------------
CV = 27.87 %
------------------------------------------------------------------------
Shapiro-Wilk normality test
p-value: 0.2270063
According to Shapiro-Wilk normality test at 5% of significance, residuals can be considered
normal.
------------------------------------------------------------------------
Tukey's test
------------------------------------------------------------------------
Groups Treatments Means
a B 39
ab C 32
ab A 26
b D 22
------------------------------------------------------------------------
6 Teste de Dunnet
É um teste utilizado no qual as únicas comparações de interesse são
aquelas entre os tratamentos e um determinado tratamento padrão, geralmente
a testemunha (controle), e cada um dos demais tratamentos, não havendo
interesse na comparação dos demais tratamentos entre si. Para testarmos o
contraste ci0H : , o qual envolve a média do tratamento “i” e do
tratamento controle “c”, usamos a estatística:
QMR
rr
dD
ci
resglk )
11
(),,( ,
sendo: “ ),,( resglkd ” o valor tabelado para fixado freqüentemente em 5%, que
depende do número total de tratamentos (k), do número de graus de liberdade
do resíduo (gl res), o qual neste exemplo é (n-k) e de ; ri e rc correspondem
ao número de repetições dos tratamentos “i” e “c”. A seguir, calculamos uma
estimativa para cada um dos contrastes cii yyY
ˆ e comparamos o valor da
estatística D' e aplicamos a seguinte regra de decisão:
se DY i
ˆ rejeitamos H0 e concluímos que a média do tratamento
“i” difere significativamente da média do tratamento “c” o padrão;
se DY i
ˆ não rejeitamos H0 e concluímos que a média do
tratamento “i” é igual ao do tratamento padrão “c”.
Como exemplo, considere as médias de um experimento, apresentados
na tabela abaixo, em que um médico veterinário, comparou o efeito de cinco
Estatística Experimental
72
drogas na diminuição da pressão arterial de animais experimentais. Para tanto
o pesquisador tomou 30 animais e dividiu ao acaso em seis grupos: o grupo
controle recebeu um placebo e os outros receberam, cada um, uma das
drogas.
Tratamentos
(Drogas)
Médias
A 21 a
B 8 b
C 10 b
D 29 a
E 13 a
Controle 2 b
Médiascom a mesma letra do controle nao diferem deste pelo teste de Dunnett a 5% de probabilidade.
A verificação destes resultados pode ser feita por meio dos resultados
da ANOVA, onde QMR= 36, os graus de liberdade do resíduo é 24 e vamos
fixar %5 .
Procedimentos:
consultando a Tabela do Teste de Dunnett (VIEIRA, S. pg 183 e
184) a 5% de probabilidade, temos que 762d 050246 ,),,,( e a
estatística 47,10
5
)36(2
76,2´ D
é fácil verificar que as drogas A, D e E diferem significativamente
do controle, ou seja, apresentam resultados melhores que os do
controle.
O teste de Dunnett no R está implementado no pacote multcomp. Um
exemplo de sua utilização para os dados do exemplo 1 desta aula,
considerando o tratamento A como controle, é dado pelo script abaixo
# instalando o pacote multicomp
install.packages("multcomp")
# requerendo o pacote multcomp
require(multcomp)
# teste de Dunnett
gp.dunnett <- glht(gp.av, linfct = mcp(trat = "Dunnett"))
summary(gp.dunnett)
A saída fornecida por este script é:
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Dunnett Contrasts
Fit: aov(formula = gp ~ trat)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
B - A == 0 13.000 5.244 2.479 0.062
C - A == 0 6.000 5.244 1.144 0.540
D - A == 0 -4.000 5.244 -0.763 0.788
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Estatística Experimental
73
(Adjusted p values reported -- single-step method)
Conclusão: todos os valores de p do teste t-student são superiores a 0,05 (p >
0,05) logo nenhum dos tratamentos B, C e D diferem do controle A.
7 Teste de Duncan
A aplicação do teste de Duncan é bem mais trabalhosa que o teste de
Tukey, mas chega-se a resultados mais detalhados e se discrimina com mais
facilidade entre os tratamentos. Geralmente, o Teste de Duncan indica
resultados significativos em casos em que o Teste de Tukey não permite obter
significância estatística. Para a aplicação do teste é importante ordenarmos as
médias dos tratamentos em ordem crescente ou decrescente de tamanho. A
seguir, calculamos o valor da amplitude total mínima significativa (shortest
significant range) para o contraste entre a maior e a menor das médias dos
tratamentos, usando a fórmula:
r
QMR
zsmd resglp ),,(... ,
sendo: p=i-j+1 ( nº de médias abrangidas pelo intervalo delimitado pelas
médias comparadas), ),,( resglpz é o nível da amplitude mínima estudentizada
de Duncan (obtido da Tabela de Duncan – arquivo Tab_Duncan_5%.pdf), neste
exemplo os graus de liberdade do resíduo é n-k.
A regra de decisão é:
se ...ˆ smdYi rejeita-se H0 , ou seja, se o valor absoluto da
diferença entre as médias em comparação é igual ou maior que a
d.m.s.
se ...ˆ smdYi não rejeitamos H0
Considere os dados do item 6 desta aula. A ordem dos tratamentos,
segundo a grandeza das médias, é:
Tratamentos Controle B C E A D
Médias (2) (8) (10) (13) (21) (29)
O valor do d.m.s. para comparar a média do Controle com a média da
Droga D é:
79,8
5
36
276,3... smd ,
Sendo que o valor de p = 6-1+1 = 6, o valor dos graus de liberdade
neste exemplo é n-k=24 e %5 Daí que o valor Tabelado é
2763z 050246 ,),,,( . O valor 2727292
ˆ
1 DCont yyY , o que pela
regra de decisão nos leva a rejeitar a 0YH 10 : e concluímos que a média da
Droga D é significativamente maior que a média do controle, a 5% de
probabilidade. As comparações entre o controle e a Droga A, e entre as Drogas
B e D, envolvem intervalos de cinco médias e o calculo do d.m.s. do teste de
Duncan fica:
os contrastes são DB3ACont2 YeY e seus valores de
suas estimativas em módulo são
Estatística Experimental
74
2129819212ˆ 32 YeY e o valor da
66,8
5
36
226,3... smd . Neste caso 226,3)05,0,24,5( z ,
portanto, rejeitamos as hipóteses
0:0: 3020 DBACont YHeYH e concluímos que
estes contrastes são significativos a 5% de probabilidade.
Da mesma forma para comparar o controle e a Droga E, as Drogas B e
A, e as Drogas C e D, todas elas envolvendo quatro médias, temos,
os contrastes DCABECont YeYY 654 , e seus
valores de suas estimativas em módulo são
19291013218,11132ˆ 654 YeYY e o valor da
48,8
5
36
160,3... smd . Neste caso 160,3)05,0,24,4( z .
Portanto rejeitamos as hipóteses
0:0:;0: 605040 DCDBECont YHeYHYH
e concluímos que estes contrastes são significativos a 5% de
probabilidade.
Este mesmo procedimento pode ser feito para comparar médias de
tratamentos correspondendo a intervalos que abrangem três médias, sendo
que neste caso, 066,3)05,0,24,3( z e duas a duas com 9192z 050242 ,),,,( . (ver
detalhes destes cálculos no livro da Vieira, S. Estatística experimental
p. 66).
O resultado da aplicação do teste de Duncan é representado da seguinte
maneira:
Tratamentos Controle B C E A D
médias (2)a (8)ab (10)ab (13)b (21)c (29)d
Médias seguidas pela mesma letra minúscula não diferem entre si pelo teste de Duncan a 5% de
probabilidade.
# usando ao função crd( ) do ExpDes
# requerendo o ExpDes (atenção !!! se o ExpDes já foi requerido não é
# necessário requerê-lo novamente
library(ExpDes) #
crd(trat,gp,quali=T,mcomp="duncan")
A saída fornecida por este script é
Analysis of Variance Table
------------------------------------------------------------------------
DF SS MS Fc Pr>Fc
Treatament 3 823.75 274.58 3.9939 0.026711
Residuals 16 1100.00 68.75
Total 19 1923.75
------------------------------------------------------------------------
CV = 27.87 %
------------------------------------------------------------------------
Shapiro-Wilk normality test
Estatística Experimental
75
p-value: 0.2270063
According to Shapiro-Wilk normality test at 5% of significance, residuals can be
considered normal.
------------------------------------------------------------------------
Duncan's test
------------------------------------------------------------------------
Groups Treatments Means
a B 39
ab C 32
b A 26
b D 22
------------------------------------------------------------------------
Conclusão (somente para o teste de Duncan): O tratamento B difere
significativamente dos tratamentos A e D. Reparem que o teste de Duncan
indicou uma diferença a mais, entre os tratamentos B e A, a qual não foi
indicada pelo teste de Tukey.
A função crd( ) do pacote ExpDes fornece outras opções de testes de
comparações múltiplas para serem colocadas no comando mcomp = " ". O
teste default é o teste de Tukey ("tukey"). As outras opções são o teste LSD
equivalente ao teste t-student ("lsd"); o teste LSD com proteção Bonferroni
("lsdb"); o teste de Duncan ("duncan"); o teste de Student-Newman-Kews
("snk") e o teste de Scott-Knott ("sk").
8 ALGUMAS CONSIDERAÇÕES SOBRE O USO DE PROCEDIMENTOS DE
COMPARAÇÕES MÚLTIPLAS.
Quando desejamos comparar os diversos tratamentos com um
tratamento controle ou padrão (testemunha), o teste de Dunnett é o mais
indicado. Os testes de Duncan e de Tukey têm fundamentos muito
semelhantes, mas o teste de Duncan é menos conservador e menos exigente
que o teste de Tukey, isto é, indica diferenças significativas com mais
facilidade. Vale lembrar também que o teste de Duncan é um teste seqüencial
e a sua aplicação é mais trabalhosa. Ambos os testes são exatos quando os
números de repetições por tratamento forem iguais; caso contrário os testes
são apenas aproximados. O teste t-Sudent é pouco rigoroso quando usado
indiscriminadamente,devendo ser usado com cautela para testar contrastes
ortogonais definidos a priori. Já o teste de Scheffé é bastante rigoroso e seu
uso é desaconselhável (como o teste t-Student) para a comparação entre duas
médias de tratamentos, sendo mais indicado para testar contrastes que
envolvem mais de duas médias.
O pacote "agricolae " também pode ser a utilizado para as
comparações múltiplas. A seguir é fornecido um script utilizando este pacote
# instatlando o pacote "agricolae"
install.packages("agricolae")
# requerendo o pacote “agricolae”
require("agricolae")
# teste de Tukey
compara.tukey <- HSD.test(gp.av,"trat")
# gráfico de barras das médias com as letras segundo com o teste de Tukey
bar.group(compara.tukey,main="Teste de Tukey", ylim=c(0,50),
xlab="Tratamentos (Rações)")
Estatística Experimental
76
# teste de Duncan
compara.duncan <- duncan.test(gp.av,"trat")
# gráfico de barras das médias com as letras segundo o teste de Duncan
bar.group(compara.duncan,main="Teste de Duncan",ylim=c(0,50),
xlab="Tratamentos (Rações)")
# teste de Scheffé
compara.scheffe <- scheffe.test(gp.av,"trat")
# gráfico de barras das médias com as letras segundo o teste de Scheffé
bar.group(compara.scheffe, main="Teste de Scheffé",ylim=c(0,50),
xlab="Tratamentos (Rações)")
Este script fornece a seguinte saída
HSD Test for gp
Mean Square Error: 68.75
trat, means gp std.err replication
A 26 3.820995 5
B 39 2.302173 5
C 32 4.449719 5
D 22 3.911521 5
alpha: 0.05 ; Df Error: 16
Critical Value of Studentized Range: 4.046093
Honestly Significant Difference: 15.00331
Means with the same letter are not significantly different.
Groups, Treatments and means
a B 39
ab C 32
ab A 26
b D 22
Saída do teste de Duncan
Duncan's new multiple range test for gp
Mean Square Error: 68.75
B C A D
Teste de Tukey
Tratamentos (Rações)
0
1
0
2
0
3
0
4
0
5
0
a
ab
ab
b
Estatística Experimental
77
trat, means gp std.err replication
A 26 3.820995 5
B 39 2.302173 5
C 32 4.449719 5
D 22 3.911521 5
alpha: 0.05 ; Df Error: 16
Critical Range
2 3 4
11.11688 11.65753 11.99550
Means with the same letter are not significantly different.
Groups, Treatments and means
a B 39
ab C 32
b A 26
b D 22
Saída do teste Scheffé
Scheffe Test for gp
Mean Square Error : 68.75
trat, means gp std.err replication
A 26 3.820995 5
B 39 2.302173 5
C 32 4.449719 5
D 22 3.911521 5
alpha: 0.05 ; Df Error: 16
Critical Value of F: 3.238872
Minimum Significant Difference: 16.34646
Means with the same letter are not significantly different.
Groups, Treatments and means
A B 39
ab C 32
ab A 26
b D 22
B C A D
Teste de Duncan
Tratamentos (Rações)
0
1
0
2
0
3
0
4
0
5
0
a
ab
b
b
Estatística Experimental
78
B C A D
Teste de Scheffé
Tratamentos (Rações)
0
1
0
2
0
3
0
4
0
5
0
a
ab
ab
b
Estatística Experimental
79
4º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL
1. Três extratos de origem vegetal foram fornecidos a 20 cães por via oral com a finalidade de testar
o possível efeito sobre a pressão arterial sistólica desses animais. Os cães foram divididos em grupos
de cinco animais, recebendo cada grupo um tipo de extrato, ao acaso, B, C ou D, além de um grupo
controle – A, tratado com placebo. Os dados obtidos foram:
Trat.(extratos)
Cães Totais Médias is
(Controle) A 74,0 71,0 73,0 79,0 68,0
B 99,0 91,0 94,0 101,0 97,0
C 100,0 95,0 97,0 99,0 98,0
D 78,0 74,0 75,0 86,0 72,0
Total Geral
(a) Escreva o script da linguagem R para ler os dados da tabela acima e calcular os totais dos
tratamentos, as médias dos tratamentos, os desvios padrões dos tratamentos, o total geral,
e a média geral. Apresente os resultados na mesma tabela acima.
(b) Escrever o modelo matemático do experimento, estabelecer as hipóteses estatísticas H0 e
H1 e as suposições básicas para se testar estas hipóteses.
(c) Escreva o script para os cálculos do quadro da análise de variância e apresente monte o
quadro da anova. Apresente as conclusões.
(d) Aplique o teste de Tukey para comparar as médias 2 a 2. Apresente um quadro e um
gráfico de barras das médias juntamente com as letras explicando as diferenças. Tire as
conclusões.
(e) Aplique o teste de Duncan para comparar as médias 2 a 2. Apresente um quadro e um
gráfico de barras das médias juntamente com as letras explicando as diferenças. Tire as
conclusões.
(f) Aplique o teste de Dunnett para comparar as médias com o controle A. Comente os
resultados.
2- A redução da pressão sangüínea sistólica (RPS) depois da administração de drogas para
hipertensão é um dos indicadores de como os pacientes estão respondendo às drogas. No
tratamento da hipertensão, os efeitos colaterais associados com as drogas têm um particular
interesse. Neste estudo, duas drogas X e Y para a redução dos efeitos colaterais de uma droga
padrão (P) de hipertensão foi avaliada. O estudo foi conduzido em um delineamento inteiramente
casualizado com cinco tratamentos, assim definidos:
T1 – Droga padrão (P)
T2 – P combinada com uma dose baixa de X (P+DBX)
T3 – P combinada com uma dose alta de X (P+DAX)
T4 – P combinada com uma dose baixa de Y (P+DBY)
T5 – P combinada com uma dose alta de Y (P+DAY)
A redução na pressão sangüínea (mm Hg) em um período de quatro semanas observadas em cães
experimentais está tabulada abaixo:
Tratamentos
Repetição
1 2 3 4 Total Média
T1 27 26 21 26
T2 19 13 15 16
T3 15 10 10 11
T4 22 15 21 18
T5 20 18 17 16
Pede-se:
a) A análise de variância para testar a hipótese geral de igualdade das médias dos tratamentos;
b) Aplique os testes t-student e Scheffé nos contrates abaixo:
b.1 Existe efeito das drogas combinadas (T2 T3 T4 T5 ) na RPS?.
b.2 Existe diferença entre os efeitos médios das doses baixa e alta da droga Y?.
b.3 Existe diferença entre a resposta média esperada das duas doses de X?.
(extraído de Statistical Research Methods in the Life Science, P. V. Rao, pg. 327).
Estatística Experimental
80
Aula 5 Testes F planejados
No planejamento de um experimento, frequentemente pode-se utilizar o
teste F para responder algumas questões mais específicas. Isto implica na
decomposição dos graus de liberdade e da soma de quadrados do efeito dos
tratamentos em componentes de comparações. Estes componentes podem ser
classes de comparações ou tendência das respostas. Eles podem ser testados
pela partição dos graus de liberdade e da soma de quadrados dos efeitos dos
tratamentos em contrastes simples e específicos e suas soma de quadrados
associadas. O número de contrastes independentes e ortogonais que podem
ser definidos é igual ao número de graus de liberdade do efeito do tratamento.
O poder e a simplicidade deste método não são muito apreciadose
compreendidos pelos pesquisadores com deveria ser. Esta metodologia
envolve a definição de contrastes ortogonais, e talvez este termo, cria a
impressão de que ele é complicado e difícil. Isto esta longe de ser verdade.
Atualmente este método tem três grandes vantagens:
permite responder a questões específicas e importantes a respeito
dos efeitos dos tratamentos;
os cálculos são simples; e,
proporciona uma checagem útil da soma de quadrados dos
tratamentos.
Esta metodologia também é denominada de “desdobramento, ou a
decomposição dos graus de liberdade de tratamentos”.
2 Soma de quadrados de um contraste.
Quando utilizamos contrastes na decomposição dos graus de liberdade
dos efeitos dos tratamentos usamos a seguinte definição para o cálculo da
soma de quadrados:
Definição: a soma de quadrados de um contraste é calculada pela
fórmula
k
i
i
i
ik
i
i
k
i
ii
i
cr
Y
YSQou
cr
Yc
YSQ
1
2
2
1
2
1
2
)ˆ(
)(
)(
)( , sendo: ic os
coeficientes do contraste; iY os totais dos tratamentos e r o
numero de repetições (neste caso r = r1 = . . . = rk ) e
k
i
iii YcY
1
2)(ˆ é uma estimativa do contraste com base nos totais.
Observações importantes:
todo contraste tem sempre 1 grau de liberdade, assim QM(Yi) =
SQ(Yi).
geralmente, testamos H0: Yi = 0 vs. H1: Yi 0 e para tanto
usamos a estatística F-Snedecor tendo como denominador o
quadrado médio do erro experimental (QMR).
os contrastes devem ser planejados a priori e podem ser tão
numerosos quanto acharmos necessário.
o número de contrastes ortogonais entre os totais dos tratamentos
é igual ao número de graus de liberdade associados a essa fonte
de variação, isto é, se o fator tratamento tem k níveis então
conseguiremos definir somente (k-1) contrastes ortogonais.
Estatística Experimental
81
se 121 .,..,, kYYY são contrastes ortogonais envolvendo os totais dos
k níveis do fator, então SQTrYSQYSQYSQ k )(...)()( 121
a ortogonalidade dos contrastes garante a independência entre as
conclusões.
Exemplo 1: Foram comparados os efeitos de cinco tratamentos no crescimento
de alevinos de carpas (mediu-se o comprimento em cm aos dois meses de
idade) em um DIC.
T1 – ração comum. (rc)
T2 – ração comum + esterco. (rce)
T3 – ração comum + esterco de porco + vitamina B12. (rceB12)
T4 – ração comum + farinha de osso. (rcfo)
T5 – ração comum + farinha de osso + vitamina B12. (rcfoB12)
Dados
Trat.
Repetições
1 2 3 4
T1 4,6 5,1 5,8 5,5
T2 6,0 7,1 7,2 6,8
T3 5,8 7,2 6,9 6,7
T4 5,6 4,9 5,9 5,7
T5 5,8 6,4 6,8 6,8
Análise de variância usual.
Causas da Variação G.L. S.Q. Q.M. F
Tratamentos 4 7,72 1,91 7,19
Resíduo 15 4,03 0,27
Total 19 11,75
894Fe063F 010154050154 ,, ),;,(),;,(
Conclusão: o teste é significativo a 1% de probabilidade, portanto
rejeitamos H0, os tratamentos apresentam efeitos distintos sobre o crescimento
de alevinos de carpas. Esta é uma informação geral sobre os efeitos dos
tratamentos. Para obtermos informações detalhadas devemos decompor os 4
graus de liberdade dos efeitos dos tratamentos em quatro contrastes
ortogonais.
Comparações objetivas:
rc vs demais.
4321543211 44
ˆ YYYYTTTTTY
rce vs rcfo
543254322
ˆ YYYYTTTTY
rce vs rceB12.
32323
ˆ YYTTY
rcfo vs rcfoB12
54544
ˆ YYTTY
Estatística Experimental
82
Contraste
1Y 2Y 3Y 4Y 5Y
Y1 4 -1 -1 -1 -1
Y2 0 +1 +1 -1 -1
Y3 0 +1 -1 0 0
Y4 0 0 0 +1 -1
Usando a fórmula definida acima para o cálculo da soma de quadrados
dos contrastes temos:
1) rc vs demais.
cmY 6,176,251,226,261,27)0,21(4ˆ1
78,3
)20(4
)4,17()ˆ(
)ˆ.(.
20)1()1()1()1()4(
2
5
1
2
2
1
1
22222
5
1
2
i
i
i
cr
Y
YQS
c
(A obtenção das S.Q. dos outros contrastes são deixadas como exercícios)
A anova com os testes F planejados ou com os desdobramentos dos
graus de liberdade do efeito dos tratamentos fica:
Causas da Variação G.L. S.Q. Q.M. F Pr(>F)
rc vs demais (Y1) 1 3,87 3,87 14,43 0.00175
rce vs rcfo (Y2) 1 2,10 2,10 7,83 0.55014
rce vs rceB12 (Y3) 1 0,03 0,03 0,12 0.00200
Rcfo vs rcfoB12 (Y4) 1 1,72 1,72 6,38 0.87434
Tratamentos (4) (7,72) 1,91 7,19 0.00193
Resíduo 15 4,03 0,27
Total 19 11,75
688Fe544F894F063F 050151050151010154050154 ,,;,;, ),;,(),;,(),;,(),;,(
Conclusões:
rc vs demais – o contraste é significativo (p<0,01) e pelo resultado
do contraste devemos utilizar rce ou rceB12, ou ainda, rcfo ou
rcfoB12, quando comparada com a rc.
rce vs rcfo – o contraste é significativo (p<0,05) e pelo resultado
do contraste verificamos que rce tem um efeito superior no
crescimento dos alevinos, quando comparada com rcfo.
rce vs rceB12 - o contraste é não significativo (p>0,05), portanto o
acréscimo de vitamina B12 à rce (rceB12) não afeta
significativamente, o crescimento dos alevinos, quando comparada
com a rce.
rcfo vs rcfoB12 – o contraste é significativo (p<0,05) e pelo
resultado do contraste devemos adicionar vitamina B12 à ração
comum com farinha de osso,quando comparada com a rcfo.
Script no R para os cálculos descritos acima
# entrando com o número de repetições
r <- 4
Estatística Experimental
83
# criando os níveis dos tratamentos
trat <- c(rep("T1",r),rep("T2",r),rep("T3",r),rep("T4",r),rep("T5",r))
trat
# entrando com os valores
comp <- c(4.6,5.1,5.8,5.5, # observações do tratamento T1
6.0,7.1,7.2,6.8, # observações do tratamento T2
5.8,7.2,6.9,6.7, # observações do tratamento T3
5.6,4.9,5.9,5.7, # observações do tratamento T4
5.8,6.4,6.8,6.8) # observações do tratamento T5
comp
# fazendo a análise da variância - ANOVA
comp.av <- aov(comp~factor(trat))
# imprimindo o quadro da ANOVA
summary(comp.av)
# Definição do contraste
c <- c(4,-1,-1,-1,-1) # contraste rc vs demais
# obtenção do QMR no quadro da anova
qmr <- anova(comp.av)[2,3]
qmr
# obtenção dos gl do residuo no quadro da anova
glr <- anova(comp.av)[2,1]
glr
# cálculo dos totais por tratamento
t.trat <- tapply(comp,trat,sum)
t.trat
# estimativa do contraste Y com base nos totais
y.est <-sum(c*t.trat)
y.est
# cálculo da soma de quadrados
sqy <- (y.est^2)/(r*sum(c^2))
sqy
# Cálculo da estatística F
fc <- sqy/qmr
fc
# Cálculo do valor de p associado à estatística fc
valor.p <- 1-pf(fc,1,glr)
valor.p
Para obter os resultados referentes aos outros contrastes basta
substituir o objeto c na linha # Definição do contraste pelo contraste
correspondente definido abaixo e executar todo o script novamente
Estatística Experimental
84
#c <- c(0, 1, 1,-1,-1) # contraste rce vs rcfo
#c <- c(0, 1,-1, 0, 0) # contraste rce vs rceB12
#c <- c(0, 0, 0, 1,-1) # contraste rcfo vs rcfoB12
Estes resultados podem ser obtidos facilmente com o pacote gmodels
# instalando o pacote gmodels
install.packages("gmodels")
# requerendo o pacote para o ambiente R
require(gmodels)
# juntando os 4 contrastes no objeto cte
cte <-rbind(c(4,-1,-1,-1,-1), c(0, 1, 1,-1,-1),
c(0, 1,-1, 0, 0), c(0, 0, 0, 1,-1))
# calculando a anova com desdobramento dos gl dos tratamentos
comp.av <- aov(comp ~ trat,contrast = list(trat = make.contrasts(cte)))
# imprimindo o quadro da ANOVA
summary(comp.av, split = list(trat = 1:4))
Quando os tratamentos e/ou fatores utilizados num experimento são de
natureza qualitativa (raça, sexo, cultivares, tratos culturais etc.) os testes de
comparações de médias (testet-Student, testes de Tukey, Duncan, Scheffé
etc.) se aplicam sem restrições. A esses casos se equiparam os fatores ou
tratamentos quantitativos (doses de uma droga, tempo, etc.) quando há só
dois níveis (presença e ausência, por exemplo). O mesmo não acontece,
porém, quando o tratamento ou fator quantitativo tem mais de dois níveis, por
exemplo:
doses crescentes de cobre na alimentação de galinhas (0, 400 e
800 ppm);
doses crescentes de uma droga;
0%, 20%, 40% e 60% de substituição de um ingrediente da ração
por farelo de soja.
Em tais situações é essencial avaliar o comportamento da variável resposta ao
longo dos níveis do fator, através de uma equação de regressão. Por exemplo:
a equação que associa a freqüência cardíaca em função de doses de uma
droga é quase sempre desconhecida, mas em geral, pode ser bem estimada
por meio de uma equação polinomial do tipo:
... 33
2
210 xaxaxaaY ,
sendo Y, a resposta avaliada e x os níveis quantitativos do fator (tratamentos).
O ajuste e a interpretação da equação de regressão quando o polinômio
é de grau muito elevado são tarefas bastante complexas. Porém, quando os
níveis do fator quantitativo são igualmente espaçados, o estudo do
comportamento das médias pode ser feito utilizando o método dos polinômios
ortogonais, que será apresentado a seguir através de um exemplo.
Exemplo: os efeitos de quatro tratamentos no ganho de peso (g) de
alevinos de carpas foram comparados em um DIC.
T1 – ração comum.
T2 – ração comum + 10 mg de B12.
Estatística Experimental
85
T3 – ração comum + 20 mg de B12.
T4 – ração comum + 30 mg de B12.
Dados
Trat.
Repetições
1 2 3 4
0 6,80 6,50 6,40 6,50
10 7,90 6,60 6,80 6,20
20 8,30 8,40 8,60 9,20
30 9,50 9,80 10,00 10,70
médiasduasmenospeloH
H
1
43210
:
:
Análise de variância usual.
955F493F 010123050123 ,, ),;,(),;,(
O teste F é significativo a 1% de probabilidade, portanto rejeita-se Ho, os
tratamentos apresentam efeitos distintos sobre o crescimento dos alevinos de
carpas. Como os níveis são eqüidistantes, 0, 10, 20 e 30 mg a decomposição
dos graus de liberdade pode ser feita com uso de polinômios ortogonais,
usando-se os coeficientes dos contrastes encontrados em tabelas. As tabelas
são construídas em função do número de tratamentos, denominados níveis.
Assim, como temos 4 tratamentos, temos 4 níveis e o polinômio máximo é o de
grau 3. Consultando as tabelas dos coeficientes dos polinômios ortogonais
(Gomes P., 1966, p. 314, Sampaio, I.B.M, 1998, p. 215) , podemos montar a
seguinte tabela
Assim, para o efeito linear temos:
40,48
)00,40)(3()50,34)(1()50,27)(1()20,26)(3(
)3()1()1()3(ˆ 4321
TTTTYLinear
28,29
)20)(4(
)40,48(
).(.
2
LinearYQS
(A obtenção das SQ dos efeitos quadráticos e cúbicos são deixados como exercício)
Causas da Variação G.L. S.Q. Q.M. F
Tratamentos 3 31,03 10,02 41,3
Resíduo 12 2,95 0,25
Total 15 33,98
Tratamentos
(Totais)
Coeficientes para 4 níveis
1º grau 2º grau 3º grau
T1=26,20 -3 +1 -1
T2=27,50 -1 -1 +3
T3=34,50 +1 -1 -3
T4=40,00 +3 +1 +1
I
Ic
2
20 4 20
Estatística Experimental
86
A análise de variância com desdobramento dos graus de liberdade dos
tratamentos por polinômios ortogonais.
Causas da Variação G.L. S.Q. Q.M. F
Regressão linear 1 29,28 29,28 119,32
Regressão Quadrática 1 1,10 1,10 4,49
Regressão Cúbica 1 0,65 0,65 2,64
Tratamentos (3) (31,03) 10,34 42,15
Resíduo 12 2,95 0,25
Total 15 33,98
339Fe754F955F493F 010121050121010123050123 ,,;,;, ),;,(),;,(),;,(),;,(
Conclusão: somente a componente do 1º grau foi significativa (p<0,01),
ou seja, a diferença entre os valores médios dos tratamentos está sendo
explicada por uma equação linear, bxaY , cujos parâmetros a e b são
estimados por:
k
i
k
i
i
i
k
i
k
i
k
i
ii
ii
k
X
X
k
YX
YX
b
1
1
2
2
1
1 1
)(
ˆ e XbYa ˆˆ ,
sendo: aeb ˆˆ , os estimadores de mínimos – quadrados de b e a,
respectivamente, xi = 0, 10, 20 e 30 as doses de vitamina B12; iy = 6,55, 6,80,
8,63 e 10,00 são os comprimentos médios dos alevinos, para i = 1, 2, 3, 4.
Utilizando essas fórmulas, obtemos a equação
X12201686Y ,,ˆ
Script no R para os cálculos acima
# entrando com o número de repetições
r <- 4
# criando os níveis dos tratamentos
trat <- c(rep(0,r),rep(10,r),rep(20,r),rep(30,r))
trat
# entrando com os valores
g.peso <- c(6.80, 6.50, 6.40, 6.50, # observações do tratamento 1
7.90, 6.60, 6.80, 6.20, # observações do tratamento 2
8.30, 8.40, 8.60, 9.20, # observações do tratamento 3
9.50, 9.80, 10.00, 10.70) # observações do tratamento 4
#imprimindo o resumo do arquivo
head(g.peso)
# calculando o quadro da ANOVA
gpeso.av <- aov(comp~factor(trat))
# imprimindo o quadro da anova
anova(comp.av)
# obtenção do QMR no quadro da anova
qmr <- anova(comp.av)[2,3]
Estatística Experimental
87
qmr
# obtenção dos gl do residuo no quadro da anova
glr <- anova(comp.av)[2,1]
glr
# cálculo dos totais por tratamento
t.trat <- tapply(g.peso,trat,sum)
t.trat
# Definição do contraste
c <- c(-3,-1,1,3) # efeito linear
# estimativa do contraste linear com base nos totais
y.est <-sum(c*t.trat)
y.est
# cálculo da soma de quadrados
sqy<- (y.est^2)/(r*sum(c^2))
sqy
# calculo da estatística F
fc <- sqy/qmr
fc
# calculo do valor de p da estatística fc
valor.p <- 1-pf(fc,1,glr)
valor.p
Para obter os resultados referentes aos outros contrastes basta
substituir o objeto c na linha # Definição do contraste pelo contraste
correspondente definido abaixo e executar todo o script novamente
#c <- c(1,-1,-1,1) # efeito quadrático
#c <- c(-1,3,-3,1) # efeito cúbico
Este quadro da anova pode ser obtido facilmente com o pacote gmodels.
Não há necessidade de instalar o pacote gmodels novamente, dado que ele já
foi instalado no script anterior. Basta requerê-lo.
Script no R utilizando o pacote gmodels
# requerendo o pacote para o ambiente R
require(gmodels)
# juntando os 3 contrastes no objeto cte
cte<-rbind(c(-3, -1, 1, 3), c(1, -1, -1, 1), c(-1, 3, -3, 1))
# cálculando a anova com desdobramento dos gl dos tratamentos
gpeso.av <- aov(g.peso ~ trat,contrast = list(trat = make.contrasts(cte)))
# imprimindo o quadro da ANOVA
summary(gpeso.av, split = list(trat = 1:4))
Estatística Experimental
88
Este quadro da anova com os desdobramentos dos graus de liberdade
dos tratamentos junto com as equações linear, quadrática e cúbica são
facilmente obtidos com o pacote ExpDes.
Script no R utilizando o pacote ExpDes
#requrendo o pacote ExpDes
require(ExpDes)
#quadro da anova com o desdobramento dos graus de liberdade dos trat
crd(trat,g.peso,quali=F)
Fazendo o gráfico da reta de regressão
# entrando com os valores da dose (x)
dose<-c(0,10,20,30)
# cálculo das médias dos tratamentos (y)
m.trat<-tapply(g.peso,trat,mean)
m.trat
# gráfico de dispersão (dose x ganho de peso)
plot(dose,m.trat,pch=16, col="black",ylab="ganho de peso (g)")
# ajustando a reta de regressão
reg.lin<-lm(m.trat~dose)
#imprimindo os resultados do ajuste
summary(reg.lin)
# colocando a reta estimada no gráfico de dispersão
abline(reg.lin,col="blue",lwd=2)
Estatística Experimental
89
5º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL
1) Num experimento estudou-se a adição de triguilho, a uma dieta básica de milho e farelo de
soja na alimentação se suínos, mestiços ( Landrace x Large White), com peso inicial de 10,5 kg
duranteum período experimental de 40 dias, mantidos em gaiolas metálicas de 1,90 x 0,74 m.
O delineamento experimental foi o inteiramente casualizado com 5 tratamentos e 8 repetições
e a parcela experimental representada por 4 animais (dois machos castrados e duas fêmeas).
Os tratamentos consistiram na inclusão de 0; 7,5; 15,0; 22,5; e 30% de triguilho em dietas à
base de milho e soja.
Os ganhos de peso médio diário em gramas (média dos 4 animais na parcela) foram:
Tratamentos Repetições Total
% de triguilho 1 2 3 4 5 6 7 8
0,0 340 320 310 350 320 340 330 340 2650
7,5 360 350 350 360 370 380 340 350 2860
15,0 370 370 380 390 360 370 360 380 2980
22,5 380 390 380 390 360 360 360 390 3010
30,0 400 390 410 420 380 390 410 420 3220
14720
A análise de variância preliminar é a seguinte:
Causa da variação GL S. Quadrados Q. M F
Tratamentos 4 21915.00 5478,55 31,30**
Resíduo 35 6125,00 175,00
Total 39
** Significativo p<0,01
a- Escrever o script na linguagem do R para reproduzir o quadro da anova acima.
b- Escrever também o script para montar a tabela de análise de variância com desdobramento
dos graus de liberdade de tratamentos por polinômios ortogonais.
Causa da variação GL S. Q. Q. M. F Vapor de p
Tratamentos 21915.00 5478,55 31,30**
Y1 (Linear)
Y2 (Quadrático)
Y3 (Cúbico)
Y4 (4ª grau)
Resíduo 6125,00 175,00
Total 0,3426
c- Tirar as conclusões práticas possíveis para este experimento.
d- Calcular as médias e os erros padrões das médias dos tratamentos e o coeficiente de
determinação e de variação do experimento.
Coeficientes dos polinômios ortogonais para 5 tratamentos:
Linear: -2 -1 0 1 2
Quadrático. : 2 -1 -2 -1 2
Cúbico: -1 2 0 -2 1
4º Grau : 1 -4 6 -4 1
2) Num experimento inteiramente casualizado de competição de linhagens de aves visando o
ganho de peso aos 60 dias de idade, foram utilizados 4 tratamentos e 6 repetições. Os
tratamentos, com as respectivas médias de ganho de peso foram as seguintes:
1- ARBOR ACRES kg 81,11 y
2- KIMBER 44 kg 59,12 y
3- PILCH kgy 61,13
4- COBBS kg 71,14 y
Para a análise de variância dos ganhos de peso, obteve-se: S.Q. Tratamentos = 0,2266 e
S.Q. Total = 0,3426
a) Sejam os contrastes:
43211 y ; 212 y ; 433 y
Verificar se estes contrastes são ortogonais entre si.
b) Preencher o quadro da anova abaixo:
Estatística Experimental
90
F.V. GL S. Q. Q. M. F Vapor de p
Tratamentos 0,2266
Y1
Y2
Y3
Resíduo
Total 0,3426
c) Apresente as conclusões destes testes.
d) Calcular R
2
e o C.V. deste experimento e concluir.
3- Num experimento inteiramente casualizado, com 5 tratamentos e 6 repetições, estudou-se o
efeito da infestação de ovinos e caprinos por larvas de Gaigeria pachyscelis (Nematoda:
Ancylostomatoidea).
Os tratamentos aplicados foram:
T1 - infestação com 150 larvas por animal
T2 - infestação com 300 larvas por animal
T3 - infestação com 600 larvas por animal
T4 - infestação com 1200 larvas por animal
T5 - infestação com 2400 larvas por animal.
A análise de variância do número de semanas decorridas até a morte do animal
apresentou os seguintes resultados.
S.Q. Tratamentos = 5,7204
S.Q. Total =13,1829
Sabendo-se, também que as médias do número de semanas, decorridas até a morte do
animal, por tratamento foram:
2,71=y 3,22=y 3,55=y 16,4y 28,4 54321 y
Pede-se:
a) Montar a análise de variância e concluir.
F.V. GL S. Q. Q. M. F Vapor de p
Tratamentos 5,7204
Resíduo
Total 13,1829
b) Verificar pelo teste de “Tukey”, “Duncan” e “Scheffé” ao nível de 5% de probabilidade, quais
as médias de tratamentos que estão diferindo significantemente entre si.
Estatística Experimental
91
Aula 6 Delineamento em blocos casualizados (DBC)
Suponha que um experimentador esteja interessado em estudar os
efeitos de 3 diferentes dietas. A primeira providência do pesquisador foi a de se
inteirar a respeito da natureza do material experimental disponível. Feito isto,
constatou que ele disporia de 12 animais com aproximadamente o mesmo
peso. Entretanto, estes 12 animais eram provenientes de 4 ninhadas, cada
uma contendo três animais. Dentro de uma ninhada, os três animais foram
sorteados às três dietas. Os animais foram colocados em 12 baias idênticas e
alimentados com as dietas sorteadas, em idênticas condições. Mediu-se,
então, o ganho de peso desses animais depois de 12 semanas. Os dados
obtidos são apresentados no quadro abaixo:
Dieta Ninhada
1 2 3 4
Total
A 28,7 29,3 28,2 28,6 114,8
B 30,7 34,9 32,6 34,4 132,6
C 31,9 34,2 34,9 35,3 136,3
Total 91,3 98,4 95,7 98,3 383,7
Organizando as observações em arquivos com extensão .xls ou .txt
dieta.xls dieta.txt
dieta ninhada gpeso
A Ninhada1 28.7
A Ninhada2 29.3
A Ninhada3 28.2
A Ninhada4 28.6
B Ninhada1 30.7
B Ninhada2 34.9
B Ninhada3 32.6
B Ninhada4 34.4
C Ninhada1 31.9
C Ninhada2 34.2
C Ninhada3 34.9
C Ninhada4 35.3
dieta ninhada gpeso
A Ninhada1 28.7
A Ninhada2 29.3
A Ninhada3 28.2
A Ninhada4 28.6
B Ninhada1 30.7
B Ninhada2 34.9
B Ninhada3 32.6
B Ninhada4 34.4
C Ninhada1 31.9
C Ninhada2 34.2
C Ninhada3 34.9
C Ninhada4 35.3
(Dica: primeiro digite os dados no excel, para depois colocá-lo no bloco de notas)
O delineamento experimental para este ensaio de dietas é um exemplo
de um Delineamento em Blocos Casualizados com três tratamentos e quatro
blocos. Os tratamentos são níveis de um fator experimental, as três dietas; os
blocos são os níveis do fator confundido, as ninhadas. Dado que os animais em
diferentes ninhadas respondem diferentemente a uma dada dieta, a ninhada é
considerada, um fator de confundimento. As 12 unidades experimentais
(animais) são agrupados em 4 blocos, de tal forma que, dentro de cada grupo,
três unidades são afetadas pelo mesmo nível do fator de confundimento. Por
causa da porção das características inerentes aos animais dentro de uma
mesma ninhada (bloco), suas respostas serão muito similares, enquanto que
as respostas dos animais pertencentes a diferentes ninhadas irão variar muito;
isto é, as unidades experimentais são mais homogêneas dentro dos blocos do
que entre os blocos. Assim, resumidamente, podemos definir que um DBC é
um delineamento no qual as unidades (unidades experimentais) às quais os
tratamentos são aplicados são subdivididos em grupos homogêneos,
denominados de blocos, tal que o número de unidades experimentais em um
bloco é igual ao número (ou algum múltiplo do número) de tratamentos
estudados. Os tratamentos são então sorteados às unidades experimentais
Estatística Experimental
92
dentro de cada bloco. Deve-se ressaltar que cada tratamento aparece em cada
bloco, e todo bloco recebe todos os tratamentos. Quando se usa o DBC, o
objetivo é isolar e remover do termo de erro (resíduo) a variação atribuída ao
bloco, garantindo assim, que as médias dos tratamentos estão livres do efeito
dos blocos. A efetividade deste delineamento depende da habilidade em se
obter blocos homogêneos de unidades experimentais. A habilidade para formar
blocos homogêneos depende do conhecimento que o pesquisador tem do
material experimental. Quando os blocos são usados adequadamente, oQMR
(quadrado médio do resíduo) no quadro da ANOVA será reduzido, a estatística
F aumentará, e a chance de se rejeitar H0 (hipótese de nulidade) será maior.
Em experimentos com animais, quando suspeita-se que diferentes raças
de animais responderá diferentemente ao mesmo tratamento, a raça do animal
pode ser usada como um fator a ser considerado na formação dos blocos. O
DBC pode, também, ser empregado efetivamente quando um experimento
deve ser conduzido em mais de um laboratório (bloco) ou quando vários dias
(blocos) são requeridos para a realização do experimento. No DBC temos os
três princípios básicos da experimentação: repetição, casualização e
controle local.
Vantagens do DBC
Com o agrupamento das parcelas, geralmente se obtém resultados
mais precisos que aqueles obtidos num DIC.
Desde exista material experimental suficiente, o delineamento será
sempre balanceado, podendo-se incluir qualquer número de
tratamentos.
A análise estatística é bastante simples.
Se a variância do erro experimental é maior para alguns
tratamentos que para outros, pode-se obter um erro não viesado
para testar qualquer combinação específica das médias dos
tratamentos.
Principal desvantagem
Ocorre quando da perda de parcela(s) em algum tratamento. Apesar de
existir um método apropriado de estimação desses valores, há a perda de
eficiência na comparação de médias envolvendo esses tratamentos.
Esquematicamente para um DBC com 4 tratamentos e 3
blocos (classes de idade) temos:
1) Unidades experimentais heterogêneas (Fonte: Vieira, 2006, pag. 15).
Estatística Experimental
93
2) Constituição dos 3 blocos. ( 3 classes de idades ).
3) Delineamento de um experimento em blocos casualizados.
2 Organização dos dados no DBC.
Vamos considerar k -tratamentos; r – blocos e ijy é o valor observado na
parcela que recebeu o tratamento i e se encontra no bloco j. Assim, um quadro
para representar os valores amostrais de um DBC pode ser da forma abaixo:
Estatística Experimental
94
Blocos
Trat.
1 2 3 ... j ... r Total Média
1 Y11 Y12 Y13 ... ... ... Y1r Y1+
1Y
2 Y21 Y22 Y23 ... ... ... Y2r Y2+
.2Y
3 Y31 Y32 Y33 ... ... ... Y3r Y3+
3Y
.
.
.
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
Yij
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
k Yk1 Yk2 Yk3 ... ... ... Ykr Yk+
kY
TOTAL Y+1 Y+2 Y+3 ... Y+j ... Y+r Y++
3 Modelo matemático
rjekiY ijijij ,,2,1,,2,1
sendo:
.
;0
;0,
;
;
1
1
aleatórioerrodoefeitooé
comtratamentoésimoidoefeitoé
comblocoésimojdoefeitooé
sobservaçõeastodasacomumgeralmédiaé
blocoésimojnotratamentoésimoiorecebeuqueobservaçãoay
ij
r
j
ii
r
j
jj
ij
4 Suposições do modelo. Neste modelo,
cada ijy observado constitui uma amostra aleatória independente
de tamanho 1 de cada uma das kr populações
os i j são independentes e normalmente distribuídos com média 0
e variância 2 , ou seja, ),(~
2
ij 0N . Isto implica em que as kr
populações são normalmente distribuídas com média ij e a
mesma variância 2 , ou seja, ),(~
2
ijij Ny ;
os efeitos de blocos e tratamentos são aditivos. Esta suposição
pode ser interpretada como não existe interação entre tratamentos
e blocos. Em outras palavras, uma particular combinação bloco-
tratamento não produz um efeito que é maior que ou menor que a
soma dos efeitos individuais.
4 Hipótese estatística
Podemos testar
0:
...,,2,1,0:
1
0
i
i
ostodosnemH
kicomH
ou
jiH
H
ji
k
:
0...:
1
210
Estatística Experimental
95
Geralmente o teste de hipótese com relação aos efeitos de blocos não é
feito por dois motivos: primeiro o interesse principal é testar os efeitos de
tratamento, o propósito usual dos blocos é eliminar fontes estranhas de
variação. Segundo, embora as unidades experimentais sejam distribuídas
aleatoriamente aos tratamentos, os blocos são obtidos de uma maneira não
aleatória.
6 Partição da soma de quadrados
Voltemos ao quadro de representação das observações no DBC no item
2
Podemos identificar os seguintes desvios:
yy ij , como o desvio de uma observação em relação a média
amostral geral;
iij yy , como o desvio da observação em relação à média de seu
grupo ou do i-ésimo tratamento;
yy i , como o desvio da média do i-ésimo tratamento em
relação á média geral.
yy j como o desvio da média do j-ésimo bloco em relação á
média geral.
Consideremos a identidade
)()()()( yyyyyyyyyy jiijjiij ,
a qual representa a “ a variação de uma observações em relação à média
geral amostral como uma soma da variação desta observação em relação à
média de seu grupo, com a variação desta observaçãoem relação à média do j-
ésimo bloco em que se encontra esta observação, com a variação do erro
experimental “. Elevando-se ao quadrado os dois membros da identidade
acima e somando em relação aos índices i e j, obtemos:
,)(
)()()(
1 1
2
1 1
22
1 1 1 1
2
k
i
r
j
jiij
k
i
r
j
j
k
i
r
j
k
i
r
j
iijij
yyyy
yyyyyy
Descrição de cada termo da expressão acima. O termo
k
i
r
j
ij
i
yy
1 1
2)( ,
é denominado de Soma de Quadrados Total e vamos denotá-lo por SQT.O
número de graus de liberdade associado à SQT é kr - 1, ou N – 1, pois temos N
observações e a restrição
k
i
r
j
ij
i
yy
1 1
0)( .
O termo:
k
i
r
j
i
i
yy
1 1
2)( ,
é denominado de Soma de quadrados de tratamentos, representada por
SQTr, e é uma medida da variabilidade entre os tratamentos. Quanto mais
Estatística Experimental
96
diferentes entre si forem as médias dos tratamentos, maior será a SQTr. Desde
que temos k tratamentos e a restrição de que
0yy
k
1i
i
)( ,
a SQTr está associada a k-1 graus de liberdade.
O termo
k
1i
r
1j
2
j
i
yy )( ,
é denominado de Soma de quadrados de blocos, representada por SQB, e é
uma medida da variabilidade entre os blocos. Quanto mais diferentes entre si
forem as médias dos blocos, maior será a SQB, justificando assim, a utilização
do delineamento em blocos. Desde que temos r blocos e a restrição
0)(
1
r
j
j yy ,
a SQB está associada a r-1 graus de liberdade.
Finalmente, o termo
,)(
1 1
2
k
i
r
j
jiij yyyy
é denominado SQR. Notem que a magnitude da SQR não depende da
diferença entre as médias dos tratamentos. Os graus de liberdade associada à
SQR é (k-1)(r-1), isto é, o produto dos graus de liberdade dos tratamentos e
blocos. Assim,
SQRSQTrSQBSQT ,
e os graus de liberdade associados a cada membro da equação acima fica
total blocos tratamentos resíduo
kr-1 = (r-1) + (k-1) + (k-1)(r-1)
7 Quadrado médios.
Dividindo a SQB, SQTr e SQR pelos correspondentes graus de
liberdade, obtemos, respectivamente o Quadrado Médio Blocos (QMB), o
Quadrado Médio Entre Tratamentos (QMTr) e o Quadrado Médio Resíduo,
isto é,
)1)(1(11
rk
SQR
QMRe
k
SQTr
QMTre
r
SQB
QMB
8 Estatística e região crítica do teste
A estatística para o teste é
QMR
QMTr
Fc ,
a qual, deve ser próximo de 1 se H0 for verdadeira, enquanto que valores
grandes dessa estatística são uma indicação de que H0 é falsa. A teoria nos
assegura que Fc tem, sob H0 distribuição F – Snedecor com (k -1) e (k-1)(r-1)
graus de liberdade no numerador e no denominador, respectivamente.
Resumidamente,indicamos:
0)),1)(1(,1( ,~ HsobFF rkkc .
Rejeitamos H0 para o nível de significância se
Estatística Experimental
97
)),1)(1(,1( rkkc FF ,
sendo, )),)((,( 1r1k1kF o quantil de ordem )( 1 da distribuição F-Snedecor
com (k -1) e (k-1)(r-1) graus de liberdade no numerador e no denominador.
9 Quadro de análise de variância (anova)
Dispomos as expressões necessárias ao teste na Tabela abaixo,
denominada de Quadro de Análise de Variância (ANOVA).
Fonte de variação gl SQ QM F
Blocos
r – 1 kr
Y
k
Yr
j
j
2
1
2
)(
1r
SQB
Tratamentos
k - 1 kr
Y
r
Yk
i
i
2
1
2 )(
1k
SQTr
QMR
QMTr
Resíduo
(k-1)(r-1)
))(( 1r1k
SQR
TOTAL
kr – 1
k
i
r
J
ij
kr
Y
Y
1 1
2
2 )(
Pode-se provar que:
2QMRE )( , ou seja, QMR é um estimador não viesado da
variância 2 ;
k
i
i
k
r
QMTrE
1
2
)1(
)( , ou seja, QMTr é um estimador não
viesado da variância 2 se a hipótese 0H k210 ...: é
verdadeira.
r
1j
j
2
1r
k
QMBE
)(
)(
10 Detalhes computacionais
Apresentaremos alguns passos que facilitam os cálculos das somas de
quadrados da ANOVA.
Calcule a correção para a média
N
y
CM
2)( ;
Calcule a Soma de Quadrados dos Totais (SQT)
CMySQT
k
1i
r
1j
2
ij
;
Calcule a Soma de Quadrados Entre os Tratamentos (SQTr)
CM
r
Y
SQTr
r
1i
2
i
;
Calcule a Soma de Quadrados de blocos (SQB)
CM
k
Y
SQB
r
1j
2
j
;
Calcule a Soma de Quadrados Residual (SQR) pela diferença, isto
é, SQBSQTrSQTSQR ;
Estatística Experimental
98
Calcule o Quadrado Médio entre os Tratamentos (QMTr) e o
Quadrado Médio Residual (QMR)
))((
,
1r1k
SQR
QMRe
1k
SQTr
QMTr
1r
SQB
QMB
Calcule Fc para tratamentos
QMR
QMB
Fe
QMR
QMTr
F cBlcTr
11 Exemplo 1
Vamos considerar os dados apresentados no item1.
Os cálculos para montar-mos o quadro da ANOVA são:
k = 3, r = 4, e kr = N =(3)(4) =12. Então
Graus de liberdade:
6231r1kse3141rBlo
2131kTrat111121431N1krTotal
))(())((Recos
.;))((
2012275
12
80383
CM
2
,
),(
548481122683512353
CM335329728SQT 222
,,,
),(...),(),(
066681122688712334
CM
4
3136
4
6132
4
8114
SQTr
222
,,,
),(),(),(
071181122688812279
CM
3
398
3
795
3
498
3
391
SQB
2222
,,,
),(),(),(),(
417071106665484SQBSQTrSQTSQR ,,,,
241
6
417
QMRe693
3
0711
QMB0333
2
0666
QMTr ,
,
,
,
,,
,
992
241
693
QMR
QMB
Fe6426
241
0333
QMR
QMTr
F cBlcTr ,
,
,
,
,
,
Organizando estes resultados no Quadro da ANOVA, temos:
Fonte de variação g.l. SQ QM Fc
Dietas 2 66,06 33,03 26,75
Ninhadas 3 11,07 3,69 2,99
Resíduo 6 7,41 1,235
Total 11 84,54
Das tabelas das distribuições F, temos que
9210Fe145F 0106205062 ,, ),,,(),,,( . O valor FcTr = 26,75 é maior do que estes
valores tabelados, então rejeitamos a hipótese nula H0 para um nível
%,, 1ou010 de probabilidade (se é significativo a 1%, também é
significativo a 5%), e concluímos que existe uma diferença entre as três dietas.
As conclusões sobre as diferenças entre os efeitos de ninhadas (blocos)
podem ser baseadas no Fc para blocos (FcBl = 2,98 com p=0,118). Os
resultados indicam que não existe uma variação significativa entre as ninhadas
nos ganhos de peso.
Estatística Experimental
99
O teste F da ANOVA para os blocos é um teste aproximado mesmo
quando as suposições são satisfeitas. Alguns pesquisadores sugerem que não
se considere o efeito colocado nos blocos em futuros estudos similares,
somente se o valor mínimo significativo (valor de p) associado à estatística
calculada for maior ou igual a 0,25 ),( 250p . Para estes dados, FcBl = 2,99
tem um p = 0,118. Portanto, mesmo que existe insuficientes evidências para
rejeitar 0H j0 : , ou seja, não existe efeito de ninhada, não é uma boa idéia
ignorar os efeitos de ninhada em futuros estudos.
O script no R para obter os resultados acima é apresentado abaixo
# lendo o arquivo dieta.txt e armazenando no objeto dados
dados.ex1 <- read.table("dieta.txt",h=T)
head(dados.ex1)
Se quisermos calcular a média de gpeso e digitarmos o comando
mean(gpeso)
o programa dará como resposta:
Erro em mean(gpeso) : objeto 'gpeso' não encontrado
É necessário mostrar o caminho de procura dos objetos. Ou seja, quando voce
usa um nome do objeto o R vai procurar este objeto no caminho indicado, na
ordem apresentada. Pois bem, podemos “adicionar” um novo local neste
caminho de procura e este novo local pode ser o objeto dados.ex1. Digite o
seguinte comndo e compare com o anterior:
# anexando o objeto dados.ex1 no caminho de procura
attach(dados.ex1)
# cálculo da média da coluna com dados de ganho de peso (gpeso)
mean(gpeso)
# mostra o caminho agora com o objeto dados.ex1 incluído
search()
# gráficos box-plot para cada dieta com a cor 5
boxplot(gpeso~dieta,col=5)
# estatisticas descritivas do box-plot de cada dieta
e.des<- tapply(gpeso,dieta,summary)
e.des
# média do ganho de peso de cada dieta
m.gpeso <- tapply(gpeso,dieta,mean)
m.gpeso
# desvio padrão do ganho de peso de cada dieta
sd.gpeso <- tapply(gpeso,dieta,sd)
sd.gpeso
# análise de variância
Estatística Experimental
100
gpeso.av <- aov(gpeso~factor(ninhada) + factor(dieta))
summary(gpeso.av)
# outra forma de se obter as médias do gpeso das dietas e das ninhadas
model.tables(gpeso.av,type="means")
# efeitos das dietas e das ninhadas
model.tables(gpeso.av,type="effects")
# obtendo os resíduos de cada observação
residuos <- resid(gpeso.av)
residuos
# gráfico Q-Q da normalidade
qqnorm(residuos,pch=16,col=1)
qqline(residuos,lwd=2,col=2)
# teste de normalidade de Shapiro-Wilks para os resíduos
shapiro.test(residuos)
# teste de Bartlett para a igualdade das variância populacionais das dietas
bartlett.test(gpeso~factor(dieta)+factor(ninhada))
Outra forma de se obter estes resultados é pelo pacote ExpDes com a
função rbd( )
# requerendo o pacote ExpDes
require(ExpDes)
# anova pelo ExpDes
rbd(dieta,ninhada,gpeso,quali=T,mcomp="tukey")
Atenção! Para retirar o objeto do caminho de procura basta digitar
detach(dados.ex1)
# mostra o caminho agora com o objeto dados.ex1 excluído
search()
NOTA IMPORTANTE: Sempre use detach () antes de anexar um novo arquivo
de dados, especialmente se as colunas dos dois arquivos tem nomes idênticos,
se não haverá problemas!
12 Estimação de uma parcela perdida
Um problema relativamente sério deste tipo de delineamento ocorre
quando perdemos uma (ou mais) parcela(s) durante o desenvolvimento do
experimento. Vamos considerar o seguinte exemplo:
Exemplo:
Classe de idade (Blocos)
Trat. 1 2 3 4 Total
A 15 11 20 18 64
B 22 31 45 26 124
C 33 37 * 30 100
D 44 31 49 34 158
E 37 30 36 21 124
Total 151 140 150 129 570
Estatística Experimental
101
A generalização destes dados pode ser representada no quadro abaixo
Blocos
Trat. 1 2 3 ... j ... r Total
1 Y11 Y12 Y13 ... ... ... Y1r
1Y
2 Y21 Y22 Y23 ... ... ... Y2r
2Y
.
.
.
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
i jŶ
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
´
iY
.
.
K Yk1 Yk2 Yk3 ... ... ... Ykr
iY
Total
1Y 2Y ...
´
jY ... rY
´
Y
sendo:
.tan
;tan
;
cos;
;ˆ
´
´
´
perdidaparcelaaocorreuondebloconotesresparcelasdastotaloYperdidaparcelaaocorreuondetratamentonotesresparcelasdastotaloY
sdisponíveiparcelasdastotaloY
blodenúmeroorestratamentodenúmerook
perdidaparceladaestimativaaY
j
I
ij
Uma solução interessante para o caso da perda de uma parcela consiste
em estimar seu valor usando a fórmula:
)1)(1(
ˆ
´´´
rk
YrYkY
Y jIij
No exemplo acima, temos uma parcela perdida no tratamento C no
bloco 3 (classe de idade). Nestes dados temos:
;570100,150,4,5 ´´3
´
3 YeYYrk
a estimativa da parcela é dado por
17,44
)14)(15(
570)150(4)100(5ˆ
ijY
Este valor deve ser substituído no lugar do dado perdido e a análise é
feita como anteriormente. A única diferença é que se perde um grau de
liberdade no resíduo, obtendo-se o seguinte quadro de análise de variância:
Fonte de Variação g.l. SQ QM Fc
Blocos 3 488,56 162,86
Tratamentos 4 1289,00 322,25 10,21
Resíduo 11 347,18 31,56
Total 18 2124,75
F(4; 11; 0,05) = 3,36; F(4; 11; 0,01) = 5,67; F(3; 11; 0,05) = 3,59 ; F(3; 11; 0,01) = 6,62
Estatística Experimental
102
Observação: Nessa última análise, o quadrado médio do resíduo está
corretamente estimado, mas aquele correspondente a tratamento está
ligeiramente exagerado. Para corrigi-lo, basta subtrair da SQTr a seguinte
quantidade:
2)
1
ˆ(
1
k
Y
Y
k
k
U jij
Então, temos: 59,35)
15
150
17,44(
5
15 2
U , logo a SQTr
correta fica igual a SQTr = 1289,00 – 35,59 = 1253,41 e a QMTr = 313,35.
Fc = 9,93. Como o valor de ),:,( 050114c FF a conclusão sobre a presença
de pelo menos um efeito de tratamento não nulo, continua valendo.
OBS: Muitas vezes, dispensa-se o uso dessa correção, já que nem
sempre ela altera os resultados. Entretanto, na dúvida, devemos aplicar
essa correção.
Fazendo esta mesma análise no MiniTab, com asterisco no lugar da
parcela perdida temos o seguinte resultado
General Linear Model: Y versus Bloco; Trat
Factor Type Levels Values
Bloco fixed 4 1 2 3 4
Trat fixed 5 A B C D E
Analysis of Variance for Y, using Adjusted SS for Tests
Source DF Seq SS Adj SS Adj MS F P
Bloco 3 333.40 400.48 133.49 4.23 0.032
Trat 4 1253.42 1253.42 313.35 9.93 0.001
Error 11 347.18 347.18 31.56
Total 18 1934.00
Reparem que a SQTr já esta corrigida, ou seja, quando se usa o
MiniTab ou o SAS não é necessário estimar a parcela e depois substituí-la nos
dados e fazer a ANOVA. Nestes programas a correção da SQTr é feita
automaticamente. No MiniTab é necessário seguir os seguintes passos:
Stat/ANOVA/General Linear Models e nesta janela colocar os
termos do modelo em “Model” na ordem apresentada.
Estatística Experimental
103
Antes de acionar o OK nesta janela vá à janela “General Model –
Options” marcar na Sum of Square a opção Adjusted (Type III) e
OK
13 Análise de variância de medidas repetidas
Um delineamento experimental de medidas repetidas é aquele, no qual
várias medidas são feitas na mesma unidade experimental (geralmente
animal), e estas medidas repetidas constituem as repetições. Para ilustrar
melhor esta característica vamos considerar o exemplo 2, item 11 da Aula 3 ,
pg 38. Neste exemplo tínhamos 4 amostras independentes de animais e todos
os animais de cada grupo foram alimentados, depois do sorteio, com uma das
4 dietas. Nos delineamentos de medidas repetidas não existe amostras
independentes de animais, ao contrário, cada um dos 5 animais terão seus
pesos medidos depois que foram submetidos a uma determinada dieta, depois
de um certo período de tempo, os mesmos cinco animais terão seus pesos
avaliados depois de terem sidos submetidos a outra dieta, e assim
sucessivamente, até serem submetidos a todas as dietas. A tabulação dos
dados pode ser bem parecida com a representação dos dados do DBC. Neste
exemplo podemos ter:
Dietas
Animais 1 2 3 4 Total
1 Y11 Y12 Y13 Y14 Y1+
2 Y21 Y22 Y23 Y24 Y2+
3 Y31 Y32 Y33 Y34 Y3+
4 Y41 Y42 Y43 Y44 Y4+
5 Y51 Y52 Y53 Y54 Y5+
Total Y+1 Y+2 Y+3 Y+4 Y++
Os resultados dos cálculos da ANOVA de um delineamento de medidas
repetidas são os mesmos de uma análise de um DBC. A grande vantagem
deste tipo de delineamento é o seu econômico requerimento de unidades
experimentais (animais). Este delineamento tem desvantagens se existe um
efeito por causa da seqüência em que os tratamentos são administrados
(dietas no presente exemplo) aos animais. Outra desvantagem surge se o
tempo entre a aplicação de diferentes tratamentos é insuficiente para evitar a
sobreposição de efeitos do tratamento anterior.
Estatística Experimental
104
Exemplo 3 Considere o conjunto de dados abaixo os quais se referem a níveis
de concentração de colesterol (mg/dl) em sangue de 7 animais experimentais,
depois que foram tratados cada um com uma das três drogas, com suficiente
tempo entre as aplicações das drogas para que seu efeito desaparecesse do
animal.
Drogas
Animal A B C Total
1 164 152 178 494
2 202 181 222 605
3 143 136 132 411
4 210 194 216 620
5 228 219 245 692
6 173 159 182 514
7 161 157 165 483
Total 1281 1198 1340 3819
A hipótese de interesse é que a média do nível de colesterol no sangue
é a mesma independente da droga (tratamento). (Extraído de ZAR, J. H.
Biostatistical Analysis, pg. 255, 1999)
diferentesmédiasduasmenospeloH
H
1
3210
:
:
Script no R para obter os resultados do exemplo 3
Analysis of Variance for N_C, using Sequential SS for Tests
Source DF Seq SS Adj SS Seq MS F P
Animal 6 18731.2 18731.2 3121.9 53.88 0.000
Droga 2 1454.0 1454.0 727.0 12.55 0.001
Error 12 695.3 695.3 57.9
Total 20 20880.6
Conclusão: rejeita-se H0
# removendo todos os objetos definidos anteriormente
rm(list=ls(all=TRUE))
# Entrando com os dados pelo comando read.table( )
dados.ex3 <- read.table("ex3dbc.txt",h=T)
head(dados.ex3)
# anexando o objeto dados.ex3 no caminho de procura
attach(dados.ex3)
# definindo o objeto animal como um fator
animal<-factor(animal)
# quadro da anova pela função aov( )
colesterol.av <- aov(colesterol~animal+droga)
summary(colesterol.av)
model.tables(colesterol.av)
residuos<-resid(colesterol.av)
residuos
qqnorm(resíduos,pch=16,col=1)
Estatística Experimental
105
qqline(residuos,lwd=2,col=2)
shapiro.test(residuos)
bartlett.test(colesterol~animal+droga)
Utilizando os recursos do pacote agricolae
# requerendo o pacote agricolae
require(agricolae)
colesterol.tu<- HSD.test(colesterol.av ,"droga")
colesterol.tu
# gráfico de barras das médias com o desvio padrão pelo agricolae
bar.err(colesterol.tu ,ylim=c(0,250),std=TRUE,density=10,
col="brown",main="Média +/- Desvio Padrão")
bar.err(colesterol.tu,ylim=c(0,250),std=FALSE,density=2,col="brown",mai
n="Média +/- erro padrão")
# gráfico de barras das médias com o erro padrão pelo agricolae
bar.group(colesterol.tu,ylim=c(0,250),std=FALSE,density=2,
col="brown", xlab="Drogas",main="Teste de Tukey")
Utilizando os recursos do pacote ExpDes
# requerendo o pacote ExpDes
require(ExpDes)
# anova pelo ExpDes
rbd(droga,animal,colesterol,quali=T,mcomp="tukey")
# retirando o objeto dados.ex3 do caminho de procura
detach(dados.ex3)
Estatística Experimental
106
6º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL
1 - Contagens médias de linfócitos de células de ratos (1000/mm
3
) foram comparadas dando
uma de duas drogas ou um placebo (controle). Ninhadas de ratos do mesmo sexo foram
usadas para formar blocos homogêneos de 3 ratos cada; dentro de cada bloco, 3 tratamentos
foram sorteados ao acaso. Parece razoável assumir queos efeitos dos três tratamentos deve
ser relativamente constante para vários genótipos de ratos para diferentes ninhadas.
Tratamentos
Blocos
I II III IV V VI VII
Placebo 5,4 4,0 7,0 5,8 3,5 7,6 5,5
Droga 1 6,0 4,8 6,9 6,4 5,5 9,0 6,8
Droga 2 5,1 3,9 6,5 5,6 3,9 7,0 5,4
a) Escrever o modelo matemático deste experimento e estabelecer as hipóteses
estatísticas H0 e H1 para testar os efeitos dos tratamentos.
b) Montar o quadro da análise de variância para testar as hipóteses do item a).
c) Fazer o gráfico de barras das médias dos tratamentos com o desvio padrão.
d) Calcular as médias dos tratamentos e o erro padrão das médias com base na variância
conjunta do experimento (QMR da ANOVA).
e) Faça um gráfico dos itens c) e d).
f) Verificar pelo teste de Dunnett se os efeitos de cada droga diferem do controle (trat1).
g) Calcular os coeficientes de variação (CV) e de determinação (R
2
.) do experimento.
2- A Tabela abaixo mostra os dados da produção de leite, de vacas da raça Gir, filhas de 3
touros, na 1ª, 2ª e 3ª parições, em 305 dias de lactação, delineados segundo um DBC. com
amostragem na parcela.
Touros Parições (Blocos) Total
I II III
1 1750 1650 1600 2250 2200 2220 2400 2650 2610 19330
2 1250 1150 1120 1750 1600 1350 1800 1900 1710 13630
3 1600 1700 1900 2300 2400 2200 2700 2750 2680 20230
Total 13720 18270 21200 53190
Pede-se:
a) Escrever o modelo matemático deste experimento e estabelecer as hipóteses estatísticas H0
e H1
b) Montar o quadro da análise de variância e testar as hipóteses do item a).
c) Calcular as médias dos tratamentos e o erro padrão das médias com base na variância
comum (QMR da ANOVA).
d) Fazer o gráfico de barras das médias dos tratamentos com o erro padrão.
e) Verificar, pelo teste de Tukey, se existem diferenças entre as médias dos touros.
f) Calcular o coeficiente de variação e de determinação do experimento R
2
do experimento.
3 - Num experimento objetivando verificar a influência da suplementação concentrada de
enzimas amilolíticas, celulolíticas e proeolíticas sobre o ganho de peso em ovinos da raça ideal
(POLWARTH), criados a pasto, foram utilizados os seguintes tratamentos:
1 - Pasto de Cynodon dactylon + ração concentrada
2 - Pasto de Cynodon dactylon + ração concentrada + BIOVITASE
3 - Pasto de Cynodon dactylon + ração concentrada + PANASE-S
4 - Pasto de Cynodon dactylon ( Testemunha)
O experimento foi em blocos ao acaso, com 5 blocos e 4 tratamentos, e os resultados
obtidos para o ganho de peso médio, em kg, durante o experimento foram:
Blocos
Tratamentos I II III IV V
1- Cynodon dactilon (testemunha) 6,10 5,80 3,60 5,30 6,30
2- Ração Concentrada (RC) 10,90 13,75 14,50 11,70 13,10
3- RC + BIOVITASE 11,70 16,28 14,40 15,50 11,60
4- RC + PANASE-S 16,80 14,10 8,60 16,10 14,30
Pede-se:
Estatística Experimental
107
a) Estabelecer as hipóteses estatísticas H0 e H1
b) Montar o quadro da análise de variância e testar as hipóteses do item a).
c) Calcular as médias dos tratamentos e erros padrões das médias.
d) Use o teste de Dunnett para testar os tratamentos que diferem da testemunha (RC).
e) Definir 3 contrastes ortogonais de interesse entre as médias dos tratamentos e testá-los
através da análise de variância. (decomposição dos graus de liberdade).
f) Calcular os coeficientes de variação e de determinação do experimento.
4 - Num experimento estudou-se o efeito do farelo de arroz desengordurado (FAD) ) como
fatores de retardamento da maturidade sexual de frangas. O ensaio, organizado em blocos
completos casualizados, abrangeu duas fases distintas e foi constituído de 5 tratamentos e 5
repetições com 8 aves por unidade experimental.
A 1ª fase iniciada quando as aves atingiram 9 semanas de idade, teve duração de 12 semanas.
As pesagens eram efetuadas com intervalos de duas semanas, e o consumo de ração era
registrado também com intervalo de duas semanas.
Os tratamentos, na 1ª fase eram formados por rações que continham 0, 15, 30, 45, 60 % de
FAD em substituição ao milho. Os resultados obtidos na 1ª fase do ensaio, para conversão
alimentar foram os seguintes:
Tratamentos 1º Bloco 2º Bloco 3º Bloco 4º Bloco 5º Bloco
A - 0% de FAD 6,5 6,4 6,2 5,8 7,3
B - 15% de FAD 7,1 7,4 6,9 7,3 7,0
C - 30% de FAD 7,5 8,1 6,7 7,4 7,7
D - 45% de FAD 8,4 8,5 8,7 8,3 7,9
E - 60% de FAD 9,3 9,9 9,5 8,5 8,9
Fazer a análise de variância e caso haja significância entre os tratamentos fazer a
decomposição dos graus de liberdade dos tratamentos por meio da técnica dos polinômios
ortogonais (regressão linear, quadrática, etc.). Ajuste a equação de regressão linear às médias
dos tratamentos.
5 - No estudo do ganho de peso de porcos guinea, quatro dietas foram testadas. Vinte animais
foram usados neste experimento, 5 animais para cada dieta. Entretanto o pesquisador
acreditou que alguns fatores ambientais podem afetar o ganho de peso. Não foi possível reunir
os 20 animais em uma mesma condição ambiental. Portanto, foram estabelecidos 5 blocos de
unidades experimentais sob idênticas condições de temperatura, luz, etc.
Dietas
Blocos 1 2 3 4
1 7,0 5,3 4,9 8,8
2 9,9 5,7 7,6 8,9
3 8,5 4,7 5,5 8,1
4 5,1 3,5 2,8 3,3
5 10,3 7,7 8,4 9,1
a) Estabelecer as hipóteses estatísticas H0 e H1
b) Montar o quadro da análise de variância e testar as hipóteses do item a).
c) Fazer o gráfico de barras das médias dos tratamentos com o erro padrão.
d) Verificar, pelo teste de Tukey, se existem diferenças entre as médias das dietas. Qual foi a
dieta que proporcionou o melhor ganho de peso?
e) Calcular o coeficiente de variação e de determinação do experimento R
2
do experimento.
6- Os resultados apresentados pelo programa R a uma análise de dados de um experimento
foram:
Response: dados
Df Sum Sq Mean Sq F value Pr(>F)
blocos 3 37.35 12.45 2.7978 0.08549 .
tratamentos 4 2530.20 632.55 142.1461 5.361e-10 ***
Residuals 12 53.40 4.45
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Estatística Experimental
108
a) Interprete estes resultados
b) As médias dos tratamentos são apresentadas abaixo:
Trat A Trat B Trat C Trat D Trat E
12.75 23.50 37.00 45.00 34.50
Analisando os resultados da saída do Teste de Tukey preencha a tabela abaixo com as médias
seguidas das letras.
$tratamentos
diff lwr upr p adj
Trat B-Trat A 10.75 5.995488 15.504512 0.0000864
Trat C-Trat A 24.25 19.495488 29.004512 0.0000000
Trat D-Trat A 32.25 27.495488 37.004512 0.0000000
Trat E-Trat A 21.75 16.995488 26.504512 0.0000000
Trat C-Trat B 13.50 8.745488 18.254512 0.0000085
Trat D-Trat B 21.50 16.745488 26.254512 0.0000001
Trat E-Trat B 11.00 6.245488 15.754512 0.0000689
Trat D-Trat C 8.00 3.245488 12.754512 0.0012997
Trat E-Trat C -2.50 -7.254512 2.254512 0.4820549
Trat E-Trat D -10.50 -15.254512 -5.745488 0.0001086
Tratamentos Médias
Estatística Experimental
109
Aula 7 Delineamento Quadrado Latino (DQL).
1 Introdução
No delineamento Quadrado Latino os tratamentos são designados aos
blocos de duas maneiras diferentes, geralmente designados por colunas e
linhas. Cada coluna e cada linha é um bloco completo de todos os tratamentos.
Portanto, em um DQL, três fontes de variação explicáveis são identificáveis:
linhas, colunas e tratamentos. Um particular tratamento é designado somente
uma vez em cada linha e cada coluna. Geralmente um dos blocos corresponde
aos animais eo outro ao período. Cada animal receberá todos os tratamentos
em diferentes períodos. O número de tratamentos (k) é igual ao número de
linhas e colunas. O número total de observações é igual k2. Se os tratamentos
são designados por letras maiúsculas (A, B, C e D, etc.), então exemplos de
Quadrados Latinos 3 x 3 e 4 x 4 são:
A C B C A B A B D C C D B A
B A C A B C C A B D D B A C
C B A B C A B D C A B A C D
D C A B A C D B
Considere a seguinte situação (baseado em VIEIRA, 2006, pág. 18): Um
veterinário pretende comparar o efeito de três drogas no combate a uma
doença em suínos. Os animais disponíveis são, no entanto, diferentes em
raças e em pesos. Para fazer o experimento, o veterinário deve, primeiro
organizar blocos de animais de mesma raça (em coluna) e depois organizar em
peso (em linha). Na Figura abaixo: a raça está representada pela tonalidade da
cor preta e o peso pelo tamanho. Então foram construídos blocos em “colunas”
e “linhas”
Construído o quadrado latino, sorteiam-se os tratamentos, mas cada
tratamento só deve aparecer uma vez em cada “coluna” e uma vez em cada
“linha”. Assim o sorteio dos tratamentos tem duas restrições: “dentro” de linhas
e dentro de “colunas”
Os DQL não são comuns na prática devido às restrições do
delineamento. Notem, por exemplo, que linhas, colunas e tratamentos são,
necessariamente, iguais em números. Mais ainda, o nº de observações é igual
ao quadrado do nº de tratamentos.
Considere este outro exemplo, extraído de Rao, P.V. Statistical research
methods in the life science, pg 727: Em um estudo para comparar as
tolerâncias de gatos a quatro substâncias cardíacas (A, B, C, D) foi conduzida
Estatística Experimental
110
utilizando-se um DQL, no qual as linhas representavam quatro combinações de
dois períodos (A.M. , P.M.) e duas técnicas (I e II) e as colunas representam os
dias nos quais as medidas foram feitas. A cada um dos 16 gatos foi
administrada uma substância cardíaca a uma taxa fixada e a dose (taxa de
infusão x tempo) na qual o efeito especificado foi observado foi anotado.
Abaixo temos que mostra as respostas medidas em 10log(dose em μg).
1 2 3 4
..iY iY
I,AM )(11 DY
3,26
)(12 BY
4,15
)(13 AY
3,02
)(14 CY
3,67
1Y
14,10
1Y
I,PM )(21 BY
2,73
)(22 DY
3,38
)(23 CY
3,29
)(24 AY
4,50
2Y
13,90
2Y
II,AM )(31 AY
3,45
)(32 CY
4,09
)(33 BY
2,66
)(34 DY
3,51
3Y
13,71
3Y
II,PM )(41 CY
3,20
)(42 AY
3,14
)(43 DY
3,48
)(44 BY
3,40
4Y
13,22
4Y
jY 1Y
12,64
2Y
14,76
3Y
12,45
4Y
15,08
Y
54,93
jY 1Y
2Y
3Y
4Y
Y
Totais dos tratamentos:
11,1414,345,350,402,3)()()()()( 42312413 AYAYAYAYAY
94,1240,366,273,215,4)()()()()( 44332112 BYBYBYBYBY
25,1420,309,429,367,3)()()()()( 41322314 CYCYCYCYCY
63,1348,351,338,326,3)()()()()( 43342211 DYDYDYDYDY
Notação:
iY = soma das observações da i-ésima linha (i = 1, 2,..., k);
iY = soma das observações da j-ésima coluna (j=1,2, ..., k);
)( tY = soma das observações do t-ésimo tratamento
Organização dos arquivos:
No excel: ex1.xls No bloco de notas: ex1.txt
Linha coluna trat tx.inf
TI_AM DIA1 D 3.26
TI_AM DIA2 B 4.15
TI_AM DIA3 A 3.02
TI_AM DIA4 C 3.67
TI_PM DIA1 B 2.73
TI_PM DIA2 D 3.38
TI_PM DIA3 C 3.29
TI_PM DIA4 A 4.50
TII_AM DIA1 A 3.45
TII_AM DIA2 C 4.09
TII_AM DIA3 B 2.66
TII_AM DIA4 D 3.51
TII_PM DIA1 C 3.20
TII_PM DIA2 A 3.14
TII_PM DIA3 D 3.48
TII_PM DIA4 B 3.40
linha coluna trat tx.Inf
TI_AM DIA1 D 3,26
TI_AM DIA2 B 4,15
TI_AM DIA3 A 3,02
TI_AM DIA4 C 3,67
TI_PM DIA1 B 2,73
TI_PM DIA2 D 3,38
TI_PM DIA3 C 3,29
TI_PM DIA4 A 4,50
TII_AM DIA1 A 3,45
TII_AM DIA2 C 4,09
TII_AM DIA3 B 2,66
TII_AM DIA4 D 3,51
TII_PM DIA1 C 3,20
TII_PM DIA2 A 3,14
TII_PM DIA3 D 3,48
TII_PM DIA4 B 3,40
2 Modelo matemático
Dias
Combinações
de tempo e
técnicas
Estatística Experimental
111
colunaésimajelinhaésimaina
usadotratamentodoçãoidentificadeindiceoét
kjekiCLY ijtkjiijt
,,,2,1,,2,1
sendo:
.
;0,
;
;
;
;
,
aleatórioerrodoefeitooé
etratamentoésimotdofixoefeitoé
colunaésimajdaefeitoéC
linhaésimaidaefeitooéL
sobservaçõeastodasacomumgeralmédiaé
colunaésimajnae
linhaésimainatratamentoésimokorecebeuqueobservaçãoay
ijt
t
tt
j
j
ijk
3 Suposições do modelo
Neste modelo, supõem-se que:
);,0( 2Lj NtesindependensãoL
;),0( 2Cj NtesindependensãoC
),0( 2 Ntesindependensãoit
jiijt CeL ,, são mutuamente independentes.
4 Hipótese estatística
Podemos testar
0:
,0:
1
0
t
t
ostodosnemH
H
, ou
jiparaH
H
ji
t
:
...:
1
210
Geralmente os testes de hipóteses com relação aos efeitos de linhas e
colunas não são feitos por dois motivos: primeiro o interesse principal é testar
os efeitos de tratamento, e o propósito usual de linhas e colunas é eliminar
fontes estranhas de variação.
5 Participação da soma de quadrados
Do quadro de representação das observações no DQL, podemos notar os
seguintes desvios:
Podemos identificar os seguintes desvios:
yy ijt , como o desvio de uma observação em relação à média
geral;
yy ijt , como o desvio da média do t-ésimo tratamento em
relação à média geral;
yy i , como o desvio da média da i-ésimo linha em relação á
média geral;
yy j como o desvio da média da j-ésima coluna em relação
á média geral;
Então, podemos escrever a igualdade:
)2()()()()( . YYYYYYYYYYYYY ijjiijttjiijt a
qual representa a “ a variação de uma observação em relação à média geral
Estatística Experimental
112
amostral como uma soma da variação da média da i-ésima linha em relação à
média geral, com a variação da média da j-ésima coluna em relação à média
geral, com a variação da média da j-ésima coluna em relação à média geral,
com a variação da média do k-ésima tratamento em relação à média geral, e
com a variação do erro experimental “. Elevando-se ao quadrado os dois
membros da identidade acima e somando em relação aos índices i e j,
obtemos:
,)2(
)()()()(
1 1 1
2
.
1
2
1
2
1
2
1 1
2
k
i
k
j
k
t
ijjiijk
k
t
k
k
j
j
k
i
i
k
i
k
j
ijk
YYYYY
YYYYYYYY
ou seja, a Soma de Quadrados do Total (SQT) é igual à Soma de Quadrados
do efeito colocado nas linhas (SQL), mais a Soma de Quadrados do efeito
colocado nas colunas (SQC), mais a Soma de Quadrados dos Tratamentos
(SQTr), mais a Soma de Quadrados dos resíduos (SQR). Notem que existem
k2 observações, então a SQT tem (k2 -1) graus de liberdade. Existe k – linhas, k
– colunas e k – tratamentos, tal que cada uma das três soma de quadrados
SQL, SQC e SQTr tem k-1 graus de liberdade. Finalmente, os graus de
liberdade para SQR pode ser calculado pela diferença entre os graus de
liberdade entre a SQT e soma dos graus de liberdade para linhas, colunas e
tratamentos. ((k2-1)-(k-1)-k-1)-(k-1)=(k-1)(k-2)).
Assim, os graus de liberdade associados a cada membro da equação
acima fica:
Total Linhas Colunas Tratamentos Resíduo
( k2 -1) = (k-1) + (k-1) + (k-1) + (k-1)(k-2)
6 Quadrados médios
Dividindo a SQL, SQC, SQTr e SQR pelos correspondentes graus de
liberdade, obtemos,respectivamente o Quadrado Médio das Linhas (QML), o
Quadrado Médio das Colunas (QMC) , o Quadrado Médio de Tratamentos
(QMTr) e o Quadrado Médio Resíduo (QMR), isto é,
)2)(1(11
,
1
kk
SQR
QMRe
k
SQTr
QMTre
k
SQC
QMC
k
SQL
QML
7 Estatística e região crítica do teste
A estatística para o teste é
QMR
QMTr
Fc ,
a qual, deve ser próximo de 1 se H0 for verdadeira, enquanto que valores
grandes dessa estatística são uma indicação de que H0 é falsa. A teoria nos
assegura que Fc tem, sob H0 distribuição F – Snedecor com (k -1) e (k-1)(k-2)
graus de liberdade no numerador e no denominador, respectivamente.
Resumidamente, indicamos:
0)),2)(1(,1( ,~ HsobFF kkkc .
Rejeitamos H0 para o nível de significância se
)),)((,( 2k1k1kc FF ,
sendo, )),)((,( 2k1k1kF o quantil de ordem )( 1 da distribuição F-Snedecor
com (k -1) e (k-1)(k-2) graus de liberdade no numerador e no denominador.
Estatística Experimental
113
8 Quadro da análise de variância (ANOVA)
Dispomos as expressões necessárias ao teste na Tabela abaixo,
denominada de Quadro de Análise de Variância (ANOVA).
Fonte de variação gl SQ QM F
Linhas
k - 1 2
2
1
2 )(
k
Y
k
Yk
i
i
1k
SQL
Colunas
k – 1 2
2
1
2
)(
k
Y
k
Yk
j
j
1k
SQC
Tratamentos
k - 1 2
2
1
2 )(
k
Y
r
Yk
t
t
1k
SQTr
QMR
QMTr
Resíduo
(k-1)(k-2)
)2)(1( kk
SQR
TOTAL
K
2
– 1
k
i
k
J
ijt
k
Y
Y
1 1
2
2
2 )(
Pode-se provar que:
2QMRE )( , ou seja, QMR é um estimador não viesado da
variância 2 ;
k
i
i
k
r
QMTrE
1
2
)1(
)( , ou seja, QMTr é um estimador não
viesado da variância 2 se a hipótese 0H k210 ...: é
verdadeira.
9 Detalhes computacionais
Apresentaremos alguns passos que facilitam os cálculos das somas de
quadrados da ANOVA.
Calcule a correção para a média
2
2
k
y
CM
)( ;
Calcule a Soma de Quadrados dos Totais (SQT)
CMySQT
k
i
k
j
ijt
1 1
2 ;
Calcule a Soma de Quadrados Entre os Tratamentos (SQTr)
CM
k
Y
SQTr
k
t
t
1
2
;
Calcule a Soma de Quadrados das Linhas (SQL)
CM
k
Y
SQL
k
j
i
1
2
;
Calcule a Soma de Quadrados de Colunas (SQC)
CM
k
Y
SQC
k
j
j
1
2
;
Estatística Experimental
114
Calcule a Soma de Quadrados Residual (SQR) pela diferença, isto
é, SQTrSQCSQLSQTSQR ;
Calcule os Quadrados Médios Entre os Tratamentos (QMTr) e o
Quadrado Médio Residual (QMR)
)2)(1(1
,
1
,
1
kk
SQR
QMRe
k
SQTr
QMTr
k
SQC
QMC
k
SQL
QML
Calcule Fc para tratamentos, linhas e colunas, ou seja,
QMR
QMC
Fe
QMR
QML
F
QMR
QMTr
F CLcTr ,
10 Exemplo 1: Vamos considerar os dados do exemplo apresentado no item1.
Os cálculos para montar-mos o quadro da ANOVA são:
k = 4, e k2 = N =16. Então
Graus de liberdade:
8242k1ks
e3141kColunas3141kLinhas
3141kTrat151161N1kTotal 2
))(())((Re
,
.;
5816,188
16
)94,54( 2
CM
6055,35816,1881871,192
)40,3(...)15,4()26,3( 222
CMSQT
2331,05816,1888147,188
4
)63,13(
4
)25,14(
4
)94,12(
4
)11,14( 2222
CMSQTr
1065,05816,1886881,188
4
)22,13(
4
)71,13(
4
)90,13(
4
)10,14( 2222
CMSQL
4274,15816,1880090,190
4
)08,15(
4
)45,12(
4
)76,14(
4
)64,12( 2222
CMSQC
8384,14274,11065,02331,06055,3 SQCSQLSQTrSQTSQR
3015,0
6
8094,1
4758,0
3
4274,1
,0355,0
3
1065,0
,0771,0
3
2331,0
QMRe
QMCQMLQMTr
5530,1
3064,0
4758,0
1159,0
3016,0
0355,0
2899,0
3064,0
08741,0
QMR
QMC
F
QMR
QML
Fe
QMR
QMTr
F
cC
cLcTr
Organizando estes resultados no Quadro da ANOVA, temos:
Estatística Experimental
115
Fonte de variação gl SQ QM F
Linhas 3 0,1065 0,0355
Colunas 3 1,4274 0,4758
Tratamentos 3 0,2331 0,08741 0,2899
Resíduo 6 1,8384 0,3015
TOTAL 15 3,6055
Das tabelas das distribuições F, temos que
789Fe764F 0106305063 ,, ),,,(),,,( . O valor FcTr = 0,2899 é menor do que estes
valores tabelados, então não rejeitamos a hipótese nula H0 para um nível
%,, 5ou050 de probabilidade e concluímos que os dados não evidenciam
uma diferença significativa entre as quatros drogas. Os dados também não
evidenciam uma variação significativa entre os efeitos colocados nas linhas
(p=0,946) e nas colunas (p=0,290). Seguindo o que alguns pesquisadores
sugerem não consideraríamos os efeitos de linhas e colunas em futuros
experimentos, tendo em vista que o valor do nível de significância para linhas e
colunas é superior a 0,25.
Script no R para a obtenção dos resultados acima
# entrando com os dados pelo comando read.table( )
dados.ex1 <- read.table("ex1dql.txt",header=TRUE,dec=",")
# imprimindo as 6 primeiras linhas do arquivo
head(dados.ex1)
# anexando o objeto dados.ex1 no caminho de procura
attach(dados. ex1)
# estatísticas resumo de cada nível dos tratamentos
e.desc<- tapply(tx.inf,trat,summary)
e.desc
# tornando linha coluna e tratamentos como fatores
linha<- factor(linha); coluna<- factor(coluna); trat <- factor(trat)
# gráfico Box-plot para cada nível de trat
boxplot(tx.inf~trat,col=2,xlab="Tratamentos")
# quadro da anova
tx.inf.av<-aov(tx.inf~linha+coluna+trat)
summary(tx.inf)
# obtendo o residuo
residuo <- resid(tx.inf.av)
# teste de normalidade dos resíduos
shapiro.test(residuo)
# teste de homogeneidade das variâncias
bartlett.test(tx.inf~linha+coluna+trat)
Estatística Experimental
116
Utilizando os recursos do pacote ExpDes
# requerendo o pacote ExpDes
require(ExpDes)
# quadro da anova pelo ExpDes
latsd(trat,linha,coluna,tx.inf,quali=T)
# retirando o objeto dados.ex1 do camnho de procura
detach(dados.ex1)
Exemplo 2. Com o objetivo de estudar o efeito da idade da castração no
desenvolvimento e produção de suínos, foi utilizado um delineamento em
quadrado latino com 4 tratamentos envolvendo a castração aos 7 dias (C); aos
21 dias (D); aos 56 dias (A) e suínos inteiros (B). A variação existente entre as
leitegadas foi controlada pelas linhas do quadrado e a variação dos pesos dos
leitões dentro das leitegadas foi isolada pelas colunas. Os ganhos de peso, em
kg, ao final do experimento (252 dias) estão apresentados no quadro a seguir:
Leitegada Classe de pesos dos leitões dentro das leitegadas
1 2 3 4 Totais
1 93,0 (A) 108,6 (B) 118,9 (C) 102 (D) 412,5
2 115,4 (B) 96,5 (D) 77,9 (A) 120,2 (C) 390,0
3 122,1 (C) 90,9 (A) 116,9 (D) 106,0 (B) 409,9
4 117,6 (D) 124,1 (C) 118,7 (B) 95,6 (A) 448,0
Totais 428,1 414,1 422,4 395,8 1660,4
Quadro da ANOVA
Fonte de variação gl SQ QM F
Leitegadas 3 436,55 49,65 0,72
Classe 3 148,95 145,52 2,11
Tratamentos 3 913,57 304,52 4,42
Resíduo 6 413,00 68,83
TOTAL 15 1912,07
Das tabelas das distribuições F, temos que
789Fe764F 0106305063 ,, ),,,(),,,( . O valor FcTr = 4,42 é menor do que estes
valores tabelados, então não rejeitamos a hipótese nula H0 para um nível
%,, 5ou050 de probabilidade e concluímos que a hipótese de que os
efeitos de tratamento são todos nulos não é rejeitada, ou seja, os ganhos de
peso dos leitões submetidos às diferentes idades de castração são todos iguais
a 103,78.
Script no R para a obtenção destes resultados
# leitura dos dados pelo read.table
dados.ex2 <- read.table("ex2dql.txt",header=TRUE)
# imprimindo as 6 linhas iniciais do arquivo
head(dados.ex2)
# anexandoo objeto dados.ex3 no caminho de procura
Estatística Experimental
117
attach(dados.ex2)
# estatísticas resumo dos dados do arquivo dados.ex2
e.desc<- tapply(peso,trat,summary)
e.desc
# gráfico Box-plot para cada nível de trat
boxplot(peso~trat,col=2,xlab="Tratamentos")
# fazendo a análise diretamente pelo ExpDes
# requerendo o ExpDes
require(ExpDes)
# quadro da anova
latsd(trat,leitegada,classe,peso,quali=T,mcomp="tukey")
# retirando o objeto dados.ex2 do caminho de procura
detach(dados.ex2)
11 Como contornar o problema do pequeno número de graus de liberdade
do resíduo?
Um problema que surge quando usamos o delineamento em quadrado
latino com um número pequeno de tratamentos, é que o resíduo passa a ser
estimado com um número pequeno de graus de liberdade. No quadro a seguir,
apresentamos o número de graus de liberdade do resíduo no DQL para
diferentes números de tratamentos:
Número de tratamentos g.l. do resíduo
3 2
4 6
5 12
6 20
7 30
8 42
RESPOSTA: Planejar mais de uma repetição do quadrado latino para
conseguir um número satisfatório de graus de liberdade para o resíduo. Por
exemplo, se k = 4 tratamentos e queremos um número de g.l. para o resíduo
superior a 12, devemos fazer pelo menos r = 2 repetições do Q.L. original.
Solução 1: usar as mesmas linhas e mesmas colunas;
QL1 C1 C2 C3 C4
QL2 C1 C2 C3 C4
L1 A B C D L1 D A B C
L2 B C D A L2 C D A B
L3 C D A B L3 B C D A
L4 D A B C L4 A B C D
Quadro da ANOVA resultante
Estatística Experimental
118
Causas de variação gl
QL r – 1 = 1
Tratamentos k – 1 = 3
Linhas k – 1 = 3
Colunas k – 1 = 3
Resíduo (k – 1)[ r (k + 1) – 3] = 21
Total r k
2
– 1 = 31
Solução 2: usar as mesmas linhas com as colunas diferentes (ou
mesmas colunas com linhas diferentes);
QL1 C1 C2 C3 C4
QL2 C5 C6 C7 C8
L1 A B C D L1 D A B C
L2 B C D A L2 C D A B
L3 C D A B L3 B C D A
L4 D A B C L4 A B C D
Quadro da ANOVA resultante
Causas de variação gl
QL r – 1 = 1
Tratamentos k – 1 = 3
Linhas k – 1 = 3
Colunas (QL) r ( k – 1 ) = 6
Resíduo (k – 1)(r k – 2 )= 18
Total r k
2
– 1 = 31
Solução 3: usar linhas e colunas diferentes.
QL1 C1 C2 C3 C4
QL2 C5 C6 C7 C8
L1 A B C D L5 D A B C
L2 B C D A L6 C D A B
L3 C D A B L7 B C D A
L4 D A B C L8 A B C D
Quadro da ANOVA resultante
Causas de variação gl
QL r – 1 = 1
Tratamentos k – 1 = 3
Linhas (QL)* r ( k - 1) = 6
Colunas (QL)** r ( k - 1) = 6
Resíduo (k – 1) [ k (k – 1) –1]=15
Total r k
2
– 1 = 31
(*) lê-se “Efeito de linhas dentro de quadrado latino”
(**) lê-se “Efeito de colunas dentro de quadrado latino”
Suponha que um experimentador esteja interessado em estudar os
efeitos da atividade da estimulação hormonal folicular (follicle-stimulation
hormone - FSH). Em vacas é medido em bio ensaios pesando-se o ovário (mg)
de ratos imaturos. Duas variáveis conhecidas que influenciam no peso de
ovários de ratos são: a constituição genética e o peso corporal. Acredita-se que
o peso corporal é independente das diferenças genéticas, assim o
delineamento quadrado latino (DQL) é adequado. Dois quadrados latinos 4 x 4
foram usados com as linhas = ninhadas de ratos e colunas = classes de peso
corporal. O pesquisador considerou a diferença nos pesos corporais nos dois
Estatística Experimental
119
quadrados para preservar os graus de liberdade do erro experimental, dado
que a amplitude do peso corporal era consistente de ninhada para ninhada, ou
seja, o pesquisador repetiu o experimento considerando as mesmas classes de
peso corporal.
(Solução 2).
QL1 C1 C2 C3 C4
Totais
QL2 C1 C2 C3 C4
Totais
L1 (D) 44 (C) 39 (B) 52 (A) 73
208 L5 (B) 51 (C) 74 (A) 74 (D) 82
281
L2 (B) 26 (A) 45 (D) 49 (C) 58
178 L6 (D) 62 (A) 74 (C) 75 (B) 79
290
L3 (C) 67 (D) 71 (A) 81 (B) 76
295 L7 (A) 71 (D) 67 (B) 60 (C) 74
272
L4 (A) 77 (B) 74 (C) 88 (D) 100
339 L8 (C) 49 (B) 47 (D) 58 (A) 68
222
Totais 214 229 270 307 1020 233 251 267 303 1065
Totais dos tratamentos: 563 (A), 465 (B), 524 (C), 533 (D)
Cálculos:
694891
32
10651020
4
222178208
SQL
2222
,
)(...
;
;,
)()(...)(
091819
32
10651020
8
303307233214
SQC
222
;,
)(...
59631
32
10651020
8
533563
SQTr
222
;,
)(
... 227788
32
10651020
6844SQT
2
22
;,56382SQLSQCSQTrSQTSQR
O quadro da ANOVA fica
Causas de variação gl SQ QM F P
QL 1 63,28 63,28
Tratamentos 3 631,59 210,53 9,91 0,0004
Linhas (QL) 6 4891,69 815,28 38,26
Colunas 3 1819,09 606,36 28,53
Resíduo 18 292 16,22
Total 31 7730
Das tabelas das distribuições F, temos que
095Fe163F 010186050183 ,, ),,,(),,,( . O valor Fctr = 9,91 é maior que estes
valores tabelados, então rejeitamos a hipótese nula H0 para um nível
%,, 1ou010 de probabilidade e concluímos que a hipótese de que os
efeitos de tratamento são todos nulos é rejeitada, ou seja, nos pesos dos
ovários de ratos imaturos (bio-ensaio para vacas) existe pelo menos dois
tratamentos que diferem entre si quanto ao peso de ovários.
Podemos usar o teste de Tukey para compararmos as médias dos
tratamentos (note que temos 4 tratamentos e cada um deles aparece 8 vezes).
Então,
51,6
8
25,21
997,3... )05,0,18,4(
rk
QMR
qsmd
Estatística Experimental
120
Drogas
Peso médio*
(mg)
A 70,37 a
D 66,63 a
C 65,50 a
B 58,13 b
(* Médias seguidas pelas mesmas letras na coluna não diferem entre si pelo teste de Tukey a 5%).
Com base nos resultados apresentados na tabela anterior pode-se
afirmar que os pesos de ovários tratados com as drogas A, D e C não diferem
entre si e os pesos dos ovários tratados com as drogas C e B também não
diferem entre si. As diferenças nos pesos de ovários estão entre as drogas A, D
e C quando comparadas, individualmente, com a droga B.
Organizando o arquivo de dados no Excel e no bloco de notas
Arquivo de dados .xls (peso.xls) Arquivo de dados . txt (peso.txt)
ql linha coluna trat put
q1 l1 c1 D 44
q1 l2 c1 B 26
q1 l3 c1 C 67
q1 l4 c1 A 77
q1 l1 c2 C 39
q1 l2 c2 A 45
q1 l3 c2 D 71
q1 l4 c2 B 74
q1 l1 c3 B 52
q1 l2 c3 D 49
q1 l3 c3 A 81
q1 l4 c3 C 88
q1 l1 c4 A 73
q1 l2 c4 C 58
q1 l3 c4 B 76
q1 l4 c4 D 100
q2 l5 c1 B 51
q2 l6 c1 D 62
q2 l7 c1 A 71
q2 l8 c1 C 49
q2 l5 c2 C 74
q2 l6 c2 A 74
q2 l7 c2 D 67
q2 l8 c2 B 47
q2 l5 c3 A 74
q2 l6 c3 C 75
q2 l7 c3 B 60
q2 l8 c3 D 58
q2 l5 c4 D 82
q2 l6 c4 B 79
q2 l7 c4 C 74
q2 l8 c4 A 68
ql linha coluna trat put
q1 l1 c1 D 44
q1 l2 c1 B 26
q1 l3 c1 C 67
q1 l4 c1 A 77
q1 l1 c2 C 39
q1 l2 c2 A 45
q1 l3 c2 D 71
q1 l4 c2 B 74
q1 l1 c3 B 52
q1 l2 c3 D 49
q1 l3 c3 A 81
q1 l4 c3 C 88
q1 l1 c4 A 73
q1 l2 c4 C 58
q1 l3 c4 B 76
q1 l4 c4 D 100
q2 l5 c1 B 51
q2 l6 c1 D 62
q2 l7 c1 A 71
q2 l8 c1 C 49
q2 l5 c2 C 74
q2 l6 c2 A 74
q2 l7 c2 D 67
q2 l8 c2 B 47
q2 l5 c3 A 74
q2 l6 c3 C 75
q2 l7 c3 B 60
q2 l8 c3 D 58
q2 l5 c4 D 82
q2 l6 c4 B 79
q2 l7 c4 C 74
q2 l8 c4 A 68
Script no R para a obgtenção dos resultados acima
# leitura dos dados pelo read.table
dados.ex3 <- read.table("ex2dql.txt",header=TRUE)
# imprimindo as 6 linhas iniciais do arquivo
head(dados.ex3)
# anexando o objeto dados.ex3 no caminho de procura
Estatística Experimental
121
attach(dados.ex3)
# gráfico Box-plot para cada nível de trat
boxplot(peso~trat,col=2,xlab="Tratamentos")
# quadro da anova
put.av <-aov(put~ql+linha+coluna+trat)
anova(put.av)
# usando os recursos do pacote agricolae
require(agricolae)
put.tu <-HSD.test(put.av,"trat")
# gráfico de barras com as letras do teste de Tukey
bar.group(put.tu,ylim=c(0,90),density=20,
col="brown", xlab="Tratamentos",ylab="Peso do Utero",
main="Teste de Tukey")
# retirandoo objeto dados.ex3 do caminho de procura
detach(dados.ex3)
12 Casualização dos tratamentos
Suponha que queremos dispor os tratamentos A, B, C, e D sobre um
quadrado latino 4 x 4
escolhemos aleatoriamente um dos quadrados padrões de
tamanho 4. suponha
1 2 3 4
1 A B C D
2 B C D A
3 C D A B
4 D A B C
selecionemos uma das permutações de 1, 2, 3, e 4. suponha 2, 4,
1, 3. então
1 2 3 4
2 B C D A
4 D A B C
1 A B C D
3 C D A B
selecionemos uma outra das permutações de 1, 2, 3, e 4. suponha
1, 3, 4, 2. então
1 3 4 2
2 B D A C
4 D B C A
1 A C D B
3 C A B D
Este é o delineamento escolhido.
13 Exemplos em qua as unidades experimentais são animais
Estatística Experimental
122
Neste tipo de experimento os próprios animais servem como um critério
de classificação (linhas) e o tempo (colunas) é o outro, ou seja, medidas
repetidas não aleatórias são obtidas de cada animal (pessoa) distribuídos a
uma seqüência de tratamentos.
Exemplo 4 O objetivo deste experimento foi testar o efeito de quatro diferentes
suplementos (A, B, C, D) adicionados ao feno na engorda de novilhos. O
experimento foi delineado em um experimento Quadrado Latino com quatro
animais em quatro períodos de 20 dias. As ovelhas foram mantidas isoladas
individualmente. Cada período consistia de 10 dias de adaptação e de 10 de
medidas. Os dados apresentados abaixo são as médias de 10 dias.
Novilhos
Período N1 N2 N3 N4
1 10,0 (B) 10,2 (C) 8,5 (D) 11,8 (A)
2 9,0 (C) 11,3 (A) 11,2 (B) 11,4 (C)
3 11,1 (C) 11,2 (B) 12,8 (A) 11,7 (D)
4 10,8 (A) 11,0(D) 11,0 (C) 11,0 (B)
Script no R para resolver este exemplo
# leitura dos dados pelo read.table
dados.ex4 <- read.table("ex4dql.txt",header=TRUE)
# imprimindo as 6 linhas iniciais do arquivo
head(dados.ex4)
# anexando o objeto dados.ex4 no caminho de procura
attach(dados.ex4)
# estatísticas resumo dos tratamentos do arquivo dados.ex4
e.desc<- tapply(peso,trat,summary)
e.desc
# gráfico Box-plot para cada nível de trat
boxplot(peso~trat,col=2,xlab="Tratamentos")
# fazendo a análise diretamente pelo ExpDes
# requerendo o ExpDes
require(ExpDes)
# quadro da anova
latsd(trat,periodo,novilho,peso,quali=T,mcomp="tukey")
# retirando o objeto dados.ex4 do caminho de procura
detach(dados.ex4)
RESUMO:
Estatística Experimental
123
Estatística Experimental
124
7º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL
1) Nos experimentos que tratam da produção de vacas leiteiras, a enorme variação entre os
indivíduos exige um grande número de animais para a avaliação de diferenças moderadas.
Qualquer esforço de aplicar vários tratamentos sucessivamente numa mesma vaca se complica
pela diminuição do fluxo de leite, pela forma da curva de lactação e por uma correlação entre
os erros eijk. Estas dificuldades são controladas com o uso de vários pares de quadrados
latinos ortogonais onde as colunas representam as vacas e as linhas os períodos sucessivos
da lactação, e os tratamentos são aplicados as vacas nos vários estágios. Num experimento
procurou-se verificar o efeito de diferentes tipos de tratamentos, e é apresentado somente um
quadrado latino, sem nos preocuparmos com os efeitos correlacionados.
Os tratamentos (1,0 kg para cada 3,0 kg de leite produzido) foram os seguintes:
A = Ração comum
B = 75% de ração comum + 25% de rolão de milho.
C = 50% de ração comum + 50% de rolão de milho.
D = 75% de ração comum + 25% de farelo de soja.
E = 25% de ração comum + 75% de farelo de soja.
Os valores da tabela correspondem a produção de leite (kg) por um período de seis semanas.
Linhas Colunas (Vacas) Total
(Período) 1 2 3 4 5
1 B 318 E 416 A 420 C 424 D 330 1908
2 D 325 A 435 E 418 B 438 C 333 1949
3 E 342 B 441 C 395 D 418 A 380 1976
4 A 353 C 403 D 410 E 395 B 375 1936
5 C 310 D 381 B 422 A 432 E 314 1859
Total 1648 2076 2065 2107 1732 9628
a) Formule as hipóteses estatísticas para os tratamentos e monte o quadro da análise de
variância de acordo com um delineamento quadrado latino e conclua
b) Aplique o teste de Tukey para localizar as diferenças entre as médias dos tratamentos.
Represente as diferenças com as médias (média±se), seguidas de letras.
d) Teste a normalidade dos erros e a homogeneidade das variâncias dos tratamentos.
e) Defina os contrastes abaixo e teste-os através da técnica de decomposição dos graus de
liberdade dos tratamentos (teste F planejado) e complemente o quadro da anova do item b)
com estes contrastes:
c1) Existe efeito dos complementos adicionados à ração comum?;
c2) Qual complemento adicionado à ração comum é melhor: rolão de milho ou farelo de
soja?;
c3) Qual percentual de rolão de milho é melhor ?;
c4) Qual percentual de farelo de soja é melhor ?;
f) Calcular e interpretar os coeficiente de variação (CV) do experimento e o de determinação R
2
do experimento.
g) Com base nestas observações e nos resultados do item a) a utilização do delineamento em
DQL é plenamente justificada?
Estatística Experimental
125
2) Avaliação do efeito de anestésicos sobre o metabolismo animal é imprescindível ao
cirurgião. Neste experimento são considerados 5 anestésicos e analisar variáveis como:
frequência cardíaca,respiratória, pressão sanguínea, tempo efetivo de anestesia. Estas
variáveis são muito instáveis com c.v. > 35,0 %. Existe uma reação muito diferente de animal
para animal o que exigiria um número muito grande destes ( de 13 a 49 animais) para cada
anestésico. Por outro lado estas respostas são de fluxo contínuo. Podemos testar todos os
anestésicos, em ocasiões diferentes com intervalos de 2 a 3 dias, no mesmo animal. Se um
animal recebe todos os anestésicos, em sequência controlada, todos os demais deverão
também recebê-los, mas cada um dos cachorros deverá estar submetido a um anestésico
diferente, de modo que, em um mesmo dia, todos os cães e todos os anestésicos estejam
sendo testados. Com este procedimento, o eventual efeito de dia poderá estar controlado.
A maneira mais simples de se controlar o efeito de dia de experimentação (ou período) e o
efeito de cães, é o efeito de controle local (blocos). Uma solução prática que leva em conta os
dois tipos de blocagem (período e animal) é o croqui do delineamento quadrado latino (DQL)
onde as letras representam um anestésico específico com os seguintes resultados sobre tempo
efetivo de anestesia:
Período
Animal I II III IV
1 A(4,92) E(4,77) B(7,29) D(9,99) C(6,93)
2 D(4,88) B(8,53) A(8,29) C(8,95) E(8,51)
3 C(7,32) A(6,16) E(8,50) B(5,83) D(7,08)
4 E(6,67) C(5,00) D(5,40) A(7,54) B(9,62)
5 B(5,40) D(7,15) C(8,95) E(7,85) A(9,68)
Aplique os mesmos itens da questão anterior.
Estatística Experimental
126
Aula 8 Experimentos fatoriais
1 Introdução
Nos experimentos mais simples comparamos tratamentos ou níveis de
um único fator, considerando que todos os demais fatores que possam interferir
nos resultados obtidos se mantenham constantes. Por exemplo: quando
comparamos tipos de drogas em animais experimentais, os demais fatores,
como raça, idade, sexo etc., se mantêm constantes, isto é, devem ser os
mesmos para todas as drogas estudadas. Entretanto, existem diversos casos
em que vários fatores devem ser estudados simultaneamente. Nesses casos,
utilizamo-nos dos experimentos fatoriais, que “são aqueles nos quais são
estudados, ao mesmo tempo, os efeitos de dois ou mais tipos de fatores ou
tratamentos”. Entenda-se por fator “uma variável independente cujos valores
(níveis do fator) são controlados pelo experimentador”. Cada subdivisão de um
fator é denominada de nível do fator e os tratamentos nos experimentos
fatoriais consistem de todas as combinações possíveis entre os diversos
fatores nos seus diferentes níveis.
Por exemplo: num experimento fatorial podemos combinar 2 doses de
um antibiótico com 3 diferentesníveis de vitamina B12. Neste caso teremos um
fatorial 2 x 3, com os fatores Antibióticos (A) e Vitamina (V), que ocorrem em
2 níveis (A1 e A2) e 3 níveis (V1, V2 e V3), respectivamente, e os 2 x 3 = 6
tratamentos são:
A1V1 A1V2 A1V3
A2V1 A2V2 A2V3
Outro exemplo: num experimento fatorial 3 x 2 podemos combinar 3
Doses de uma droga (D1, D2 e D3), 2 Idades (I1 e I2) e teremos 3x2 = 6
tratamentos, que resultam de todas as combinações possíveis dos níveis dos 3
fatores, ou seja,
D1I1 D1I2
D2I1 D2I2
D3I1 D3I2
Os experimentos fatoriais não constituem um delineamento experimental
e sim um esquema orientado de desdobramento de graus de liberdade de
tratamentos e podem ser instalados em qualquer um dos delineamentos
experimentais já estudados (DIC, DBC e DQL, por exemplo).
Em um experimento fatorial nos podemos estudar não somente os
efeitos dos fatores individuais, mas também, se o experimento foi bem
conduzido, a interação entre os fatores. Para ilustrar o conceito de interação
vamos considerar os seguintes exemplos:
Suponha que as médias dos 3 x 2 = 6 tratamentos deste último exemplo
são apresentadas na tabela abaixo:
Fator B - Idade
Fator A-(Dose da Droga) I0 I1
D0 5 10
D1 10 15
D2 15 25
Estatística Experimental
127
Os seguintes aspectos importantes dos dados na Tabela acima devem
ser destacados:
Para ambos os níveis do fator B, a diferença entre as médias para
quaisquer níveis do fator A é a mesma;
Para todos os níveis do fator A, a diferença entre as médias para
os dois níveis de B é a mesma;
Uma terceira característica é notada por meio do gráfico. Notamos
que as curvas correspondentes aos diferentes níveis de um fator
são todas paralelas.
Quando os dados da população possuem estas três características
listadas acima, dizemos que não existe interação presente entre os fatores. A
presença de interação entre os fatores pode afetar as características dos dados
de várias formas dependendo da natureza da interação. Vamos ilustrar o efeito
de um tipo de interação modificando os dados da tabela apresentada
anteriormente
Fator B: Idade
Fator A: Dose da Droga I0 I1
D0 5 15
D1 10 10
D2 20 5
Os seguintes aspectos importantes dos dados na Tabela acima devem
ser destacados:
A diferença entre as médias para qualquer dos dois níveis de A não
é a mesma para ambos os níveis de B;
A diferença entre as médias para ambos os níveis do fator B não é
o mesmo nos níveis do fator A;
As curvas dos fatores não são paralelas, como é mostrado nos
gráficos abaixo;
Estatística Experimental
128
Quando os dados da população exibem as características acima,
dizemos que existe interação entre os dois fatores. Enfatizamos que o tipo de
interação ilustrada acima é somente uma das dos muitos tipos de interação que
podem ocorrer entre dois fatores.
Em resumo, podemos afirmar que “existe interação entre dois fatores se
uma modificação em um dos fatores produz uma modificação na resposta em
um dos níveis do outro fator diferente dos produzidos nos outros níveis deste
fator”.
As vantagens de um experimento fatorial são:
A interação dos fatores pode ser estudada;
Existe uma economia de tempo e de esforço. Nos experimentos
fatoriais todas as observações podem ser usadas para estudar o
efeito de cada um dos fatores investigados. A alternativa, quando
dois fatores são investigados, seria o de conduzir dois diferentes
experimentos, cada um para estudar cada um dos dois fatores. Se
isto é feito, as observações somente produzirão informações sobre
um dos fatores, e o outro experimento somente fornecerá
informação sobre o outro fator. Para se obter o nível de precisão
dos experimentos fatoriais, mais unidades experimentais seriam
necessárias se os fatores fossem estudados por meio de dois
experimentos. Isto mostra que 1 experimento com dois fatores é
mais econômico que 2 experimentos com 1 fator cada um.
Visto que os vários fatores são combinados em um experimento, os
resultados têm uma grande amplitude de aplicação.
2 Definições iniciais
Vamos considerar um experimento fatorial 2x2, com os fatores
Antibiótico (A) e Vitamina B12 (B) nos níveis: a0 (sem antibiótico) e a1 (com
antibiótico); b0 (sem Vitamina B12) e b1 (com vitamina B12), respectivamente,
adicionados a uma dieta básica e os seguintes valores médios de ganho de
peso (g) para os 2x2 = 4 tratamentos:
Fator B: Vitamina B12
Fator A: Dose do antibiótico b0 b1 Médias
a0 14 23 18,5
a1 32 53 42,5
Médias 23,0 38,0 30,5
A representação gráfica fica:
Definições:
Estatística Experimental
129
Efeito simples de um fator: como a medida da variação que
ocorre com a característica em estudo (ganho de peso, neste
exemplo) correspondente às variações nos níveis desse fator, em
cada um dos níveis do outro fator.
Efeito simples do antibiótico no nível 0 de vitamina B12 :
1814320001)( 0 babaA bdedentro
Efeito simples do antibiótico no nível 1 de vitamina B12:
3023531011)( 1 babaA bdedentro
Efeito simples da vitamina B12 no nível 0 de antibiótico :
1914230010)( 0 babaB adedentro
Efeito simples da vitamina B12 no nível 1 de antibiótico :
2132530011)( 1 babaB adedentro
Efeito principal de um fator: é uma medida da variação que
ocorre com a característica em estudo, correspondente às
variações nos níveis desse fator, em média, de todos os níveis do
outro fator.
15
2
219
2
BB
BdeprincipalEfeito
24
2
3018
2
AA
AdeprincipalEfeito
10
10
adedentroadedentro
bdedentrobdedentro
)()(
)()(
Efeito da interação entre os dois fatores: é uma medida da
variação média que ocorre com a característica em estudo,
correspondente às variações nos níveis de um fator, ao passar de
um nível a outro do outro fator.
,6
2
921
2
int
,,6
2
1830
2
int
)()(
)()(
01
01
adedentroadedentro
bdedentrobdedentro
BB
AxBdeeraçãodaEfeito
aindaou
AA
BxAeraçãodaEfeito
isto é, tanto faz calcular a interação A x B como a interação B x A
As principais desvantagens dos experimentos fatoriais são:
O número de tratamentos aumenta muito com o aumento do
número de níveis e de fatores, tornando praticamente impossível
distribuí-los em blocos casualizados, devido à exigência de
homogeneidade das parcelas dentro de cada bloco.
A análise estatística é mais trabalhosa (efeitos principais e
interação de todos os fatores) e a interpretação dos resultados se
torna mais difícil à medida que aumentamos o número de níveis e
de fatores no experimento.
3 O modelo matemático
O modelo de um experimento fatorial com dois fatores, num
delineamento inteiramente casualizado com r repetições, pode ser escrito
como:
ijkijjiijky )(
Sendo:
Estatística Experimental
130
;
fatordonível
ésimojoefatordonívelésimoiorecebeuquerespostaésimakaéyikj
;)(tan sobservaçõeastodasacomummédiateconsumaé
;..,., a1icomfatordonívelésimoidoefeitooéi
;...,,1 bjcomfatordonívelésimojdoefeitooéj
;
int
fatordonívelésimoj
doefeitoocomfatordonívelésimoidoeraçãodaefeitooéij
r1kcomyobservaçãoàassociadoerimentalerrooé ijkijk ...,,exp
4 Suposições do modelo
As suposições associadas ao modelo;
As observações de cada célula ab constituem uma amostra
aleatória de tamanho r retirada de uma população definida pela
particular combinação dos níveis dos dois fatores;
Cada uma das ab populações é normalmente distribuída;
Todas as populações têm a mesma variância;
),(~ 2ijk oN ;
.0)()(0
)(,
1111
b
j
ij
a
i
ij
b
j
j
a
i
i
ijji
e
condiçõesassatisfazemeparâmetrosose
Vale observar que “a” é o número de níveis do fator A, “b” é o número de
níveis do fator B e “r” é o número de repetições de cada um dos “ab”
tratamentos. No total temos “abr” unidades experimentais.5 Hipóteses estatísticas
As seguintes hipóteses podem ser testadas nos experimentos fatoriais.
A hipótese de que não existe ou existe interação AB é equivalente
às hipóteses
b1jea1icom0Hvs0H ijAB1ijAB0 ...,,...,,)(:)(: ;
De maneira análoga as hipóteses de que não existe efeito principal
do fator A e B é a mesma que as hipóteses
b1jcom0Hvs0H
a1icom0Hvs0H
jB1jB0
iA1iA0
...,,::
...,,::
,
respectivamente.
6 Detalhes computacionais
Apresentaremos alguns passos que facilitam os cálculos das somas de
quadrados da ANOVA.
O quadro abaixo mostra um possível arranjo dos dados de um
experimento com os tratamentos em um arranjo fatorial 2 x 2
Estatística Experimental
131
a1 a2
b1 b2 b1 b2
111y 121y
211y 221y
112y 122y
212y 222y
.
.
.
.
.
.
.
.
.
.
.
.
r11y r12y
r21y r22y
Pode-se montar o seguinte quadro auxiliar dos totais
(r) b1 b2 Totais
a1 11Y 12Y 1Y
a2 21Y 22Y 2Y
TOTAL
1Y 2Y Y
Assim os cálculos do quadro da análise de variância são dados pelas
seguintes expressões:
Soma de Quadrados do Total (SQT)
;,
)(
,
)(
2be2asendo
abr
Y
CMsendo
abr
Y
YSQT
22r
1k
a
1i
b
1j
2
ijk
Soma de Quadrados do fator A, SQ(A) CMY
br
ASQ
a
i
i
1
21)( ;
Soma de Quadrados do fator, B SQ(B) CMY
ar
BSQ
b
j
j
1
21)( ;
Soma de Quadrados da interação AxB, SQ(AxB)=SQ(A,B)-SQ(A)-
SQ(B) ou CMY
r
1
AxBSQ
a
1i
b
11j
2
ij
)( , sendo a SQ(A,B) a soma de
quadrado conjunta, que nos fatoriais com dois fatores é igual à
SQTr;
Soma de Quadrados do Resíduo (SQR) SQR=SQT-SQ(A)-SQ(B)-
SQ(AxB) ou
r
1k
2
ij
r
1k
a
1i
b
1j
2
ijk YYSQR
7 Quadro da anova
Calculadas as SQ podemos montar o seguinte Quadro da ANOVA:
Fonte de Variação g.l. SQ QM F
Fator A a-1 SQ(A) QM(A)=SQ(A)/(a-1) QM(A)/QMR
Fator B b-1 SQ(B) QM(B)=SQ(B)/(b-1) QM(B)/QMR
Int A xB (a-1)(b-1) SQ(AxB) QM(A)=SQ(AxB)/(a-1)(b-1) QM(AxB)/QMR
Tratamentos ab-1 SQTr QMTr=SQTr/(ab-1) QMTr/QMR
Resíduo ab(r-1) SQR QMR+SQR/ab(r-1)
TOTAL abr-1 SQT
8 Estatística e região crítica do teste
Estatística Experimental
132
As estatísticas para os testes F da ANOVA são
QMR
AxBQM
Fe
QMR
BQM
F
QMR
AQM
F cABcBcA
)()(
,
)(
,
a qual, deve ser próximo de 1 se H0 for verdadeira, enquanto que valores
grandes dessa estatística são uma indicação de que H0 é falsa. A teoria nos
assegura que FcA tem, sob H0 distribuição F – Snedecor com (a -1) e ab(r-1))
graus de liberdade no numerador e no denominador, respectivamente.
Resumidamente, indicamos:
01rab1acA HsobFF ,~ )),(,( .
Rejeitamos H0 para o nível de significância se
)),(,( 1rab1acA FF ,
sendo, )),(,( 1rab1aF o quantil de ordem )( 1 da distribuição F-Snedecor
com (a -1) e ab(r-1) graus de liberdade no numerador e no denominador.
De modo análogo temos FcB . Para a interação A x B a
01rab1b1acAB HsobFF ,~ )),(,))(((
e rejeitamos H0 para o nível de significância se
,)),(,))((( 1rab1b1acAB FF ,
sendo, )),(,))((( 1rab1b1aF o quantil de ordem )( 1 da distribuição F-
Snedecor com (a -1)(b-1) e ab(r-1) graus de liberdade no numerador e no
denominador respectivamente.
9 Exemplo 1 Considere o esquema fatorial 2 x 2 ( dois níveis de antibiótico,
dois níveis de vitamina B12) para estudar o aumento de peso (Kg) diário em
suínos.
a0 – sem antibiótico; a1 – com 40 g de antibiótico
b0 – sem vitamina B12 ; b1 – com 5 mg de vitamina B12
Repetição
a0 a1
b0 b1 b0 b1
1 1,30 1,26 1,05 1,52
2 1,19 1,21 1,00 1,56
3 1,08 1,19 1,05 1,55
Totais 3,57 3,66 3,10 4,63
Formato do arquivo .txt Formato no Excel
anti vitb12 trat g.peso
ao b0 t1 1.30
ao b0 t1 1.19
ao b0 t1 1.08
ao b1 t2 1.26
ao b1 t2 1.21
ao b1 t2 1.19
a1 b0 t3 1.05
a1 b0 t3 1.00
a1 b0 t3 1.05
a1 b1 t4 1.52
a1 b1 t4 1.56
a1 b1 t4 1.55
anti vitb12 trat g.peso
ao b0 t1 1.30
ao b0 t1 1.19
ao b0 t1 1.08
ao b1 t2 1.26
ao b1 t2 1.21
ao b1 t2 1.19
a1 b0 t3 1.05
a1 b0 t3 1.00
a1 b0 t3 1.05
a1 b1 t4 1.52
a1 b1 t4 1.56
a1 b1 t4 1.55
Notem que neste caso o delineamento experimental foi o inteiramente
casualizado com os tratamentos num esquema fatorial 2 x 2, com 3 repetições
Estatística Experimental
133
Outra forma de apresentação dos dados
Trat. Repetição Totais
a0b0 1,30 1,19 1,08 3,57
a0b1 1,26 1,21 1,19 3,66
a1b0 1,05 1,00 1,05 3,10
a2b2 1,52 1,56 1,55 4,63
Calculo das Soma de Quadrados:
e então, podemos construir um primeiro quadro de análise de variância:
Fonte de variação gl SQ QM F
Tratamentos 3 0,4124 0,1398 38,13
Resíduo 8 0,0293 0,003667
TOTAL 11 0,4417
Como 597F 01083 ,).;,( podemos concluir que pelo menos duas médias
de tratamentos diferem significativamente (p<0,01) entre si quanto ao ganho de
peso diário de suínos. A continuação da análise pode envolver a comparação
das médias dos tratamentos por meio de um dos procedimentos de
comparações múltiplas conhecidos, como os testes de Tukey, Duncan, t-
Student, Scheffé etc.
Uma alternativa de análise mais simples e mais informativa, está
baseada no esquema fatorial dos tratamentos. Utilizando o quadro com os
totais das combinações dos níveis dos fatores A e B e as fórmulas
apresentadas anteriormente, podemos construir um novo quadro de análise de
variância que permitirá testar se existe interação entre os dois fatores e se
cada um dos fatores tem efeito significativo sobre o desenvolvimento dos
suínos.
Quadro auxiliar com os totais das combinações dos níveis de
antibióticos (a0, a1)e vitamina B12
b0 b1 Totais
a0 3.57 3,66 7,23
a1 3,10 4,63 7,73
Totais 6,67 8,29 14,96
Assim,
.1728,02187,00208,04124,0)(
;2187,0
)3(4
96,14
)3(2
29,8
)3(2
67,6
)(
;0208,0
)3.(4
96,14
)3.(2
73,7
)3.(2
23,7
)(
22
222
AxBSQ
BSQ
ASQ
Notem que SQTr = SQ(A) + SQ(B) + SQ(AxB) e que as somas de
quadrados associadas ao total e ao resíduo permanecem inalteradas.
O novo quadro da ANOVA fica:
,,,,
;,
))()((
),(,,,,
;,
),(
))()((
),...,(
),...,(
029304124044180SQTrSQTSQR
41240
322
9614
3
634
3
103
3
613
3
573
SQTr
44170
12
9614
322
551301
551301SQT
22222
22
22
Estatística Experimental
134
Fonte de variação gl SQ QM F
Antibótico (A) 1 0,0208 0,0208 5,68
Vitamina B12 (B) 1 0,2187 0,2187 59,65
Int. AxB 1 0,1728 0,1728 47,13
Tratamentos (3) 0,4124 0,137 37,33
Resíduo 8 0,0293 0,00367
TOTAL 11 0,4417
Da tabela apropriada, temos F(3, 8; 0,01) = 7,59; F(1, 8, 0,05) = 5,32 ; F(1, 8 ;
0,01) = 11,26 Comparando os valores calculados das estatísticas F, podemos
concluir que:
o teste para a interação AxB foi significativo (p < 0,01), indicando
que o efeito da vitamina B12 na presença ou ausência de antibiótico
é significativamente diferente.
Como a interação AxB resultou significativa (veja o gráfico apresentado
acima), as interpretações da significância dos testes dos efeitos simples de
Antibiótico (A) e de Vitamina B12 (B) perdem o significado. Precisamos estudar
a interação fazendo os seguintes desdobramentos:
a) Desdobramento da interação AxB para estudar o comportamento dos
fator A dentro de cada nível de vitamina B12 (b0 e b1) :
Assim, monta-se a seguinte análise de variância do desdobramento dos
graus de liberdade da interação A x B para se estudar o efeito do antibiótico
no ganho de peso diário de suínos na ausência e na presença da vitamina B12.
1568,0
)3(2
)29,8(
)63,466,3(
3
1
)(2
)(
1
)(
,0368,0
)3(2
)67,6(
)10,357,3(
3
1
)(2
)(
1
)(2
22
2
22
22
2
12
2
22
2
12
21
2
11
1
0
r
Y
YY
r
ASQ
r
Y
YY
r
ASQ
bdedentro
bdedentro
Estatística Experimental
135
F.V. G.L. S.Q. Q.M. F Pr.Fc
0bdedentro
A 1 0,0368 0,0368 10,04 0.0132
1bdedentro
A 1 0,1568 0,1568 42,76 2e-04
Residuo 8 0,0293 0,00367
A linha do resíduo é a mesma da ANOVA anterior.
Comparando os valores calculados da estatística F com o valor tabelado
311Fe325F 0108105081 ,, ),;,(),;,( , conclui-se que o efeito do fator antibiótico no
peso diário de suínos no nível b0 de vitamina B12 é significativo (p<0,05) e
significativo (p<0,01) no nível b1 da vitamina B12. Ou então, que:
Quando se utiliza a dose b0 de vitamina B12 existe uma diferença
no peso diário dos suínos. A estimativa desta diferença é dado por
KgbabaA bdedentro 16,019,103,10001)( 0 , e ela é
significativa pelo teste F da ANOVA do desdobramento, indicando
que somente o efeito do antibiótico prejudica o peso diário dos
suínos, em média de 0,16 kg.
Quando se utiliza a dose b1 de vitamina B12 existe uma diferença
no peso diário dos suínos. A estimativa desta diferença é dada por
KgbabaA bdedentro 32,022,154,11011)( 1
é significativa pelo teste F da ANOVA do desdobramento, indicando
que a combinação dos níveis a1 do antibiótico e b1 da vitamina B12,
favorece em média 0,32 kg o peso diário dos suínos.
b) Desdobramento da interação AxB para estudar o comportamento dos
fator B dentro de cada nível de antibiótico A (a0 e a1) (como exercício
preencher os espaços)
2
2
12
12
2
11adedentro
3
1
r2
Y
YY
r
1
BSQ
0
)(
)(
)(
)()(
2
2
22
22
2
21adedentro
3
1
r2
Y
YY
r
1
BSQ
1
)(
)(
)(
)()(
Assim, monta-se a seguinte análise de variância do desdobramento dos
graus de liberdade da interação A x B para se estudar o efeito da vitamina B12
no ganho de peso diário de suínos na ausência e na presença de antibiótico:
F.V. G.L. S.Q. Q.M. F
0adedentro
B 1 0,00135 0,00135 0,3682
1adedentro
B 1 0,39015 0,39015 106,4045
Residuo 8 0,0293 0,00367
(Concluir como no desdobramento anterior)
Podemos comparar as médias de peso diário de suínos dos antibióticos,
para cada uma dos níveis de vitamina B12, utilizando o Teste de Tukey (5%).
Para tanto, calculamos:
Estatística Experimental
136
11400
3
0,00367
263
3
QMR
q
r
QMR
qdms 05082050resíduodogla ,,),;,(),:,(
Quadro auxiliar com as médias dos antibióticos para cada um dos níveis
da vitamina B12,
b0 b1
a0 1,19 A 1,22 A
a1 1,03 B 1,54 B
Obs.: médias seguidas pelas mesmas letras maiúsculas, nas colunas, não diferem entre si a 5% de
probabilidade, pelo Teste de Tukey
(fazer como exercício o teste de Tukey a 5%, para as linhas)
Notação geral dos totais de um esquema fatorial 2 x 2 organizados em
uma tabela 2x2, do tipo:
(r) b0 b1 Totais
a0 11Y 12Y 1Y
a1 21Y 22Y 2Y
TOTAL
1Y 2Y Y
As fórmulas das Somas de Quadrados podem ser escritas de uma forma
geral:
)()()(
;
))()((
)(
)()(
))()((
)(
)()(
;
))()((
)(
)(
))()((
)...(
BSQASQSQTrBxASQ
rba
Y
YY
r2
1
BSQ
rba
Y
YY
r2
1
ASQ
rba
Y
YYYY
r
1
SQTr
rba
Y
YYSQT
2
2
2
2
1
2
2
2
2
1
2
2
22
2
21
2
12
2
11
2
2
222
2
111
Script no r para obter os resultados acima
# entrada dos dados pelo comando read.table( )
dados.ex1 <- read.table("ex1fat.txt", header=T)
# imprimindo as 6 primeiras linhas do arquivo dados.ex1
head(dados.ex1)
# anexando o objeto dados.ex1 no caminho de procura
attach(dados.ex1)
# calculo das interações - Quadros dos totais
int.total <- tapply(g.peso, list(anti, vitb12), sum)
int.total
# calculo dos totais marginais do fator vitamina B12
total.vitb12<- tapply(g.peso,vitb12,sum)
total.vitb12
# calculo dos totais marginais do fator antibiótico
total.anti<- tapply(g.peso,anti,sum)
Estatística Experimental
137
total.anti
# calculo das interações - Quadros das médias
int.media <- tapply(g.peso, list(anti, vitb12), mean)
int.media
# calculo das médias marginais do fator vitamina B12
media.vitb12<- tapply(g.peso,vitb12,mean)# calculo das médias do fator
vitamina b12ibiótico
media.vitb12
# calculo das médias marginais do fator antibiótico
media.anti<- tapply(g.peso,anti,mean)# calculo das médias do fator vitb12
media.anti
# anova sem o desdobramento do fatorial
gpeso.av <- aov(g.peso~trat)
summary(gpeso.av)
# quadro da anova no esquema fatorial
gpesofat.av <- aov(g.peso~anti+vitb12+anti*vitb12)
summary(gpesofat.av)
# gráfico da interação
interaction.plot(vitb12, anti, g.peso,col=2,lwd=2,
ylab="médias",xlab="Vitamina B12",
main="Gráfico da Interação")
# requerendo o pacote ExpDes
require(ExpDes)
fat2.crd(anti, vitb12, g.peso, quali = c(TRUE, TRUE), mcomp = "tukey",
fac.names = c("Antibiótico", "Vitamina B12"))
# dms do teste de tukey para antibiótico dentro de cada nível da vitamina
dms<- qtukey(0.95,2,8)*sqrt(anova(gpesofat.av)[4,3]/3)
dms
# retirando o objeto dados.ex1 do caminho de procura
detach(dados.ex1)
Estatística Experimental
138
8º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL
1) Num experimento fatorial 2
2
ou 2 x 2, no delineamento inteiramente casualizado, com 6
repetições, foram estudadas as influências de 2 fatores (A: Antibiótico e B: Vitamina B12) sobre
o ganho de peso diário em suínos.
Os tratamentos utilizados foram:
1- a0v0 - Testemunha = sem antibiótico e sem vitamina B12
2- a1v0 - 40
g de antibiótico
3- a0v1 - 5 mg de vitamina B12
4- a1v1 - 40 g de antibiótico + 5 mg de vitamina B12.
Os resultados do ganho de peso diários, em gramas, foram os seguintes:
Tratamentos 1ª Rep. 2ª Rep. 3ª Rep. 4ª Rep. 5ª Rep. 6ª Rep.
a0v0 590 540 491 532 545 544
a1v0 476 454 476 481 464 463
a0v1 572 549 540 558 563 562
a1v1 690 708 703 712 691 721
Usando o programa R, pede-se:
a) Escreva o modelo matemático deste experimento.
Quadro dos Totais Quadro das Médias
b0 b1 Totais b0 b1 Médias
a0 a0
a1 a1
Totais Médias
b) Formule as hipóteses estatísticas para os fatores do fatorial e monte o quadro da análise de
variância com desdobramento dos graus de liberdade dos tratamentos de acordo com o
esquema fatorial 2 x 2 e preencha os espaços das fórmulas abaixo:
22
2
2
1i
2
j
6
1k
ijk
abr
Y
abr
y
CM
)...()(
abr
y
ySQT
2r
1k
a
1i
b
1j
2
ijk
)(
222i CMy
br
1
ASQ )()()(
Estatística Experimental
139
222 )()(
1
)( CMy
ar
BSQ j
22
2
22
2
21
2
12
2
11
...)(
)(
1
),()()(
CMyyy
r
SQTr
sendoBSQASQSQTrBxASQ
)(AxBSQSQBSQASQTSQR
)1)(1(
)(
)(;
1
;
1
ba
AxBSQ
AxBQM
b
SQB
QMB
a
SQA
QMA
pdevalor
QMR
QMA
F
ababr
SQR
QMR
A
pdevalor
QMR
QMB
FB
pdevalor
QMR
AxBQM
FAB
)(
Complete o quadro da anova abaixo:
F. V. gl SQ QM F p
Antibótico (A)
Vitamina B12 (B)
Int. AxB
Tratamentos
Resíduo
TOTAL
Conclusões:
Estatística Experimental
140
c) Caso a interação seja significativa, fazer o desdobramento da interação, estimando testando
os efeitos simples dos efeitos dos antibióticos dentro de vitaminas e da vitamina dentro de
antibióticos (teste da análise de variância), ou seja, preencha as fórmulas abaixo e o quadro da
anova
F.V. G.L. S.Q. Q.M. F p
0bdedentro
A
1bdedentro
A
Resíduo
Conclusões:Escrever as fórmulas para o desdobramento de Bdentro de ao e Bdentro de a1, monte o quadro da
anova abaixo
2
2
12
12
2
11
)(
)(
)(
)(
1
)(
0 ra
y
yy
r
BSQ adedentro
2
2
12
22
2
211
)(
)(
)(
)(
1
)(
ra
y
yy
r
BSQ adedentro
)(
)(
)()(
)(
)(
1
)(
2
22
2
12
21
2
110 rb
y
yy
r
ASQ bdedentro
)(
)(
)(
)(
)()(
)(
2
2
2
22
22
2
12bdedentro
2
1 r2
y
yy
r
1
ASQ
Estatística Experimental
141
F.V. G.L. S.Q. Q.M. F p
0adedentro
B
1adedentro
B
Residuo
Conclusões:
d) Ainda com relação ao item c), dê uma estimativa dos efeitos simples de antibióticos e de
vitaminas e conclua se eles são significativos. Aplique o teste de Tukey para localizar as
diferenças entre as médias dos antibióticos dentro de vitaminas e das médias das vitaminas
dentro de antibióticos Represente as diferenças com as médias, seguidas de letras. Tire as
conclusões práticas para este ensaio. Esboce o gráfico da interação.
r
QMR
qdms resíduodogla )05,0:,(
b0 b1 Médias
a0
a1
Médias
Conclusões:
d) Dê uma estimativa dos efeitos simples de antibióticos e de vitaminas.
e) Teste a normalidade dos erros e a homogeneidade das variâncias dos tratamentos.
Estatística Experimental
142
g) Calcular os coeficientes de determinação (R
2
) e o de variação do experimento (CV).
(escrever um script no R para resolver esta questão)
2) Num experimento fatorial 2 x 4 , no delineamento em blocos casualizados, com 2 repetições
(2 Blocos), foram estudadas as influências da primeira alimentação de colostro no nível de
imunoglobulina em vacas leiteiras. O fator A foi a quantidade de comida (0,5 e 1,5 kg) e o fator
B foi o tempo da primeira alimentação (1, 2, 6, ou 12 horas depois do nascimento). Os valores
observados são unidades de “turbidimetric” relativas ao sulfato de bário padrão de 20 quando o
sangue foi amostrado 48 horas após o nascimento. O colostro foi misturado para eliminar a
variação entre as vacas.
Tempo da 1ª alimentação
Bloco Quantidade
de comida
(kg)
1
2
6
12
I 0,5 7,9 10,2 6,1 2,3
1,5 11,7 10,7 9,9 5,4
II 0,5 9,5 6,0 7,8 7,1
1,5 15,0 11,7 9,4 7,2
Responder aos mesmos itens do exercício 1) (Atenção este é um fatorial 2 x 3)
3) Um experimento foi realizado para estudar a influência no tempo de hemorragia do período,
fator A, e um composto estrogênio, fator B , em plasma de sangue em ovelhas. Cinco ovelhas
foram sorteadas para cada um dos quatros tratamentos: a1b1 – de manhã e sem estrogênio;
a1b2 – de manhã com estrogênio; a2b1 – de tarde e sem estrogênio; a2b2 – de tarde com
estrogênio
Tratamentos Rep. 1 Rep. 2 Rep. 3 Rep. 4 Rep. 5
a0 b0 8,53 20,53 12,53 14,00 10,80
a0 b1 17,53 21,07 20,80 17,33 20,07
a1 b0 39,14 26,20 31,33 45,80 40,20
a1 b1 32,00 23,80 28,87 25,06 29,33
Responder aos mesmos itens do ecercício 1)
4) Um experimento para verificar o peso aos 180 dias de suínos com as raças Landrace e
Large White, utilizou-se de 480 suínos, machos e fêmeas, sendo estes distribuídos em três
suínoculturas. a) Quais os fatores que podem influenciar a resposta medida. b) Estabeleça um
modelo matemático para o experimento. c) Faça um esquema da análise de variância (F.V. e
g.l.) para o experimento.
5) Em um experimento realizado na Fazenda Experimental Iguatemi da Fundação Universidade
Estadual de Maringá, para verificar o efeito de diferentes tipos de instalações durante o inverno
e verão sobre o ganho de peso e conversão alimentar de coelhos da raça Nova Zelândia, aos
40 e 70 dias de idade, foram utilizados 3 tipos de instalações, gaiolas ao ar livre, gaiolas de
arame galvanizado em galpão aberto e gaiolas de arame galvanizado em galpão fechado.
Utilizou-se 178 animais machos e fêmeas para a obtenção dos dados. a) Quais os fatores que
podem influenciar a resposta medida. b) Estabeleça um modelo matemático para o
experimento. c) Faça um esquema de análise de variância para o experimento.
Estatística Experimental
143
Aula 9 Experimentos fatoriais: analisando um fatorial A x B
O método de análise de um experimento fatorial 2 x 2 pode, de uma
maneira geral, ser estendido a qualquer experimento fatorial A x B. A
estratégia para analisar um experimento fatorial a x b é a mesma utilizada
para os experimentos fatoriais 2 x 2.
teste a interação entre os dois fatores.
se a interação é significativa, então analisamos os efeitos simples
dos dois fatores.
se a interação é não significativa, então analisamos os efeitos
principais de cada fator
Exemplo 1 Casualização dos tratamentos de um esquema fatorial 2 x 3 em
DBC com 4 repetições:
Tratamentos
b1 a1b1
a1 b2 a1b2
b3 a1b3
b1 a2b1
a2 b2 a2b2
b3 a2b3
Com o seguinte esquema da ANOVA
Fonte de Variação g l
Fator A a - 1
Fator B b - 1
Int. A x B (a – 1)(b – 1)
Tratamentos ab - 1
Blocos r -1
Resíduo (ab -1)(r – 1)
Total abr - 1
De uma maneira geral as somas de quadrados são dadas por:
)()()(),()(),()(
;...)(
;...)(
;...
)...(
2
.
22
2
2
1
222
2
2
1
222
12
2
11
2
22
111
BSQASQSQTrAxBSQouBSQASQBASQAxBSQ
abr
Y
ar
Y
ar
Y
ar
Y
BSQ
abr
Y
br
Y
br
Y
br
Y
ASQ
abr
Y
r
Y
r
Y
r
Y
SQTr
abr
Y
YYSQT
j
i
ab
abk
Bloco I Bloco II Bloco III Bloco IV
a2b1 a2b3 a1b2 a1b1
a1b2 a2b2 a2b1 a1b3
a2b2 a1b1 a2b2 a2b1
a2b3 a2b1 a1b3 a2b2
a1b1 a1b2 a2b3 a1b2
a1b3 a1b3 a1b1 a2b3
Estatística Experimental
144
Como dissemos na aula passada: nos fatoriais A x B a Soma de
Quadrados Conjunta SQ(A,B) é igual à Soma de Quadrados dos Tratamentos
SQTr.
Quadro da ANOVA no DIC
F.V. G.L. S.Q. Q.M. F
A a-1 S.Q.(A) Q.M.(A) FA
B b-1 S.Q.(B) Q.M.(B) FB
Interação A x B (a-1)(b-1) S.Q.(AB) Q.M.(AB) FAB
Tratamentos ab-1 S.Q. Trat. Q.M. Trat. FTr
Resíduo ab (r-1) S.Q. Res. Q.M. Res.
Total abr-1 S.Q. Total
Exemplo 1. Fatorial 2 x 3 (com interação não significativa):
O crescimento do conteúdo de água em tecidos de lesmas sob 6
diferentes condições experimentais foi avaliada. As 6 condições foram obtidas
combinado-se os dois níveis de temperatura (fator A) com três níveis de
umidade (fator B) com. Foram feitas 4 repetições para cada combinação de
tratamento. Os resultados, em porcentagem, foram :
Fator A
(Temperatura ºC)
Fator B – Umidade (%)
45 75 100
20
76 64 72 82 100 96
79 71 86 86 92 100
30
72 72 72 75 100 94
64 70 82 84 98 99
Formato no Excel (.xls) Formato no Bloco de notas (.txt)
Temp umi trat ca
20 45 t1 76
20 45 t1 64
20 45 t1 79
20 45 t1 71
20 75 t2 72
20 75 t2 82
20 75 t2 86
20 75 t2 86
20 100 t3 100
20 100 t3 96
20 100 t3 92
20 100 t3 100
30 45 t4 72
30 45 t4 72
30 45 t4 64
30 45 t4 70
30 75 t5 72
30 75 t5 75
30 75 t5 82
30 75 t5 84
30 100 t6 100
30 100 t6 94
30 100 t6 98
30 100 t6 99
temp umi trat ca
20 45 t1 76
20 45 t1 64
20 45 t1 79
20 45 t1 71
20 75 t2 72
20 75 t2 82
20 75 t2 86
20 75 t2 86
20 100 t3 100
20 100 t3 96
20 100 t3 92
20 100 t3 100
30 45 t4 72
30 45 t4 72
30 45 t4 64
30 45 t4 70
30 75 t5 72
30 75 t5 75
30 75 t5 82
30 75 t5 84
30 100 t6 100
30 100 t6 94
30 100 t6 98
30 100 t6 99
Os totais das 4 repetições para o fatorial A x B = (2)(3)= 6 tratamentos
são os seguintes:
Estatística Experimental
145
(4)
Níveis de A
(Temperatura ºC))
Níveis de B (Umidade (%))
b1 = 45 % b2 = 75 % b3 = 100 % Total
a1 = 20 ºC 290 326 388 1004a2 = 30 ºC 278 313 391 982
Total 568 639 779 1986
Cálculos das soma de quadrados:
08,2075,288117,200,2922
)()()*(
;75,2881
)4)(3)(2(
1986
)4)(2(
779
...
)4)(2(
568
)(
;17,20
)4)(3)(2(
1986
)4)(3(
982
)4)(3(
1004
)(
;0,2922
)4)(3)(2(
1986
4
491
...
4
326
4
290
5,3386
)4)(3)(2(
1986
)99...76(
222
222
2222
2
22
BSQASQSQTrBASQ
BSQ
ASQ
SQTr
SQT
Quadro da anova
F.V. G.L. S.Q. Q.M. F Pr>(Fc)
Temperatura (A) 1 20,17 20,17 0,78
ns
0.388
Umidade (B) 2 2881,75 1440,88 55,85
**
1.91e-08
Interação A x B 2 20,08 10,04 0,39
ns
0.683
Tratamentos (5) 2922,0 584,40 22,65
*
3.48e-07
Resíduo 18 464,5 25,81
Total 23 3386,5
F(1, 18; 0,05) = 4,41 ; F(1, 18, 0,01)= 8,29; F(2, 18; 0,05)= 3,55; F(2, 18, 0,01)= 6,01
F(5, 18; 0,05) = 2,77; F(5, 18, 0,01)= 4,25
Do quadro acima, observamos que o teste da interação entre a
temperatura e umidade não é significativa (p>0,05), e concluímos que os dados
não suportam a hipótese de uma interação entre temperatura e umidade. Dado
que a interação não foi significativa, a análise prossegue analisando-se os
efeitos principais da temperatura e da umidade isoladamente. Isto pode ser
feito analisando-se os dois tipos de diferenças:
as diferenças entre os conteúdos médios da água nos tecidos nos
dois níveis de A (temperatura).
as diferenças entre os conteúdos médios da água nos tecidos nos
três níveis de B (umidade).
O teste F para o efeito principal A é não significativo (p>0,05), e portanto
não existe evidências suficientes para concluir que os valores médios do
conteúdo da água nos tecidos são diferentes nos dois níveis de temperatura,
entretanto, o teste F para o efeito principal da umidade é altamente significativo
(p<0,01), o que implica que os dados suportam a conclusão de que os valores
médios do conteúdo da água nos tecidos não são os mesmos nos três níveis
da umidade.
Isto pode ser visualizado na tabela de médias abaixo (última linha):
Estatística Experimental
146
Quadro de médias dos tratamentos
(4)
(Temperatura ºC))
Níveis de B ( Umidade (%) )
b1 = 45 % b2 = 75 % b3 = 100 % Médias
a1 = 20 ºC 72,50 81,50 97,00 83,67 A
a2 = 30 ºC 69,50 78,25 97,75 81,83 A
Médias 71,00 c 79,88 b 97,38 a 82,75
Médias com a mesma letra maiúscula nas colunas não diferem entre si pelo teste de Tukey a 5%
Médias com a mesma letra minúscula nas linhas não diferem entre si pelo teste de Tukey a 5%
Fazendo o gráfico da interação (níveis de b no eixo x e níveis de a em y)
Cálculos do teste de Tukey:
para o efeito principal A (temperatura):
364
12
8125
972dms
972q
A
050182
,
,
,
,),;,(
para o efeito principal de B (Umidade):
486
8
8125
9o63dms
6093q
B
050183
,
,
,
,),;,(
Gráfico das médias dos tratamentos
Interação A x B
Umidade (%)
Média
observa
da do c
onteúdo
da águ
a (%)
66
72
78
84
90
96
102
45 75 100
20 º C
30 º
Média
O gráfico das médias dos tratamentos fornece um conveniente método
de mostrar os resultados. As linhas sólidas no gráfico da interação são
Estatística Experimental
147
praticamente paralelas, isto confirma o resultado do teste F para a interação
entre temperatura e umidade. Mais ainda, a proximidade das duas linhas
sólidas indica que as diferenças entre as respostas médias observadas nas
duas temperaturas são não significativas; esta conclusão é confirmada pelo
teste F do efeito principal da temperatura. Uma checagem gráfica para
presença do efeito principal da umidade é dada pela orientação da linha
pontilhada. Se o efeito principal de tal efeito não estivesse presente, então a
linha pontilhada deveria estar paralela ao eixo x. O gráfico mostra que não é
este o caso. O teste F para o efeito principal de B (umidade) suporta esta
conclusão.
Outra forma de explicar a significância do fator B é por meio da
regressão polinomial, ou seja, as diferenças entre as médias do fator umidade
são explicadas por equação do segundo grau
Gráfico das médias do fator B
Equação ajustada
y=82.471-0.585*x+0.007*x̂2+eps
Umidade (%)
Médias
dos con
teúdo d
a água
(%)
68
72
76
80
84
88
92
96
100
40 45 50 55 60 65 70 75 80 85 90 95 100 105
Script no R para obter os resultados do exemplo 1
# entrada dos dados pelo comando read.table( )
dados.ex1_9 <- read.table("ex1fat_9.txt", header=T)
# imprimindo as 6 primeiras linhas do arquivo dados.ex1_9
head(dados.ex1_9)
# anexando o objeto dados.ex1_9 no caminho de procura
attach(dados.ex1_9)
# calculo das interações - Quadros dos totais
int.total <- tapply(ca, list(temp, umi), sum)
int.total
# calculo dos totais marginais do fator temperatura
total.temp<- tapply(ca,temp,sum)
total.temp
# calculo dos totais marginais do fator umidade
total.umi<- tapply(ca,umi,sum)
total.umi
# calculo das interações - Quadros das médias
int.media <- tapply(ca, list(temp, umi), mean)
Estatística Experimental
148
int.media
# calculo das médias marginais do fator temp
media.temp<- tapply(ca,temp,mean)
media.temp
# calculo das médias marginais do fator antibiótico
media.umi<- tapply(ca,umi,mean)
media.umi
# anova sem o desdobramento do fatorial
ca.av <- aov(ca~trat)
summary(ca.av)
# quadro da anova no esquema fatorial
cafat.av <- aov(ca~factor(temp)+factor(umi)+factor(temp)*factor(umi))
summary(cafat.av)
# gráfico da interação
interaction.plot(umi, temp, ca,col=2,lwd=2,
ylab="médias de ca",xlab="níveis da umidade",
main="Gráfico da Interação")
# requerendo o pacote ExpDes
require(ExpDes)
fat2.crd(factor(temp), factor(umi), ca, quali = c(TRUE, TRUE), mcomp =
"tukey",
fac.names = c("Temperatura", "Umidade"))
# dms do teste de tukey para fator temperatura
dmsa<- qtukey(0.95,2,18)*sqrt(anova(cafat.av)[4,3]/12)
dmsa
# dms do teste de tukey para fator umidade
dmsb<- qtukey(0.95,3,18)*sqrt(anova(cafat.av)[4,3]/8)
dmsb
# Regressão Linear
# Definição de x e y
x <- c(45,75,100)
ca.media <- tapply(ca,umi,mean) #c(71.0, 79.88, 97.38)
ca.media
#ajuste da equação linear
reg.lin <- lm(ca.media~um )
reg.lin
plot(um,ca.media,pch=16,xlab="umidade")
abline(reg.lin,col=2,lwd=2)
# análise de variância para testar se o coef angular é significativo
anova(reg.lin)
Estatística Experimental
149
# ajuste de uma equação quadrática
reg.quad <- lm(ca.media ~ um + I(um^2))
reg.quad
# desenhando a curva ajustada e adicionado ao gráfico
curve(82.488636 -0.585985*x+0.007348*x*x, 40,100, lwd=2,col=4,add=T)
# retirando o objeto dados.ex1_9 do caminho de procura
detach(dados.ex1_9)
Exemplo 2: Análise e interpretação de um experimento fatorial com três fatores
Esquema fatorial 2 x 2 x 2 = 23 em um delineamento em blocos
casualizados (DBC)para estudar a produção de leite de vacas holandezas
arranjadas em 6 lotes com a mesma idade.
idade) de classes 6 ( Blocos 6
B vitamina de mg 5 : c2
B vitamina de mg 0 : c1
milho de rolão de kg 1,0 : b2
milho de rolão de kg 0,5 : b1
B tipo ração de kg 0,5 : a2
Atipo ração de kg 0,5 : a1
:.
12
12
2222
1221
2
2122
1221
1
2
2212
1211
2
2112
1111
1
1
cbac
cbac
b
cbac
cbac
b
a
cbac
cbac
b
cbac
cbac
b
a
sendoTrat
Dados
Níveis dos
fatores
BLOCOS
A B C I II III IV V VI Total
1 1 1 3,029 3,857 2,448 2,448 3,543 4,314 19,639
1 1 2 2,438 3,086 3,771 4,657 1,962 3,210 19,124
1 2 1 3,448 3,600 3,895 4,267 3,086 3,657 21,953
1 2 2 3,533 5,048 3,467 4,095 1,876 2,895 20,914
2 1 1 3,362 3,714 3,429 3,190 2,686 4,038 20,419
2 1 2 4,905 6,295 4,924 4,952 5,381 5,543 32,000
2 2 1 4,171 3,114 4,124 3,981 3,038 3,590 22,018
2 2 2 4,476 4,752 4,848 4,676 6,829 3,771 29,352
Total 29,362 33,466 30,906 32,266 28,401 31,018 185,419
Para calcular as somas de quadrados dosefeitos A, B e C, inicialmente
devemos organizar quadros auxiliares, que relacionam os níveis dos fatores 2
a 2, o que dá 3 quadros A com B, A com C e B com C.
Exemplo: Quadro I (A x B) totais de :
a1b1 = a1b1c1 + a1b1c2 = 19,639 + 19,124 = 38,763
a1b2 = a1b2c1 + a1b2c2 = 21,953 + 20,914 = 42,867
a2b1 = a2b1c1 + a2b1c2 = 20,419 + 32,000 = 52,419
a2b2 = a2b2c1 + a2b2c2 = 22,018 + 29,352 = 51,370
Quadro I (totais da interação A x B)
Estatística Experimental
150
(12)
Níveis de A
(Qtde de ração)
Níveis de B (Rolão de milho kg)
b1 = 0,5 kg b2 = 1,0 kg Total
a1 = 0,5 kg de A 38,763 42,867 81,630
a2 = 0,5 kg de B 52,419 51,370 103,789
Total 91,182 94,237 185,419
Quadro II (totais da interação A x C)
(12)
Níveis de A
(Qtde de ração)
Níveis de C (Dose de vit. B12 mg)
c1 = 0,0 mg c2 = 5,0 mg Total
a1 = 0,5 kg de A 41,592 40,038 81,630
a2 = 0,5 kg de B 42,437 61,352 103,789
Total 84,029 101,390 185,419
Quadro III (totais da interação B x C)
(12)
Níveis de B
Níveis de C (Dose de vit. B12 mg)
c1 = 0,0 mg c2 = 5,0 mg Total
b1 = 0,5 kg 40,058 51,124 91,182
b2 = 1,0 kg 43,971 50,266 94,237
Total 84,029 101,390 185,419
Somas de quadrados da ANOVA preliminar:
;,
))()()((
,
))((
,
))((
,
)(
;,
))()()((
,
))((
,
))((
,
)(
;,
))()()(())((
,
))((
,
)(
,
;,
))()()((
,
),...,(
;,
))()()((
,,
...
,
;,
))()()((
,
),...,(
2796
6222
419185
122
390101
122
02984
CSQ
1940
6222
419185
122
23794
122
18291
BSQ
23010
6222
185419
122
789103
122
63081
ASQ
96320SQBlSQTrSQTSQR
1342
6222
419185
0183136229
8
1
SQBl
74826
6222
419185
6
35229
6
45919
SQTr
84549
6222
419185
31440293SQT
222
222
222
2
22
222
2
22
Para o cálculo das soma de quadrados das interações precisamos
calcular as somas de quadrados conjuntas. Para a interação AxB, temos:
568019402301019210BSQASQBASQAxBQS
99210
6222
419185
3705176338
12
1
BASQ
2
22
,,,,)()(),()(.
,
))()()((
,
),...,(),(
Para a interação AxC, temos:
Estatística Experimental
151
729,8279,6230,10238,25)(
358,25
)6)(2)(2)(2(
419,185
)352,61...592,41(
12
1
),(
2
22
AxCSQ
CASQ
Para a interação BxC, temos:
4750279619409486BxCSQ
9486
6222
419185
2665005840
12
1
CBSQ
2
22
,,,,)(
,
))()()((
,
),...,(),(
2890BxCSQAxCSQAxBSQ
CSQBSQASQSQTrAxBxCSQ
,)()()(
)()()()(
Fonte de variação Gl S.Q. Q.M. F
Ração (A) 1 10,230 10,230 17,078
**
Rolão (B) 1 0,194 0,194 0,324
ns
Vitamina B12 (C) 1 6,279 6,279 10,482
**
Int.( AxB) 1 0,568 0,568 0,948
ns
Int. (AxC) 1 8,729 8,729 14,573
**
Int. ( BxC) 1 0,475 0,475 0,793
ns
Int. (AxBxC) 1 0,289 0,289 0,482
ns
Tratamentos (7) 26,748 3,821 6,380
**
Blocos 5 2,134 0,427 0,713
ns
Resíduo 35 20,963 0,599
Total 47 48,845
F(5, 35; 0,05) = 2,49 F(3, 35; 0,01) = 3,61 F(1, 35; 0,05) = 4,13 F(1, 35; 0,01) = 7,44
Conclusões:
a interação AxBxC é não significativa (p>0,05), indicando a
possibilidade de independência entre os fatores conjuntamente.
os testes F das interações duplas indicam que somente a interação
AxC é significativa (p<0,01), ou seja, os dados suportam uma
conclusão de que os tipos de rações interagem com a dose de
vitamina B12 na produção de leite.
Desdobramento da interação AxC: estudo dos efeitos simples do fator
ração (A) nos níveis das doses de vitamina B12 (C)
Cálculo da SQ do efeito da ração na ausência da vitamina B12
0300
24
02984
4374259241
12
1
ASQ
2
22
Cdentro 1
,
,
),,()(
Cálculo da SQ do efeito da ração na presença da vitamina B12
92918
24
390101
3526103840
12
1
ASQ
2
22
Cdedentro 2
,
,
),,()(
Quadro da ANOVA do desdobramento:
Fonte de variação gl. SQ QM F
1Cdedentro
A 1 0,030 0,030 0,0497*
2deCdentro
A 1 18,929 18,929 31,601**
Resíduo 35 20,963 0,599
Estatística Experimental
152
Conclusão: as rações produzem efeito significativo (p<0,05) na ausência
da vitamina B12, enquanto que na presença da vitamina B12 as rações têm
efeito significativo (p<0,01) diferenciado.
Desdobramento da interação AxC: estudo dos efeitos simples do fator
vitamina (C) nos níveis das Rações (A)
Cálculo da SQ do efeito da vitamina no nível a1 da ração
1026,0
24
029,84
)038,40592,41(
12
1
)(
2
22
1 adentroCSQ
Cálculo da SQ do efeito da vitamina no nível a2 da ração
9074,14
24
789,103
)352,61437,42(
12
1
)(
2
22
2
adedentroCSQ
Quadro da ANOVA do desdobramento:
Fonte de variação gl. SQ QM F
1adedentro
C 1 0,1006 0,1006 0,168
NS
2deadentro
C 1 14,9074 14,9074 24,88
**
Resíduo 35 20,963 0,599
Conclusão: as vitaminas não produzem efeito significativo (p>0,05) na
ração tipo A, enquanto que na ração tipo B a vitamina B12 tem efeito
significativo (p<0,01) diferenciado.
Exemplo 4 Análise de um fatorial 3 x 4 : experimento sobre a qualidade do
ovo, em unidades Haugh, segundo 3 embalagens e 4 tempos de
armazenamento de estocagem.
Embalagem Tempo Blocos
Ai Bj I II III IV
1 1 66 52 57 68
1 2 47 47 32 43
1 3 43 50 39 40
1 4 20 23 43 41
2 1 81 68 60 55
2 2 62 34 44 45
2 3 43 41 47 54
2 4 51 32 29 34
3 1 81 82 80 78
3 2 84 68 66 65
3 3 58 43 37 57
3 4 75 45 59 48
Quadro da anova
F.V. G.L. S.Q. Q.M. F
Embalagem (A) 2 3427,125 1713,562 24,586
**
Tempo (B) 3 5186,229 1728,748 24,803
**
Interação A x B 6 768,708 128,118 1,838
ns
Tratamentos (11) 9382,06 852,91 12,24
**
Blocos 3 829,729 276,576 3,968
*
Resíduo 33 2300,021 69,697
Total 47 12511,812
Conclusões:
o efeito da interação A x B é não significativo (p>0,05), ou seja,
existe uma independência entre os fatores.
efeito do fator embalagem (A) é significativo (p<0,05).
Estatística Experimental
153
efeito do fator tempo (B) é significativo (p<0,05).
Teste de Tukey para o fator A
287
16
69769
493dms
493q
A
050333
,
,
,
,),,,(
Teste de Tukey para o fator B
289
12
69769
853dms
853q
B
050334
,
,
,
,),,,(
Quadro dos valores médios observados
(4) B1 B2 B3 B4
iY
A1 60,75 42,25 43,00 31,75 44,44 B
A2 66,00 46,25 46,25 36,50 48,75 B
A3 80,25 70,75 48,75 56,75 64,12 A
jY
69,00 a 53,08 b 46,00 bc 41,67 c 52,44
Médias com a mesma letra minúscula nas linhas não diferem entre si pelo teste de Tukey a 5%
Médias com a mesma letra maiúscula nas colunas não diferem entre si pelo teste de Tukey a 5%
Exemplo 5 Em um experimento de substituição do farelo de soja pelo farelo de
girassol na ração de suínos, montou-se um experimento fatorial 2x5, com os
fatores Sexo (machos e fêmeas) e Ração com substituição de farelo de soja
por farelo de girassol (0%, 25%, 50%, 75% e 100%), utilizando-se 30 suínos
(15 machos e 15 fêmeas) castrados da raça Duroc-Jersey, num delineamento
em blocos casualizados com 3 repetições, de acordo com os grupos de pesos
iniciais. Os resultados de ganho de peso dos animais aos 112 dias de
experimento estão apresentados na tabela a seguir:
Bloco
Machos Fêmeas
G0 G25 G50 G75 G100 G0 G25 G50 G75 G100
1 85,0 94,5 99,5 93,0 83,0 77,9 71,5 67,5 71,5 89,5
2 86,0 96,0 98,0 96,0 80,0 83,2 73,5 63,5 70,8 91,8
3 84,0 95,8 104,0 90,5 78,5 83,5 70,5 65,0 72,5 92,9
Total 255,0 286,3 301,5 279,5 241,5 244,6 215,5 196,0 214,8 274,2
Pede-se:
Montar o esquema da Análise de Variância e fazer os testes
convenientes;
Comparar as médias dos níveis do fator G dentro de cada um dos
níveis do fator S;
Construir gráficos para estudar o comportamento das respostas
médias dos níveis de G para cada um dos níveis de S.
Estatística Experimental
154
Quadros auxiliares
Sexo
Ração
Total G0 G25 G50 G75 G100
1 255,0 286,3 301,5 279,5 241,5 1363,8
2 244,6 215,5 196,0 214,8 274,2 1145,1
Total 499,6 501,8 497,5 494,3 515,72508,9
Bloco B1 B2 B3 Total
Total 832,9 838,8 837,2 2508,9
(Resolver os exemplos 4) e 5) no R)
Estatística Experimental
155
9º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL
1) Num experimento fatorial 3
2
= 3 x 3, com os fatores A e B, no delineamento em blocos ao
acaso, com 4 repetições, para se estudar uma determinada característica, foram obtidos os
seguintes resultados
Tratamentos 1º Bloco 2º Bloco 3º Bloco 4º Bloco
a0b0 25,3 24,2 24,3 33.0
a0 b1 31,6 29,7 30,6 32,2
a0 b2 19,7 18,2 16,0 17,0
a1 b0 24,7 34,7 28,9 27,6
a1 b1 28,4 44,4 41,1 38,4
a1 b2 30,8 42,4 33,6 35,1
a2 b0 37,2 47,6 38,6 40,6
a2 b1 42,6 45,8 38,4 43,4
a2 b2 56,0 58,8 57,0 55,0
Os resultados da análise de variância preliminar foram:
FV G.L. S. Q. Q. M. F P
Blocos 3 150,3 50,1 4,2 0,016
Tratamentos 8 3967,3 495,9
41,8 0,000
Resíduo 24 284,3 11,8
Total 35 4401,9
a) Checar os resultados do quadro da ANOVA acima e concluir, em seguida fazer a análise de
variância com o desdobramento dos graus de liberdade de tratamentos, segundo o
esquema fatorial e concluir.
b) No desdobramento da interação fazer a análise de variância do desdobramento e aplicar o
teste de Tukey (5%) valores médios do fator A nos níveis do fator B e vice versa.
c) Calcular os coeficientes de determinação e de variação do experimento.
2) Um experimento fatorial 2 x 5, com os fatores Sexo (A) e Ração (B) , em um delineamento
em blocos ao acaso, com 3 repetições, foi realizado para se estudar a “Substituição do farelo
de soja pelo farelo de girassol em ração de suínos” (Kronka,1969)- BIA, n.26 pg 147-154. Os
dados abaixo referem-se ao ganho de peso (kg) em 112 dias de experimento.
Descrição dos fatores : Sexo a1 : Machos; a2 : Fêmeas
Rações:
b1 : Ração Básica (RB) + farelo de soja (100%);
b2 : RB + farelo de soja (75%) + farelo de girassol (25%);
b3 : RB + farelo de soja (50%) + farelo de girassol (50%);
b4 : RB + farelo de soja (25%) + farelo de girassol (75%);
b5 : RB + farelo de girassol (100%);
Tratamentos 1º Bloco 2º Bloco 3º Bloco
a1 b1 95,0 86,0 94,0
a1 b2 91.5 99,0 94,0
a1 b3 94,5 93,0 94,0
a1 b4 89,0 86,0 90,5
a1 b5 93,0 80,0 78,0
a2 b1 87,0 79,0 84,0
a2 b2 91,0 93,5 103,5
a2 b3 77,5 68,5 70,0
a2 b4 82,5 80,5 82,5
a2 b5 64,5 65,5 60,5
Resultados da anava preliminar
F.V. G.L. S.Q. Q.M. F
Blocos 2 60,02 30,01 1,56
ns
Trat. 9 2994,54 332,73 17,34
**
Res. 18 345,48 19,19
Total 29 3400,04
Estatística Experimental
156
a) Checar os resultados do quadro da ANOVA acima e concluir, em seguida fazer a análise de
variância com o desdobramento dos graus de liberdade de tratamentos, segundo o esquema
fatorial e concluir.
b) Fazer a análise de variância com o desdobramento dos graus de liberdade de tratamentos,
segundo o esquema fatorial e teste a significância da interação entre os efeitos. Se a interação
for significativa teste a diferença média dos ganhos de peso do efeito de sexo para cada ração
e as diferenças entre os valores médios das rações para cada sexo.
c) Calcular os coeficientes de determinação e de variação do experimento.
Estatística Experimental
157
Aula 10 Experimentos em parcela subdividida
1 Introdução
Nos experimentos fatoriais ou esquemas fatoriais os tratamentos
gerados pelas combinações dos níveis dos fatores são designados às unidades
experimentais de acordo com o procedimento de aleatorização do
delineamento inteiramente casualizado (DIC), ou do delineamento em blocos
casualizados (DBC), ou do delineamento em quadrado latino (DQL).
Entretanto, outros tipos de aleatorização são possíveis. Uma dessas
aleatorizações alternativas dá origem aos experimentos em parcelas
subdivididas, os quais são um caso especial de blocos incompletos. O
princípio básico deste delineamento é que parcelas principais que recebem
níveis de um fator são subdivididas em subparcelas ou subunidades, as quais
recebem os níveis de um outro fator. Assim cada parcela funciona como um
bloco para as subparcelas. Os níveis do fator sorteado nas parcelas são
denominados de tratamentos principais e os níveis do fator sorteados nas
subparcelas são denominados de tratamentos secundários. O delineamento
em parcela subdividida teve sua origem na experimentação agronômica, com
as parcelas, quase sempre, sendo grandes áreas de solo e as subparcelas
sendo áreas menores de solo dentro das grandes áreas. Os tratamentos
principais são distribuídos às parcelas de acordo com um delineamento
especificado (DIC, DBC, DQL etc.) e os tratamentos secundários são
distribuídos aleatoriamente às subparcelas dentro de cada parcela.
A seguir apresentamos um possível croqui de um experimento em
parcelas subdivididas com o Fator A, com 2 níveis (tratamentos principais)
aplicados às parcelas de acordo com um delineamento em blocos casualizados
com 3 repetições e o Fator B, com 3 níveis (tratamentos secundários) aplicados
às subparcelas. Vale notar que os níveis de A são sorteados entre as duas
parcelas de cada bloco e os níveis de B são sorteados entre as três
subparcelas de cada parcela.
BLOCO 1 BLOCO 2 BLOCO 3
Parcelas A1 A2 A2 A1 A2 A1
Subparcelas
B1 B2 B3 B2 B1 B2
B3 B3 B2 B3 B3 B3
B2 B1 B1 B1 B2 B1
Se os tratamentos estivessem num esquema fatorial, o croqui poderia
ser:
BLOCO 1 BLOCO 2 BLOCO 3
A1B1 A1B2 A1B3 A2B2 A1B1 A2B2
A2B3 A1B3 A2B2 A1B3 A2B3 A1B3
A2B2 A2B1 A2B1 A1B1 A1B2 A2B1
ou seja, o delineamento em parcelas subdivididas representa uma restrição à
casualização completa existente em um ensaio fatorial envolvendo o mesmo
número de fatores e de níveis.
Na análise estatística desses experimentos, as Fontes de Variação que
fazem parte da variação entre as parcelas (Fator-A e Blocos, por exemplo) são
usualmente agrupadas separadamente daquelas que fazem parte da variação
dentro das parcelas ou entre as subparcelas (Fator-B e interação AxB). Neste
caso, temos dois resíduos distintos: um referente às parcelas e outro referente
às subparcelas.
Estatística Experimental
158
2 Análise de variância
No quadro a seguir, apresentaremos a partição dos graus de liberdade
de um experimento em parcelas subdivididas com “a” tratamentos primários,
“b” tratamentos secundários, “r” repetições em diferentes delineamentos para
os tratamentos aplicados às parcelas.
3 Modelo matemático e suposições
Considerando um experimento em parcelas subdivididas envolvendo “a”
tratamentos primários arranjados em um DIC com “r” repetições e “b”
tratamentos secundários, o modelo pode ser descrito como:
b1ja1ir1k
comY ijkijjikiijk
,...,;,...,;,...,
,)(
).(),(~
);)((),(~
;)(
;
;
:
berro0Naleatórioerrodoefeito
aerro0NAdenívelésimoiorecebendoparcelaésimakdaefeito
BdenívelésimojeAdenívelésimoidoconjuntoefeitooe
subparcelanaBdenívelésimojdoefeitoo
principalparcelanaAdenívelésimoidoefeitoogeralmédiaa
sendo
2
ijk
2
ik
ij
j
i
Um esquema de análise de variância para este modelo é
Parcelas Sub-divididas no D.I.C. (“r” repetições)
Fonte de Variação g.l.
A (a-1)
Resíduo (a) a(r-1)
(Parcelas) (ar-1)
B (b-1)
AxB (a-1)(b-1)
Resíduo (b) a(r-1)(b-1)
Total abr-1
Considerando agora, um experimento em parcelas subdivididas
envolvendo “a” tratamentos primários arranjados em “r” blocos casualizados e
“b” tratamentos secundários, o modelo pode ser escrito como:
b1ja1ir1k
comY ijkijjikikijk
,...,;,...,;,...,
,)(
Estatística Experimental
159
),(~
);,(~
;
;
)(;,
,;
:
2
ijk
2
ik
ik
k
ijj
i
0Naleatórioerrodoefeito
0Ne
blocoésimoknoprincipalparcelanaAdenívelésimoidoconjuntoefeitoo
blocoésimokdoefeitoo
BdenívelésimojeAdenívelésimoi
deconjuntoefeitooesubparcelanaBdenívelésimojdoefeitoo
principalparcelanaAdenívelésimoidoefeitoogeralmédiaa
sendo
Um esquema de análise de variância para este modelo é
Parcela Subdivida no D.B.C.(“r” blocos)
Fonte de Variação g.l.
Blocos (r-1)
A (a-1)
Resíduo (a) (a-1)(r-1)
(Parcelas) (ar-1)
B (b-1)
AxB (a-1)(b-1)
Resíduo (b) a(r-1)(b-1)
Total abr-1
4 Hipótese estatística
As seguintes hipóteses podem ser testadas nos experimentos em
parcelas subdivididas.
A hipótese de que não existe ou existe interação AB é equivalente
às hipóteses estatísticas
b1jea1icom0H
0H
ij11
ij01
...,,...,,)(:
)(:
e para testá-las, usamos a estatística
;);Re..;int..(~
)(Re
bsdolgeraçãodalg01 F
bsQM
QMAB
F ,
a qual sob H0, tem distribuição F-Snedecor com graus de liberdade
da interação no numerador e graus de liberdade do resíduo (b) no
denominador.
No DIC temos ));)(();)((( 1b1ra1b1aF , no DBC temos ));)(();)((( 1b1ra1b1aF .
A hipótese de que não existe ou existe efeito principal do fator A é
a1icom0H
0H
i12
i02
...,,:
:
,
e para testá-las, usamos a estatística
;);Re..;..(~
)(Re
asdolgAfatordolg02 F
asQM
QMA
F ,
a qual sob H0, tem distribuição F-Snedecor com graus de liberdade
do fator A no numerador e graus de liberdade do resíduo (a) no
denominador.
Estatística Experimental
160
No DIC temos ));1();1(( raaF , no DBC temos ));1)(1();1(( raaF .
as hipóteses de que não existe ou existe efeito principal do fator B
é
bjcomH
H
j
j
...,,10:
0:
13
03
,
e para testá-las, usamos a estatística
;);Re..;..(03 ~
)(Re
bsdolgBfatordolgF
bsQM
QMB
F .
que sob H0, tem distribuição F-Snedecor com graus de liberdade do
fator B no numerador e graus de liberdade do resíduo (b) no
denominador.
No DIC temos ));)(();(( 1b1ra1bF , no DBC temos ));)((();(( 1b1ra1bF .
5 Detalhes computacionais
Apresentaremos alguns passos que facilitam os cálculos das somas de
quadrados da ANOVA.
No DIC:
Soma de Quadrados do Total (SQT)
;
)(
,
)(
abr
Y
Csendo
abr
Y
YSQT
22r
1k
a
1i
b
1j
2
ijk
Soma de Quadrados do fator A, SQ(A) CY
br
1
ASQ
a
1i
2
i
)( ;
Soma de Quadrados da Parcelas, SQ(Parc)
CY
b
1
ParcSQ
ba
ji
2
ij
,
,
)( ;
SQRes(a) = SQ(Parc) – SQ(A);
Soma de Quadrados do fator B, SQ(B) CY
ar
1
BSQ
b
1j
2
j
)( ;
Soma de Quadrados da interação AxB, SQ(AxB)=SQ(A,B)-SQ(A)-
SQ(B) ou CY
r
1
AxBSQ
a
1i
b
1j
2
ij
)( , sendo a SQ(A,B) a soma de
quadrado conjunta, a qual nos fatoriais a x b é igual à soma de
quadrados dos tratamentos (SQTr).
SQRes(b) = SQ(Parc) – SQ(B)-SQ(AB);
Para calcular os coeficientes de variação para as parcelas e para as
subparcelas usamos, respectivamente:
100x
Y
asQM
aCV
)(Re
)( 100x
Y
bsQM
bCV
)(Re
)(
)()()(, AxBSQBSQParcSQSQModeloquesendo100x
SQT
SQModelo
R2
Dos testes de hipóteses sugeridos anteriormente, se ocorrer interação
AxB significativa, torna-se imprescindível fazer o desdobramento
)(
iAdedentro
BSQ , para i = 1, 2, ..., a ou )(
jBdedentro
ASQ , para j = 1, 2, ..., b. Para
Estatística Experimental
161
testar se “as médias de B são iguais, dentro de cada nível de A” usaremos
como denominador da estatística F, bE = QMRes(b), com seus a(r-1)(b-1)
graus de liberdade.
Comparações de duas médias de A, no mesmo ou em diferentes níveis
de B, envolve o efeito principal de A e a interação AB, ou seja, elas são ambas,
comparações das parcelas e das subparcelas. Neste caso é apropriado usar
uma média ponderada dos erros Ea e Eb , definida como:
ba EbE
b
sQM )1((
1
(*)Re
Para tais comparações a razão da diferença dos tratamentos pelo seu
erro padrão não segue uma distribuição t-student . Uma aproximação
para testar se “as médias de A são iguais, dentro de cada nível de B” usaremos
como denominador da estatística t, o valor obtido de
ba E1bE
b
1
sQM )(((*)Re , que tem n* graus de liberdade, o qual é
calculado pela Fórmula de Sattertwait:
.
),(Re),(Re,
)(
)(*
subparceladaliberdadedegrausosn
eparceladaerrodoliberdadedegrausosn
bsQMEasQMEsendo
n
E1b
n
E
E1bE
n
b
a
ba
b
2
b
a
2
a
2
ba
6 Comparações múltiplas entre médias de tratamentos
Após tirarmos as conclusões sobre os testes de hipóteses da Análise de
Variância, poderemos estar interessados em comparar as médias dos
tratamentos primários (A), dos secundários (B) ou da interação (AxB). Daí, o
problema consiste em usar a estimativa da variância (2) apropriada. A seguir,
apresentaremos esses problemas para os casos mais freqüentes. Aqui
consideraremos a notação )(Re),(Re bsQMEasQME ba
1º Caso: entre médias do tratamento primário
Para testar um contraste escolhido a priori,
aa2211 cccY ... , sendo )...,,,( a21ii as médias dos
tratamentos primários, ou seja, 0YH0 : , usamos a estatística
)(
2
i
~
c
r
ˆ
aEdogl
i
a
i t
E
Y
t
, sendo
)( aEdogl
t o quantil de ordem )
2
1(
da distribuição t-student com
graus de liberdade do Ea.
Para testar um contraste entre duas médias de A, ,iiY , ou
seja, 0YH0 : usamos a estatística
Estatística Experimental
162
)(~
ˆ
aEdogl
a
t
br
E2
Y
t , sendo
)( aEdogl
t o quantil de ordem )(
2
1
da distribuição t-student com
graus de liberdade do Res(a).
Para os testes de Tukey e de Duncan usamos, respectivamente,
br
E
qdms aEdoglaA a );( e br
E
zdms aEdoglaA a );(
Sendo, que “q” e “z” correspondem aos valores tabelados da
distribuição de Tukey e Duncan.
2o Caso: entre médias do tratamento secundário
Para testar um contraste escolhido a priori,
bb2211 cccY ... , sendo )...,,,( b21jj as médias dos
tratamentos secundários, ou seja, 0YH0 : , usamos a estatística
)(
2
i
~
c
ar
ˆ
bEdogl
i
b
i t
E
Y
t
, sendo
)( bEdogl
t o quantil de ordem )(
2
1
da distribuição t-student com
graus de liberdade do Eb.
Para testar um contraste entre duas médias de B, ,iiY ,
usamos a estatística
)(~
ˆ
bEdogl
b
t
E
ar
2
Y
t , sendo
)( bEdogl
t o quantil de ordem )(
2
1
da distribuição t-student com
graus de liberdade do Eb.
Para os testes de Tukey e de Duncan usamos, respectivamente,
ar
E
qdms bdoEglbB b );( ar
E
zdms bEglbB b );(
Sendo que “q” e “z” correspondem aos valores tabelados da
distribuição de Tukey e Duncan.
3o Caso: entre médias do tratamento secundário num mesmo nível
de i de A
Para testar um contraste escolhido a priori,
ibb2i21i1 cccY ... , sendo )...,,,( b21jij as médias dos
tratamentos secundários num mesmo nível “i” de A, ou seja,
0YH0 : , usamos a estatística
Estatística Experimental
163
)(
2
i
~
c
r
ˆ
bEdogl
i
b
i t
E
Y
t
, sendo
)( bEdogl
t o quantil de ordem )(
2
1
da distribuição t-student com graus
de liberdade do Eb.
Para testar um contraste entre duas médias de B num mesmo nível
de A, ,ijijY , usamos a estatística
)(~
ˆ
bEdogl
b
t
r
E2
Y
t , sendo
)( bEdogl
t o quantil de ordem )(
2
1
da distribuição t-student com
graus de liberdade do Eb.
Para os testes de Tukey e de Duncan usamos, respectivamente
r
E
qdms bEglb b );( r
E
zdms bEdoglb b );(
Sendo que “q” e “z” correspondem aos valores tabelados da
distribuição de Tukey e Duncan.
4o Caso: entre médias do tratamento primário num mesmo nível de
B
Para testar um contraste escolhido a priori,
ajaj22j11l cccY ... , sendo a21iij ...,,, as médias dos
tratamentos primários num mesmo nível “j” de B, usamos a
estatística
)(
2
i
ba
*
*
c
br
1)E-(b E
ˆ
n
i
i tmenteaproximada
Y
t
,
Sendo n* os graus de liberdade calculados pela Fórmula de
Sattertwait (o asterisco indica que esta razão não tem uma
distribuição t-student). Para testar um contraste entre duas médias de A num mesmo nível
de B, ,ijijlY , usamos a estatística aproximada
*
1)E-(b E
br
ˆ
ba
*
n
i tmenteaproximada
2
Y
t
com n* os graus de liberdade calculados pela Fórmula de
Sattertwait
Estatística Experimental
164
Correspondentemente uma aproximação para o teste de Tukey
temos:
s(b) (b-1)QMReQMRes(a)
br
1
qdms
nb
),( *
e ,
sendo os valores de “q” e “z” correspondem a “b” tratamentos e n*
graus de liberdade para o resíduo (calculados pela Fórmula de
Sattertwait) e são encontrados em tabelas próprias.
EXEMPLO 1: Supor um experimento com três rações A, B e C em seis blocos
casualizados, sendo cada parcela constituída de dois bovinos de corte. Em
uma determinada fase do experimento, os bovinos dentro de cada parcela,
passaram a receber, por sorteio, um dos dois tipos de suplementos minerais M
e P. A variável dependente é o ganho de peso no final do experimento.
Um possível croqui deste experimento em parcelas subdivididas no
delineamento em blocos casualizados:
B A C
P M M P P M
A C B
P M M P P M
B C A
P M M P M P
A B C
M P M P P M
C A B
P M M P P M
C B A
M P M P P M
1ª letra fator ração e 2ª letra fator suplemento mineral
BLOCOS
I II III IV V VI
BP AM BP AM CP CM
BM AP BM AP CM CP
AM CM CM BM AM BM
AP CP CP BP AP BP
CP BP AM CP BP AP
CM BM AP CM BM AM
Bloco I
Bloco III
Bloco IV
Bloco V
Bloco VI
Bloco II
Estatística Experimental
165
Esquema da análise de variância
Causas da variação g.l.
Blocos 5
Ração (Trat. principal) A 2
Erro (a) 10
Parcelas (17)
Suplemento mineral (Trat. Secundário) B 1
Ração x Suplemento 2
Erro (b) 15
Total 35
Os ganhos individuais ao final do experimento foram:
Blocos Ração A Ração B Ração C Total
M P M P M P
I 107 89 116 101 90 96 599
II 117 101 136 110 112 89 665
III 122 98 130 104 99 92 645
IV 111 101 122 91 105 78 608
V 90 95 117 100 110 90 602
VI 116 90 114 94 114 93 621
Total 663 574 735 600 630 538 3.740
(Veja estrutura do arquivo na última página)
Quadro de Totais I
Blocos ( 2 )* Ração A Ração B Ração C Total
I 196 217 186 599
II 218 246 201 665
II 220 234 191 645
IV 212 213 183 608
V 185 217 200 602
VI 206 208 207 621
Total 1.237 (12) 1.335 (12) 1.168 (12) 3.740
(*) Os números entre parênteses representam o total de parcelas somadas para se obter os valores
observados da tabela.
Cálculos para montar o quadro da anova:
44388544
623
3740
9389107SQT
2
222 ,
))()((
)...(
22582
623
3740
621665599
6
1
SQBl
2
222 ,
))()((
)...(
Para obtermos a soma de quadrados das parcelas usamos o quadro
auxiliar I com os totais de cada parcela. Como temos duas subparcelas em
cada parcela a soma de quadrados das parcelas fica
562377
623
3740
207217196
2
1
SQParcelas
2
222 ,
))()((
)...(
Para as demais SQ, organizamos o seguinte quadro de totais II que
relaciona os níveis dos dois fatores entre si:
(6)
SUPLEMENTOS
RAÇÃO
Totais A B C
M 663 735 630 2028
P 574 600 538 1712
Totais 1237 1335 1168 3740
Cálculos do quadro da ANOVA
Estatística Experimental
166
731173
623
3740
116813351237
12
1
SQRações
2
222 ,
))()((
)(
6162173117322582562377
SQRaçõesSQBlSQParcelasasSQ
,,,,
)(Re
782773
623
3740
17122028
18
1
SQSupl
2
22 ,
))()((
)(
894057
623
3740
538574663
6
1
SRSQ
2
222 ,
))()((
)...(),(
38110782773731173894057
SSQRSQSRSQRxSSQ
,,,,
)()(),()(
84799
RxCSQSQSuplSQParcelasSQTbsSQ
,
)()(Re
Quadro da anova
Causas da variação g.l. S.Q. QM F
Blocos 5 582,22 116,44 1,87
ns
Ração (Trat. Principal) A 2 1173,73 586,86 9,44
**
Erro (a) 10 621,61 62,16
Parcelas (17) 2377,56
Suplemento (Trat. Secundário) B 1 2773,78 2773,78 52,02
**
Ração x Suplemento 2 110,38 55,19 1,04
ns
Erro (b) 15 799,84 53,32
Total 35 6061,56
Obs. Os efeitos das rações e dos blocos são testados usando o resíduo (a). Os efeitos dos suplementos e da
interação são testados usando o resíduo b.
F(5,10; 0,05)=3,33 ; F(5,10; 0,01)= 5,64; F(2,10; 0,05)= 4,10; F(2,10; 0,01)= 7,56; F(1,15; 0,05)= 4,54
F(1,15; 0,01)= 8,86; F(2,15; 0,05)= 3,68; F(2,15; 0,01)= 6,36
Conclusão: como a interação não foi significativa (p>0,05) devemos
interpretar as diferenças significativas dos efeitos principais da ração e do
suplemento.
Teste de Tukey:
duas médias de A )(Re,).;..,( asQMEsendo
rb
E2
qdms A
A
ElgaA a
4412
12
32124
883dmsA ,
,
,
duas médias de B )(Re,).;..,( bsQMEsendo
ra
E2
qdms b
b
ElgbB b
337
18
64106
013dmsB ,
,
,
Quadro de médias
(6)
SUPLEMENTOS
RAÇÃO
Totais A B C
Estatística Experimental
167
M 110,5 122,5 105,0 112,7 A
P 95,7 100,0 89,7 95,1 B
Totais 103,1 ab 111,3 a 97,3 b 103,9
Médias seguidas pela mesma letra minúsculas na linha não diferem entre si pelo teste de Tukey a 5%
Médias seguidas pela mesma letra maiúsculas na coluna não diferem entre si pelo teste de Tukey a 5%
Coeficientes de variações
%,
,
,)(Re..
)( 597
89103
1662
Y
asMQ
CV a
%,
,
,)(Re..
)( 037
89103
3253
Y
bsMQ
CV b
Script no R para obter os resultados acima
# entrada dos dados pelo comando read.table( )
dados.ex1_10 <- read.table("ex1ps_10.txt", header=T)
# imprimindo as 6 primeiras linhas do arquivo dados.ex1_10
head(dados.ex1_10)
# anexando o objeto dados.ex1_10 no caminho de procura
attach(dados.ex1_10)
# calculo das interações - Quadros dos totais
int.total <- tapply(gp, list(suplemento, racao), sum)
int.total
# calculo dos totais marginais do fator suplemento
total.supl<- tapply(gp,suplemento,sum)
total.supl
# calculo dos totais marginais do fator racao
total.racao<- tapply(gp,racao,sum)
total.racao
# calculo das interações - Quadros das médias
int.media <- tapply(gp, list(suplemento, racao), mean)
round(int.media,1)
# calculo das médias marginais do fator suplemento
media.supl<- tapply(gp,suplemento,mean)
round(media.supl,1)
# calculo das médias marginais do fator antibiótico
media.racao<- tapply(gp,racao,mean)
round(media.racao,1)
# quadro da anova no esquema pelo comando aov()
gpps.av <- aov(gp~factor(bloco)+factor(racao)+factor(suplemento)+
factor(racao):factor(suplemento)+Error(bloco/racao))
summary(gpps.av)
# gráfico da interação
interaction.plot(racao,suplemento,gp,col=2,lwd=2,
Estatística Experimental
168
ylab="médias de ganho de peso",xlab="rações",
main="Gráfico da Interação")
# requerendo o pacote ExpDes
require(ExpDes)
split2.rbd(racao, suplemento, bloco, gp, quali = c(TRUE, TRUE),
mcomp = "tukey", fac.names = c("Ração", "Suplemento"))
# retirando o objeto dados.ex1_10 do caminho de procura
detach(dados.ex1_10)
O uso do delineamento em parcelas subdivididas é desejável quando:
O experimento pode ser usado quando um fator adicional tem de
ser incorporado em um experimento para aumentar a sua
amplitude.
Pode-se saber que as maiores diferenças podem ser esperadas de
ocorrer entre os níveis de um fator do que nos níveis do outro fator.
Neste caso, as combinações dos tratamentos em que as grandes
diferenças são esperadas podem ser atribuídas aleatoriamente às
parcelas principais simplesmente por conveniência.
O experimento é usado quando grande precisão é desejada para
comparações entre os níveis de um fator do que em níveis do outro
fator.
Em resumo, dado que nos experimentos em parcelas subdivididas a
variação entre as subparcelas é esperada ser menor do que a variação entre
as parcelas principais, o fator que requerer menor quantidade de material
experimental, ou que é mais importante, ou que é esperado apresentar
menores diferenças, ou sobre o qual é desejado maior precisãopor qualquer
motivo, são atribuídos ás subparcelas.
Estatística Experimental
169
10º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL
Num experimento em parcelas subdivididas para se estudar o ganho de peso médio diário em
suínos foram utilizados quatro tratamentos principais ( A ) e dois secundários ( B ), no
delineamento em blocos casualizados com cinco repetições. Os tratamentos principais, rações
A1, A2, A3, e A4 foram aplicadas as parcelas constituídas de seis suínos cada uma logo após a
desmama. Decorridos trinta dias, três suínos de cada parcela passaram a receber por sorteio
uma suplementação alimentar, com dois tipos de vitaminas B1 e B2 .
Ao final do experimento os aumentos de peso médio dos três animais por subparcela em
quilogramas estão dados na tabela abaixo:
Tratamentos 1º Bloco 2º Bloco 3º Bloco 4º Bloco 5º Bloco Total
A1 B1 1,30 1,35 1,28 1,25 1,32 6,50
B2 1,32 1,35 1,29 1,31 1,35 6,62
A2 B1 1,10 1,15 1,12 1,18 1,11 5,66
B2 1,20 1,21 1,15 1,18 1,20 5,94
A3 B1 1,45 1,48 1,45 1,44 1,46 7,28
B2 1,48 1,45 1,47 1,50 1,41 7,31
A4 B1 1,22 1,24 1,24 1,30 1,22 6,22
B2 1,24 1,23 1,25 1,28 1,26 6,26
Total 10,31 10,46 10,25 10,44 10,33 51,79
Obs.
4
1i
2
1j
2
ijy 67.56730 Usar 5 casas decimais para os cálculos.
a) Estabelecer as hipóteses estatísticas, reproduza os resultados do quadro abaixo, o gráfico
da interação, fazer a análise de variância e concluir. Caso haja interação fazer os
desdobramentos necessários e os testes de comparações múltiplas.
b) Calcule as médias dos tratamentos principais, os erros padrões e compare-as pelo teste de
Tukey a 5% de probabilidade.
c) Calcule os coeficientes de variação ( C.V. ) e de determinação ( R
2
) do experimento.
Quadros auxiliares:
1)
(2) I II III IV V Total
A1 2,62 2,70 2,57 2,56 2,67 13,12
A2 2,30 2,36 2,27 2,36 2,31 11,60
A3 2,93 2,93 2,92 2,94 2,87 14,59
A4 2,46 2,47 2,49 2,58 2,48 12,48
Total 10,31 10,46 10,25 10,44 10,33 51,79
2)
(5) A1 A1 A1 A1 Total
B1 6,50 5,66 7,28 6,22 25,66
B2 6,62 5,29 7,31 6,26 26,13
Total 13,12 11,60 14,59 12,48
2) Cinco jumentos foram utilizados, dentro do manejo regular de colheita de sêmem com o
qual já estavam acostumados, para testar sobre o primeiro ejaculado, três diferentes diluentes
e após as diluições, três diferentes tempo de conservação do material (5ºC). A resposta medida
foi a motilidade observada no sêmem em função daqueles fatores. Para cada jumento, o
primeiro ejaculado foi divido em três alíquotas, diluídas cada uma em um dos diluentes e este
volume novamente dividido em outras três alíquotas, uma para cada tempo de conservação.
Percebe-se que a parcela é definida pelo diluente e dentro dele, as três subparcelas
correspondentes aos tempos. Trata-se portanto de um delineamento em parcelas subdivididas
, em que cada jumento assume o papel de um bloco, já que pela utilização de alíquotas todos
os tratamentos (diluentes) provêm de um mesmo ejaculado.
DILUENTE
Estatística Experimental
170
A B C
ANIMAL T1 T2 T3 T1 T2 T3 T1 T2 T3
1 75 73 66 214 81 75 62 218 68 61 50 179
2 65 60 61 186 69 62 51 182 60 55 50 165
3 78 83 70 231 79 76 60 215 72 68 61 201
4 68 61 51 180 76 66 51 193 61 57 53 171
5 44 43 37 124 55 51 41 147 34 24 21 79
Total 330 320 285 935 360 330 265 955 295 265 235 795
3I2I1IiLinear
3
1I
3
1j
ij
3
1I
3
1j
2
ij 101Y2685Y169173Y )()()(; )(
a) Checar os resultados das fórmulas acima e preencher os quadros auxiliares abaixo.
b) Estabelecer as hipóteses estatísticas e fazer a análise de variância e concluir.
c) No gráfico abaixo teste a significância da tendência linear dos valores médios da motilidade
em cada diluente.
d) Calcule os coeficientes de variação do experimento.
Quadros auxiliares: 1)
Jumentos (Blocos)
( ) I II III IV V Total
A
B
C
Total
2)
( ) T1 T2 T3 Média
A
B
C
Média
A
B
C
Motilidade observada em sêmem de jumentos segundo o diluidor e o tempo
Tempo
Motilid
ade
44
50
56
62
68
74
6 10 14 18 22 26 30 34 38
Estatística Experimental
171
Aula 11 Experimentos em parcelas subdivididas - Análise de medidas
repetidas no tempo.
Como nos experimentos em parcelas subdvididas, experimentos
utilizando delineamentos de medidas repetidas no tempo têm estruturas que
envolvem mais de um tamanho de unidade experimental. Por exemplo, um
animal pode ser observado durante certo período de tempo, onde tempo é um
dos fatores na estrutura de tratamentos do experimento. Tais dados são
análogos aos dados de um experimento em parcela subdividida em muitos
aspectos e sua análise é frequentemente conduzida tal como um experimento
em parcela subdividida e denominado como parcela subdividida no tempo, ou
análise de medidas repetidas no tempo.
Exemplo: um experimento envolvendo 3 drogas foi conduzido para
estudar cada efeito de droga no batimento cardíaco dos animais. Depois que
cada droga era administrada, o batimento cardíaco era medido de 5 em 5
minutos durante 20 minutos.
DA DB DC
Animais T5 T10 T15 T20 T5 T10 T15 T20 T5 T10 T15 T20
1 78 86 81 77 85 86 83 80 69 73 72 74
2 71 83 88 81 82 86 80 84 66 62 67 73
3 72 82 81 75 71 78 70 75 84 90 88 87
4 72 83 83 69 83 88 79 81 80 81 77 72
5 66 79 77 66 86 85 76 76 72 72 69 70
6 74 83 84 77 85 82 83 80 65 62 65 61
7 62 73 78 70 79 83 80 81 75 69 69 68
8 69 75 76 70 83 84 78 81 71 70 65 65
Quadro auxiliar 1) Totais das parcelas
Animais Total
DA 322 323 310 307 288 318 283 290 2441
DB 334 332 294 331 323 330 323 326 2593
DC 288 268 349 310 283 253 281 271 2303
Total 944 923 953 948 894 901 887 887 7337
Quadro auxiliar 2) Totais dos fatores
T5 T10 T15 T20 Total
DA 564 644 648 585 2441
DB 654 672 629 638 2593
DC 582 579 572 570 2303
Total 1800 1895 1849 1793 7337
Cálculo das somas de quadrados do quadro da ANOVA:
))()((
)...(
843
7337
658678SQT
2
222
Do QUADRO I, temos
243604
843
7337
271323322
4
1
SQ
2
222
Parcelas ,
))()((
)...(
081315
843
7337
23032441
32
1
SQ
2
22
Droga ,
))()((
)...(
162289081315243604DrogaQSparcelasQSSQ aErro ,,,....)(
Do QUADRO II, temos
61282
543
7337
179318951800
24
1
SQ
2
222
Tempo ,
))()((
)...(
Estatística Experimental
172
862128
843
7337
570644564
8
1
SQ
2
222
Conjunta ,
))()((
)...(
17531
61282081315862128
SQSQSQTempoxDrogaSQ TempoDrogaConjunta
,
,,,
)(
474891753161282243604494907
TempoxDrogaSQSQSQSQTSQ TempoParcelasbErro
,,,,,
)()(
Quadro da ANOVA
F.V. G.L. S.Q. Q.M. F p
DROGA 2 1315,08 657,54 6,03
**
0.008512
Erro(a) 21 2289,16 109,01
PARCELAS 23 3604,24 156,71 20,15
**
TEMPO 3 282,81 94,27 12,12
**
2.315e-06
DROGA x TEMPO 6 531,17 88,53 11,39
**
1.381e-08
Erro(b) 63 489,47 7,78
TOTAL 95 4907,49
F(2, 21; 0,05) = 3,47 F(2, 21; 0,01) = 5,78 F(3, 63; 0,05) = 2,76 F(3, 63; 0,01) = 4,13
F(6, 63; 0,05) = 2,25 F(6, 63; 0,01) = 3,12
Conclusão: existe uma interação tempo*droga significativa (p<0,01);
então devemos comparar os tempos em cada droga e drogas em cada tempo.
Script no R para os cálculos acima
# entrada dos dados pelo comando read.table( )
dados.ex1_11 <- read.table("ex1mr_11.txt", header=T)
# imprimindo as 6 primeiras linhas do arquivo dados.ex1_10
head(dados.ex1_11)
# anexando o objeto dados.ex1_11 no caminho de procura
attach(dados.ex1_11)
# calculo das interações - Quadros dos totais
int.total <- tapply(fc, list(droga,tempo), sum)
int.total
# calculo dos totais marginais do fator suplemento
total.droga<- tapply(fc,droga,sum)
total.droga
# calculo dos totais marginais do fator racao
total.tempo<- tapply(fc,tempo,sum)
total.tempo
# calculo das interações- Quadros das médias
int.media <- tapply(fc, list(droga, tempo), mean)
round(int.media,1)
# calculo das médias marginais do fator suplemento
media.droga<- tapply(fc,droga,mean)
round(media.droga,1)
Estatística Experimental
173
# calculo das médias marginais do fator antibiótico
media.tempo<- tapply(fc,tempo,mean)
round(media.tempo,1)
# quadro da anova no esquema pelo comando aov()
fc.av <- aov(fc~factor(droga)+factor(tempo)+
factor(droga):factor(tempo)+Error(droga:animal))
summary(fc.av)
# gráfico da interação
interaction.plot(tempo,droga,fc,col=2,lwd=2,
ylab="médias da frequência cardíaca",xlab="tempo",
main="Gráfico da Interação")
# requerendo o pacote ExpDes
require(ExpDes)
split2.crd(droga, tempo, animal, fc, quali = c(TRUE, TRUE),
mcomp = "tukey", fac.names = c("Droga", "Tempo"))
# retirando o objeto dados.ex1_11 do caminho de procura
detach(dados.ex1_11)
Para comparar tempo em cada droga, o erro padrão da diferença de
duas médias é
391
8
7872
r
E2
YYES
b
ilij ,
),(
).(.
)(
.. ,
e o teste de tukey é dado por
734391393YYESqdms ilij050633 .),)(,().(. ..),;,(
Do quadro auxiliar das médias temos,
T5 T10 T15 T20
DA 70,50b 80,50ª 81,00a 73,13b
DB 81,75a 84,00a 78,63a 79,75a
DC 72,75b 72,38b 71,50b 71,25b
Médias com a mesma letra minúscula nas linhas não diferem entre si pelo teste de Tukey a 5%.
Assim do quadro auxiliar das médias temos,
T5 T10 T15 T20
DA 70,50bB 80,50aA 81,00aA 73,13abB
DB 81,75aA 84,00aA 78,63aA 79,75aA
DC 72,75aB 72,38aB 71,50aB 71,25aB
Médias com a mesma letra minúscula nas colunas não diferem entre si pelo teste de Tukey a 5%.
Médias com a mesma letra maiúscula nas colunas não diferem entre si pelo teste de Tukey a 5%.
Dado que os níveis do fator tempo são quantitativos e igualmente
espaçados, polinômios ortogonais podem ser usados para checar a tendência
linear e quadrática na resposta de cada droga
Estatística Experimental
174
A tendência linear para a Droga B (DB) é definida pelo contraste
371175793637810084175813
Y3Y1Y1Y3Y 24232221Linear
,),)((),)((),)((),)((
ˆ
com erro padrão do contraste dado por:
414
8
787
3113S 2222
YLinear
,
,
))()((ˆ
A estatística t-student correspondente é
582
414
3711
S
Y
t
LinearY
Linear
Calc ,
,
,ˆ
ˆ
.
,
o valor tabelado é t(63; 0,05) = 2,00. Concluímos, então, que a tendência linear
negativa observada no gráfico para a Droga B (DB) é significativa (p<0,05) pelo
teste t-student.
A tendência quadrática para a Droga a (DA) pode ser definida pelo
contraste
14131211Quad 1111Y .
o qual é estimado por
8717Y1Y1Y1Y1Y 14131211Quad ,
ˆ
com erro padrão do contraste dada por:
971
8
787
1111S 2222Yuad ,
,
))()((
.
a estatística t-student correspondente é
079
971
8717
YES
Y
t
Quad
Quad
Calc ,
,
,
)ˆ.(.
ˆ
.
.
o valor tabelado é t(63; 0,05) = 2,00. Concluímos, então que a forte tendência
quadrática observada no gráfico para a Droga A (DA) é significativa (p<0,05)
pelo teste t-student.
Estatística Experimental
175
Aula 12 Transformação de dados
1 Introdução
Existem duas maneiras nas quais as hipóteses da ANOVA podem ser
violadas. Primeiro, os dados podem consistir de medidas em uma escala
ordinal ou nominal; neste caso métodos mais apropriados para dados ordinais
e nominais são necessários. Segundo, os dados, embora medidos em escala
contínua, podem não satisfazer pelo menos uma das três hipóteses requeridas
pela análise de variância:
Como vimos anteriormente, as hipóteses da análise de variância são:
os termos dos erros são aleatóriamente, independentemente e
normalmente distribuídos ),(~ 2ij 0Ne
a variância de diferentes amostras são homogêneas; variâncias e
médias de diferentes amostras não são correlacionadas;
os efeitos dos tratamentos são aditivos.
Nestes casos, duas opções se oferecem para analisar os dados. Uma é
reduzir o intervalo dos dados para dados medidos em uma escala nominal ou
ordinal apropiada e fazer uma análise para este tipo de dado. A outra
possibilidade é ver se os dados podem ser transformados para satisfazer as
hipóteses da ANOVA. Se tal transformação é encontrada, os dados
transformados podem então serem analisados pelos métodos da ANOVA. A
hipótese de variâncias iguais é essencial para a realização da análise de
variância. Em muitos casos a transformação que torna as variâncias mais
homogêneas, também tornam os dados mais próximos de uma distribuição
normal.
Considere o exemplo, no qual os pesos, em pounds, de animais, em um
DBC, foram observados. Os tratamentos estão em um esquema fatorial 3 x 2,
três espécies de animais e dois grupos, um tratado com uma nova vitamina e
outro contrôle, em 4 blocos
Bloco
Tratamentos I II III IV
mice contrôle 0.18 0.30 0.28 0.44
mice vitamina 0.32 0.40 0.42 0.46
galinha controle 2.0 3.0 1.8 2.8
galinha vitamina 2.5 3.3 2.5 3.3
ovelha controle 108.0 140.0 135.0 165.0
ovelha vitamina 127.0 153.0 148.0 176.0
O quadro da anova dos dados deste experimento mostra os seguintes
resultados
Df Sum Sq Mean Sq F value Pr(>F)
factor(bloco) 3 984 328 2.631 0.0881 .
factor(fatorA) 2 108321 54161 434.507 5.28e-14 ***
factor(fatorB) 1 142 142 1.140 0.3025
factor(fatorA):factor(fatorB) 2 250 125 1.004 0.3896
Residuals 15 1870 125
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Estatística Experimental
176
A alta significância entre as espécies (fatorA) não é surpreendente para
o pesquisador. O que parece estranho é que não foi detectada diferença
significativa devido a vitamina (fatorB), tendo em vista que todo animal em
todas as replicações que receberam vitamina mostraram um peso maior do que
o correspondente animal contrôle. Parece estranho também que não foi
encontrado evidências de interação entre os efeitos de vitamina e espécies,
dado que a resposta aparente a vitamina é tão diferente nas diferentes
espécies. Tudo que podemos concluir é que mice, galinhas e ovelhas diferem
em peso.
Vamos olhar estes dados com as supsições da anova em mente e ver o
que podemos fazer se uma das suposições não é atendida.
O gráfico de resíduos vs valores preditos mostra claramente uma
heterogeneidade de variâncias e o QQ-plot mostra um comportamento dos
dados que não é muito convicente da distribuição normal. A menssagem
parece clara, entretanto, podemos ainda fazer testes para verificar o desvio dos
pressupostos.
Teste de normalidade de normalidade de Shapiro-Wilk no R
# teste de normalidade
shapiro.test(pesotrat.av$res)
Saída fornecida pelo R:
Shapiro-Wilk normality test
data: pesotrat.av$res
W = 0.9536, p-value = 0.3236
Este teste mostra o teste é não significativo (p=0,3236), portanto não
rejeitamos ),(~: 2ij0 0NH , ou seja, os resíduos e por conseguinte os dados
deste experimento suportam a suposição de normalidade. Assim, a primeira
suposição é prenchida.
Estatística Experimental
177
Agora vamos examinar a suposição de homogeneidade das variâncias.
Vamos aplicar o teste de Bartlett usando o R.
# teste da homogeneidade das variâncias dos tratamentos
bartlett.test(peso~factor(trat))
Saída do teste de Bartlett no R:
Bartlett test of homogeneity of variances
data: peso by factor(trat)
Bartlett's K-squared = 81.8698, df = 5, p-value = 3.408e-16
O teste é significativo (p=3.408e-16), rejeitamos 26
210H ...: , ou
seja, as variâncias dos tratamentos não são homocedásticas (homogêneas).
Logo, a segunda suposição não é observada nos dados deste
experimento. Para tentar contornar o problema vamos usar a transformação
Box-Cox, que consiste em transformar os dados de acordo com a expressão
sendo um parâmetro a ser estimado dos dados. Se a equação
acima se reduz a
sendo ln é o logaritmo neperiano. Uma vez obtido o valor de encontramos
os valores dos dados transformados conforme a equação acima e utilizamos
estes dados transformados para efetuar as análises. A função boxcox() do
pacote MASS calcula a verossimilhanca perfilhada deste parâmetro. Devemos
escolher o valor que maximiza esta função. Nos comandos a seguir
começamos carregando o pacote MASS e depois obtemos o gráfico da
verossimilhanca perfilhada no R:
# requerendo o pacote MASS
require(MASS)
boxcox(peso ~ factor(trat),plotit = T)
Estes comandos fornecem o gráfico da verossimilhança perfilada
Como estamos interessados no máximo da função vamos dar um zoom
no gráfico com o comando
# zoom no gráfico par maiores detalhes do valor do parâmetro
1y
y
'
0
)ln(' yy
Estatística Experimental
178
boxcox(a_peso ~ racoes, lam = seq(1,2, 1/10))
O gráfico mostra que o valor que maximiza a função é aproximadamente
0,1. Assim, próximo passo é obter os dados transformados e depois fazer as
analise utilizando estes novos dados.
# obtenção dos dados transformados
lambda<-0.1
peso.trans <- (peso^(lambda) - 1)/lambda
# fazendo a análise de variância dos dados transformados
peso.avtrans <- aov(peso.trans ~ factor(trat)
summary(peso.avtrans)
plot(peso.avt)
O quadro da anova dos dados transformados mostra o seguinte quadro
da anova
Df Sum Sq Mean Sq F value Pr(>F)
factor(bloco) 3 0.85 0.28 18.244 2.88e-05 ***
factor(fatorA) 2 237.35 118.68 7678.808 < 2e-16 ***
factor(fatorB) 1 0.31 0.31 19.879 0.00046 ***
factor(fatorA):factor(fatorB) 2 0.02 0.01 0.502 0.61518
Residuals 15 0.23 0.02
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Este quadro mostra um resultado mais satisfatório do que a análise dos
dados sem transformação. Nesta análise, também é mostrado uma
significância do fator B (p=0,00046). Mesmo assim, o resultado do teste da
significância da interação (p = 0,61518) permaneceu não significativo.
NOTA: No gráfico da verossimilhança perfilhada notamos que é mostrado um
intervalo de confiança para e que o valor 0 está contido neste intervalo. Isto
indica que podemos utilizar a transformação logaritímica dos dados e os
resultados da anova serão bem próximos dos obtidos com a transformação
com 10, , préviamente adotada.
# quadro da anova dos dados transformados
Estatística Experimental
179
pesolog.av <-
aov(log(peso+1)~factor(bloco)+factor(fatorA)+factor(fatorB)+
factor(fatorA):factor(fatorB))
summary(pesolog.av)
Df Sum Sq Mean Sq F value Pr(>F)
factor(bloco) 3 0.22 0.07 12.85 0.000201 ***
factor(fatorA) 2 96.89 48.44 8573.72 < 2e-16 ***
factor(fatorB) 1 0.07 0.07 12.11 0.003361 **
factor(fatorA):factor(fatorB) 2 0.00 0.00 0.41 0.670832
Residuals 15 0.08 0.01
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Reparem que os resultados desta anova estão bem próximos dos
resultados da anova dos dados originais.
Teste de normalidade de Shapiro-Wilk nos resíduos dos dados
transformados
# teste da normalidade
shapiro.test(pesolog.av$res)
Shapiro-Wilk normality test
data: pesofattrans.av$res
W = 0.9803, p-value = 0.9014
Teste de da homogeneidade das variâncias dos tratamentos
# teste de bartlett
bartlett.test(log(peso+1)~factor(trat))
O resultado do teste de Bartlett para os dados transformados é
Bartlett test of homogeneity of variances
data: log(peso + 1) by factor(trat)
Bartlett's K-squared = 5.5714, df = 5, p-value = 0.3502
Agora temos confiança de que a nova análise de variância é válida, dado
que dados transformados satisfazem as duas suposições da análise de
variância. Com os dados originais a homogeneidade das variâncias não era
atendida.