Buscar

Estatística Experimental no Rbio_ Bhering e Teodoro_publicado

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 478 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 478 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 478 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Conselho Editorial Internacional
Presidente: Prof. Dr. Rodrigo Horochovski (UFPR – Brasil) 
Profª. Dra. Anita Leocadia Prestes (ILCP – Brasil) 
Profª. Dra. Claudia Maria Elisa Romero Vivas (UN – Colômbia) 
Profª. Dra. Fabiana Queiroz (Ufla – Brasil) 
Profª. Dra. Hsin-Ying Li (NTU – China) 
Prof. Dr. Ingo Wolfgang Sarlet (PUC/RS – Brasil) 
Prof. Dr. José Antonio González Lavaut (UH – Cuba) 
Prof. Dr. José Eduardo Souza de Miranda (UniMB – Brasil) 
Profª. Dra. Marilia Murata (UFPR – Brasil) 
Prof. Dr. Milton Luiz Horn Vieira (Ufsc – Brasil) 
Prof. Dr. Ruben Sílvio Varela Santos Martins (UÉ – Portugal) 
Comitê Científico da área Ciências Agrárias
Presidente: Prof. Dr. Alexandre de Paula Peres (Ufla – Ciência dos Alimentos)
Prof. Dr. Antonio Waldir Cunha da Silva (UFPR – Medicina Veterinária)
Profª. Dra. Rita de Cássia Maria Garcia (UFPR – Medicina Veterinária)
Prof. Dr. Luis David Solis Murgas (Ufla – Zootecnia)
Prof. Dr. Davi Marcondes Rocha (UTFPR – Engenharia Agrícola)
Leonardo Lopes Bhering
Paulo Eduardo Teodoro
ESTATÍSTICA EXPERIMENTAL NO RBIO
© Brazil Publishing Autores e Editores Associados
Rua Padre Germano Mayer, 407
Cristo Rei - Curitiba, PR - 80050-270
+55 (41) 3022-6005
Associação Brasileira de Editores Científicos
Rua Azaleia, 399 - Edifício 3 Office, 7º Andar, Sala 75
Botucatu, SP - 18603-550 
+55 (14) 3815-5095
Associação Brasileira de Normas Técnicas
Av. Treze de Maio, 13, 28ª andar
Centro - RJ - 20031-901
+55 (21) 3974.2324
Câmara Brasileira do Livro
Rua Cristiano Viana, 91
Pinheiros - SP - 05411-000
+ 55 (11) 3069-1300
Comitê Editorial
Editora-Chefe: Sandra Heck
Editor-Superintendente: Valdemir Paiva
Editora Científica: Kelly Miranda
Editor-Coordenador: Everson Ciriaco
Diagramação e Projeto Gráfico: Rafael Chiarelli
Arte da Capa: Paula Zettel
Revisão de Texto: Os autores
DOI: 10.31012/ 978-65-5861-360-2
Órgão Financiador: Obra financiada pela Capes
Dados Internacionais de Catalogação na Publicação (CIP) 
Bibliotecária: Maria Isabel Schiavon Kinasz, CRB9 / 626
 Bhering, Leonardo Lopes 
B421e Estatística experimental no Rbio [recurso eletrônico]
 Leonardo Lopes Bhering, Paulo Eduardo Teodoro –
 1.ed. - Curitiba: Brazil Publishing, 2021. 
 
 ISBN 978-65-5861-360-2
 
 1. Estatística. 2. Pesquisa experimental. I. Teodoro,
 Paulo Eduardo. II. Título.
 
 CDD 519.5 (22.ed) 
 CDU 519.2
[1ª edição – Ano 2021]
www.aeditora.com.br
Aos meus pais, José Antônio Bhering e Maria do Carmo 
Lopes Bhering pelo exemplo de vida e educação;
À minha esposa Luana Vieira Toledo pelo 
companheirismo e motivação diária.
Leonardo Lopes Bhering
Aos meus pais, Maria do Carmo Severino e João 
Adamastor Teodoro, pessoas simples, que sempre 
me apoiaram e me ensinaram que a coisa mais 
importante na vida é o conhecimento e a educação; 
À minha esposa, Larissa Pereira Ribeiro Teodoro, pelo 
amor, carinho, companheirismo e compreensão.
Paulo Eduardo Teodoro
PREFÁCIO
Este material apresenta procedimentos estatísticos com larga 
aplicação nas diversas áreas da pesquisa e em atividades de ensino, 
graduação e pós-graduação na análise de delineamentos experimentais. 
As análises estatísticas têm sido utilizadas para a comprovação proba-
bilística da veracidade de determinada hipótese formulada com base 
em extensivos estudos e investigada a partir de resultados encontrados 
na pesquisa, bem como apresentar suas descrições de forma resumida, 
sem perda de informações relevantes. 
Apresentam-se ao leitor os mais diversos procedimentos da esta-
tística experimental e os cálculos de todos os delineamentos experimen-
tais, de forma a oferecer um conteúdo capaz de auxiliar o pesquisador 
a fazer a escolha correta do delineamento experimental a ser utilizado 
bem como, através das análises, interpretar seus resultados, podendo 
avaliar após isso se existe diferença entre os tratamentos, se o experi-
mento foi bem conduzido, se aquela população avaliada tem potencial 
para seleção em um programa de melhoramento genético. 
Além disso, devido à grande quantidade de dados gerados pelos 
experimentos, normalmente torna-se difícil a sua execução sem um 
auxílio de um computador, desta forma, o material contém ainda os 
scripts para que o leitor possa repetir as análises realizadas no material 
em computador. O script disponibilizado é para utilização do software 
livre R, que é o mesmo utilizado pelo software Rbio (Bhering, L.L., 2017). 
Os softwares são aplicativos computacionais capazes de reali-
zar tarefas com grande volume de informações, facilitando o processa-
mento de dados. Seu objetivo é substituir as atividades complexas, que 
deveriam ser realizadas manualmente com auxílio de uma calculadora, 
por computadores com alta capacidade de processamento, podendo 
proceder análises complexas, tornando sua execução prática e eficien-
te, sem erros.
O desenvolvimento de aplicativos em todas as áreas de pesqui-
sa torna-se essencial, pois facilita e muito o processamento dos dados, 
seja na área médica, humana, agrária, dentre outras.
O uso de softwares na análise de dados provenientes de deline-
amentos experimentais é de fundamental importância, pois possibilita 
ao pesquisador analisar em curto prazo um grande volume de dados, 
sendo necessário apenas a interpretação destes dados. Existem diver-
sos softwares estatísticos para este tipo de análise, alguns famosos 
como SAS, ESTATISTICA, SPSS e STATA são excepcionais softwares, 
porém, existe a necessidade de compra da licença. Dessa forma, será 
apresentada aqui apenas os scripts para análise no software R / Rbio 
(R Development Core Team, 2008). O software R é um software livre 
para análise de dados criado em 1996. Além de livre, ou seja, o usuário 
pode ter acesso ao código fonte de todas as rotinas, o software R é gra-
tuito, portanto o usuário não tem a necessidade de comprar a licença, 
necessitando apenas fazer download do mesmo no website (https://
www.r-project.org/). Além da vantagem citada anteriormente, desta-
ca-se ainda que o usuário encontra diversos materiais na internet so-
bre como usar o software, desde o processo de download, instalação, 
até realizar diferentes tipos de análises, e também é um software com 
versões para sistema operacional Linux, Windows e MacOS.
Outra sugestão que se faz é que o usuário faça também down-
load do Rbio (Bhering, 2017) disponível no website (http://www.
biometria.ufv.br/). Esse é um software gratuito. No caso do Rbio ele faz 
uso do R para proceder as análises. A grande vantagem para o usuário 
fazer uso do Rbio é que ele fornece os scripts para as análises via R de 
todo o seu conteúdo, então se torna um repositório de scripts R.
https://www.r-project.org/
https://www.r-project.org/
http://www.biometria.ufv.br/
http://www.biometria.ufv.br/
Encontram-se ainda neste material os scripts para cada tópico 
abordado anteriormente, bem como as saídas correspondentes que 
o usuário deve confrontar com a teoria já informada. Os arquivos de 
exemplos para cada análise estão localizados numa pasta chamada 
“ebook”, localizada dentro da pasta “_Rbio”. Esta pasta é baixada 
junto com o software Rbio e deve ser colocado dentro do “c:”, de 
forma que o caminho para acesso aos arquivos no Windows seja: 
“c:\_Rbio\ebook”. Todos os arquivos aqui usados são com extensão 
“.txt”, porém, os usuários podem criar seus arquivos em outras pastas 
e com os nomes diferentes. Para várias análises, faz-se necessário a 
instalação de pacotes específicos usados pelo software R, nesse caso 
o comando “library(nome_pacote)” é realizado antes da realização 
da análise para carregar o referido pacote. Caso esse pacote nunca 
tenha sido instalado no computador, sua instalação faz-se necessária, 
e para isso o usuário deve digitar “install.packages(“nome_pacote”)”. 
Adicionalmente no final do ebook consta algumas tabelas estatísticas 
comumente utilizadas nas análises estatísticas.
É importante enfatizar dois aspectos existentes no material. 
Primeiro, todos os exemplos são com poucostratamentos e repetições 
de forma proposital, para que fosse fácil a realização das operações 
matemáticas passo a passo, mesmo que devido a isso, o experimento 
fosse de baixa qualidade por ter poucos graus de liberdade no resíduo. 
O segundo aspecto, é que priorizou utilizar o “.” como símbolo decimal, 
apenas para que pudesse ficar igual a saída dos softwares.
Os autores agradecem quaisquer críticas, sugestões e eventuais 
correções que, certamente, irão contribuir para a melhoria desta obra.
ABSTRACT
This book deals with a set of analyzes that can help the student / 
researcher to analyze the data of their academic and professional 
research. With theory and application, in a small and didactic example. 
Along with this presented step by step, it is shown how to proceed 
with the analysis of the same example in the Rbio software, so that the 
user is able to assimilate the theoretical and practical teachings at the 
same time. As statistical software is used in practice, due to its speed 
and convenience, this interface with the software was emphasized 
in this material. The Rbio software presented is free software owned 
by one of the authors of the work, with the capacity for several 
biometric-statistical analyzes. In this work only those analyzes related 
to experimentation were addressed.
SUMÁRIO
1 – ESTATÍSTICA DESCRITIVA . . . . . . . . . . . . . . . . . . 12
1.1 Medidas de Posição . . . . . . . . . . . . . . . . . . . . 16
1.2 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . 21
2 – PRINCÍPIOS BÁSICOS DA EXPERIMENTAÇÃO . . . . . . . . . . . 33
3 – ANÁLISE DE VARIÂNCIA (ANOVA) E SUAS PRESSUPOSIÇÕES . . . . . . 36
4 – DELINEAMENTO EXPERIMENTAL INTEIRAMENTE CASUALIZADO . . . . 82
5 – DELINEAMENTO EXPERIMENTAL EM BLOCOS AO ACASO . . . . . . . 99
6 – COMPONENTES DE VARIÂNCIA . . . . . . . . . . . . . . . 114
7 – DELINEAMENTO EXPERIMENTAL EM QUADRADO LATINO . . . . . . 165
8 – TESTES DE COMPARAÇÕES MÚLTIPLAS E AGRUPAMENTOS . . . . . . 175
8.1. Teste t . . . . . . . . . . . . . . . . . . . . . . . . 177
8.2. Teste de Tukey . . . . . . . . . . . . . . . . . . . . . 185
8.3. Teste de Duncan . . . . . . . . . . . . . . . . . . . . 189
8.4. Teste de Scheffé . . . . . . . . . . . . . . . . . . . . 193
8.5. Teste de Fisher, LSD ou DMS t . . . . . . . . . . . . . . . . 196
8.6. Teste de Bonferroni, LSDB . . . . . . . . . . . . . . . . . 200
8.7. Teste SNK . . . . . . . . . . . . . . . . . . . . . . . 205
8.8. Teste de Dunnet . . . . . . . . . . . . . . . . . . . . 209
8.9. Teste de Scott-Knott . . . . . . . . . . . . . . . . . . . 213
9 – ANÁLISE DE EXPERIMENTOS FATORIAIS . . . . . . . . . . . . . 228
10 – ANÁLISE DE EXPERIMENTOS EM PARCELAS SUBDIVIDIDAS . . . . . 249
11 – ANÁLISE DE EXPERIMENTOS EM FAIXAS . . . . . . . . . . . . 260
12 – ANÁLISE DE EXPERIMENTOS HIERÁRQUICOS . . . . . . . . . . 282
13 – ANÁLISE DE EXPERIMENTOS EM BLOCOS INCOMPLETOS . . . . . . 297
13.1. Blocos aumentados . . . . . . . . . . . . . . . . . . . 297
13.2. Látice . . . . . . . . . . . . . . . . . . . . . . . . 313
14 – REGRESSÃO . . . . . . . . . . . . . . . . . . . . . . 341
14.1. Regressão Linear Simples . . . . . . . . . . . . . . . . . 343
14.2. Regressão Múltipla . . . . . . . . . . . . . . . . . . . 355
14.3. Regressão Polinomial . . . . . . . . . . . . . . . . . . 366
15 – ANÁLISE DE COVARIÂNCIA (ANCOVA) . . . . . . . . . . . . . 384
16 – CORRELAÇÃO . . . . . . . . . . . . . . . . . . . . . 403
16.1. Correlação de Pearson e Spearman . . . . . . . . . . . . . 403
16.2. Correlação Parcial . . . . . . . . . . . . . . . . . . . 413
16.3. Correlação: Análise de Trilha . . . . . . . . . . . . . . . . 424
16.4. Correlação Fenotípica, Genotípica e Ambiental . . . . . . . . . 431
16.5. Correlação Canônica . . . . . . . . . . . . . . . . . . 439
LITERATURAS CITADAS . . . . . . . . . . . . . . . . . . . . 457
ANEXOS . . . . . . . . . . . . . . . . . . . . . . . . . 459
SOBRE OS AUTORES . . . . . . . . . . . . . . . . . . . . 477
12
1
ESTATÍSTICA DESCRITIVA
Antes de qualquer tipo de análise de dados é importante co-
nhecer bem estes dados a serem utilizados. Inúmeros erros podem 
ser evitados apenas verificando se os valores máximos e mínimos são 
condizentes com as variáveis em estudo. Uma boa indicação antes de 
proceder qualquer análise de dados é observar os valores máximos 
e mínimos do conjunto de dados. Estes podem fazer com que sejam 
identificados erros grosseiros. 
Desta forma, nesse material, iniciamos analisando qualquer 
conjunto de dados de forma geral, sem importar se estão ligados com 
a experimentação (que será abordada a partir do tópico 2). 
A estatística descritiva serve para resumir, organizar um conjun-
to de dados, e a partir disso tirar conclusões ou inferências dos mes-
mos. É bom ficar atento que sempre que resumimos um conjunto de 
dados iremos perder a informação individual obtida, pois estas serão 
condensadas, porém esta perda de informação é pequena comparada 
ao ganho que se tem com a possibilidade da interpretação. De forma a 
explorar melhor os dados algumas medidas para análise descritiva são: 
medidas de posição e de dispersão.
Imagine que em uma avaliação de híbridos de milho verifica-se 
uma produção média (valores considerando área em hectare) para um 
13
estatística experimental no rbio
híbrido 1 de 8000 kg, de 7500 kg para o híbrido 2. Porém ao digitar os 
dados coletados o usuário esbarre no teclado e digite 80000 kg, nesse 
exemplo extremamente exagerado o valor errado seria facilmente vi-
sualizado, ao soltar a média daquele tratamento, porém as vezes não é 
verificado casos assim tão grandes, como por exemplo, se no exemplo 
anterior não houvesse possibilidade de um material produzir mais 
de 10000 kg. Ao tomar a informação por repetição, tem-se repetição 
1: 2000 kg, repetição 2: 3000 kg, e repetição 3: 15000 kg. Ao obter 
a média deste tratamento tem-se o valor 6666 kg, valor este que se 
encontra totalmente possível dentro do esperado para a produção dos 
referidos materiais, porém, como informado não existe possibilidade 
de produção acima de 10000 kg, e o que ocorreu foi um erro de digita-
ção na repetição 3, que era pra ser 1500 kg e ao digitar um “0” a mais 
mudou totalmente a média do material, que deveria ter sido 2166 kg. 
Dessa forma apenas o uso da média não ajudaria para descobrirmos 
o tal erro, mas usando simplesmente máximo e mínimo observados, 
conseguiríamos encontra-lo. Mais do que um simples erro matemático, 
ele pode ter consequências maiores, pois provavelmente um material 
com média de2166 kg seria descartado do programa de melhoramen-
to, e um de 6666 kg, poderia ser selecionado, ou seja, iria ter gasto 
financeiro e de tempo conduzindo este material em futuros blocos de 
cruzamentos, ou avanços de gerações. Sendo assim, é conveniente 
que a primeira ação a ser executada pelo usuário seja estimar médias, 
máximos, mínimos, coeficientes de variação e gráficos do conjunto 
de dados. Nesse momento será possível conhecer melhor o conjunto 
de dados e identificar possíveis erros, que após o processamento das 
análises, provavelmente não mais seriam observados.
Alternativas gráficas para apresentação dos dados são muito 
úteis, como por exemplo, os histogramas que são gráficos de distribui-
ção de frequências, que é um agrupamento de classes, representadas 
por barras, realizado após a contagem do número de observações 
pertencentes as classes. O objetivo é obter a informação sobre o com-
14
estatística experimental no rbio
portamento dos dados. Para obter o número de classes normalmente 
se utiliza a regra de Sturges, que é dada por: k = 1 + 3.3log (n), em que 
n é o conjunto de dados. Sendo assim pega-se o maior valor - menor 
valor e divide pelo número de classes. Dessa forma consegue-se obter 
os valores que devem estar em cada intervalo.
Para proceder a maioria das análises deste material será con-
siderado um exemplo bem simples, com 3 tratamentos e 2 repetições 
(ou blocos). Será visto mais adiante que este não atende os requisitos 
mínimos para que seja um experimento de qualidade, porém de forma 
didática, de forma a facilitar e agilizar os cálculos ele será usado nesse 
material. Oportunamente dados provenientes de experimentos tam-
bém poderão ser usados, sobretudo para processamento e interpre-
tação. Os dados deste experimento são apresentados na Tabela 1.1.
Tabela 1.1 Avaliação de uma variável agronômica simulada em delineamento em 
blocos ao acaso.
Tratamentos
Blocos
Total Média
I II
1 66.98 75.61 142.59 71.295
2 113.77 126.24 240.01 120.005
3 71.87 87.53 159.4 79.7
Total 252.62 289.38 542
Média 84.20667 96.46 90.333
Para confecção do histograma, inicialmente deve-se obter o 
número de classes do mesmo. Usando a expressão de Sturges, tem-se:
k = 1 + 3.3log (n) = 1 + 3.3x log (6) = 3.56 = 4 classes
Com base no número de classes pode-se obter o intervalo 
constituído por cada classe: (Maior valor – Menor valor) / nº classes. 
Sendo para o conjunto de dados apresentados, (126.24 – 66.98) /4 
15
estatística experimental no rbio
= 14.815. Este é o intervalo de cada classe. Sendo assim, a classe 1 
= 66.98 + 14.815 = 81.795; esse processo continua até obter todas 
as classes, conforme apresentado na Tabela 1.2 abaixo. Após isso é 
necessário apenas contar quantos valores estão dentro de cada um 
dos intervalos, obtendo as respectivas ocorrências e confeccionar o 
respectivo histograma (Gráfico 1.1).
Tabela 1.2 Intervalo compreendido entre classes e suas respectivas ocorrências 
para avaliação de uma variável agronômica simulada.
Classes Ocorrência Frequência
66.98 – 81.8 3 50
81.8 – 96.61 1 16.667
96.61 – 111.43 0 0
111.43 – 126.24 2 33.333
Gráfico 1.1 Histograma realizado com base nos dados da Tabela 1.1.
16
estatística experimental no rbio
Alternativamente, alguns softwares, criam estes intervalos das 
classes usando valores inteiros arredondados, de forma a ficar com 
uma melhor visualização das classes. Esta é uma forma com que o 
software R procede, nesse mesmo exemplo, o gráfico produzido será 
mostrado no Gráfico 1.2, de forma que os intervalos existentes no eixo 
x serão ligeiramente diferentes dos apresentados no gráfico anterior:
Gráfico 1.2. Histograma realizado no software R para os dados da Tabela 1.1.
1.1 Medidas de Posição
As medidas de posição são aquelas que posicionam um valor 
referente a um conjunto de dados, em relação a determinada posição 
da distribuição de frequência. As medidas de posição mais importantes 
são: média, mediana e moda.
17
estatística experimental no rbio
A média é calculada somando todos os valores e dividindo pelo 
tamanho da amostra (n) (ou da população). Em melhoramento está 
associada a qualidade da população, ou seja, se a população possui 
potencial a ser explorado.
1 1 2
n
ii n
x x x xx
n n
= + +…+= =∑
Para os dados da Tabela 1.1 a média é:
66.98 75.61 113.77 126.24 71.87 87.53 90.33
6
x + + + + += =
A mediana é o valor central do conjunto de dados. Caso o número 
de dados seja ímpar, a mediana será o valor central, considerando que 
os dados estejam ordenados de menor para maior. Caso o conjunto de 
dados seja par, a mediana será a média das duas observações centrais.
Para os dados da Tabela 1.1, são dispostos seis valores, por-
tanto, a mediana deverá ser a média dos valores centrais, ou seja, do 
terceiro e quarto, após a ordenação. Ordenando os dados, tem-se: 
66.98, 71.87, 75.61, 87.53, 113.77 e 126.24. Sendo assim a mediana 
para esse conjunto de dados é: 
75.61 87.53 81.57
2
x += =
Sendo assim, metade da amostra está localizada abaixo de 
81.57 e metade está localizada acima de 81.57. A mediana portanto 
deixa 50% dos dados acima e 50% abaixo do seu valor, e é chamada 
também de segundo quartil (Q2).
18
estatística experimental no rbio
O primeiro quartil (Q1) é o número que deixa 25% das obser-
vações abaixo e 75% acima, enquanto o terceiro quartil (Q3) deixa 
75% dos dados abaixo e 25% acima. Existem diferentes maneiras de se 
calcular os valores de primeiro e terceiro quartil, e deve-se conhecer 
como o software que está utilizando calcula para que possa obter 
o mesmo valor num cálculo a mão, por exemplo, o Microsoft Excel, 
possui três funções diferentes que calculam os quartis, sendo elas : 
“quartil”, “quartil.inc” e “quartil.exc”, sendo que as duas primeiras 
fornecem resultados iguais.
Pode-se encontrar na literatura formas rápidas de calcular, 
mas estes resultados divergem dos softwares usados, um exemplo é o 
apresentado a seguir que inicialmente coloca-se os dados em ordem e 
divide em dois grupos:
66.98, 71.87, 75.61 87.53, 113.77, 126.24
O primeiro quartil seria o valor central do primeiro grupo ou seja 
71.87. A mediana seria o valor central, portanto a média entre 75.61 e 
87.53 e o terceiro quartil seria o valor central do terceiro grupo, portanto 
113.77. É importante salientar que, por exemplo, caso o primeiro grupo 
apresente 6 valores e o segundo grupo 6 valores, portanto um conjunto 
de dados com 12 informações, o valor central do grupo 1 seria a média 
dos valores 3 e 4, de tal forma que possua duas informações abaixo e 2 
informações acima da mesma, da seguinte forma:
1 2 3 4 5 6 7 8 9 10 11 12
Quartil 1: Média entre 3 e 4 = 3.5; quartil 2(mediana): Média 
entre 6 e 7 = 6.5 e quartil 3: Média entre 9 e 10 =9.5
Alguns softwares, como é o caso do R, utilizam o método co-
nhecido como “interpolação com base N-1”, que é correspondente a 
função do Excel “quartil.inc”. Normalmente esta é a forma mais usada 
19
estatística experimental no rbio
quando se deseja fazer uma estatística descritiva dos dados. Nesse 
caso, fala-se N-1 pois a contagem da posição dos valores inicia-se do 0, 
sendo assim tem-se um total de N-1 posições. Considerando o nosso 
exemplo com seis valores ordenados crescente teremos, as posições 
variando de 0 a 5, conforme demostrado abaixo.
Posição 0 1 2 3 4 5
Valor 66.98 71.87 75.61 87.53 113.77 126.24
As posições K dos quartis são dadas:
1
1 6 11 1 1.25
4 4Q
nK x x− −   = = =   
   
2
1 6 12 2 2.5
4 4Q
nK x x− −   = = =   
   
3
1 6 13 3 3.75
4 4Q
nK x x− −   = = =   
   
O valor do quartil 1, será o valor corresponde a 1.25 da nossa 
posição. A posição 1 é 71.87, e a posição 2 é 75.61, portanto a diferença 
desses valores é 3.74, e 0.25 desse valor é 0.935. Dessa forma o valor 
do Q1 é 71.87 + 0.935 =72.81.
O valor do quartil 2, que é a mediana, será o valor corresponde 
a 2.5 da nossa posição, ou seja, a média entre os valores da posição 2 
e 3, que já foicalculado anteriormente e é 81.57.
O valor do quartil 3, será o valor corresponde a 3.75 da nossa 
posição. A posição 3 é 87.53, e a posição 4 é 113.77, portanto a dife-
rença desses valores é 26.24, e 0.75 desse valor é 19.68. Dessa forma 
o valor do Q3 é 87.53 + 19.68 =107.21.
20
estatística experimental no rbio
Outros softwares utilizam o método conhecido como “interpo-
lação com base N+1”, que é correspondente a função do Excel “quartil.
exc”. Nesse caso, fala-se N+1 pois a contagem da posição dos valores 
inicia-se do 0, porém não existe nenhum valor associado a posição 0, 
sendo assim tem-se um total de N+1 posições. Considerando o nosso 
exemplo com 6 dados ordenados crescente teremos, as posições va-
riando de 0 a 6, conforme demostrado abaixo. Normalmente, esta é 
a forma mais usada quando se deseja identificar outliers, pois possui 
uma amplitude interquartil (IQR) maior, que é obtida subtraindo o 
valor do Q3-Q1.
Posição 0 1 2 3 4 5 6
Valor 66.98 71.87 75.61 87.53 113.77 126.24
Os cálculos são semelhantes aos anteriores, mudando, portan-
to, apenas as posições, dessa forma tem:
1
1 6 11 1 1.75
4 4Q
nK x x+ +   = = =   
   
2
1 6 12 2 3.5
4 4Q
nK x x+ +   = = =   
   
3
1 6 13 3 5.25
4 4Q
nK x x+ +   = = =   
   
O valor do quartil 1, será o valor corresponde a 1.75 da nossa 
posição. A posição 1 é 66.98, e a posição 2 é 71.87, portanto a diferen-
ça desses valores é 4.89, e 0.75 desse valor é 3.66. Dessa forma o valor 
do Q1 é 66.98 + 1.22 = 70.64.
21
estatística experimental no rbio
O valor do quartil 2, que é a mediana, será o valor corresponde 
a 3.5 da nossa posição, ou seja, a média entre os valores da posição 
3 e 4, que já foi calculado anteriormente, e é 81.57. Note, mais uma 
vez, que independentemente do método usado, a mediana fornecerá 
o mesmo valor.
O valor do quartil 3, será o valor corresponde a 5.25 da nossa 
posição. A posição 5 é 113.77, e a posição 6 é 126.24, portanto a dife-
rença desses valores é 12.47, e 0.25 desse valor é 3.11. Dessa forma o 
valor do Q3 é 113.77 + 3.11 = 116.88.
Vale ressaltar novamente que não existe uma norma de como 
é o correto para o cálculo destes quartis, portanto, outras expressões 
podem ser usadas.
Outra medida de posição é a moda que corresponde ao valor que 
ocorre com maior frequência em um determinado conjunto de dados.
1.2 Medidas de Dispersão
São medidas que avaliam a dispersão dos dados em relação à 
média, sendo que dispersão é o mesmo que variação ou variabilidade. 
Duas medidas são usadas frequentemente para mensurar a dispersão, 
que são a amplitude e o desvio padrão.
A amplitude (R) é a diferença entre o maior e o menor valor de 
um conjunto de dados.
maior menorR X X= −
Para o exemplo anterior, tem-se:
126.24 66.98 59.26R = − =
22
estatística experimental no rbio
A variância de uma amostra de n elementos é definida como o 
desvio em relação à média ao quadrado, ou seja, a soma de quadrados 
dos desvios dos elementos em relação à sua média, dividido por n-1, 
sendo dependente da amplitude de variação e distribuição dos dados. 
Caso o cálculo seja da variância populacional será dividido por n.
( )22 1
1
ˆ
n
ii
x x
n
σ =
−
=
−
∑
Considerando o conjunto de dados apresentados na Tabela 1.1, 
tem-se a variância:
Como visto acima, a variância é uma medida de dispersão que 
mede o desvio ao quadrado. Então esta terá magnitude ao quadrado, 
por exemplo, se a medida for em metros (m), ao se calcular a variância 
a medida é metros ao quadrado (m2). Este fato dificulta a interpretação 
dos dados. Para solucionar tal problema é calculado o desvio padrão 
(s) que é igual à raiz quadrada da variância, que faz com que os dados 
voltem a escala original da variável.
Sendo assim o estimador do desvio padrão é dado por:
( )22 1
1
ˆ
n
ii
x x
s
n
σ =
−
= =
−
∑
23
estatística experimental no rbio
Para o conjunto de dados tem:
589.89 24.28s = =
Muitas vezes ocorre um confundimento entre o que é o desvio 
padrão e o que é o erro padrão e a aplicação destas duas medidas. O 
desvio padrão como já apresentado é uma medida de dispersão em 
relação à média, já o erro padrão é uma medida que ajuda avaliar a 
confiabilidade da média calculada. Para tentar esclarecer o significado 
e utilização de cada uma destas medidas considere o exemplo a seguir. 
Imagine que um grande produtor de café envie sua produção para ser 
embalada em duas empresas diferentes. Este produtor recebeu várias 
reclamações que a embalagem do seu café possuía menos de 500g, 
valor este o informado no rótulo do produto. Para tentar solucionar 
tal dúvida ele resolveu pegar uma amostra de 10 embalagens de cada 
empresa, conforme apresentado abaixo:
Empresa 1 2 3 4 5 6 7 8 9 10 Média(g) S (g)
1 540 531 528 487 424 477 453 439 606 515 500 55
2 505 507 502 499 494 493 500 500 494 506 500 5
Pode-se concluir que ambas empresas possuem em média 
500g de café e apenas essa medida de posição não é suficiente para 
tirar reais conclusões, sendo necessário analisar a variabilidade das 
embalagens, para isso, usa-se uma medida de dispersão, no caso, o 
desvio padrão, que indica a dispersão dos dados em relação à média. 
Portanto, quanto menor esse valor, mais homogênea é a amostra, 
sendo possível então verificar que a amostra da empresa 1 é mais 
heterogênea, ou seja, o peso destas embalagens varia mais do que as 
das embalagens da empresa 2.
Porém tivemos uma amostra de 10 embalagens amostrada. Será 
que esta amostra realizada foi confiável? Repetindo este experimento 
24
estatística experimental no rbio
seria obtido, a mesma média para ambas empresas? Para solucionar 
essa questão usa-se o erro padrão da média, que é uma medida de 
variação de uma média amostral em relação à média da população, 
e serve, portanto, para verificar a confiabilidade da média amostral 
calculada. Para obter o erro padrão:
( ) 55 1 17.39 
10
Desvio padrãoErro padrãoda média Empresa
n
= = =
( ) 5 2 1.58
10
Desvio padrãoErro padrãoda média Empresa
n
= = =
De posse do erro padrão pode-se obter o intervalo de confiança 
para a média. Usando uma tabela de distribuição normal padrão e con-
siderando um intervalo de confiança de 95% obtêm-se o valor de 1.96 
(ANEXO 1.1). Vale ressaltar aqui, que se o IC é de 95%, tem-se 2.5% dos 
dados inferiores e 2.5% superiores, conforme o Gráfico 1.3, portanto, 
na tabela o valor a ser observado é 0.975 correspondendo a 1.96. É 
necessário enfatizar que se deve usar este método caso o tamanho da 
população seja igual ou maior que 30 e/ou se o desvio padrão popula-
cional (não o amostral) é conhecido. Caso estes pré-requisitos não sejam 
atendidos deve-se usar o teste t em vez da tabela padrão de estatística Z.
O Intervalo de confiança para a média é obtido por:
[Média – (1.96 x Erro Padrão); Média + (1.96 x Erro Padrão)]
Empresa 1:
[500– (1.96 x 17.39); 500 + (1.96 x 17.39)] = [465.9; 534.0]
Empresa 2:
[500– (1.96 x 1.58); 500 + (1.96 x 1.58)] = [496.9; 503.0]
25
estatística experimental no rbio
Sendo assim, com base nesse exemplo hipotético, concluímos 
que a média das 2 amostras eram semelhantes, porém o desvio padrão 
da amostra é muito maior para a empresa 1, e consequentemente o 
erro padrão da média desta empresa também é muito maior. Portanto, 
o produtor deverá focar em enviar sua produção de café para a em-
presa 2 que fornece melhores serviços, uma vez que o erro padrão da 
média obtido em suas amostras é menor.
Gráfico 1.3. Representação de uma distribuição normal padrão.
No software R, para a obtenção do valor tabelado, usa-se a 
tabela t de Student, (ANEXO 1.2), em que t(α/2; N-1), uma vez que não 
foram seguidos os pré-requisitos, informados anteriormente, como o 
tamanho da população que é menor que 30, portanto, para o conjunto 
de dados apresentados na Tabela 1.1 e um nível de significância α = 5% 
= 0.05, tem-se t(0.025; 5) = 2.571. Dessa forma o erro padrão da média 
e o intervalo de confiança serão:
 24.28 9.91
6
Desvio padrãoErropadrãoda média
n
= = =
[Média – (2.571 x Erro Padrão); Média + (2.571 x Erro Padrão)]
[90.33– (2.571 x 9.91); 90.33 + (2.571 x 9.91)] = [64.85; 115.80]
26
estatística experimental no rbio
Outra medida usada para mensurar a variabilidade dos dados 
é o coeficiente de variação (CV), que está ligada a qualidade do ex-
perimento, sendo desejado menores valores deste parâmetro. Nesse 
caso, ele tem uma grande vantagem em relação ao desvio padrão, pois 
este último é muito afetado pela magnitude dos dados. Dessa forma 
se o interesse é comparar a variabilidade existente entre diferentes 
experimentos, para uma mesma variável, pode-se usar o coeficiente 
de variação, que é definido como a razão entre o desvio padrão e a 
média. Vale ressaltar que só se deve comparar coeficientes de variação 
de uma mesma variável, e muitas pessoas, erroneamente, tentam 
comparar esta medida para variáveis diferentes. Para a variável anali-
sada, obtêm-se um cv de 26.87, conforme mostrado abaixo.
( ) 24.28 % 100 100 26.87%
90.33
= = =
sCV x x
x
Vale salientar um artifício muito utilizado em análise de dados. 
Muitas vezes usa-se mais de uma variável ao mesmo tempo, e estas 
têm escalas diferentes, sendo necessário fazer algum procedimento 
para contornar tal inconveniente. Denota-se por codificação de uma 
variável qualquer, quando subtrai os valores desta variável do valor ob-
tido para a média da mesma. Como consequência tem-se que a nova 
média desta variável codificada será igual a 0, e a variância não irá se 
alterar. Outro artifício utilizado é padronizar a variável, que é dividir 
os valores desta variável pelo desvio padrão, e ao fazer isso terá uma 
variável com variância igual a 1 e a nova média será dada pela média 
original dividida pelo valor do desvio padrão. Muitas vezes usa-se os 
dois artifícios ao mesmo tempo, ou seja, dividir pelo desvio padrão e 
subtrair a média, a consequência disso é que esta variável agora terá 
média igual a 0 e variância igual a 1.
27
estatística experimental no rbio
Resultado das análises
Considerando o conjunto de dados apresentados anteriormen-
te, as saídas fornecidas pelo Rbio são apresentadas a seguir.
Para realizar tal procedimento o usuário deverá acessar o menu 
Estatística Básica > Estatística Descritiva, conforme Figura 1.1.
28
estatística experimental no rbio
Figura 1.1. Software Rbio, e rotina de procedimentos para realizar análise de 
estatística descritiva.
Os scripts para proceder a análise no R e as saídas das análises 
são apresentadas a seguir.
# -----------------------------------
# Script 1: Estatísticas Descritivas
# -----------------------------------
# ----------------------
# 1.1- Leitura dos dados
# ----------------------
X<-read.table(“c:/_Rbio/ebook/exemplo1.txt”, h=T) # Leitura dos dados
X
 Trat Rep Variavel
1 1 1 66.98
2 1 2 75.61
3 2 1 113.77
4 2 2 126.24
5 3 1 71.87
6 3 2 87.53
# ----------------------
# 1.2- Estatística Descritivas
# ----------------------
# 1.2.1- Resumida
# ----------------------
summary(X)
29
estatística experimental no rbio
 Trat Rep Variavel
 Min.:1.00 Min.:1.0 Min.: 66.98 
 1st Qu.:1.25 1st Qu.:1.0 1st Qu.: 72.81 
 Median:2.00 Median:1.5 Median: 81.57 
 Mean:2.00 Mean:1.5 Mean: 90.33 
 3rd Qu.:2.75 3rd Qu.:2.0 3rd Qu.:107.21 
 Max.:3.00 Max.:2.0 Max.:126.24 
 
# ----------------------
# 1.2.2- Completa
# ----------------------
library(fBasics)
basicStats(X, ci = 0.95)
 Trat Rep Variavel
nobs 6.000000 6.000000 6.000000
NAs 0.000000 0.000000 0.000000
Minimum 1.000000 1.000000 66.980000
Maximum 3.000000 2.000000 126.240000
1. Quartile 1.250000 1.000000 72.805000
3. Quartile 2.750000 2.000000 107.210000
Mean 2.000000 1.500000 90.333333
Median 2.000000 1.500000 81.570000
Sum 12.000000 9.000000 542.000000
SE Mean 0.365148 0.223607 9.915433
LCL Mean 1.061356 0.925200 64.844902
UCL Mean 2.938644 2.074800 115.821764
Variance 0.800000 0.300000 589.894827
Stdev 0.894427 0.547723 24.287751
Skewness 0.000000 0.000000 0.429522
Kurtosis -1.958333 -2.305556 -1.838679
 
# ----------------------
# 1.3- Histograma
# ----------------------
hist(X[,3], col=”gray”, main=”Histograma: Eixo x = Variavel “,ylab=”Amplitude”, xlab= colnames(X)[3] )
30
estatística experimental no rbio
ANEXO 1.1: Tabela da Distribuição Normal padrão reduzida (Z~N (0,1)) P(Z<z) e z 
positivos.
z 0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
31
estatística experimental no rbio
z 0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.99993.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
ANEXO 1.2. Tabela da distribuição t de Student, com nível de significância α e gl 
graus de liberdade.
Nível de significância
gl 0.1 0.05 0.025* 0.01 0.005
1 3.078 6.314 12.706 31.821 63.657
2 1.886 2.920 4.303 6.965 9.925
3 1.638 2.353 3.182 4.541 5.841
4 1.533 2.132 2.776 3.747 4.604
5 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.707
7 1.415 1.895 2.365 2.998 3.499
8 1.397 1.860 2.306 2.896 3.355
9 1.383 1.833 2.262 2.821 3.250
10 1.372 1.812 2.228 2.764 3.169
11 1.363 1.796 2.201 2.718 3.106
12 1.356 1.782 2.179 2.681 3.055
13 1.350 1.771 2.160 2.650 3.012
14 1.345 1.761 2.145 2.624 2.977
15 1.341 1.753 2.131 2.602 2.947
16 1.337 1.746 2.120 2.583 2.921
17 1.333 1.740 2.110 2.567 2.898
18 1.330 1.734 2.101 2.552 2.878
19 1.328 1.729 2.093 2.539 2.861
20 1.325 1.725 2.086 2.528 2.845
21 1.323 1.721 2.080 2.518 2.831
32
estatística experimental no rbio
Nível de significância
gl 0.1 0.05 0.025* 0.01 0.005
22 1.321 1.717 2.074 2.508 2.819
23 1.319 1.714 2.069 2.500 2.807
24 1.318 1.711 2.064 2.492 2.797
25 1.316 1.708 2.060 2.485 2.787
26 1.315 1.706 2.056 2.479 2.779
27 1.314 1.703 2.052 2.473 2.771
28 1.313 1.701 2.048 2.467 2.763
29 1.311 1.699 2.045 2.462 2.756
30 1.310 1.697 2.042 2.457 2.750
40 1.303 1.684 2.021 2.423 2.704
50 1.299 1.676 2.009 2.403 2.678
60 1.296 1.671 2.000 2.390 2.660
120 1.289 1.658 1.980 2.358 2.617
∞ 1.282 1.645 1.960 2.326 2.576
* mais usada. Entra-se com α/2; portanto se deseja teste a 5%, entra com 0.05/2=0.025
33
2
PRINCÍPIOS BÁSICOS DA EXPERIMENTAÇÃO
Nas diferentes áreas de pesquisa, incluindo a pesquisa na área 
agropecuária e florestal, o pesquisador tem interesse em saber qual 
ou quais variáveis afetam o nosso objeto de pesquisa, podendo assim 
aumentar a chance de obtermos sucesso. Para estudar estas variáveis 
e seus comportamentos na pesquisa deve-se realizar experimentos, 
que são escolhidos pelo pesquisador de forma a entender essa 
relação entre variáveis e tratamentos. Sendo assim, o planejamento 
experimental serve para que o pesquisador determine as variáveis que 
exercem maior influência no objeto de estudo.
Quando se realiza determinado experimento, deve-se ter uma 
unidade onde serão tomados os dados referentes aos efeitos dos 
tratamentos. Esta unidade é comumente chamada de unidade expe-
rimental ou parcela. Pode-se ter parcelas constituídas de uma única 
planta, como é muito comum na área florestal em experimentos com 
eucalipto, como pode-se ter parcelas constituídas de uma ou duas 
linhas de um metro, como acontece por exemplo em experimentos 
com feijão, ou duas linhas de cinco metros como ocorre em milho. É 
importante salientar que esta constituição das parcelas pode alterar 
conforme especificidades do experimento em avaliação.
Por exemplo, imagine que um pesquisador deseja saber se usar 
ou não adubo afeta a produção de uma determinada espécie. O pes-
34
estatística experimental no rbio
quisador poderia, portanto, plantar uma linhagem de feijão qualquer, 
e nela testar 2 tratamentos, com e sem adubo. Após a condução da 
cultura nos 2 sistemas o pesquisador iria pesar a produção em ambos 
tratamentos, e observar se existe diferenças entre estas produções. A 
metodologia correta para montar tais experimentos será discutida a 
seguir, e como comparar estas produções a determinado nível estatís-
tico será visto em capítulos posteriores.
Para a realização de experimentos três princípios básicos de-
vem ser seguidos: repetição, casualização e controle local.
A repetição é importante, pois com ela é possível obter o erro 
experimental, que será utilizado em comparações dos tratamentos 
para verificar se as diferenças entre os tratamentos serão ou não signi-
ficativas. Além disso, a repetição permite que o valor obtido para cada 
parcela seja mais confiável, uma vez que os tratamentos terão mais 
de uma medição, podendo assim obter médias mais precisas. Imagine 
que ao testar duas linhagens de feijão a linhagem A produziu mais do 
que a linhagem B. Porém o fato de produzir mais não significa que 
ela seja realmente melhor. Essa superioridade em produção pode ser 
devido ao fato da linhagem A ter sido cultivada numa região do solo 
com mais disponibilidade de nutrientes, portanto a superioridade de 
produção pode ser devido a adubação diferente e não devido realmen-
te a diferença entre as linhagens. Uma forma de solucionar isso seria 
plantar várias parcelas com a linhagem A e com a B, considerando a 
média entre elas. Isso seria considerar corretamente a repetição.
Porém, o simples fato de se repetir as parcelas não garante que 
a diferença de produção observada seja devida realmente a diferença 
entre as linhagens. Imagine que todas as parcelas da linhagem A sejam 
plantadas na área do solo com maior disponibilidade de nutrientes, e 
as parcelas de B sejam plantas em área deficiente de nutrientes, en-
tão apenas o fato de estarem repetidas não faria com que realmente 
estivesse sendo feita uma comparação entre as linhagens. Para solu-
cionar tal problema deve-se realizar a casualização ou aleatorização, 
que é dispor os diferentes tratamentos e suas repetições ao acaso no 
35
estatística experimental no rbio
experimento. Isso faz com que não existam tratamentos que sejam 
beneficiados por estarem em uma área mais favorável.
O controle local é comumente utilizado na experimentação, po-
rém no experimento no delineamento inteiramente ao acaso ele não está 
presente, existindo apenas a repetição. O controle local permite aumen-
tar a precisão experimental. Pode-se exemplificar a avaliação de doença 
num experimento feito por duas pessoas diferentes. Isso poderia levar a 
uma não homogeneidade dos dados, e assim, cada pessoa poderia ser 
considerada um bloco. Normalmente em experimentos agronômicos 
o pesquisador determina o bloco como sendo uma área experimental 
homogênea, seja por quantidade de nutriente recebido, declividade de 
solo, ou outro fator que é de conhecimento a priori. Portanto, o impor-
tante é que a variação dentro do bloco seja a menor possível, podendo 
as variações entre blocos serem grandes ou pequenas. Delineamentos 
que possuem controle local são chamados delineamentos em blocos 
ao acaso ou casualizados e serão tratados em capítulos posteriores. O 
bloco não é simplesmente uma repetição, pois ele invoca os princípios 
de repetição e controle local ao mesmo tempo.
O que se deseja com a experimentação é descrever da melhor 
maneira possível o fenômeno de interesse. O planejamento experimen-
tal permite eficiência e economia no processo experimental e o uso de 
métodos estatísticos na análise dos dados obtidos resulta em conclusões 
mais objetivas. É de extrema importância que o pesquisador conheça 
bem a espécie com que irá trabalhar, para realizar os tratos culturais 
adequados, como também conhecer as variáveis de interesse. É prática 
comum e errônea montar experimentos sem saber ao certo o objetivo 
do experimento. A primeira coisa a se fazer é ter claro o objetivo que 
se deseja. A partir desse momento, deve-se planejar o melhor arranjo 
experimental para auxiliar na resposta acerca da questão chave do ob-
jetivo. Monta-se o experimento com todas as variáveis de interesse já 
definidas. Faz-se a coleta dos dados, e a partir daí realiza-se a análise dos 
dados, para concluir sobre a questão definida no objetivo.
36
3
ANÁLISE DE VARIÂNCIA (ANOVA) 
E SUAS PRESSUPOSIÇÕES
Qualquer análise de variância (ANOVA) adota um modelo 
matemático para descrever as fontes de variação e a aceitação de al-
gumas hipóteses básicas. Considere o modelo matemático abaixo para 
um delineamento inteiramente ao acaso:
Yij=m + ti + eij
em que:
Yij é o valor observado relativo à parcela que recebe o trata-
mento i na repetição j
m é a média geral do experimento
ti é o efeito do tratamento i
eij é o erro aleatório,ou seja, contribuição ao acaso da variação 
devida a fatores não controlados.
Para a realização da análise de variância, algumas pressuposi-
ções devem ser satisfeitas:
37
estatística experimental no rbio
i. Os diversos efeitos do modelo devem ser aditivos, como 
pode ser visto no modelo matemático anterior;
ii. Os erros experimentais devem ser independentes, ou seja, 
não correlacionados;
iii. Os erros devem ter a mesma variância σ2;
iv. Os erros devem ter distribuição normal.
Com base nos itens ii, iii e iv, normalmente se parte do princípio 
de que os erros são aleatórios, independentes e normalmente distri-
buídos com média zero e variância σ2 e representado por eij ~ N (0, σ
2).
Segundo Pimentel-Gomes (2000) estas hipóteses parecem muito 
restritivas, mas não o são, pois em geral não há grande importância que 
se verifiquem apenas aproximadamente. Por exemplo, os testes t e F 
não se alteram muito se a distribuição for apenas aproximadamente 
normal ou que se afaste bastante da normalidade. Do mesmo modo, a 
desigualdade das variâncias traz problemas mais sérios, mas não deve 
ser encarada com excessivo rigor, pois normalmente estas não são muito 
grandes em sua maioria. Para verificar tal fato usa-se o teste de Bartlett 
e o de F máximo que serão exemplificados mais adiante, mas desde já 
se chama a atenção para o fato destes serem muito sensíveis à falta de 
normalidade. Para caso de excessiva heterogeneidade das variâncias ou 
não aditividade do modelo, pode-se tentar a transformação da variável 
em estudo ou usar métodos não paramétricos de análise.
Considere um experimento simulado em delineamento em 
blocos ao acaso segundo o modelo matemático Yij=m + bj + ti + eij. Os 
dados deste experimento são apresentados na Tabela 3.1, e serão 
testadas as pressuposições da análise de variância.
38
estatística experimental no rbio
Tabela 3.1. Avaliação de uma variável agronômica simulada em delineamento em 
blocos ao acaso.
Tratamentos
Blocos
Total Média
I II
1 66.98 75.61 142.59 71.295
2 113.77 126.24 240.01 120.005
3 71.87 87.53 159.4 79.7
Total 252.62 289.38 542
Média 84.20667 96.46 90.333
a) Pressuposição i: Aditividade do modelo
A pressuposição i informa que o modelo deve ser aditivo. Tal 
pressuposição pode ser testada pelo teste de não aditividade de Tukey 
(1949), descrito por Steel et al, 1997, em que a Hipótese H0 é a de 
que os efeitos do modelo são aditivos. A Soma de Quadrados da não 
aditividade (SQNA), é dada pela expressão:
( )( )
( ) ( )
2
. .. . ..1 1
2 2
. .. . ..1 1
t r
ij i ji j
NA t r
i ji j
Y Y Y Y Y
SQ
Y Y x Y Y
= =
= =
 − − =
 − −  
∑ ∑
∑ ∑
ou, de forma alternativa
( )( )
[ ]
2
. .. . ..1 1
t r
ij i ji j
NA
n Y Y Y Y Y
SQ SQTxSQB
= =
 − − =
∑ ∑
sendo que n, t e r referem-se ao número total de parcelas, de 
tratamentos e blocos, respectivamente.
O quadrado médio da não aditividade (QMNA) é testado pelo 
quadrado médio do resíduo (QMRNA) obtido pela expressão:
39
estatística experimental no rbio
1
Erro NA
NA
Erro
SQ SQQMR
GL
−
=
−
O quadro da ANOVA está apresentado na Tabela 3.2, os cálculos 
detalhados da obtenção deste quadro no delineamento em blocos ao 
acaso serão vistos em capítulo posterior.
Tabela 3.2. Resultado da análise de variância da variável agronômica simulada.
Fonte de Variação GL SQ QM F p-value
Blocos 1 225.22 225.22 36.353* 0.026422
Tratamentos 2 2711.87 1355.93 218.868** 0.004548
Erro 2 12.39 6.20
Não aditividade 1 0.5663 0.5663 0.0479 0.8628
Resíduo 1 11.8242 11.8242
*, **: Significativo pelo teste F a 5 e 1% respectivamente.
Para o conjunto de dados apresentados na Tabela 3.1 o cálculo 
da SQNA é:
( )( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
2
. .. . ..
1 1
66.98 x 71.295 90.3333 84.20667 90.3333
75.61 x 71.295 90.3333 96.46 90.3333
113.77 x 120.005 90.3333 84.20667 90.3333
126.24 x 120.005 90.3333 96.46 90.3333
t r
ij i j
i j
Y Y Y Y Y
x
x
x
x
= =
 
− − 
 
 − − 
 + − − 
 + − − =
 + − − 
∑∑
( ) ( ) ( )
( ) ( ) ( )
2
57640.7447
71.87 x 79.7 90.3333 84.20667 90.3333
87.53 x 79.7 90.3333 96.46 90.3333
x
x
 
 
 
 
   = 
 
 
 + − −  
 
 + − −   
40
estatística experimental no rbio
( ) ( ) ( )
( )
2 2 2
. ..
1
2
71.295 90.3333 120.005 90.3333
79.7 90.3333 1355.933717
t
i
i
Y Y
=
− = − + −
+ − =
∑
( ) ( )
( )
2 2
. ..
1
2
84.20667 90.3333
96.46 90.3333 75.07209
r
j
j
Y Y
=
− = − +
− =
∑
Dessa forma tem-se:
( )
57640.7447 0.56631355.933717 75.07209NASQ x= =
Alternativamente tem-se:
Vale ressaltar que:
( )2. ..
1
r
j
j
SQB t Y Y
=
= −∑
( )2. ..
1
t
i
i
SQT r Y Y
=
= −∑
( )2..
1 1
t r
ij
i j
SQTotal Y Y
= =
= −∑∑
41
estatística experimental no rbio
A SQResíduo da não aditividade (SQRNA) é dada por SQErro - 
SQNA, ou SQTotal - SQT-SQB-SQNA=11.8242
O teste F para não aditividade é dado por QMNA / QMRNA, e no 
exemplo acima é dado por: F=0.5663/11.8242=0.0479, associado a 1 
GL no numerador e [(t-1) (r-1) -1] no denominador. Portanto, nesse 
caso, 1 GL no denominador. Como F tabelado (5%,1,1) = 161.45 (ANE-
XO 3.1) e o F calculado < F tabelado, não se rejeita a Hipótese H0 de que 
os efeitos do modelo são aditivos, não violando a pressuposição i. Caso 
o interesse seja realizar o teste a 1% de probabilidade então deve-se 
consultar a tabela F a 1% (ANEXO 3.2).
Vale aqui ressaltar que este exemplo é simulado e, portanto, 
o GL do Erro é 2, menor do que o desejado para a experimentação. 
Segundo Pimentel-Gomes (2000), os experimentos devem conter pelo 
menos 20 parcelas, e não menos do que 10 GL para o resíduo, ou seja, 
caso um experimento possua 2 tratamentos, deve-se utilizar no míni-
mo 10 repetições.
b) Pressuposição ii: Independência dos erros
A pressuposição ii, refere-se à independência dos erros, isso 
acontece quando os dados são tomados de forma independente, o 
que normalmente é resolvido com a correta coleta dos dados. Porém, 
caso as unidades sejam observadas ao longo do tempo, não se pode 
afirmar que os erros são independentes, pois uma medida tomada 
em uma unidade deverá estar correlacionada com a medida tomada 
nesta mesma unidade em um segundo momento. Nesse caso, a não 
independência é difícil de corrigir pois deve-se, em geral, à maneira 
de coletar os dados. Caso haja a suspeita de não atendimento a esta 
pressuposição, é necessário realizar a análise de resíduos. Esta análise 
normalmente é gráfica, usando o desvio das observações em relação à 
média padronizada para cada tratamento, segundo a expressão:
42
estatística experimental no rbio
 ii
eZ
QMR
=
Para o nosso exemplo tem-se:
11
66.98 71.295 1.7329
6.20
Z −= = −
12
75.61 71.295 1.7329
6.20
Z −= =
21
113.77 120.005 2.5040
6.20
Z −= = −
22
126.24 120.005 2.5040
6.20
Z −= =
31
71.87 79.7 3.1446
6.20
Z −= = −
32
87.53 79.7 3.1446
6.20
Z −= =
Com os valores calculados, pode-se construir um gráfico de 
dispersão dos valores de zi calculados (Gráfico 3.1).
43
estatística experimental no rbio
Gráfico 3.1. Dispersão gráfica dos valores Zi obtidos com base nos dados da Tabela 3.1.
Nessa situação, como se tem apenas duas repetições, e calcu-
la-se o desvio em relação à média, os valores serão sempre de mesma 
magnitude e de sinais contrários. De toda forma, o gráfico acima 
possui todos estes valores plotados e dispersos. Nota-se a dispersão 
e independência dos valores, o que mostra a não correlação entre os 
resíduos. Quando existe forte suspeita de não independência pode-se 
aplicar ainda um teste estatístico como o de Durbin Watson. A estatís-
tica do teste é calculada por:
( )
( )
2
12
2
1
T
t tt
T
tt
e e
d
e
−=
=
−
= ∑
∑
sendo que et é o resíduo da regressão associado ao tempo t, e 
T é o número de observações.
Para o conjunto de dados apresentados na Tabela 3.1, o pri-
meiro passo é realizar a análise de regressão dos dados (Y) em função 
dos tratamentos (X), e após isso, obtém-se os seguintes valores de 
resíduos: -19.151;-10.521; 23.437; 35.907; -22.666; -7.006. 
44
estatística experimental no rbio
Para obtenção destes valores de resíduos, tem-se resumida-
mente a análise de regressão (Tabelas 3.3 e 3.4), considerando Y=B0 
+ B1X +e (informações adicionais sobre regressão serão fornecidas no 
capítulo 13 deste material):
Tabela 3.3. Tabela auxiliar, para proceder a análise de regressão considerando os 
dados da Tabela 3.1.
Y X y = Y-Y x = X- x2 xy
66.98 1 -23.3533333 -1 1 23.35333
75.61 1 -14.7233333 -1 1 14.72333
113.77 2 23.43666667 0 0 0
126.24 2 35.90666667 0 0 0
71.87 3 -18.4633333 1 1 -18.4633
87.53 3 -2.80333333 1 1 -2.80333
Y = 90.33 X = 2 ∑x2i = 4 ∑xiyi =16.81
Dessa forma pode-se obter os valores de B0 e B1, que são dados por:
( )
( )1 2
5ˆ
, 16.81 4.202
4
i i
i
cov x y x yB
v x x
∑
= = = =
∑
( )0 1 90.33 4.2025 2 81.92ˆ ˆB Y B X x= − = − =
Sendo assim a equação de regressão é dada por: Ŷ = 81.92 
+4.2025X. Com base nessa equação calculamos os desvios da regres-
são, ou seja, o resíduo, apresentados na Tabela 3.4.
45
estatística experimental no rbio
Tabela 3.4. Tabela com os resíduos da análise de regressão, considerando os dados 
da Tabela 3.1.
Y X ˆ . .= +81 92 4 2025Y X e = Y - Ŷ
66.98 1 86.13083333 -19.150833
75.61 1 86.13083333 -10.520833
113.77 2 90.33333333 23.4366667
126.24 2 90.33333333 35.9066667
71.87 3 94.53583333 -22.665833
87.53 3 94.53583333 -7.0058333
Após apresentado como obter os valores dos resíduos, proce-
de-se a realização do teste estatístico, de tal forma que se tem:
( )21
2
T
t t
t
e e −
=
−∑ =
( ) ( ) ( )
( ) ( )
2 2 2
2 2
10.521 19.151 23.437 10.521 35.907 23.437
22.666 35.907 7.006 22.666 5059.15
− − − + − − + −
+ − − + − − − =
( )
( ) ( ) ( ) ( )
( ) ( )
2
1
2 2 2 2
2 2
19.151 10.521 23.437 35.907
22.666 7.006 2878.88
T
t
t
e
=
=
− + − + +
+ − + − =
∑
1.7573d =
Os valores de d variam sempre de 0 a 4, sendo que valores 
substancialmente menores que 2 evidenciam uma correlação positi-
va, e valores maiores que 2 indicam correlação negativa. Os valores 
abaixo de 1 podem servir de alarme. O valor de d encontrado pode 
ser confrontado com valores tabelados para verificar sua significância. 
46
estatística experimental no rbio
Para o nosso exemplo, o valor de d encontrado foi não significativo e, 
portanto, não se rejeita a hipótese de correlação = 0 para os resíduos, 
indicando que os erros são independentes, uma vez que não existe 
correlação entre eles.
c) Pressuposição iii: Homogeneidade de variância
Para testar a homogeneidade de variância (pressuposição iii), 
diferentes procedimentos podem ser utilizados. Um deles é o teste de 
Bartlett. Este teste é sensível em relação a hipótese de normalidade. 
Com isso, se rejeitarmos a hipótese de normalidade dos dados, é mais 
indicada a utilização de outro teste, como o proposto por Levene. 
Para o cálculo da estatística de Bartlett deve-se utilizar as expressões 
a seguir, em que N corresponde ao número total de observações, k ao 
número de tratamentos e n o número de repetições
( )2.2
1 1
ni ij i
i
j i
y y
s
n=
−
=
−∑
( )2 2
1
1 1
k
P i i
i
s n s
N k =
= −
− ∑
( ) ( ) ( )2 2
1
*ln( ) [ 1 *ln ]
k
P i i
i
q N k s n s
=
= − − −∑
( ) 1
1 1 11
3 1 1
k
i i
c
k n N k=
 
= + − − − − 
∑
47
estatística experimental no rbio
então 
0
qB
c
=
sendo que
H0 é a igualdade das variâncias e B0 tem distribuição assintótica 
de qui-quadrado com k-1 graus de liberdade. Portanto, se B0 > χ
2
(alfa; k-1), 
rejeita-se H0. 
Para o conjunto de dados apresentados na Tabela 3.1, o cálculo 
do teste de Bartlett é:
( ) ( )2 22
1
66.98 71.295 75.61 71.295
37.23845
2 1 2 1
s
− −
= + =
− −
( ) ( )2 22
2
113.77 120.005 126.24 120.005
77.75045
2 1 2 1
s
− −
= + =
− −
( ) ( )2 22
3
71.87 79.7 87.53 79.7
122.6178
2 1 2 1
s
− −
= + =
− −
( ) ( )
( )
2
2 1 *37.23845 2 1 *77.750451 79.20223
6 3 2 1 *122.6178
Ps
    − + −   = = −  + −   
( ) ( )
( ) ( )
( ) ( )
( ) ( )
2 1 *ln 37.23845
6 3 *ln 79.20223 2 1 *ln 77.75045 0.336095
2 1 *ln 122.6178
q
  −    = − − + − =  
 
 + −   
48
estatística experimental no rbio
( )
1 1 1 1 11 1.4444
3 3 1 2 1 2 1 2 1 6 3
c   = + + + − =  − − − − −  
0
0.336095 0.23268
1.4444
B = =
Para o referido exemplo, = 5.99 (ANEXO 3.3), e sendo 
B0 < χ
2, então não se rejeita a hipótese de nulidade, de forma que as 
variâncias podem ser consideradas homogêneas.
d) Pressuposição iv: Normalidade dos erros
A pressuposição iv refere-se à normalidade dos erros, sendo 
que quando os dados apresentam normalidade é esperado que os er-
ros também sejam normalmente distribuídos. Caso tal pressuposição 
seja violada, o pesquisador deverá avaliar a possibilidade de transfor-
mação dos dados. Segundo Pimentel-Gomes (2000), os testes mais 
frequentemente usados (t e F) não se alteram muito se a distribuição 
for apenas aproximadamente normal, ou mesmo que a distribuição se 
afaste bastante da normalidade. Esse autor salienta ainda que a nor-
malidade dos erros jamais é verificada nos experimentos, pois como 
primeira condição deveria haver possibilidade de observações de -α 
até +α, o que não ocorre, mas é razoável que haja uma aproximação, 
principalmente quando existe repetição para todos os tratamentos.
Existem diferentes métodos para avaliar a normalidade. Po-
de-se realizar análises de simetria e curtose, verificando-se o quanto 
a distribuição afasta-se da simetria e o grau de achatamento da dis-
tribuição, respectivamente. Alternativamente, pode-se utilizar testes 
estatísticos, como Lilliefors, Kolmogorov-Smirnov e Shapiro-Wilk.
49
estatística experimental no rbio
Simetria
Para o cálculo da simetria, utiliza-se a expressão a seguir, em 
que n é o tamanho da amostra, e s o desvio padrão dos dados:
3
1 iX XSimetria
n s
 −
= ∑ 
 
Em termos gráficos tem-se que os tipos possíveis de simetria 
são apresentados na Figura 3.1.
Figura 3.1. Diferentes distribuições considerando os tipos de possíveis graus de simetria.
Para o conjunto de dados apresentados na Tabela 3.1, o cálculo 
da simetria é:
3 3
3 3
3 3
66.98 90.3333 75.61 90.3333
24.28775 24.28775
1 113.77 90.3333 126.24 90.3333
6 24.28775 24.28775
71.87 90.3333 87.53 90.3333
24.28775 24.28775
Simetria
 − −   +    
    
 − −   = + +       

− −   + +        
0.4295

 =




50
estatística experimental no rbio
A hipótese H0 é de que os dados tenham distribuição simétri-
ca, portanto simetria = 0; este valor é testado via teste t, que usando 
softwares encontra-se o valor de 0.4295 com p-value =1.31; como 
p-value é >0.05, não se rejeita a Hipótese H0, logo os dados são con-
siderados simétricos. 
Curtose
Para o cálculo da curtose, utiliza-se a expressão a seguir, em 
que n é o tamanho da amostra, e s o desvio padrão dos dados:
4
1 3iX XCurtose
n s
 −
= ∑ − 
 
Em termos gráficos tem-se que os tipos possíveis de curtose 
são apresentados na Figura 3.2.
Figura 3.2. Diferentes distribuições considerando os tipos de curtose existentes.
Para o conjunto de dados apresentados na Tabela 3.1 o cálculo 
da curtose é:
51
estatística experimental no rbio
4 4
4 4
4 4
66.98 90.3333 75.61 90.3333
24.28775 24.28775
1 113.77 90.3333 126.24 90.3333
6 24.28775 24.28775
71.87 90.3333 87.53 90.3333
24.28775 24.28775
Curtose
 − −   +    
    
 − −   = + +       

− −   + +        
3 1.8386 − = −




A hipótese H0 é de que os dados tenham distribuição mesocúr-
tica, portanto curtose = 0. Este valor encontrado é testado via teste t, 
que pelo uso de softwares encontra-se o valor de -0.9193 com p-value 
=0.40; como p-value é >0.05, não se rejeita a Hipótese H0 e, portanto, 
os dados são considerados normais. 
Teste de Lilliefors e Kolmogorov-Smirnov
Os testes Lilliefors e Kolmogorov-Smirnov são semelhantes na 
forma de obter seus valores, sendo que o Lillieforsinfere se os dados 
têm distribuição normal com média e variância amostral, enquanto o 
Kolmogorov-Smirnov se tem média e variância populacional. A hipótese 
H0 é de que os dados seguem distribuição normal. Estes testes devem 
ser usados quando o tamanho da amostra for superior a 30. No caso 
de amostras menores do que 30 sugere-se o uso do teste Shapiro-Wilk.
É importante deixar claro que é necessário obter os valores 
dos resíduos dos dados (Tabela 3.5), uma vez que a normalidade a ser 
verificada é em relação aos resíduos. Para a obtenção considerando o 
conjunto de dados e considerando que o delineamento é o de blocos 
ao acaso tem-se:
. . .. ij ij i je X X X X= − − +
52
estatística experimental no rbio
Em que:
. jX : Média da repetição j em que a observação pertence
..X : Média Geral da variável
Tabela 3.5. Resultado com os resíduos considerando os dados apresentados na 
Tabela 3.1 e delineamento em blocos ao acaso.
Observação Valores observados (X) Resíduo: . . ..ij ij i je X X X X= − − +
1 66.98 66.98 - 71.295 - 84.206 + 90.333 = 1.811
2 75.61 75.61 - 71.295 - 96.46 + 90.333 = -1.811
3 113.77 113.77 - 120 - 84.206 + 90.333 = -0.108
4 126.24 126.24 - 120-96.46 + 90.333 = 0.108
5 71.87 71.87 - 79.7 - 84.206 + 90.333 = -1.703
6 87.53 87.53 - 79.7 - 96.46 + 90.333 = 1.703
O teste realiza o cálculo de todos os zi, os quais devem ser 
ordenados para as seguintes considerações.
Assim, são obtidos a partir de xi os dados transformados zi:
i
i
Xz µ
σ
−
= , em que: 
zi = valor da variável normal padronizada da classe i;
Xi = valor máximo da classe i;
µ = média da população que se pressupõe ter proporcionado 
a amostra de dados;
σ desvio padrão da população.
Utilizando-se a tabela de distribuição normal reduzida, é possí-
vel determinar as probabilidades correspondentes a cada zi:
F(zi) = FEi = ( )iP Z z−∞ ≤ ≤ = valor da tabela de distribuição 
normal reduzida (área);
S(zi) = FOi = ni/n
53
estatística experimental no rbio
em que:
ni = número de valores observados em ordem crescente ≤ zi;
n = número total de observações da amostra.
D = máximo |F(zi) - S(zi)|.
O teste é bilateral, como segue:
H0: é razoável estudar os dados através da distribuição normal;
Ha: não é razoável estudar os dados através da distribuição normal.
Rejeita-se a hipótese de nulidade quando o valor de Dcal ≥ Dtab, 
a um nível α de probabilidade com n observações, caso contrário não se 
rejeita H0. Deve-se lembrar, porém, que a não rejeição de H0 indica ape-
nas que esta é uma razoável aproximação da distribuição desconhecida.
De forma resumida, a estatística do teste é a apresentada na 
Tabela 3.6.
Tabela 3.6. Estatística do teste Kolmogorov-Smirnov e Lilliefors.
x 
(ordenados)
( )nF x ( ) ( )
( ) − = ≤  
 
i
i
x x
F x P z
s ( )( ) ( )( )− ni iF x F x ( )( ) ( )( )1−− ni iF x F x
( )1x
1
n
( ) ( )
( )1
1
− 
= ≤  
 
x x
F x P z
s ( )( ) ( )( )1 1− nF x F x ( )( )1 0−F x
( )2x
2
n
( ) ( )
( )2
2
− 
= ≤  
 
x x
F x P z
s ( )( ) ( )( )2 2− nF x F x ( )( ) ( )( )2 1− nF x F x
... ... ... ... ...
( )1−nx
1−n
n
( ) ( )
( )1
1
−
−
− 
= ≤  
 
n
n
x x
F x P z
s ( )( ) ( )( )1 1− −− nn nF x F x ( )( ) ( )( )1 2− −− nn nF x F x
( )nx 1 ( ) ( )
( ) − = ≤  
 
n
n
x x
F x P z
s ( )( ) ( )( )− nn nF x F x ( )( ) ( )( )1−− nn nF x F x
54
estatística experimental no rbio
O valor de ( ) ( )ii
x x
P z
s
− 
≤  
 
 é encontrado na tabela da distribuição 
normal padrão (ANEXOS 3.4 e 3.5).
Por exemplo, considerando os dados da Tabela 3.5, cujo desvio 
padrão (s) dos resíduos é = 1.574194, e a primeira linha da Tabela 3.7 
abaixo, tem-se que: 
( ) ( ) ( )( )1 11.811 0 1.153 0.12461.57F x P z P z
− − = ≤ = ≤ − = 
 
Considerando que o valor da estatística é negativo (-1.153), por 
meio da Tabela disponível no ANEXO 3.5 obtém-se o valor de 0,1246. 
A Tabela 3.7 apresenta os cálculos do teste para o conjunto de dados 
contidos na Tabela 3.1. Caso o valor fosse positivo usava-se o ANEXO 3.4.
Com isso, o Dn máximo (0.1937; 0.1937 =0.1937). Consideran-
do a Tabela de D (ANEXO 3.6), com alfa = 0.05 e n = 6, tem-se que 
encontramos pela tabela valores críticos de 0.5193.
Como D=0.1937 <0.5193, não temos evidência para rejeitar a 
hipótese de normalidade, portanto os dados podem ser considerados 
com distribuição normal pelo teste Lilliefors.
55
estatística experimental no rbio
Tabela 3.7. Estatística do teste Kolmogorov-Smirnov e Lilliefors considerando os 
resíduos apresentados na Tabela 3.5.
x (ordenados) ( )nF x ( ) ( )
( ) − = ≤  
 
i
i
x x
F x P z
s ( )
( ) ( )( )− ni iF x F x ( )( ) ( )( )1−− ni iF x F x
-1.811
1 0.1667
6
= ( ) ( )1
1.811 0 0.1246
1.57
F x P z − − = ≤ = 
 
0.1246 0.1667 0.0419− = 0.1246 0 0.1246− =
-1.703
2 0.3333
6
= ( ) ( )2
1.703 0 0.1393
1.57
F x P z − − = ≤ = 
 
0.1393 0.3333 0.1937− = 0.1393 0.1667 0.0272− =
-0.108
3 0.5
6
= ( ) ( )3
0.108 0 0.4999
1.57
F x P z − − = ≤ = 
 
0.4999 0.5 0.0001− = 0.4999 0.3333 0.1666− =
0.108
4 0.6667
6
= ( ) ( )4
0.108 0 0.50
1.57
F x P z − = ≤ = 
 
0.50 0.6667 0.1666− = 0.50 0.5 0.0− =
1.703
5 0.8333
6
= ( ) ( )5
1.703 0 0.8606
1.57
F x P z − = ≤ = 
 
0.8606 0.8333 0.0272− = 0.8606 0.6667 0.1937− =
1.811
6 1
6
= ( ) ( )6
1.811 0 0.8753
1.57
F x P z − = ≤ = 
 
0.8753 1 0.1246− = 0.8753 0.8333 0.0419− =
Máximo 0.1937 0.1937
Teste de Shapiro-Wilk
O teste Shapiro-Wilk, proposto em 1965, é baseada na estatís-
tica W, a qual é dada por:
( )( )
2
2
1
n
ii
bW
x x
=
=
−∑
Em que x(i) são os valores da amostra ordenados (x (1) é o menor). 
A constante b é determinada da seguinte forma:
56
estatística experimental no rbio
( ) ( ) ( )( )
( )
( ) ( ) ( )( )
2
1 1
1
1 /2
1 1
1
 
 
n
n i n i i
i
n
n i n i i
i
a x x x sené par
b
a x x x sené ímpar
− + − + −
=
+
− + − + −
=



= 



∑
∑
em que a(n-i+1) são constantes geradas pelas médias, variâncias 
e covariâncias das estatísticas de ordem de uma amostra de tamanho 
n de uma distribuição normal. Seus valores, tabelados, são dados no 
ANEXO 3.7. A hipótese H0 é de que os dados provêm de uma distribui-
ção normal. Como mencionado anteriormente, o teste Shapiro-Wilk é 
indicado quando o tamanho amostral é inferior a 30.
De forma simplificada, para calcular a estatística do teste, de-
ve-se ordenar os valores dos resíduos da amostra, calcular b, calcular 
W e tomar a decisão sendo que se W calculado for < que W tabelado 
(ANEXO 3.8), rejeita-se H0 ao nível α de significância. Este teste é nor-
malmente aplicado quando n <30.
O teste realizado com base no conjunto de resíduos apresenta-
dos na Tabela 3.5 é apresentado a seguir na Tabela 3.8:
( )( ) ( ) ( ) ( )
( ) ( ) ( )
2 2 2 2
1
2 2 2
1.811 0 1.703 0 0.108 0
0.108 0 1.703 0 1.811 0 12.3904
n
i
i
x x
=
− = − − + − − + − −
+ − + − + − =
∑
57
estatística experimental no rbio
Tabela 3.8. Estatística do teste Shapiro-Wilk considerando os resíduos (xi) 
apresentados na Tabela 3.5.
x (ordenados) i xi n-i+1 x(n-i+1) a(n-i+1) tabelado (i\n) a(n-i+1) x (x(n-i+1) - xi)
-1.8116 1 -1.8116 6 1.8116 0.6431 2.33016
-1.7033 2 -1.7033 5 1.7033 0.2806 0.95591
-0.1083 3 -0.1083 4 0.1083 0.0875 0.01895
0.1083 Soma (b) 3.3050
1.7033
1.8116
23.3050 0.8816
12.3904
W = =
Sendo assim a decisão é, como W calculado=0.8816> W (0.05;6) = 
0,788 (ANEXO 3.8), então pode-se afirmar com nível de significância de 
5% que a amostra provém de uma população normal.
Alternativamente, pode-se utilizar opções gráficas para analisar 
os pressupostos da análise de variância, via análise dos resíduos.
O resíduo pode ser obtido pela expressão para delineamentos 
inteiramente casualizado:
.ij ij ie X X= −
Em que:
ije : resíduo da observação ij do tratamento i na repetição j
ijX : Valor observado pela variável no tratamento i na repetição j
.iX : Média do tratamento i em que a observação pertence
O resíduo padronizado é obtido dividindo o resíduo pela raiz 
quadradado QMR ( QMR ) A expressão acima é válida para o expe-
rimento em delineamento inteiramente ao acaso, caso o experimento 
seja em blocos ao acaso deve-se usar:
58
estatística experimental no rbio
. . .. ij ij i je X X X X= − − +
Em que:
. jX : Média da repetição j em que a observação pertence
..X : Média Geral da variável
Uma opção gráfica importante é o diagrama de dispersão do re-
síduo versus valor predito. Com base nesse valor pode-se inferir sobre:
• Heterocedasticidade de ɛi
• Detectar prováveis dados atípicos
Em um modelo bem ajustado os resíduos são dispersos aleatoria-
mente, em torno de zero, com variância constante, concentrados entre -2 
e 2 (desejado 95% dentro deste intervalo), e com poucos pontos acima 
de 3 ou abaixo de -3. Resíduos fora do intervalo -3 a 3 pode ser conside-
rado dado discrepante. Nesse sentido é importante verificar a planilha de 
dados se é um erro de digitação, ou se realmente é um evento típico já 
observado pelo pesquisador. Só após isso devem ser descartados.
Diferentes possibilidades de dispersão de resíduos são apre-
sentadas na Figura 3.3.
59
estatística experimental no rbio
(a)
(b) 
60
estatística experimental no rbio
(c) 
(d)
 
Figura 3.3. Dispersão gráfica dos resíduos e valores preditos em diferentes cenários.
61
estatística experimental no rbio
Conforme Figura 3.3 as figuras são diferenciadas por letras, 
portanto será:
a. Figura com a presença de alguns resíduos extremos, além 
do intervalo -3 a 3.
b. Distribuição dos resíduos indicando boa qualidade de ajuste
c. Resíduos com distribuição assimétrica, pode-se notar que 
os pontos estão na sua grande maioria entre -1 a 1. Não 
existem pontos abaixo de -1.5, porém existe muitos pontos 
acima de 1.5
d. Resíduos sem variância constante portanto heterocedásticos
Considerando o conjunto de dados da Tabela 3.1, e para um de-
lineamento em DIC, pode-se obter os valores de resíduos, bem como 
os valores preditos. Nesse caso os valores preditos são exatamente os 
valores da média, esses dados estão apresentados na Tabela 3.9.
Tabela 3.9. Resultado com os resíduos e os valores preditos considerando os dados 
apresentados na Tabela 3.1.
Observação Valores observados (X)
Resíduo:
.ij ij ie X X= −
Valores preditos (Xp)
 p ij ijX X e= +
1 66.98 66.98 - 71.29 = -4.315 71.29
2 75.61 75.61 - 71.29 = 4.315 71.29
3 113.77 113.77 - 120 = -6.235 120
4 126.24 126.24 - 120 = 6.235 120
5 71.87 71.87 - 79.7 = -7.83 79.7
6 87.53 87.53 - 79.7 = 7.83 79.7
O Gráfico 3.2 representa os valores dos resíduos com os valores 
preditos considerando o exemplo:
62
estatística experimental no rbio
Gráfico 3.2. Dispersão gráfica dos valores dos resíduos preditos e preditos com 
base nos dados da Tabela 3.1 e delineamento inteiramente ao acaso.
Como são poucos dados experimentais, não se espera um bom 
ajuste. Verifica-se pontos além de -3 e 3 que são indicativos de pontos 
discrepantes. Vale salientar que o objetivo aqui é apenas para fins 
didáticos, de cálculo e interpretação.
Para avaliação da normalidade uma opção é o uso do gráfico 
QQplot. Para realizar este gráfico deve-se seguir os seguintes passos:
1. Ordenar em ordem crescente os dados
2. Estabelecer o nível de probabilidade de ocorrência de cada 
observação (j) pela expressão 
1
2
j
n
− em que n é o número 
total de observações
3. Estimar o valor de Z da distribuição normal padronizada. 
Por exemplo para o primeiro valor do exemplo abaixo, por-
tanto j= 1, tem-se 
1
2 0.083
j
n
−
= : Como isso refere-se a 8.3% 
da curva de distribuição normal, portanto, abaixo da média, 
63
estatística experimental no rbio
que equivale a 50% da distribuição normal. Considerando 
os dados da ANEXO 3.5 o valor equivalente a 0.083 é o z de 
-1.38. É importante salientar que esse número é negativo 
pois encontra-se abaixo do valor de 50%.
4. Traçar um gráfico utilizando no eixo x os valores de Z(j) e no 
eixo y os valores de X(j). Se a distribuição for normal haverá 
a tendência de formar uma linha reta no gráfico.
5. Estimar a correlação entre Z(j) e X(j) de forma a superar 
a superficialidade na interpretação gráfica. Essa mede o 
grau de ajustamento dos pontos a reta imaginária. Quanto 
mais próximo de 1 maior o ajustamento e maior tendência 
a normal.
Considerando o conjunto de dados apresentados na Tabela 3.1, 
o cálculo para obtenção do QQplot é apresentado na tabela 3.10.
Tabela 3.10. Cálculos necessários para a obtenção do QQplot considerando os 
dados apresentados na Tabela 3.1.
j x (ordenados)
1
2
j
n
−
Z(j)
1 66.98
11
2 0.083
6
−
= -1.38
2 71.87
12
2 0.25
6
−
= -0.675
3 75.61
13
2 0.416
6
−
= -0.21
4 87.53
14
2 0.583
6
−
= 0.21
64
estatística experimental no rbio
j x (ordenados)
1
2
j
n
−
Z(j)
5 113.77
15
2 0.75
6
−
= 0.675
6 126.24
16
2 0.916
6
−
= 1.38
O Gráfico 3.3 representa o resultado do exemplo anterior
Gráfico 3.3. Quantil-qualtin (Q-Q) plot considerando o exemplo com base nos 
dados da Tabela 3.1.
A correlação entre os valores de X(j) e Z(j) é de 0.945. Consi-
derando o valor te t tabelado, a n-2 graus de liberdade, tem-se valor 
tabelado de t tabelado igual a 0.917. Como correlação calculada é 
maior do que valor tabelado portanto aceita-se a hipótese de que os 
dados da variável simulada seguem distribuição normal.
65
estatística experimental no rbio
Um terceiro gráfico útil é aquele obtido entre os resíduos pa-
dronizados no eixo y com os valores das observações no eixo x. Esse 
gráfico é similar ao que foi apresentado aqui com resíduo vs predito. 
Mas isso só acontece nesse caso uma vez que se trata de um experi-
mento em dic. Caso fosse outro delineamento, o predito seria diferente 
da média, portanto seria um outro gráfico útil. Nesse caso se procede 
a interpretação da mesma forma. Valores de resíduos além de -3 ou 3 
evidenciam dados discrepantes que devem ser observados pelo pes-
quisador. Como aqui é o resíduo e o valor observado que são plotados, 
o pesquisador consegue identificar diretamente o ponto discrepantes.
Normalmente quando os dados não possuem distribuição nor-
mal e/ou homogeneidade de variância, procede-se à transformação 
dos dados. Porém, ao utilizar uma transformação de dados, todas as 
comparações de médias entre os tratamentos deverão ser realizadas 
na escala de transformação escolhida.
Nos exemplos realizados acima, a transformação dos dados não 
seria necessária, uma vez que eles atenderam às pressuposições da 
ANOVA. Caso fosse necessário, existem diferentes formas de escolher 
a transformação dos dados a serem utilizadas. Uma delas é a utilização 
o coeficiente de variação (o que será discutido no próximo capítulo). 
Quando o valor do CV dos dados transformados for menor do que o 
dos dados originais, a transformação foi válida. Se calcularmos o CV do 
conjunto de dados da Tabela 3.1, tem-se o valor 26.886. Ao aplicar a 
transformação log o valor obtido é de 5.78, e ao usar a transformação 
de raiz quadrada tem-se o valor de 13.23 (Tabela 3.11). Portanto, se 
fosse necessário realizar a transformação, haverá indícios de que a 
utilização da log poderia ser eficiente.
66
estatística experimental no rbio
Tabela 3.11. Utilização do coeficiente de variação (CV) de forma a auxiliar na 
transformação de dados, considerando os dados da Tabela 3.1.
Dados originais Log (dados) Raiz (dados)
66.98 1.825945143 8.184130986
71.87 1.856547645 8.47761759
75.61 1.878579238 8.695401083
87.53 1.942156928 9.355746897
113.77 2.056027758 10.66630208
126.24 2.101196986 11.23565752
CV= 26.88680872 CV= 5.781744502 CV= 13.23087198
Uma outra maneira de auxiliar a transformação dos dados é 
obter a amplitude entre maior e menor valor observado para cada 
tratamento, depois fazer a razão entre amplitude máxima e mínima 
conforme Tabela 3.12.
Tabela 3.12. Razão entre maior e menor amplitude de médias de forma a auxiliar 
na transformação de dados, considerando os dados da Tabela 3.1.
Tratamentos Log (dados) Raiz (dados)
Maior Menor Amplitude

Outros materiais