Baixe o app para aproveitar ainda mais
Prévia do material em texto
Conselho Editorial Internacional Presidente: Prof. Dr. Rodrigo Horochovski (UFPR – Brasil) Profª. Dra. Anita Leocadia Prestes (ILCP – Brasil) Profª. Dra. Claudia Maria Elisa Romero Vivas (UN – Colômbia) Profª. Dra. Fabiana Queiroz (Ufla – Brasil) Profª. Dra. Hsin-Ying Li (NTU – China) Prof. Dr. Ingo Wolfgang Sarlet (PUC/RS – Brasil) Prof. Dr. José Antonio González Lavaut (UH – Cuba) Prof. Dr. José Eduardo Souza de Miranda (UniMB – Brasil) Profª. Dra. Marilia Murata (UFPR – Brasil) Prof. Dr. Milton Luiz Horn Vieira (Ufsc – Brasil) Prof. Dr. Ruben Sílvio Varela Santos Martins (UÉ – Portugal) Comitê Científico da área Ciências Agrárias Presidente: Prof. Dr. Alexandre de Paula Peres (Ufla – Ciência dos Alimentos) Prof. Dr. Antonio Waldir Cunha da Silva (UFPR – Medicina Veterinária) Profª. Dra. Rita de Cássia Maria Garcia (UFPR – Medicina Veterinária) Prof. Dr. Luis David Solis Murgas (Ufla – Zootecnia) Prof. Dr. Davi Marcondes Rocha (UTFPR – Engenharia Agrícola) Leonardo Lopes Bhering Paulo Eduardo Teodoro ESTATÍSTICA EXPERIMENTAL NO RBIO © Brazil Publishing Autores e Editores Associados Rua Padre Germano Mayer, 407 Cristo Rei - Curitiba, PR - 80050-270 +55 (41) 3022-6005 Associação Brasileira de Editores Científicos Rua Azaleia, 399 - Edifício 3 Office, 7º Andar, Sala 75 Botucatu, SP - 18603-550 +55 (14) 3815-5095 Associação Brasileira de Normas Técnicas Av. Treze de Maio, 13, 28ª andar Centro - RJ - 20031-901 +55 (21) 3974.2324 Câmara Brasileira do Livro Rua Cristiano Viana, 91 Pinheiros - SP - 05411-000 + 55 (11) 3069-1300 Comitê Editorial Editora-Chefe: Sandra Heck Editor-Superintendente: Valdemir Paiva Editora Científica: Kelly Miranda Editor-Coordenador: Everson Ciriaco Diagramação e Projeto Gráfico: Rafael Chiarelli Arte da Capa: Paula Zettel Revisão de Texto: Os autores DOI: 10.31012/ 978-65-5861-360-2 Órgão Financiador: Obra financiada pela Capes Dados Internacionais de Catalogação na Publicação (CIP) Bibliotecária: Maria Isabel Schiavon Kinasz, CRB9 / 626 Bhering, Leonardo Lopes B421e Estatística experimental no Rbio [recurso eletrônico] Leonardo Lopes Bhering, Paulo Eduardo Teodoro – 1.ed. - Curitiba: Brazil Publishing, 2021. ISBN 978-65-5861-360-2 1. Estatística. 2. Pesquisa experimental. I. Teodoro, Paulo Eduardo. II. Título. CDD 519.5 (22.ed) CDU 519.2 [1ª edição – Ano 2021] www.aeditora.com.br Aos meus pais, José Antônio Bhering e Maria do Carmo Lopes Bhering pelo exemplo de vida e educação; À minha esposa Luana Vieira Toledo pelo companheirismo e motivação diária. Leonardo Lopes Bhering Aos meus pais, Maria do Carmo Severino e João Adamastor Teodoro, pessoas simples, que sempre me apoiaram e me ensinaram que a coisa mais importante na vida é o conhecimento e a educação; À minha esposa, Larissa Pereira Ribeiro Teodoro, pelo amor, carinho, companheirismo e compreensão. Paulo Eduardo Teodoro PREFÁCIO Este material apresenta procedimentos estatísticos com larga aplicação nas diversas áreas da pesquisa e em atividades de ensino, graduação e pós-graduação na análise de delineamentos experimentais. As análises estatísticas têm sido utilizadas para a comprovação proba- bilística da veracidade de determinada hipótese formulada com base em extensivos estudos e investigada a partir de resultados encontrados na pesquisa, bem como apresentar suas descrições de forma resumida, sem perda de informações relevantes. Apresentam-se ao leitor os mais diversos procedimentos da esta- tística experimental e os cálculos de todos os delineamentos experimen- tais, de forma a oferecer um conteúdo capaz de auxiliar o pesquisador a fazer a escolha correta do delineamento experimental a ser utilizado bem como, através das análises, interpretar seus resultados, podendo avaliar após isso se existe diferença entre os tratamentos, se o experi- mento foi bem conduzido, se aquela população avaliada tem potencial para seleção em um programa de melhoramento genético. Além disso, devido à grande quantidade de dados gerados pelos experimentos, normalmente torna-se difícil a sua execução sem um auxílio de um computador, desta forma, o material contém ainda os scripts para que o leitor possa repetir as análises realizadas no material em computador. O script disponibilizado é para utilização do software livre R, que é o mesmo utilizado pelo software Rbio (Bhering, L.L., 2017). Os softwares são aplicativos computacionais capazes de reali- zar tarefas com grande volume de informações, facilitando o processa- mento de dados. Seu objetivo é substituir as atividades complexas, que deveriam ser realizadas manualmente com auxílio de uma calculadora, por computadores com alta capacidade de processamento, podendo proceder análises complexas, tornando sua execução prática e eficien- te, sem erros. O desenvolvimento de aplicativos em todas as áreas de pesqui- sa torna-se essencial, pois facilita e muito o processamento dos dados, seja na área médica, humana, agrária, dentre outras. O uso de softwares na análise de dados provenientes de deline- amentos experimentais é de fundamental importância, pois possibilita ao pesquisador analisar em curto prazo um grande volume de dados, sendo necessário apenas a interpretação destes dados. Existem diver- sos softwares estatísticos para este tipo de análise, alguns famosos como SAS, ESTATISTICA, SPSS e STATA são excepcionais softwares, porém, existe a necessidade de compra da licença. Dessa forma, será apresentada aqui apenas os scripts para análise no software R / Rbio (R Development Core Team, 2008). O software R é um software livre para análise de dados criado em 1996. Além de livre, ou seja, o usuário pode ter acesso ao código fonte de todas as rotinas, o software R é gra- tuito, portanto o usuário não tem a necessidade de comprar a licença, necessitando apenas fazer download do mesmo no website (https:// www.r-project.org/). Além da vantagem citada anteriormente, desta- ca-se ainda que o usuário encontra diversos materiais na internet so- bre como usar o software, desde o processo de download, instalação, até realizar diferentes tipos de análises, e também é um software com versões para sistema operacional Linux, Windows e MacOS. Outra sugestão que se faz é que o usuário faça também down- load do Rbio (Bhering, 2017) disponível no website (http://www. biometria.ufv.br/). Esse é um software gratuito. No caso do Rbio ele faz uso do R para proceder as análises. A grande vantagem para o usuário fazer uso do Rbio é que ele fornece os scripts para as análises via R de todo o seu conteúdo, então se torna um repositório de scripts R. https://www.r-project.org/ https://www.r-project.org/ http://www.biometria.ufv.br/ http://www.biometria.ufv.br/ Encontram-se ainda neste material os scripts para cada tópico abordado anteriormente, bem como as saídas correspondentes que o usuário deve confrontar com a teoria já informada. Os arquivos de exemplos para cada análise estão localizados numa pasta chamada “ebook”, localizada dentro da pasta “_Rbio”. Esta pasta é baixada junto com o software Rbio e deve ser colocado dentro do “c:”, de forma que o caminho para acesso aos arquivos no Windows seja: “c:\_Rbio\ebook”. Todos os arquivos aqui usados são com extensão “.txt”, porém, os usuários podem criar seus arquivos em outras pastas e com os nomes diferentes. Para várias análises, faz-se necessário a instalação de pacotes específicos usados pelo software R, nesse caso o comando “library(nome_pacote)” é realizado antes da realização da análise para carregar o referido pacote. Caso esse pacote nunca tenha sido instalado no computador, sua instalação faz-se necessária, e para isso o usuário deve digitar “install.packages(“nome_pacote”)”. Adicionalmente no final do ebook consta algumas tabelas estatísticas comumente utilizadas nas análises estatísticas. É importante enfatizar dois aspectos existentes no material. Primeiro, todos os exemplos são com poucostratamentos e repetições de forma proposital, para que fosse fácil a realização das operações matemáticas passo a passo, mesmo que devido a isso, o experimento fosse de baixa qualidade por ter poucos graus de liberdade no resíduo. O segundo aspecto, é que priorizou utilizar o “.” como símbolo decimal, apenas para que pudesse ficar igual a saída dos softwares. Os autores agradecem quaisquer críticas, sugestões e eventuais correções que, certamente, irão contribuir para a melhoria desta obra. ABSTRACT This book deals with a set of analyzes that can help the student / researcher to analyze the data of their academic and professional research. With theory and application, in a small and didactic example. Along with this presented step by step, it is shown how to proceed with the analysis of the same example in the Rbio software, so that the user is able to assimilate the theoretical and practical teachings at the same time. As statistical software is used in practice, due to its speed and convenience, this interface with the software was emphasized in this material. The Rbio software presented is free software owned by one of the authors of the work, with the capacity for several biometric-statistical analyzes. In this work only those analyzes related to experimentation were addressed. SUMÁRIO 1 – ESTATÍSTICA DESCRITIVA . . . . . . . . . . . . . . . . . . 12 1.1 Medidas de Posição . . . . . . . . . . . . . . . . . . . . 16 1.2 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . 21 2 – PRINCÍPIOS BÁSICOS DA EXPERIMENTAÇÃO . . . . . . . . . . . 33 3 – ANÁLISE DE VARIÂNCIA (ANOVA) E SUAS PRESSUPOSIÇÕES . . . . . . 36 4 – DELINEAMENTO EXPERIMENTAL INTEIRAMENTE CASUALIZADO . . . . 82 5 – DELINEAMENTO EXPERIMENTAL EM BLOCOS AO ACASO . . . . . . . 99 6 – COMPONENTES DE VARIÂNCIA . . . . . . . . . . . . . . . 114 7 – DELINEAMENTO EXPERIMENTAL EM QUADRADO LATINO . . . . . . 165 8 – TESTES DE COMPARAÇÕES MÚLTIPLAS E AGRUPAMENTOS . . . . . . 175 8.1. Teste t . . . . . . . . . . . . . . . . . . . . . . . . 177 8.2. Teste de Tukey . . . . . . . . . . . . . . . . . . . . . 185 8.3. Teste de Duncan . . . . . . . . . . . . . . . . . . . . 189 8.4. Teste de Scheffé . . . . . . . . . . . . . . . . . . . . 193 8.5. Teste de Fisher, LSD ou DMS t . . . . . . . . . . . . . . . . 196 8.6. Teste de Bonferroni, LSDB . . . . . . . . . . . . . . . . . 200 8.7. Teste SNK . . . . . . . . . . . . . . . . . . . . . . . 205 8.8. Teste de Dunnet . . . . . . . . . . . . . . . . . . . . 209 8.9. Teste de Scott-Knott . . . . . . . . . . . . . . . . . . . 213 9 – ANÁLISE DE EXPERIMENTOS FATORIAIS . . . . . . . . . . . . . 228 10 – ANÁLISE DE EXPERIMENTOS EM PARCELAS SUBDIVIDIDAS . . . . . 249 11 – ANÁLISE DE EXPERIMENTOS EM FAIXAS . . . . . . . . . . . . 260 12 – ANÁLISE DE EXPERIMENTOS HIERÁRQUICOS . . . . . . . . . . 282 13 – ANÁLISE DE EXPERIMENTOS EM BLOCOS INCOMPLETOS . . . . . . 297 13.1. Blocos aumentados . . . . . . . . . . . . . . . . . . . 297 13.2. Látice . . . . . . . . . . . . . . . . . . . . . . . . 313 14 – REGRESSÃO . . . . . . . . . . . . . . . . . . . . . . 341 14.1. Regressão Linear Simples . . . . . . . . . . . . . . . . . 343 14.2. Regressão Múltipla . . . . . . . . . . . . . . . . . . . 355 14.3. Regressão Polinomial . . . . . . . . . . . . . . . . . . 366 15 – ANÁLISE DE COVARIÂNCIA (ANCOVA) . . . . . . . . . . . . . 384 16 – CORRELAÇÃO . . . . . . . . . . . . . . . . . . . . . 403 16.1. Correlação de Pearson e Spearman . . . . . . . . . . . . . 403 16.2. Correlação Parcial . . . . . . . . . . . . . . . . . . . 413 16.3. Correlação: Análise de Trilha . . . . . . . . . . . . . . . . 424 16.4. Correlação Fenotípica, Genotípica e Ambiental . . . . . . . . . 431 16.5. Correlação Canônica . . . . . . . . . . . . . . . . . . 439 LITERATURAS CITADAS . . . . . . . . . . . . . . . . . . . . 457 ANEXOS . . . . . . . . . . . . . . . . . . . . . . . . . 459 SOBRE OS AUTORES . . . . . . . . . . . . . . . . . . . . 477 12 1 ESTATÍSTICA DESCRITIVA Antes de qualquer tipo de análise de dados é importante co- nhecer bem estes dados a serem utilizados. Inúmeros erros podem ser evitados apenas verificando se os valores máximos e mínimos são condizentes com as variáveis em estudo. Uma boa indicação antes de proceder qualquer análise de dados é observar os valores máximos e mínimos do conjunto de dados. Estes podem fazer com que sejam identificados erros grosseiros. Desta forma, nesse material, iniciamos analisando qualquer conjunto de dados de forma geral, sem importar se estão ligados com a experimentação (que será abordada a partir do tópico 2). A estatística descritiva serve para resumir, organizar um conjun- to de dados, e a partir disso tirar conclusões ou inferências dos mes- mos. É bom ficar atento que sempre que resumimos um conjunto de dados iremos perder a informação individual obtida, pois estas serão condensadas, porém esta perda de informação é pequena comparada ao ganho que se tem com a possibilidade da interpretação. De forma a explorar melhor os dados algumas medidas para análise descritiva são: medidas de posição e de dispersão. Imagine que em uma avaliação de híbridos de milho verifica-se uma produção média (valores considerando área em hectare) para um 13 estatística experimental no rbio híbrido 1 de 8000 kg, de 7500 kg para o híbrido 2. Porém ao digitar os dados coletados o usuário esbarre no teclado e digite 80000 kg, nesse exemplo extremamente exagerado o valor errado seria facilmente vi- sualizado, ao soltar a média daquele tratamento, porém as vezes não é verificado casos assim tão grandes, como por exemplo, se no exemplo anterior não houvesse possibilidade de um material produzir mais de 10000 kg. Ao tomar a informação por repetição, tem-se repetição 1: 2000 kg, repetição 2: 3000 kg, e repetição 3: 15000 kg. Ao obter a média deste tratamento tem-se o valor 6666 kg, valor este que se encontra totalmente possível dentro do esperado para a produção dos referidos materiais, porém, como informado não existe possibilidade de produção acima de 10000 kg, e o que ocorreu foi um erro de digita- ção na repetição 3, que era pra ser 1500 kg e ao digitar um “0” a mais mudou totalmente a média do material, que deveria ter sido 2166 kg. Dessa forma apenas o uso da média não ajudaria para descobrirmos o tal erro, mas usando simplesmente máximo e mínimo observados, conseguiríamos encontra-lo. Mais do que um simples erro matemático, ele pode ter consequências maiores, pois provavelmente um material com média de2166 kg seria descartado do programa de melhoramen- to, e um de 6666 kg, poderia ser selecionado, ou seja, iria ter gasto financeiro e de tempo conduzindo este material em futuros blocos de cruzamentos, ou avanços de gerações. Sendo assim, é conveniente que a primeira ação a ser executada pelo usuário seja estimar médias, máximos, mínimos, coeficientes de variação e gráficos do conjunto de dados. Nesse momento será possível conhecer melhor o conjunto de dados e identificar possíveis erros, que após o processamento das análises, provavelmente não mais seriam observados. Alternativas gráficas para apresentação dos dados são muito úteis, como por exemplo, os histogramas que são gráficos de distribui- ção de frequências, que é um agrupamento de classes, representadas por barras, realizado após a contagem do número de observações pertencentes as classes. O objetivo é obter a informação sobre o com- 14 estatística experimental no rbio portamento dos dados. Para obter o número de classes normalmente se utiliza a regra de Sturges, que é dada por: k = 1 + 3.3log (n), em que n é o conjunto de dados. Sendo assim pega-se o maior valor - menor valor e divide pelo número de classes. Dessa forma consegue-se obter os valores que devem estar em cada intervalo. Para proceder a maioria das análises deste material será con- siderado um exemplo bem simples, com 3 tratamentos e 2 repetições (ou blocos). Será visto mais adiante que este não atende os requisitos mínimos para que seja um experimento de qualidade, porém de forma didática, de forma a facilitar e agilizar os cálculos ele será usado nesse material. Oportunamente dados provenientes de experimentos tam- bém poderão ser usados, sobretudo para processamento e interpre- tação. Os dados deste experimento são apresentados na Tabela 1.1. Tabela 1.1 Avaliação de uma variável agronômica simulada em delineamento em blocos ao acaso. Tratamentos Blocos Total Média I II 1 66.98 75.61 142.59 71.295 2 113.77 126.24 240.01 120.005 3 71.87 87.53 159.4 79.7 Total 252.62 289.38 542 Média 84.20667 96.46 90.333 Para confecção do histograma, inicialmente deve-se obter o número de classes do mesmo. Usando a expressão de Sturges, tem-se: k = 1 + 3.3log (n) = 1 + 3.3x log (6) = 3.56 = 4 classes Com base no número de classes pode-se obter o intervalo constituído por cada classe: (Maior valor – Menor valor) / nº classes. Sendo para o conjunto de dados apresentados, (126.24 – 66.98) /4 15 estatística experimental no rbio = 14.815. Este é o intervalo de cada classe. Sendo assim, a classe 1 = 66.98 + 14.815 = 81.795; esse processo continua até obter todas as classes, conforme apresentado na Tabela 1.2 abaixo. Após isso é necessário apenas contar quantos valores estão dentro de cada um dos intervalos, obtendo as respectivas ocorrências e confeccionar o respectivo histograma (Gráfico 1.1). Tabela 1.2 Intervalo compreendido entre classes e suas respectivas ocorrências para avaliação de uma variável agronômica simulada. Classes Ocorrência Frequência 66.98 – 81.8 3 50 81.8 – 96.61 1 16.667 96.61 – 111.43 0 0 111.43 – 126.24 2 33.333 Gráfico 1.1 Histograma realizado com base nos dados da Tabela 1.1. 16 estatística experimental no rbio Alternativamente, alguns softwares, criam estes intervalos das classes usando valores inteiros arredondados, de forma a ficar com uma melhor visualização das classes. Esta é uma forma com que o software R procede, nesse mesmo exemplo, o gráfico produzido será mostrado no Gráfico 1.2, de forma que os intervalos existentes no eixo x serão ligeiramente diferentes dos apresentados no gráfico anterior: Gráfico 1.2. Histograma realizado no software R para os dados da Tabela 1.1. 1.1 Medidas de Posição As medidas de posição são aquelas que posicionam um valor referente a um conjunto de dados, em relação a determinada posição da distribuição de frequência. As medidas de posição mais importantes são: média, mediana e moda. 17 estatística experimental no rbio A média é calculada somando todos os valores e dividindo pelo tamanho da amostra (n) (ou da população). Em melhoramento está associada a qualidade da população, ou seja, se a população possui potencial a ser explorado. 1 1 2 n ii n x x x xx n n = + +…+= =∑ Para os dados da Tabela 1.1 a média é: 66.98 75.61 113.77 126.24 71.87 87.53 90.33 6 x + + + + += = A mediana é o valor central do conjunto de dados. Caso o número de dados seja ímpar, a mediana será o valor central, considerando que os dados estejam ordenados de menor para maior. Caso o conjunto de dados seja par, a mediana será a média das duas observações centrais. Para os dados da Tabela 1.1, são dispostos seis valores, por- tanto, a mediana deverá ser a média dos valores centrais, ou seja, do terceiro e quarto, após a ordenação. Ordenando os dados, tem-se: 66.98, 71.87, 75.61, 87.53, 113.77 e 126.24. Sendo assim a mediana para esse conjunto de dados é: 75.61 87.53 81.57 2 x += = Sendo assim, metade da amostra está localizada abaixo de 81.57 e metade está localizada acima de 81.57. A mediana portanto deixa 50% dos dados acima e 50% abaixo do seu valor, e é chamada também de segundo quartil (Q2). 18 estatística experimental no rbio O primeiro quartil (Q1) é o número que deixa 25% das obser- vações abaixo e 75% acima, enquanto o terceiro quartil (Q3) deixa 75% dos dados abaixo e 25% acima. Existem diferentes maneiras de se calcular os valores de primeiro e terceiro quartil, e deve-se conhecer como o software que está utilizando calcula para que possa obter o mesmo valor num cálculo a mão, por exemplo, o Microsoft Excel, possui três funções diferentes que calculam os quartis, sendo elas : “quartil”, “quartil.inc” e “quartil.exc”, sendo que as duas primeiras fornecem resultados iguais. Pode-se encontrar na literatura formas rápidas de calcular, mas estes resultados divergem dos softwares usados, um exemplo é o apresentado a seguir que inicialmente coloca-se os dados em ordem e divide em dois grupos: 66.98, 71.87, 75.61 87.53, 113.77, 126.24 O primeiro quartil seria o valor central do primeiro grupo ou seja 71.87. A mediana seria o valor central, portanto a média entre 75.61 e 87.53 e o terceiro quartil seria o valor central do terceiro grupo, portanto 113.77. É importante salientar que, por exemplo, caso o primeiro grupo apresente 6 valores e o segundo grupo 6 valores, portanto um conjunto de dados com 12 informações, o valor central do grupo 1 seria a média dos valores 3 e 4, de tal forma que possua duas informações abaixo e 2 informações acima da mesma, da seguinte forma: 1 2 3 4 5 6 7 8 9 10 11 12 Quartil 1: Média entre 3 e 4 = 3.5; quartil 2(mediana): Média entre 6 e 7 = 6.5 e quartil 3: Média entre 9 e 10 =9.5 Alguns softwares, como é o caso do R, utilizam o método co- nhecido como “interpolação com base N-1”, que é correspondente a função do Excel “quartil.inc”. Normalmente esta é a forma mais usada 19 estatística experimental no rbio quando se deseja fazer uma estatística descritiva dos dados. Nesse caso, fala-se N-1 pois a contagem da posição dos valores inicia-se do 0, sendo assim tem-se um total de N-1 posições. Considerando o nosso exemplo com seis valores ordenados crescente teremos, as posições variando de 0 a 5, conforme demostrado abaixo. Posição 0 1 2 3 4 5 Valor 66.98 71.87 75.61 87.53 113.77 126.24 As posições K dos quartis são dadas: 1 1 6 11 1 1.25 4 4Q nK x x− − = = = 2 1 6 12 2 2.5 4 4Q nK x x− − = = = 3 1 6 13 3 3.75 4 4Q nK x x− − = = = O valor do quartil 1, será o valor corresponde a 1.25 da nossa posição. A posição 1 é 71.87, e a posição 2 é 75.61, portanto a diferença desses valores é 3.74, e 0.25 desse valor é 0.935. Dessa forma o valor do Q1 é 71.87 + 0.935 =72.81. O valor do quartil 2, que é a mediana, será o valor corresponde a 2.5 da nossa posição, ou seja, a média entre os valores da posição 2 e 3, que já foicalculado anteriormente e é 81.57. O valor do quartil 3, será o valor corresponde a 3.75 da nossa posição. A posição 3 é 87.53, e a posição 4 é 113.77, portanto a dife- rença desses valores é 26.24, e 0.75 desse valor é 19.68. Dessa forma o valor do Q3 é 87.53 + 19.68 =107.21. 20 estatística experimental no rbio Outros softwares utilizam o método conhecido como “interpo- lação com base N+1”, que é correspondente a função do Excel “quartil. exc”. Nesse caso, fala-se N+1 pois a contagem da posição dos valores inicia-se do 0, porém não existe nenhum valor associado a posição 0, sendo assim tem-se um total de N+1 posições. Considerando o nosso exemplo com 6 dados ordenados crescente teremos, as posições va- riando de 0 a 6, conforme demostrado abaixo. Normalmente, esta é a forma mais usada quando se deseja identificar outliers, pois possui uma amplitude interquartil (IQR) maior, que é obtida subtraindo o valor do Q3-Q1. Posição 0 1 2 3 4 5 6 Valor 66.98 71.87 75.61 87.53 113.77 126.24 Os cálculos são semelhantes aos anteriores, mudando, portan- to, apenas as posições, dessa forma tem: 1 1 6 11 1 1.75 4 4Q nK x x+ + = = = 2 1 6 12 2 3.5 4 4Q nK x x+ + = = = 3 1 6 13 3 5.25 4 4Q nK x x+ + = = = O valor do quartil 1, será o valor corresponde a 1.75 da nossa posição. A posição 1 é 66.98, e a posição 2 é 71.87, portanto a diferen- ça desses valores é 4.89, e 0.75 desse valor é 3.66. Dessa forma o valor do Q1 é 66.98 + 1.22 = 70.64. 21 estatística experimental no rbio O valor do quartil 2, que é a mediana, será o valor corresponde a 3.5 da nossa posição, ou seja, a média entre os valores da posição 3 e 4, que já foi calculado anteriormente, e é 81.57. Note, mais uma vez, que independentemente do método usado, a mediana fornecerá o mesmo valor. O valor do quartil 3, será o valor corresponde a 5.25 da nossa posição. A posição 5 é 113.77, e a posição 6 é 126.24, portanto a dife- rença desses valores é 12.47, e 0.25 desse valor é 3.11. Dessa forma o valor do Q3 é 113.77 + 3.11 = 116.88. Vale ressaltar novamente que não existe uma norma de como é o correto para o cálculo destes quartis, portanto, outras expressões podem ser usadas. Outra medida de posição é a moda que corresponde ao valor que ocorre com maior frequência em um determinado conjunto de dados. 1.2 Medidas de Dispersão São medidas que avaliam a dispersão dos dados em relação à média, sendo que dispersão é o mesmo que variação ou variabilidade. Duas medidas são usadas frequentemente para mensurar a dispersão, que são a amplitude e o desvio padrão. A amplitude (R) é a diferença entre o maior e o menor valor de um conjunto de dados. maior menorR X X= − Para o exemplo anterior, tem-se: 126.24 66.98 59.26R = − = 22 estatística experimental no rbio A variância de uma amostra de n elementos é definida como o desvio em relação à média ao quadrado, ou seja, a soma de quadrados dos desvios dos elementos em relação à sua média, dividido por n-1, sendo dependente da amplitude de variação e distribuição dos dados. Caso o cálculo seja da variância populacional será dividido por n. ( )22 1 1 ˆ n ii x x n σ = − = − ∑ Considerando o conjunto de dados apresentados na Tabela 1.1, tem-se a variância: Como visto acima, a variância é uma medida de dispersão que mede o desvio ao quadrado. Então esta terá magnitude ao quadrado, por exemplo, se a medida for em metros (m), ao se calcular a variância a medida é metros ao quadrado (m2). Este fato dificulta a interpretação dos dados. Para solucionar tal problema é calculado o desvio padrão (s) que é igual à raiz quadrada da variância, que faz com que os dados voltem a escala original da variável. Sendo assim o estimador do desvio padrão é dado por: ( )22 1 1 ˆ n ii x x s n σ = − = = − ∑ 23 estatística experimental no rbio Para o conjunto de dados tem: 589.89 24.28s = = Muitas vezes ocorre um confundimento entre o que é o desvio padrão e o que é o erro padrão e a aplicação destas duas medidas. O desvio padrão como já apresentado é uma medida de dispersão em relação à média, já o erro padrão é uma medida que ajuda avaliar a confiabilidade da média calculada. Para tentar esclarecer o significado e utilização de cada uma destas medidas considere o exemplo a seguir. Imagine que um grande produtor de café envie sua produção para ser embalada em duas empresas diferentes. Este produtor recebeu várias reclamações que a embalagem do seu café possuía menos de 500g, valor este o informado no rótulo do produto. Para tentar solucionar tal dúvida ele resolveu pegar uma amostra de 10 embalagens de cada empresa, conforme apresentado abaixo: Empresa 1 2 3 4 5 6 7 8 9 10 Média(g) S (g) 1 540 531 528 487 424 477 453 439 606 515 500 55 2 505 507 502 499 494 493 500 500 494 506 500 5 Pode-se concluir que ambas empresas possuem em média 500g de café e apenas essa medida de posição não é suficiente para tirar reais conclusões, sendo necessário analisar a variabilidade das embalagens, para isso, usa-se uma medida de dispersão, no caso, o desvio padrão, que indica a dispersão dos dados em relação à média. Portanto, quanto menor esse valor, mais homogênea é a amostra, sendo possível então verificar que a amostra da empresa 1 é mais heterogênea, ou seja, o peso destas embalagens varia mais do que as das embalagens da empresa 2. Porém tivemos uma amostra de 10 embalagens amostrada. Será que esta amostra realizada foi confiável? Repetindo este experimento 24 estatística experimental no rbio seria obtido, a mesma média para ambas empresas? Para solucionar essa questão usa-se o erro padrão da média, que é uma medida de variação de uma média amostral em relação à média da população, e serve, portanto, para verificar a confiabilidade da média amostral calculada. Para obter o erro padrão: ( ) 55 1 17.39 10 Desvio padrãoErro padrãoda média Empresa n = = = ( ) 5 2 1.58 10 Desvio padrãoErro padrãoda média Empresa n = = = De posse do erro padrão pode-se obter o intervalo de confiança para a média. Usando uma tabela de distribuição normal padrão e con- siderando um intervalo de confiança de 95% obtêm-se o valor de 1.96 (ANEXO 1.1). Vale ressaltar aqui, que se o IC é de 95%, tem-se 2.5% dos dados inferiores e 2.5% superiores, conforme o Gráfico 1.3, portanto, na tabela o valor a ser observado é 0.975 correspondendo a 1.96. É necessário enfatizar que se deve usar este método caso o tamanho da população seja igual ou maior que 30 e/ou se o desvio padrão popula- cional (não o amostral) é conhecido. Caso estes pré-requisitos não sejam atendidos deve-se usar o teste t em vez da tabela padrão de estatística Z. O Intervalo de confiança para a média é obtido por: [Média – (1.96 x Erro Padrão); Média + (1.96 x Erro Padrão)] Empresa 1: [500– (1.96 x 17.39); 500 + (1.96 x 17.39)] = [465.9; 534.0] Empresa 2: [500– (1.96 x 1.58); 500 + (1.96 x 1.58)] = [496.9; 503.0] 25 estatística experimental no rbio Sendo assim, com base nesse exemplo hipotético, concluímos que a média das 2 amostras eram semelhantes, porém o desvio padrão da amostra é muito maior para a empresa 1, e consequentemente o erro padrão da média desta empresa também é muito maior. Portanto, o produtor deverá focar em enviar sua produção de café para a em- presa 2 que fornece melhores serviços, uma vez que o erro padrão da média obtido em suas amostras é menor. Gráfico 1.3. Representação de uma distribuição normal padrão. No software R, para a obtenção do valor tabelado, usa-se a tabela t de Student, (ANEXO 1.2), em que t(α/2; N-1), uma vez que não foram seguidos os pré-requisitos, informados anteriormente, como o tamanho da população que é menor que 30, portanto, para o conjunto de dados apresentados na Tabela 1.1 e um nível de significância α = 5% = 0.05, tem-se t(0.025; 5) = 2.571. Dessa forma o erro padrão da média e o intervalo de confiança serão: 24.28 9.91 6 Desvio padrãoErropadrãoda média n = = = [Média – (2.571 x Erro Padrão); Média + (2.571 x Erro Padrão)] [90.33– (2.571 x 9.91); 90.33 + (2.571 x 9.91)] = [64.85; 115.80] 26 estatística experimental no rbio Outra medida usada para mensurar a variabilidade dos dados é o coeficiente de variação (CV), que está ligada a qualidade do ex- perimento, sendo desejado menores valores deste parâmetro. Nesse caso, ele tem uma grande vantagem em relação ao desvio padrão, pois este último é muito afetado pela magnitude dos dados. Dessa forma se o interesse é comparar a variabilidade existente entre diferentes experimentos, para uma mesma variável, pode-se usar o coeficiente de variação, que é definido como a razão entre o desvio padrão e a média. Vale ressaltar que só se deve comparar coeficientes de variação de uma mesma variável, e muitas pessoas, erroneamente, tentam comparar esta medida para variáveis diferentes. Para a variável anali- sada, obtêm-se um cv de 26.87, conforme mostrado abaixo. ( ) 24.28 % 100 100 26.87% 90.33 = = = sCV x x x Vale salientar um artifício muito utilizado em análise de dados. Muitas vezes usa-se mais de uma variável ao mesmo tempo, e estas têm escalas diferentes, sendo necessário fazer algum procedimento para contornar tal inconveniente. Denota-se por codificação de uma variável qualquer, quando subtrai os valores desta variável do valor ob- tido para a média da mesma. Como consequência tem-se que a nova média desta variável codificada será igual a 0, e a variância não irá se alterar. Outro artifício utilizado é padronizar a variável, que é dividir os valores desta variável pelo desvio padrão, e ao fazer isso terá uma variável com variância igual a 1 e a nova média será dada pela média original dividida pelo valor do desvio padrão. Muitas vezes usa-se os dois artifícios ao mesmo tempo, ou seja, dividir pelo desvio padrão e subtrair a média, a consequência disso é que esta variável agora terá média igual a 0 e variância igual a 1. 27 estatística experimental no rbio Resultado das análises Considerando o conjunto de dados apresentados anteriormen- te, as saídas fornecidas pelo Rbio são apresentadas a seguir. Para realizar tal procedimento o usuário deverá acessar o menu Estatística Básica > Estatística Descritiva, conforme Figura 1.1. 28 estatística experimental no rbio Figura 1.1. Software Rbio, e rotina de procedimentos para realizar análise de estatística descritiva. Os scripts para proceder a análise no R e as saídas das análises são apresentadas a seguir. # ----------------------------------- # Script 1: Estatísticas Descritivas # ----------------------------------- # ---------------------- # 1.1- Leitura dos dados # ---------------------- X<-read.table(“c:/_Rbio/ebook/exemplo1.txt”, h=T) # Leitura dos dados X Trat Rep Variavel 1 1 1 66.98 2 1 2 75.61 3 2 1 113.77 4 2 2 126.24 5 3 1 71.87 6 3 2 87.53 # ---------------------- # 1.2- Estatística Descritivas # ---------------------- # 1.2.1- Resumida # ---------------------- summary(X) 29 estatística experimental no rbio Trat Rep Variavel Min.:1.00 Min.:1.0 Min.: 66.98 1st Qu.:1.25 1st Qu.:1.0 1st Qu.: 72.81 Median:2.00 Median:1.5 Median: 81.57 Mean:2.00 Mean:1.5 Mean: 90.33 3rd Qu.:2.75 3rd Qu.:2.0 3rd Qu.:107.21 Max.:3.00 Max.:2.0 Max.:126.24 # ---------------------- # 1.2.2- Completa # ---------------------- library(fBasics) basicStats(X, ci = 0.95) Trat Rep Variavel nobs 6.000000 6.000000 6.000000 NAs 0.000000 0.000000 0.000000 Minimum 1.000000 1.000000 66.980000 Maximum 3.000000 2.000000 126.240000 1. Quartile 1.250000 1.000000 72.805000 3. Quartile 2.750000 2.000000 107.210000 Mean 2.000000 1.500000 90.333333 Median 2.000000 1.500000 81.570000 Sum 12.000000 9.000000 542.000000 SE Mean 0.365148 0.223607 9.915433 LCL Mean 1.061356 0.925200 64.844902 UCL Mean 2.938644 2.074800 115.821764 Variance 0.800000 0.300000 589.894827 Stdev 0.894427 0.547723 24.287751 Skewness 0.000000 0.000000 0.429522 Kurtosis -1.958333 -2.305556 -1.838679 # ---------------------- # 1.3- Histograma # ---------------------- hist(X[,3], col=”gray”, main=”Histograma: Eixo x = Variavel “,ylab=”Amplitude”, xlab= colnames(X)[3] ) 30 estatística experimental no rbio ANEXO 1.1: Tabela da Distribuição Normal padrão reduzida (Z~N (0,1)) P(Z<z) e z positivos. z 0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993 3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 31 estatística experimental no rbio z 0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.99993.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 ANEXO 1.2. Tabela da distribuição t de Student, com nível de significância α e gl graus de liberdade. Nível de significância gl 0.1 0.05 0.025* 0.01 0.005 1 3.078 6.314 12.706 31.821 63.657 2 1.886 2.920 4.303 6.965 9.925 3 1.638 2.353 3.182 4.541 5.841 4 1.533 2.132 2.776 3.747 4.604 5 1.476 2.015 2.571 3.365 4.032 6 1.440 1.943 2.447 3.143 3.707 7 1.415 1.895 2.365 2.998 3.499 8 1.397 1.860 2.306 2.896 3.355 9 1.383 1.833 2.262 2.821 3.250 10 1.372 1.812 2.228 2.764 3.169 11 1.363 1.796 2.201 2.718 3.106 12 1.356 1.782 2.179 2.681 3.055 13 1.350 1.771 2.160 2.650 3.012 14 1.345 1.761 2.145 2.624 2.977 15 1.341 1.753 2.131 2.602 2.947 16 1.337 1.746 2.120 2.583 2.921 17 1.333 1.740 2.110 2.567 2.898 18 1.330 1.734 2.101 2.552 2.878 19 1.328 1.729 2.093 2.539 2.861 20 1.325 1.725 2.086 2.528 2.845 21 1.323 1.721 2.080 2.518 2.831 32 estatística experimental no rbio Nível de significância gl 0.1 0.05 0.025* 0.01 0.005 22 1.321 1.717 2.074 2.508 2.819 23 1.319 1.714 2.069 2.500 2.807 24 1.318 1.711 2.064 2.492 2.797 25 1.316 1.708 2.060 2.485 2.787 26 1.315 1.706 2.056 2.479 2.779 27 1.314 1.703 2.052 2.473 2.771 28 1.313 1.701 2.048 2.467 2.763 29 1.311 1.699 2.045 2.462 2.756 30 1.310 1.697 2.042 2.457 2.750 40 1.303 1.684 2.021 2.423 2.704 50 1.299 1.676 2.009 2.403 2.678 60 1.296 1.671 2.000 2.390 2.660 120 1.289 1.658 1.980 2.358 2.617 ∞ 1.282 1.645 1.960 2.326 2.576 * mais usada. Entra-se com α/2; portanto se deseja teste a 5%, entra com 0.05/2=0.025 33 2 PRINCÍPIOS BÁSICOS DA EXPERIMENTAÇÃO Nas diferentes áreas de pesquisa, incluindo a pesquisa na área agropecuária e florestal, o pesquisador tem interesse em saber qual ou quais variáveis afetam o nosso objeto de pesquisa, podendo assim aumentar a chance de obtermos sucesso. Para estudar estas variáveis e seus comportamentos na pesquisa deve-se realizar experimentos, que são escolhidos pelo pesquisador de forma a entender essa relação entre variáveis e tratamentos. Sendo assim, o planejamento experimental serve para que o pesquisador determine as variáveis que exercem maior influência no objeto de estudo. Quando se realiza determinado experimento, deve-se ter uma unidade onde serão tomados os dados referentes aos efeitos dos tratamentos. Esta unidade é comumente chamada de unidade expe- rimental ou parcela. Pode-se ter parcelas constituídas de uma única planta, como é muito comum na área florestal em experimentos com eucalipto, como pode-se ter parcelas constituídas de uma ou duas linhas de um metro, como acontece por exemplo em experimentos com feijão, ou duas linhas de cinco metros como ocorre em milho. É importante salientar que esta constituição das parcelas pode alterar conforme especificidades do experimento em avaliação. Por exemplo, imagine que um pesquisador deseja saber se usar ou não adubo afeta a produção de uma determinada espécie. O pes- 34 estatística experimental no rbio quisador poderia, portanto, plantar uma linhagem de feijão qualquer, e nela testar 2 tratamentos, com e sem adubo. Após a condução da cultura nos 2 sistemas o pesquisador iria pesar a produção em ambos tratamentos, e observar se existe diferenças entre estas produções. A metodologia correta para montar tais experimentos será discutida a seguir, e como comparar estas produções a determinado nível estatís- tico será visto em capítulos posteriores. Para a realização de experimentos três princípios básicos de- vem ser seguidos: repetição, casualização e controle local. A repetição é importante, pois com ela é possível obter o erro experimental, que será utilizado em comparações dos tratamentos para verificar se as diferenças entre os tratamentos serão ou não signi- ficativas. Além disso, a repetição permite que o valor obtido para cada parcela seja mais confiável, uma vez que os tratamentos terão mais de uma medição, podendo assim obter médias mais precisas. Imagine que ao testar duas linhagens de feijão a linhagem A produziu mais do que a linhagem B. Porém o fato de produzir mais não significa que ela seja realmente melhor. Essa superioridade em produção pode ser devido ao fato da linhagem A ter sido cultivada numa região do solo com mais disponibilidade de nutrientes, portanto a superioridade de produção pode ser devido a adubação diferente e não devido realmen- te a diferença entre as linhagens. Uma forma de solucionar isso seria plantar várias parcelas com a linhagem A e com a B, considerando a média entre elas. Isso seria considerar corretamente a repetição. Porém, o simples fato de se repetir as parcelas não garante que a diferença de produção observada seja devida realmente a diferença entre as linhagens. Imagine que todas as parcelas da linhagem A sejam plantadas na área do solo com maior disponibilidade de nutrientes, e as parcelas de B sejam plantas em área deficiente de nutrientes, en- tão apenas o fato de estarem repetidas não faria com que realmente estivesse sendo feita uma comparação entre as linhagens. Para solu- cionar tal problema deve-se realizar a casualização ou aleatorização, que é dispor os diferentes tratamentos e suas repetições ao acaso no 35 estatística experimental no rbio experimento. Isso faz com que não existam tratamentos que sejam beneficiados por estarem em uma área mais favorável. O controle local é comumente utilizado na experimentação, po- rém no experimento no delineamento inteiramente ao acaso ele não está presente, existindo apenas a repetição. O controle local permite aumen- tar a precisão experimental. Pode-se exemplificar a avaliação de doença num experimento feito por duas pessoas diferentes. Isso poderia levar a uma não homogeneidade dos dados, e assim, cada pessoa poderia ser considerada um bloco. Normalmente em experimentos agronômicos o pesquisador determina o bloco como sendo uma área experimental homogênea, seja por quantidade de nutriente recebido, declividade de solo, ou outro fator que é de conhecimento a priori. Portanto, o impor- tante é que a variação dentro do bloco seja a menor possível, podendo as variações entre blocos serem grandes ou pequenas. Delineamentos que possuem controle local são chamados delineamentos em blocos ao acaso ou casualizados e serão tratados em capítulos posteriores. O bloco não é simplesmente uma repetição, pois ele invoca os princípios de repetição e controle local ao mesmo tempo. O que se deseja com a experimentação é descrever da melhor maneira possível o fenômeno de interesse. O planejamento experimen- tal permite eficiência e economia no processo experimental e o uso de métodos estatísticos na análise dos dados obtidos resulta em conclusões mais objetivas. É de extrema importância que o pesquisador conheça bem a espécie com que irá trabalhar, para realizar os tratos culturais adequados, como também conhecer as variáveis de interesse. É prática comum e errônea montar experimentos sem saber ao certo o objetivo do experimento. A primeira coisa a se fazer é ter claro o objetivo que se deseja. A partir desse momento, deve-se planejar o melhor arranjo experimental para auxiliar na resposta acerca da questão chave do ob- jetivo. Monta-se o experimento com todas as variáveis de interesse já definidas. Faz-se a coleta dos dados, e a partir daí realiza-se a análise dos dados, para concluir sobre a questão definida no objetivo. 36 3 ANÁLISE DE VARIÂNCIA (ANOVA) E SUAS PRESSUPOSIÇÕES Qualquer análise de variância (ANOVA) adota um modelo matemático para descrever as fontes de variação e a aceitação de al- gumas hipóteses básicas. Considere o modelo matemático abaixo para um delineamento inteiramente ao acaso: Yij=m + ti + eij em que: Yij é o valor observado relativo à parcela que recebe o trata- mento i na repetição j m é a média geral do experimento ti é o efeito do tratamento i eij é o erro aleatório,ou seja, contribuição ao acaso da variação devida a fatores não controlados. Para a realização da análise de variância, algumas pressuposi- ções devem ser satisfeitas: 37 estatística experimental no rbio i. Os diversos efeitos do modelo devem ser aditivos, como pode ser visto no modelo matemático anterior; ii. Os erros experimentais devem ser independentes, ou seja, não correlacionados; iii. Os erros devem ter a mesma variância σ2; iv. Os erros devem ter distribuição normal. Com base nos itens ii, iii e iv, normalmente se parte do princípio de que os erros são aleatórios, independentes e normalmente distri- buídos com média zero e variância σ2 e representado por eij ~ N (0, σ 2). Segundo Pimentel-Gomes (2000) estas hipóteses parecem muito restritivas, mas não o são, pois em geral não há grande importância que se verifiquem apenas aproximadamente. Por exemplo, os testes t e F não se alteram muito se a distribuição for apenas aproximadamente normal ou que se afaste bastante da normalidade. Do mesmo modo, a desigualdade das variâncias traz problemas mais sérios, mas não deve ser encarada com excessivo rigor, pois normalmente estas não são muito grandes em sua maioria. Para verificar tal fato usa-se o teste de Bartlett e o de F máximo que serão exemplificados mais adiante, mas desde já se chama a atenção para o fato destes serem muito sensíveis à falta de normalidade. Para caso de excessiva heterogeneidade das variâncias ou não aditividade do modelo, pode-se tentar a transformação da variável em estudo ou usar métodos não paramétricos de análise. Considere um experimento simulado em delineamento em blocos ao acaso segundo o modelo matemático Yij=m + bj + ti + eij. Os dados deste experimento são apresentados na Tabela 3.1, e serão testadas as pressuposições da análise de variância. 38 estatística experimental no rbio Tabela 3.1. Avaliação de uma variável agronômica simulada em delineamento em blocos ao acaso. Tratamentos Blocos Total Média I II 1 66.98 75.61 142.59 71.295 2 113.77 126.24 240.01 120.005 3 71.87 87.53 159.4 79.7 Total 252.62 289.38 542 Média 84.20667 96.46 90.333 a) Pressuposição i: Aditividade do modelo A pressuposição i informa que o modelo deve ser aditivo. Tal pressuposição pode ser testada pelo teste de não aditividade de Tukey (1949), descrito por Steel et al, 1997, em que a Hipótese H0 é a de que os efeitos do modelo são aditivos. A Soma de Quadrados da não aditividade (SQNA), é dada pela expressão: ( )( ) ( ) ( ) 2 . .. . ..1 1 2 2 . .. . ..1 1 t r ij i ji j NA t r i ji j Y Y Y Y Y SQ Y Y x Y Y = = = = − − = − − ∑ ∑ ∑ ∑ ou, de forma alternativa ( )( ) [ ] 2 . .. . ..1 1 t r ij i ji j NA n Y Y Y Y Y SQ SQTxSQB = = − − = ∑ ∑ sendo que n, t e r referem-se ao número total de parcelas, de tratamentos e blocos, respectivamente. O quadrado médio da não aditividade (QMNA) é testado pelo quadrado médio do resíduo (QMRNA) obtido pela expressão: 39 estatística experimental no rbio 1 Erro NA NA Erro SQ SQQMR GL − = − O quadro da ANOVA está apresentado na Tabela 3.2, os cálculos detalhados da obtenção deste quadro no delineamento em blocos ao acaso serão vistos em capítulo posterior. Tabela 3.2. Resultado da análise de variância da variável agronômica simulada. Fonte de Variação GL SQ QM F p-value Blocos 1 225.22 225.22 36.353* 0.026422 Tratamentos 2 2711.87 1355.93 218.868** 0.004548 Erro 2 12.39 6.20 Não aditividade 1 0.5663 0.5663 0.0479 0.8628 Resíduo 1 11.8242 11.8242 *, **: Significativo pelo teste F a 5 e 1% respectivamente. Para o conjunto de dados apresentados na Tabela 3.1 o cálculo da SQNA é: ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 . .. . .. 1 1 66.98 x 71.295 90.3333 84.20667 90.3333 75.61 x 71.295 90.3333 96.46 90.3333 113.77 x 120.005 90.3333 84.20667 90.3333 126.24 x 120.005 90.3333 96.46 90.3333 t r ij i j i j Y Y Y Y Y x x x x = = − − − − + − − + − − = + − − ∑∑ ( ) ( ) ( ) ( ) ( ) ( ) 2 57640.7447 71.87 x 79.7 90.3333 84.20667 90.3333 87.53 x 79.7 90.3333 96.46 90.3333 x x = + − − + − − 40 estatística experimental no rbio ( ) ( ) ( ) ( ) 2 2 2 . .. 1 2 71.295 90.3333 120.005 90.3333 79.7 90.3333 1355.933717 t i i Y Y = − = − + − + − = ∑ ( ) ( ) ( ) 2 2 . .. 1 2 84.20667 90.3333 96.46 90.3333 75.07209 r j j Y Y = − = − + − = ∑ Dessa forma tem-se: ( ) 57640.7447 0.56631355.933717 75.07209NASQ x= = Alternativamente tem-se: Vale ressaltar que: ( )2. .. 1 r j j SQB t Y Y = = −∑ ( )2. .. 1 t i i SQT r Y Y = = −∑ ( )2.. 1 1 t r ij i j SQTotal Y Y = = = −∑∑ 41 estatística experimental no rbio A SQResíduo da não aditividade (SQRNA) é dada por SQErro - SQNA, ou SQTotal - SQT-SQB-SQNA=11.8242 O teste F para não aditividade é dado por QMNA / QMRNA, e no exemplo acima é dado por: F=0.5663/11.8242=0.0479, associado a 1 GL no numerador e [(t-1) (r-1) -1] no denominador. Portanto, nesse caso, 1 GL no denominador. Como F tabelado (5%,1,1) = 161.45 (ANE- XO 3.1) e o F calculado < F tabelado, não se rejeita a Hipótese H0 de que os efeitos do modelo são aditivos, não violando a pressuposição i. Caso o interesse seja realizar o teste a 1% de probabilidade então deve-se consultar a tabela F a 1% (ANEXO 3.2). Vale aqui ressaltar que este exemplo é simulado e, portanto, o GL do Erro é 2, menor do que o desejado para a experimentação. Segundo Pimentel-Gomes (2000), os experimentos devem conter pelo menos 20 parcelas, e não menos do que 10 GL para o resíduo, ou seja, caso um experimento possua 2 tratamentos, deve-se utilizar no míni- mo 10 repetições. b) Pressuposição ii: Independência dos erros A pressuposição ii, refere-se à independência dos erros, isso acontece quando os dados são tomados de forma independente, o que normalmente é resolvido com a correta coleta dos dados. Porém, caso as unidades sejam observadas ao longo do tempo, não se pode afirmar que os erros são independentes, pois uma medida tomada em uma unidade deverá estar correlacionada com a medida tomada nesta mesma unidade em um segundo momento. Nesse caso, a não independência é difícil de corrigir pois deve-se, em geral, à maneira de coletar os dados. Caso haja a suspeita de não atendimento a esta pressuposição, é necessário realizar a análise de resíduos. Esta análise normalmente é gráfica, usando o desvio das observações em relação à média padronizada para cada tratamento, segundo a expressão: 42 estatística experimental no rbio ii eZ QMR = Para o nosso exemplo tem-se: 11 66.98 71.295 1.7329 6.20 Z −= = − 12 75.61 71.295 1.7329 6.20 Z −= = 21 113.77 120.005 2.5040 6.20 Z −= = − 22 126.24 120.005 2.5040 6.20 Z −= = 31 71.87 79.7 3.1446 6.20 Z −= = − 32 87.53 79.7 3.1446 6.20 Z −= = Com os valores calculados, pode-se construir um gráfico de dispersão dos valores de zi calculados (Gráfico 3.1). 43 estatística experimental no rbio Gráfico 3.1. Dispersão gráfica dos valores Zi obtidos com base nos dados da Tabela 3.1. Nessa situação, como se tem apenas duas repetições, e calcu- la-se o desvio em relação à média, os valores serão sempre de mesma magnitude e de sinais contrários. De toda forma, o gráfico acima possui todos estes valores plotados e dispersos. Nota-se a dispersão e independência dos valores, o que mostra a não correlação entre os resíduos. Quando existe forte suspeita de não independência pode-se aplicar ainda um teste estatístico como o de Durbin Watson. A estatís- tica do teste é calculada por: ( ) ( ) 2 12 2 1 T t tt T tt e e d e −= = − = ∑ ∑ sendo que et é o resíduo da regressão associado ao tempo t, e T é o número de observações. Para o conjunto de dados apresentados na Tabela 3.1, o pri- meiro passo é realizar a análise de regressão dos dados (Y) em função dos tratamentos (X), e após isso, obtém-se os seguintes valores de resíduos: -19.151;-10.521; 23.437; 35.907; -22.666; -7.006. 44 estatística experimental no rbio Para obtenção destes valores de resíduos, tem-se resumida- mente a análise de regressão (Tabelas 3.3 e 3.4), considerando Y=B0 + B1X +e (informações adicionais sobre regressão serão fornecidas no capítulo 13 deste material): Tabela 3.3. Tabela auxiliar, para proceder a análise de regressão considerando os dados da Tabela 3.1. Y X y = Y-Y x = X- x2 xy 66.98 1 -23.3533333 -1 1 23.35333 75.61 1 -14.7233333 -1 1 14.72333 113.77 2 23.43666667 0 0 0 126.24 2 35.90666667 0 0 0 71.87 3 -18.4633333 1 1 -18.4633 87.53 3 -2.80333333 1 1 -2.80333 Y = 90.33 X = 2 ∑x2i = 4 ∑xiyi =16.81 Dessa forma pode-se obter os valores de B0 e B1, que são dados por: ( ) ( )1 2 5ˆ , 16.81 4.202 4 i i i cov x y x yB v x x ∑ = = = = ∑ ( )0 1 90.33 4.2025 2 81.92ˆ ˆB Y B X x= − = − = Sendo assim a equação de regressão é dada por: Ŷ = 81.92 +4.2025X. Com base nessa equação calculamos os desvios da regres- são, ou seja, o resíduo, apresentados na Tabela 3.4. 45 estatística experimental no rbio Tabela 3.4. Tabela com os resíduos da análise de regressão, considerando os dados da Tabela 3.1. Y X ˆ . .= +81 92 4 2025Y X e = Y - Ŷ 66.98 1 86.13083333 -19.150833 75.61 1 86.13083333 -10.520833 113.77 2 90.33333333 23.4366667 126.24 2 90.33333333 35.9066667 71.87 3 94.53583333 -22.665833 87.53 3 94.53583333 -7.0058333 Após apresentado como obter os valores dos resíduos, proce- de-se a realização do teste estatístico, de tal forma que se tem: ( )21 2 T t t t e e − = −∑ = ( ) ( ) ( ) ( ) ( ) 2 2 2 2 2 10.521 19.151 23.437 10.521 35.907 23.437 22.666 35.907 7.006 22.666 5059.15 − − − + − − + − + − − + − − − = ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 1 2 2 2 2 2 2 19.151 10.521 23.437 35.907 22.666 7.006 2878.88 T t t e = = − + − + + + − + − = ∑ 1.7573d = Os valores de d variam sempre de 0 a 4, sendo que valores substancialmente menores que 2 evidenciam uma correlação positi- va, e valores maiores que 2 indicam correlação negativa. Os valores abaixo de 1 podem servir de alarme. O valor de d encontrado pode ser confrontado com valores tabelados para verificar sua significância. 46 estatística experimental no rbio Para o nosso exemplo, o valor de d encontrado foi não significativo e, portanto, não se rejeita a hipótese de correlação = 0 para os resíduos, indicando que os erros são independentes, uma vez que não existe correlação entre eles. c) Pressuposição iii: Homogeneidade de variância Para testar a homogeneidade de variância (pressuposição iii), diferentes procedimentos podem ser utilizados. Um deles é o teste de Bartlett. Este teste é sensível em relação a hipótese de normalidade. Com isso, se rejeitarmos a hipótese de normalidade dos dados, é mais indicada a utilização de outro teste, como o proposto por Levene. Para o cálculo da estatística de Bartlett deve-se utilizar as expressões a seguir, em que N corresponde ao número total de observações, k ao número de tratamentos e n o número de repetições ( )2.2 1 1 ni ij i i j i y y s n= − = −∑ ( )2 2 1 1 1 k P i i i s n s N k = = − − ∑ ( ) ( ) ( )2 2 1 *ln( ) [ 1 *ln ] k P i i i q N k s n s = = − − −∑ ( ) 1 1 1 11 3 1 1 k i i c k n N k= = + − − − − ∑ 47 estatística experimental no rbio então 0 qB c = sendo que H0 é a igualdade das variâncias e B0 tem distribuição assintótica de qui-quadrado com k-1 graus de liberdade. Portanto, se B0 > χ 2 (alfa; k-1), rejeita-se H0. Para o conjunto de dados apresentados na Tabela 3.1, o cálculo do teste de Bartlett é: ( ) ( )2 22 1 66.98 71.295 75.61 71.295 37.23845 2 1 2 1 s − − = + = − − ( ) ( )2 22 2 113.77 120.005 126.24 120.005 77.75045 2 1 2 1 s − − = + = − − ( ) ( )2 22 3 71.87 79.7 87.53 79.7 122.6178 2 1 2 1 s − − = + = − − ( ) ( ) ( ) 2 2 1 *37.23845 2 1 *77.750451 79.20223 6 3 2 1 *122.6178 Ps − + − = = − + − ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 1 *ln 37.23845 6 3 *ln 79.20223 2 1 *ln 77.75045 0.336095 2 1 *ln 122.6178 q − = − − + − = + − 48 estatística experimental no rbio ( ) 1 1 1 1 11 1.4444 3 3 1 2 1 2 1 2 1 6 3 c = + + + − = − − − − − 0 0.336095 0.23268 1.4444 B = = Para o referido exemplo, = 5.99 (ANEXO 3.3), e sendo B0 < χ 2, então não se rejeita a hipótese de nulidade, de forma que as variâncias podem ser consideradas homogêneas. d) Pressuposição iv: Normalidade dos erros A pressuposição iv refere-se à normalidade dos erros, sendo que quando os dados apresentam normalidade é esperado que os er- ros também sejam normalmente distribuídos. Caso tal pressuposição seja violada, o pesquisador deverá avaliar a possibilidade de transfor- mação dos dados. Segundo Pimentel-Gomes (2000), os testes mais frequentemente usados (t e F) não se alteram muito se a distribuição for apenas aproximadamente normal, ou mesmo que a distribuição se afaste bastante da normalidade. Esse autor salienta ainda que a nor- malidade dos erros jamais é verificada nos experimentos, pois como primeira condição deveria haver possibilidade de observações de -α até +α, o que não ocorre, mas é razoável que haja uma aproximação, principalmente quando existe repetição para todos os tratamentos. Existem diferentes métodos para avaliar a normalidade. Po- de-se realizar análises de simetria e curtose, verificando-se o quanto a distribuição afasta-se da simetria e o grau de achatamento da dis- tribuição, respectivamente. Alternativamente, pode-se utilizar testes estatísticos, como Lilliefors, Kolmogorov-Smirnov e Shapiro-Wilk. 49 estatística experimental no rbio Simetria Para o cálculo da simetria, utiliza-se a expressão a seguir, em que n é o tamanho da amostra, e s o desvio padrão dos dados: 3 1 iX XSimetria n s − = ∑ Em termos gráficos tem-se que os tipos possíveis de simetria são apresentados na Figura 3.1. Figura 3.1. Diferentes distribuições considerando os tipos de possíveis graus de simetria. Para o conjunto de dados apresentados na Tabela 3.1, o cálculo da simetria é: 3 3 3 3 3 3 66.98 90.3333 75.61 90.3333 24.28775 24.28775 1 113.77 90.3333 126.24 90.3333 6 24.28775 24.28775 71.87 90.3333 87.53 90.3333 24.28775 24.28775 Simetria − − + − − = + + − − + + 0.4295 = 50 estatística experimental no rbio A hipótese H0 é de que os dados tenham distribuição simétri- ca, portanto simetria = 0; este valor é testado via teste t, que usando softwares encontra-se o valor de 0.4295 com p-value =1.31; como p-value é >0.05, não se rejeita a Hipótese H0, logo os dados são con- siderados simétricos. Curtose Para o cálculo da curtose, utiliza-se a expressão a seguir, em que n é o tamanho da amostra, e s o desvio padrão dos dados: 4 1 3iX XCurtose n s − = ∑ − Em termos gráficos tem-se que os tipos possíveis de curtose são apresentados na Figura 3.2. Figura 3.2. Diferentes distribuições considerando os tipos de curtose existentes. Para o conjunto de dados apresentados na Tabela 3.1 o cálculo da curtose é: 51 estatística experimental no rbio 4 4 4 4 4 4 66.98 90.3333 75.61 90.3333 24.28775 24.28775 1 113.77 90.3333 126.24 90.3333 6 24.28775 24.28775 71.87 90.3333 87.53 90.3333 24.28775 24.28775 Curtose − − + − − = + + − − + + 3 1.8386 − = − A hipótese H0 é de que os dados tenham distribuição mesocúr- tica, portanto curtose = 0. Este valor encontrado é testado via teste t, que pelo uso de softwares encontra-se o valor de -0.9193 com p-value =0.40; como p-value é >0.05, não se rejeita a Hipótese H0 e, portanto, os dados são considerados normais. Teste de Lilliefors e Kolmogorov-Smirnov Os testes Lilliefors e Kolmogorov-Smirnov são semelhantes na forma de obter seus valores, sendo que o Lillieforsinfere se os dados têm distribuição normal com média e variância amostral, enquanto o Kolmogorov-Smirnov se tem média e variância populacional. A hipótese H0 é de que os dados seguem distribuição normal. Estes testes devem ser usados quando o tamanho da amostra for superior a 30. No caso de amostras menores do que 30 sugere-se o uso do teste Shapiro-Wilk. É importante deixar claro que é necessário obter os valores dos resíduos dos dados (Tabela 3.5), uma vez que a normalidade a ser verificada é em relação aos resíduos. Para a obtenção considerando o conjunto de dados e considerando que o delineamento é o de blocos ao acaso tem-se: . . .. ij ij i je X X X X= − − + 52 estatística experimental no rbio Em que: . jX : Média da repetição j em que a observação pertence ..X : Média Geral da variável Tabela 3.5. Resultado com os resíduos considerando os dados apresentados na Tabela 3.1 e delineamento em blocos ao acaso. Observação Valores observados (X) Resíduo: . . ..ij ij i je X X X X= − − + 1 66.98 66.98 - 71.295 - 84.206 + 90.333 = 1.811 2 75.61 75.61 - 71.295 - 96.46 + 90.333 = -1.811 3 113.77 113.77 - 120 - 84.206 + 90.333 = -0.108 4 126.24 126.24 - 120-96.46 + 90.333 = 0.108 5 71.87 71.87 - 79.7 - 84.206 + 90.333 = -1.703 6 87.53 87.53 - 79.7 - 96.46 + 90.333 = 1.703 O teste realiza o cálculo de todos os zi, os quais devem ser ordenados para as seguintes considerações. Assim, são obtidos a partir de xi os dados transformados zi: i i Xz µ σ − = , em que: zi = valor da variável normal padronizada da classe i; Xi = valor máximo da classe i; µ = média da população que se pressupõe ter proporcionado a amostra de dados; σ desvio padrão da população. Utilizando-se a tabela de distribuição normal reduzida, é possí- vel determinar as probabilidades correspondentes a cada zi: F(zi) = FEi = ( )iP Z z−∞ ≤ ≤ = valor da tabela de distribuição normal reduzida (área); S(zi) = FOi = ni/n 53 estatística experimental no rbio em que: ni = número de valores observados em ordem crescente ≤ zi; n = número total de observações da amostra. D = máximo |F(zi) - S(zi)|. O teste é bilateral, como segue: H0: é razoável estudar os dados através da distribuição normal; Ha: não é razoável estudar os dados através da distribuição normal. Rejeita-se a hipótese de nulidade quando o valor de Dcal ≥ Dtab, a um nível α de probabilidade com n observações, caso contrário não se rejeita H0. Deve-se lembrar, porém, que a não rejeição de H0 indica ape- nas que esta é uma razoável aproximação da distribuição desconhecida. De forma resumida, a estatística do teste é a apresentada na Tabela 3.6. Tabela 3.6. Estatística do teste Kolmogorov-Smirnov e Lilliefors. x (ordenados) ( )nF x ( ) ( ) ( ) − = ≤ i i x x F x P z s ( )( ) ( )( )− ni iF x F x ( )( ) ( )( )1−− ni iF x F x ( )1x 1 n ( ) ( ) ( )1 1 − = ≤ x x F x P z s ( )( ) ( )( )1 1− nF x F x ( )( )1 0−F x ( )2x 2 n ( ) ( ) ( )2 2 − = ≤ x x F x P z s ( )( ) ( )( )2 2− nF x F x ( )( ) ( )( )2 1− nF x F x ... ... ... ... ... ( )1−nx 1−n n ( ) ( ) ( )1 1 − − − = ≤ n n x x F x P z s ( )( ) ( )( )1 1− −− nn nF x F x ( )( ) ( )( )1 2− −− nn nF x F x ( )nx 1 ( ) ( ) ( ) − = ≤ n n x x F x P z s ( )( ) ( )( )− nn nF x F x ( )( ) ( )( )1−− nn nF x F x 54 estatística experimental no rbio O valor de ( ) ( )ii x x P z s − ≤ é encontrado na tabela da distribuição normal padrão (ANEXOS 3.4 e 3.5). Por exemplo, considerando os dados da Tabela 3.5, cujo desvio padrão (s) dos resíduos é = 1.574194, e a primeira linha da Tabela 3.7 abaixo, tem-se que: ( ) ( ) ( )( )1 11.811 0 1.153 0.12461.57F x P z P z − − = ≤ = ≤ − = Considerando que o valor da estatística é negativo (-1.153), por meio da Tabela disponível no ANEXO 3.5 obtém-se o valor de 0,1246. A Tabela 3.7 apresenta os cálculos do teste para o conjunto de dados contidos na Tabela 3.1. Caso o valor fosse positivo usava-se o ANEXO 3.4. Com isso, o Dn máximo (0.1937; 0.1937 =0.1937). Consideran- do a Tabela de D (ANEXO 3.6), com alfa = 0.05 e n = 6, tem-se que encontramos pela tabela valores críticos de 0.5193. Como D=0.1937 <0.5193, não temos evidência para rejeitar a hipótese de normalidade, portanto os dados podem ser considerados com distribuição normal pelo teste Lilliefors. 55 estatística experimental no rbio Tabela 3.7. Estatística do teste Kolmogorov-Smirnov e Lilliefors considerando os resíduos apresentados na Tabela 3.5. x (ordenados) ( )nF x ( ) ( ) ( ) − = ≤ i i x x F x P z s ( ) ( ) ( )( )− ni iF x F x ( )( ) ( )( )1−− ni iF x F x -1.811 1 0.1667 6 = ( ) ( )1 1.811 0 0.1246 1.57 F x P z − − = ≤ = 0.1246 0.1667 0.0419− = 0.1246 0 0.1246− = -1.703 2 0.3333 6 = ( ) ( )2 1.703 0 0.1393 1.57 F x P z − − = ≤ = 0.1393 0.3333 0.1937− = 0.1393 0.1667 0.0272− = -0.108 3 0.5 6 = ( ) ( )3 0.108 0 0.4999 1.57 F x P z − − = ≤ = 0.4999 0.5 0.0001− = 0.4999 0.3333 0.1666− = 0.108 4 0.6667 6 = ( ) ( )4 0.108 0 0.50 1.57 F x P z − = ≤ = 0.50 0.6667 0.1666− = 0.50 0.5 0.0− = 1.703 5 0.8333 6 = ( ) ( )5 1.703 0 0.8606 1.57 F x P z − = ≤ = 0.8606 0.8333 0.0272− = 0.8606 0.6667 0.1937− = 1.811 6 1 6 = ( ) ( )6 1.811 0 0.8753 1.57 F x P z − = ≤ = 0.8753 1 0.1246− = 0.8753 0.8333 0.0419− = Máximo 0.1937 0.1937 Teste de Shapiro-Wilk O teste Shapiro-Wilk, proposto em 1965, é baseada na estatís- tica W, a qual é dada por: ( )( ) 2 2 1 n ii bW x x = = −∑ Em que x(i) são os valores da amostra ordenados (x (1) é o menor). A constante b é determinada da seguinte forma: 56 estatística experimental no rbio ( ) ( ) ( )( ) ( ) ( ) ( ) ( )( ) 2 1 1 1 1 /2 1 1 1 n n i n i i i n n i n i i i a x x x sené par b a x x x sené ímpar − + − + − = + − + − + − = = ∑ ∑ em que a(n-i+1) são constantes geradas pelas médias, variâncias e covariâncias das estatísticas de ordem de uma amostra de tamanho n de uma distribuição normal. Seus valores, tabelados, são dados no ANEXO 3.7. A hipótese H0 é de que os dados provêm de uma distribui- ção normal. Como mencionado anteriormente, o teste Shapiro-Wilk é indicado quando o tamanho amostral é inferior a 30. De forma simplificada, para calcular a estatística do teste, de- ve-se ordenar os valores dos resíduos da amostra, calcular b, calcular W e tomar a decisão sendo que se W calculado for < que W tabelado (ANEXO 3.8), rejeita-se H0 ao nível α de significância. Este teste é nor- malmente aplicado quando n <30. O teste realizado com base no conjunto de resíduos apresenta- dos na Tabela 3.5 é apresentado a seguir na Tabela 3.8: ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 2 1 2 2 2 1.811 0 1.703 0 0.108 0 0.108 0 1.703 0 1.811 0 12.3904 n i i x x = − = − − + − − + − − + − + − + − = ∑ 57 estatística experimental no rbio Tabela 3.8. Estatística do teste Shapiro-Wilk considerando os resíduos (xi) apresentados na Tabela 3.5. x (ordenados) i xi n-i+1 x(n-i+1) a(n-i+1) tabelado (i\n) a(n-i+1) x (x(n-i+1) - xi) -1.8116 1 -1.8116 6 1.8116 0.6431 2.33016 -1.7033 2 -1.7033 5 1.7033 0.2806 0.95591 -0.1083 3 -0.1083 4 0.1083 0.0875 0.01895 0.1083 Soma (b) 3.3050 1.7033 1.8116 23.3050 0.8816 12.3904 W = = Sendo assim a decisão é, como W calculado=0.8816> W (0.05;6) = 0,788 (ANEXO 3.8), então pode-se afirmar com nível de significância de 5% que a amostra provém de uma população normal. Alternativamente, pode-se utilizar opções gráficas para analisar os pressupostos da análise de variância, via análise dos resíduos. O resíduo pode ser obtido pela expressão para delineamentos inteiramente casualizado: .ij ij ie X X= − Em que: ije : resíduo da observação ij do tratamento i na repetição j ijX : Valor observado pela variável no tratamento i na repetição j .iX : Média do tratamento i em que a observação pertence O resíduo padronizado é obtido dividindo o resíduo pela raiz quadradado QMR ( QMR ) A expressão acima é válida para o expe- rimento em delineamento inteiramente ao acaso, caso o experimento seja em blocos ao acaso deve-se usar: 58 estatística experimental no rbio . . .. ij ij i je X X X X= − − + Em que: . jX : Média da repetição j em que a observação pertence ..X : Média Geral da variável Uma opção gráfica importante é o diagrama de dispersão do re- síduo versus valor predito. Com base nesse valor pode-se inferir sobre: • Heterocedasticidade de ɛi • Detectar prováveis dados atípicos Em um modelo bem ajustado os resíduos são dispersos aleatoria- mente, em torno de zero, com variância constante, concentrados entre -2 e 2 (desejado 95% dentro deste intervalo), e com poucos pontos acima de 3 ou abaixo de -3. Resíduos fora do intervalo -3 a 3 pode ser conside- rado dado discrepante. Nesse sentido é importante verificar a planilha de dados se é um erro de digitação, ou se realmente é um evento típico já observado pelo pesquisador. Só após isso devem ser descartados. Diferentes possibilidades de dispersão de resíduos são apre- sentadas na Figura 3.3. 59 estatística experimental no rbio (a) (b) 60 estatística experimental no rbio (c) (d) Figura 3.3. Dispersão gráfica dos resíduos e valores preditos em diferentes cenários. 61 estatística experimental no rbio Conforme Figura 3.3 as figuras são diferenciadas por letras, portanto será: a. Figura com a presença de alguns resíduos extremos, além do intervalo -3 a 3. b. Distribuição dos resíduos indicando boa qualidade de ajuste c. Resíduos com distribuição assimétrica, pode-se notar que os pontos estão na sua grande maioria entre -1 a 1. Não existem pontos abaixo de -1.5, porém existe muitos pontos acima de 1.5 d. Resíduos sem variância constante portanto heterocedásticos Considerando o conjunto de dados da Tabela 3.1, e para um de- lineamento em DIC, pode-se obter os valores de resíduos, bem como os valores preditos. Nesse caso os valores preditos são exatamente os valores da média, esses dados estão apresentados na Tabela 3.9. Tabela 3.9. Resultado com os resíduos e os valores preditos considerando os dados apresentados na Tabela 3.1. Observação Valores observados (X) Resíduo: .ij ij ie X X= − Valores preditos (Xp) p ij ijX X e= + 1 66.98 66.98 - 71.29 = -4.315 71.29 2 75.61 75.61 - 71.29 = 4.315 71.29 3 113.77 113.77 - 120 = -6.235 120 4 126.24 126.24 - 120 = 6.235 120 5 71.87 71.87 - 79.7 = -7.83 79.7 6 87.53 87.53 - 79.7 = 7.83 79.7 O Gráfico 3.2 representa os valores dos resíduos com os valores preditos considerando o exemplo: 62 estatística experimental no rbio Gráfico 3.2. Dispersão gráfica dos valores dos resíduos preditos e preditos com base nos dados da Tabela 3.1 e delineamento inteiramente ao acaso. Como são poucos dados experimentais, não se espera um bom ajuste. Verifica-se pontos além de -3 e 3 que são indicativos de pontos discrepantes. Vale salientar que o objetivo aqui é apenas para fins didáticos, de cálculo e interpretação. Para avaliação da normalidade uma opção é o uso do gráfico QQplot. Para realizar este gráfico deve-se seguir os seguintes passos: 1. Ordenar em ordem crescente os dados 2. Estabelecer o nível de probabilidade de ocorrência de cada observação (j) pela expressão 1 2 j n − em que n é o número total de observações 3. Estimar o valor de Z da distribuição normal padronizada. Por exemplo para o primeiro valor do exemplo abaixo, por- tanto j= 1, tem-se 1 2 0.083 j n − = : Como isso refere-se a 8.3% da curva de distribuição normal, portanto, abaixo da média, 63 estatística experimental no rbio que equivale a 50% da distribuição normal. Considerando os dados da ANEXO 3.5 o valor equivalente a 0.083 é o z de -1.38. É importante salientar que esse número é negativo pois encontra-se abaixo do valor de 50%. 4. Traçar um gráfico utilizando no eixo x os valores de Z(j) e no eixo y os valores de X(j). Se a distribuição for normal haverá a tendência de formar uma linha reta no gráfico. 5. Estimar a correlação entre Z(j) e X(j) de forma a superar a superficialidade na interpretação gráfica. Essa mede o grau de ajustamento dos pontos a reta imaginária. Quanto mais próximo de 1 maior o ajustamento e maior tendência a normal. Considerando o conjunto de dados apresentados na Tabela 3.1, o cálculo para obtenção do QQplot é apresentado na tabela 3.10. Tabela 3.10. Cálculos necessários para a obtenção do QQplot considerando os dados apresentados na Tabela 3.1. j x (ordenados) 1 2 j n − Z(j) 1 66.98 11 2 0.083 6 − = -1.38 2 71.87 12 2 0.25 6 − = -0.675 3 75.61 13 2 0.416 6 − = -0.21 4 87.53 14 2 0.583 6 − = 0.21 64 estatística experimental no rbio j x (ordenados) 1 2 j n − Z(j) 5 113.77 15 2 0.75 6 − = 0.675 6 126.24 16 2 0.916 6 − = 1.38 O Gráfico 3.3 representa o resultado do exemplo anterior Gráfico 3.3. Quantil-qualtin (Q-Q) plot considerando o exemplo com base nos dados da Tabela 3.1. A correlação entre os valores de X(j) e Z(j) é de 0.945. Consi- derando o valor te t tabelado, a n-2 graus de liberdade, tem-se valor tabelado de t tabelado igual a 0.917. Como correlação calculada é maior do que valor tabelado portanto aceita-se a hipótese de que os dados da variável simulada seguem distribuição normal. 65 estatística experimental no rbio Um terceiro gráfico útil é aquele obtido entre os resíduos pa- dronizados no eixo y com os valores das observações no eixo x. Esse gráfico é similar ao que foi apresentado aqui com resíduo vs predito. Mas isso só acontece nesse caso uma vez que se trata de um experi- mento em dic. Caso fosse outro delineamento, o predito seria diferente da média, portanto seria um outro gráfico útil. Nesse caso se procede a interpretação da mesma forma. Valores de resíduos além de -3 ou 3 evidenciam dados discrepantes que devem ser observados pelo pes- quisador. Como aqui é o resíduo e o valor observado que são plotados, o pesquisador consegue identificar diretamente o ponto discrepantes. Normalmente quando os dados não possuem distribuição nor- mal e/ou homogeneidade de variância, procede-se à transformação dos dados. Porém, ao utilizar uma transformação de dados, todas as comparações de médias entre os tratamentos deverão ser realizadas na escala de transformação escolhida. Nos exemplos realizados acima, a transformação dos dados não seria necessária, uma vez que eles atenderam às pressuposições da ANOVA. Caso fosse necessário, existem diferentes formas de escolher a transformação dos dados a serem utilizadas. Uma delas é a utilização o coeficiente de variação (o que será discutido no próximo capítulo). Quando o valor do CV dos dados transformados for menor do que o dos dados originais, a transformação foi válida. Se calcularmos o CV do conjunto de dados da Tabela 3.1, tem-se o valor 26.886. Ao aplicar a transformação log o valor obtido é de 5.78, e ao usar a transformação de raiz quadrada tem-se o valor de 13.23 (Tabela 3.11). Portanto, se fosse necessário realizar a transformação, haverá indícios de que a utilização da log poderia ser eficiente. 66 estatística experimental no rbio Tabela 3.11. Utilização do coeficiente de variação (CV) de forma a auxiliar na transformação de dados, considerando os dados da Tabela 3.1. Dados originais Log (dados) Raiz (dados) 66.98 1.825945143 8.184130986 71.87 1.856547645 8.47761759 75.61 1.878579238 8.695401083 87.53 1.942156928 9.355746897 113.77 2.056027758 10.66630208 126.24 2.101196986 11.23565752 CV= 26.88680872 CV= 5.781744502 CV= 13.23087198 Uma outra maneira de auxiliar a transformação dos dados é obter a amplitude entre maior e menor valor observado para cada tratamento, depois fazer a razão entre amplitude máxima e mínima conforme Tabela 3.12. Tabela 3.12. Razão entre maior e menor amplitude de médias de forma a auxiliar na transformação de dados, considerando os dados da Tabela 3.1. Tratamentos Log (dados) Raiz (dados) Maior Menor Amplitude
Compartilhar