Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA EXPERIMENTAL: CONCEITOS, ANÁLISES E INTERPRETAÇÃO Paulo Roberto Cecon Fabyano Fonseca e Silva Luiz Alexandre Peternelli UFV Novembro, 2006 Universidade Federal de Viçosa Departamento de Informática Setor de Estatística ÍNDICE 1. ESTATÍSTICA DESCRITIVA................................................................................1 1.1. Medidas de Posição 1.1.1. Média aritmética simples 1.1.2. Média aritmética ponderada 1.2. Medidas de Dispersão.......................................................................................2 1.2.1. Variância amostral 1.2.2. Desvio padrão amostral 1.2.3. Coeficiente de variação 1.2.4. Erro-padrão da média.....................................................................................3 2. TESTES NÃO PARAMÉTRICOS 2.1. Teste de Qui Quadrado ( ) .......................................................................................4 2.2. Teste de Wilcoxon.............................................................................................7 2.2.1 Dados pareados (amostras dependentes) 2.2.2 Amostras independentes.................................................................................9 2.2. Teste de Kruskal-Wallis...................................................................................10 2.2.1 Comparações múltiplas.................................................................................11 2.3. Teste de Friedman...........................................................................................13 3. PRINCÍPIOS DA ESTATÍSTICA EXPERIMENTAL............................................15 3.1. Unidade experimental ou parcela 3.2. Repetição, casualização e controle local.........................................................16 3.2.1 Repetição 3.2.2 Casualização 3.2.3 Controle Local..............................................................................................17 3.3 Grau de Liberdade (GL)..................................................................................18 4. ANÁLISE DA VARIÂNCIA..................................................................................19 4.1. Variação entre tratamentos 4.2. Variação dentro de tratamentos 4.3. Aplicação.........................................................................................................21 5. O MODELO MATEMATICO..............................................................................25 5.1 Conceituação, componentes e classificação 5.1.1 Conceituação e componentes 5.1.2 Classificação.................................................................................................26 5.1.2.1 Modelos Aleatórios 5.1.2.2. Modelos Fixos............................................................................................27 5.1.2.3. Modelos Mistos 5.2 Desenvolvimento e restrições do modelo.......................................................29 5.2.1 Aditividade dos efeitos 5.2.2 Normalidade de erros 5.2.3 Independência dos erros.............................................................................30 5.2.4 Homogeneidade de variâncias 6. PRINCIPAIS DELINEAMENTOS EXPERIMENTAIS..........................................31 6.1 Delineamento Inteiramente Casualizado 6.1.1 Conceituação 6.1.2 Aplicações......................................................................................................34 6.2 Delineamento em Blocos Casualizados...........................................................37 6.2.1 Conceituação 6.2.2 Aplicações......................................................................................................40 6.3 Delineamento em Quadrados Latinos..............................................................43 6.3.1 Conceituação 6.3.2. Aplicações.....................................................................................................46 7.TESTES DE COMPARAÇÃO DE MÉDIAS.........................................................48 7.1. Contrastes 7.1.1. Contrastes Ortogonais..................................................................................50 7.1.2. Variância de um contraste 7.2. Teste da Diferença Mínima Significativa (DMS) 7.3. Teste de Bonferroni.........................................................................................51 7.4.Teste de Scheffé...............................................................................................52 7.5.Teste de Tukey.................................................................................................53 7.6.Teste de Duncan...............................................................................................54 7.7.Teste de Dunnett..............................................................................................56 7.8. Procedimento de Scott-Knott...........................................................................57 7.9. Comentários gerais 7.9.1. Vantagens e desvantagens dos procedimentos de comparações de médias 7.9.2. Fatores Qualitativos versus Fatores Quantitativos.......................................58 8 EXPERIMENTOS FATORIAIS............................................................................61 8.1 Conceituação 8.2 Aplicações.........................................................................................................64 9 EXPERIMENTOS EM PARCELAS SUBDIVIDIDAS...........................................78 9.1 Conceituação 9.2 Aplicações.........................................................................................................81 9.3 Experimentos em faixas....................................................................................87 10 REGRESSÃO LINEAR SIMPLES E CORRELAÇÃO........................................89 10.1 Regressão Linear Simples 10.1.1 Conceituação 10.1.2 Aplicações....................................................................................................92 10.2 Coeficiente de determinação..........................................................................93 10.3 Correlação 10.3.1 Conceituação 10.3.2 Aplicação.....................................................................................................96 11 REGRESSÃO LINEAR MÚLTIPLA E SUPERFÍCIE DE RESPOSTA...............97 11.1 Regressão múltipla 11.1.1 Conceituação 11.1.2 Análise de variância da Regressão múltipla..............................................100 11.1.3 Aplicação...................................................................................................102 11.2 Superfície de resposta .................................................................................104 11.2.1 Conceituação 11.2.2 Aplicação...................................................................................................105 12 REGRESSÃO NÃO LINEAR...........................................................................106 12.1 Conceituação 12.2 Modelos de crescimento sigmoidal...............................................................107 12.3 Estimação em modelos de regressão não linear..........................................109 12.4 Alguns aspectos do uso de modelos não lineares.......................................111 REFERÊNCIAS BIBLIOGRÁFICAS………………………………………………….112 Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 1 1. ESTATÍSTICA DESCRITIVA A estatística descritiva é um ramo da estatística que aplica várias das muitas técnicas usadas para sumarizar um conjunto de dados. De certaforma estamos tentando descrever ou sumarizar as características dos dados que pertencem a esse conjunto. As técnicas usadas costumam classificar-se como: 1) Gráficos descritivos. Gráficos são usados para sumarizar os dados. 2) Discrição Tabular, na qual usamos tabelas para sumarizar os dados 3) Descrição Paramétrica, na qual estimamos os valores de certos parâmetros os quais assumimos que completem a descrição do conjunto dos dados. De acordo com os objetivos do presente material, vamos nos conter a apresentar apenas esta última técnica, a qual pode ser dividida em: Medidas de Posição (Tendência Central) e Medidas de Dispersção. 1.1. Medidas de Posição São parâmetros que representam um valor central, em torno do qual os dados são agrupados. O mais importante destes parâmetros é a média, cujas representações são: 1.1.1. Média aritmética simples É a média aritmética mais utilizada, que é obtida dividindo-se a soma das observações pelo número delas. É um quociente geralmente representado pelo símbolo X . Se tivermos uma série de n valores de uma variável X, a média aritmética simples será determinada pela expressão: X = (x1 + x2 + x3 + x4 + ... + xn) / n. 1.1.2. Média aritmética ponderada Consideremos uma coleção formada por n números racionais: x1, x2, x3, ..., xn, de forma que cada um esteja sujeito a um peso [Nota: "peso" é sinónimo de "ponderação"], respectivamente, indicado por: p1, p2, p3, ..., pn. A média aritmética ponderada desses n Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 2 números é a soma dos produtos de cada um por seu peso, dividida por n, isto é: (x1p1 + x2p2 + x3p3 + ... + xnpn) / p1 + p2 + p3 + ... + pn, em que: 1 n i i n p 1.2. Medidas de Dispersão São parâmetros que quantificam a discrepância dos dados em torno de uma medida de posição. A seguir são listadas algumas destas medidas: 1.2.1. Variância amostral É uma medida da dispersão estatística de um conunto de observações amostrais, indicando quão longe em geral os seus valores se encontram da média aritmética. Sua fórmula é dada por: 2 2 2 1 2 1 1 1 1 n in n i i i i i X X X X n S n n Torna-se importante ressaltar que a unidade da variância é dada em termos da unidade da variável ao quadrado. Exemplo: kg 2 , cm 2 , (T/ha) 2 , etc... 1.2.2. Desvio padrão amostral O desvio padrão amostral (S) é a medida mais comum de dispersão estatística. Este corresponde a raiz quadrada positiva da variância, 2S S . É definido desta forma de maneira a dar-nos uma medida da dispersão que seja um número não negativo e ao mesmo tempo apresente as mesmas unidades de medida dos dados. 1.2.3. Coeficiente de variação O coeficiente de variação é uma medida que se presta para a comparação da dispersão entre conjunto de dados que apresentam médias diferentes. O desvio-padrão é relativo à média, e como dois conjuntos de dados podem ter médias diferentes, o desvio desses dois conjuntos não é comparável. A solução é usar um coeficiente que represente a magnitude do desvio-padrão em relação a média, ou qual pode ser deduzido a partir de uma simples regra: 100%X S CV , assim tem-se: 100 S CV X . É importante ressaltar que: CV , porém na avaliação dos resultados usa-se CV . Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 3 Outra observação interessante é que o CV também é indicado para avaliar a dispersão e conjuntos de dados que apresentam diferentes unidades. 1.2.4. Erro-padrão da média Se retirarmos de uma população um número relativamente grende, m, de amostras aleatórias de mesmo tamanho, n, não devemos esperar que todas as médias amostrais sejam iguais. De fato, o que obtemos é um conjunto das médias amostrais, portanto, o ―desvio- padrão‖ desse conjunto é o que denominamos de erro-padrão da média. Sua fórmula é dada por: S EP n Exemplo. Considere X={2,5,7,10} e Y={1,7,10,12} 6, 3,3665, 56,1083, 1,6832 X X X X S CV EP 7,5, 4,7958, 63,9444, 2,3979 Y Y Y Y S CV EP 2. TESTES NÃO PARAMÉTRICOS Os testes estatísticos podem ser divididos em dois grandes grupos, conforme fundamentem ou não os seus cálculos na premissa de que a distribuição de freqüências dos erros amostrais é normal, as variâncias são homogêneas, os efeitos dos fatores de variação são aditivos e os erros independentes. Se tudo isso ocorrer, é muito provável que a amostra seja aceitavelmente simétrica, terá com certeza apenas um ponto máximo, centrado no intervalo de classe onde está a média da distribuição, e o seu histograma de freqüências terá um contorno que seguirá aproximadamente o desenho em forma de sino da curva normal. O cumprimento desses requisitos condiciona pois a primeira escolha do pesquisador, uma vez que, se forem preenchidos, ele poderá utilizar a estatística paramétrica, cujos testes são em geral mais poderosos do que os da estatística não-paramétrica, e conseqüentemente devem ter a preferência do investigador, quando o seu emprego for permitido. Segundo campos (1979) Um teste não-paramétrico é aquele cujo modelo não especifica condições sobre os parâmetros da população da qual a amostra foi obtida. Mesmo quando existem certas pressuposições, estas são mais brandas do que aquelas associadas aos testes paramétricos. Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 4 Neste material a parte relacionada aos testes paramétricos será apresentada juntamente com os delineamentos experimentais mediante aplicação de análise da variância e testes de médias. Quando um pesquisador utiliza testes não-paramétricos, supõe-se que a distribuição de seus dados experimentais não seja normal, ou que ele não tenha elementos suficientes para poder afirmar que seja. Na dúvida quanto a essa informação, nada impede que ele opte pelo uso da estatística não-paramétrica. O que ele não pode fazer, de modo algum, é argumentar em termos de desvios ou erros-padrão, embora possa perfeitamente fazê-lo pura e simplesmente em termos de médias. 2.1. Teste de Qui Quadrado ( ) O teste de Qui-Quadrado 2( ) , é um teste de hipóteses muito usado em biologia que se destina a comparar proporções. O objetivo deste teste não paramétrico é comparar possíveis divergências entre as freqüências observadas e esperadas para um certo evento. Evidentemente, pode-se dizer que dois grupos se comportam de forma semelhante se as diferenças entre as freqüências observadas e as esperadas em cada categoria forem muito pequenas, próximas a zero. Ou seja, o teste é utilizado para: 1) Verificar se a distribuição de freqüência de uma determinada variável qualitativa X depende ou não da distribuição de outra variável qualitativa Y, ou seja se X e Y são associados (dependentes) ou não. A hipótese testada é a de independência: H0: X e Y são independentes H1: X e Y não são independentes Neste caso é necessário a apresentação de uma tabela de contingência: Variável Y Y1 Y2 Yn Variável X X1 fo11 fo12 fo1n X2 fo21 fo22 fo2n Xm fom1 fom2 fomn Por meio dos valores desta tabela obtém-se as freqüências esperadas (fe): 1 1 1 1 m n ij ij i j ij m n ij i j fo fo fefo Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 5 2) Comparar a distribuição de diversos acontecimentos com uma distribuição de probabilidade pré-definida, a fim de avaliar se as proporções observadas destes eventos realmente possam ser descritas mediante a distribuição adotada. Neste caso a hipótese testada é a de aderência. Para a aplicação deste teste é necessário obter duas estatísticas denominadas 2 c (Qui Quadrado calculado) e 2 (Qui Quadrado tabelado) . O 2 c é obtido a partir dos dados experimentais, levando-se em conta os valores observados e os esperados. 2 2 1 1 m n ij ij c i j ij fo fe fe em que, fo e fé correspondem, respectivamente, as freqüências observadas e esperadas. O 2 tabelado depende do número de graus de liberdade, GL=(m-1)(n-1) ou GL=(m-1)(n-1)-r , sendo r o número de parâmetros estimados, e do nível de significância adotado. A tomada de decisão é feita como segue: - Se 2 2 c Rejeita-se Ho, caso contrário, se 2 2 c não rejeita-se Ho. Ex.1 (Teste de Independência): Combate-se uma praga do algodoeiro com a pulverização de inseticidas. Uma amostragem é feita em torno de 386 propriedades agrícolas onde havia algodoais e os resultados foram os seguintes: Atacados Não Atacados Total Não pulverizados 192 68 260 Pulverizados 14 112 126 206 180 386 Pergunta-se: Teria a pulverização levado a um controle efetivo da praga ou seria a distribuição dos algodoais atacados e não atacados, independente de se ter ou não pulverizado a cultura? O teste apropriado no caso é um teste de independência para uma tabela de contingência 2 x 2. A freqüência esperada para Não pulverizados e Atacados é 1 1 206 260 138,7 386 fe De forma análoga, faz-se para as demais combinações. Assim tem-se: Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 6 7,58 7,58112 3,67 3,6714 3,121 3,12168 7,138 7,138192 2222 2 2 = 20,5 + 23,4 + 42,2 + 48,4 = 134,5 Para um grau de liberdade, o valor crítico a 0,05 é 2 = 3,84. Obteve-se 2 = 134,5 (portanto na região de rejeição da hipótese). A hipótese de nulidade (a distribuição dos algodoeiros atacados seria independente de se efetuar ou não a pulverização) vai ser rejeitada. A conclusão é não ter havido independência. A proporção dos que foram pulverizados e atacados é muito inferior à que se devia esperar, a operação determinando, portanto, controle da praga. Ex.2 (Teste de Aderência) :Suponha-se que os dados referentes ao número de sementes de uma determinda fruta sejam os seguintes: Nº sementes por fruto fo Probabilidade fe 0 102 0,4741 95,3 1 59 0,3538 71,1 2 31 0,1320 26,5 3 8 0,0328 6,6 4 0 0,0061 1,2 5 1 0,0009 0,2 6 ou mais 0 0,0001 0,0 201 mX 7463,0 ms 8405,02 A distribuição a ser testada é a de Poisson (média e a estimativa da variância são aproximadamente iguais). As probabilidades são obtidas através de: ! )( X em XP mX . A seguir, deve-se calcular: 2 2 2 2 2 4 2 1 6,7 12,1 4,5 1,0 3,42 95,3 71,1 26,5 8,0 i i i i fo fe fe Uma vez que m foi estimado a partir dos dados, deve-se procurar 2 com GL = (4 -1) -1 = 2 graus de liberdade. Para = 0,05, 2 = 5,99. O valor obtido foi Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 7 2= 3,42, que está fora da região de rejeição da hipótese. Pode-se então aceitar a distribuição de Poisson como satisfatória. 2.2. Teste de Wilcoxon O teste de Wilcoxon pode ser usado na comparação de dados entre duas amostras independentes ou quando os dados são pareados (amostras dependentes), medidos nas escalas ordinal, intervalar ou de razão. Não há a exigência de que as amostras tenham distribuição normal. 2.2.1 Dados pareados (amostras dependentes) O princípio do teste consiste em avaliar se ocorreram modificações significativas nos dois conjuntos de dados. Quando as modificações ou diferenças são muito pequenas, elas podem ser devidas ao acaso, porém, quando são expressivas, é pouco provável que se devam ao acaso, sendo fruto de um fator causal. Para usar o teste de Wilcoxon: ordene todas as diferenças sem considerar o sinal; dê o valor 1 ao valor menor, dois ao seguinte, etc. No caso de empate entre dois valores dê o valor médio da ordem igual para os dois, compensando o sinal correspondente. Assim o rank (diferença) de -2 (menor valor) terá o valor 1 com o sinal negativo, isto é -1 (ordem da diferença). Se os dois tratamentos são equivalentes, isto é, se H0 for verdadeira, devemos esperar que as diferenças grandes e pequenas estariam bem distribuídas entre os dois tratamentos, com distribuição equilibrada entre os positivos e os negativos. Se somarmos os índices de classificação (ranks) positivos e negativos espera-se que, se H0 for verdadeira, estas somas tenham, aproximadamente, os mesmos valores. Porém se as somas dos índices de classificação positivos forem maiores e os números muito diferentes dos negativos, então a hipótese H0 seria rejeitada; os tratamentos seriam diferentes. Quando as amostras são pequenas existem tabelas para julgar se os resultados diferem ou não, por exemplo, a Tabela A1, anexa. Para amostras grandes, para valores de N maiores que 25 a Tabela A1 não pode ser usada. Nesse caso, demonstra-se que a soma dos ranks, T, é praticamente normalmente distribuída, em que: Média = 4 )1( NN T e Desvio padrão 24 )12)(1( NNN T , dessa forma: Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 8 24 )12)(1( 4 )1( NNN NN T T Z T T Ex.3 Os dados representam o número de plantas sadias resultantes da aplicação dos tratamentos A e B, considerando um total de 100 plantas para cada par A e B. Neste exemplo, N =16 (16 pares de tratamentos). Pares A Tratamento ef. Plantas sadias B Tratamento p.efic Plantas sadias Diferença (A - B) Ordem da Diferença Ordem do Trat. com os menos freqüentes 1 82 62 20 10 2 71 41 30 14 3 75 64 11 6,5 4 59 61 -2 -1 1 5 67 57 10 4,5 6 79 60 19 9 7 72 49 23 12 8 67 57 10 4,5 9 81 70 11 6,5 10 93 61 32 16 11 85 63 22 11 12 74 57 27 13 13 79 48 31 15 14 67 53 14 8 15 85 81 4 2 16 76 67 9 3 Soma T negativos = 1 Soma T positivos = 135 Para usar esta Tabela A1, chamamos as somas dos ranks dos T negativos de T - a hipótese H0 será rejeitada se T - T0 . T0 é o valor crítico dado pela tabela. Para o nosso exemplo, T - = 1. Examinado a Tabela A1 na coluna correspondente a um lado da distribuição, a linha correspondente a = 0.05 e a coluna para N = 16, nós lemos T0 = 36. Para ilustrar a outra forma de aplicação do teste (quando n > 25), usando o nosso exemplo, tem-se que T - = 1, N =16 e então usando as fórmulas (como exercício) obtemos: 16(17) 16(17)(33) 68, 187 13,67 4 24 T T 901,4 67,13 67 67,13 681 Z Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 9 Os valores críticos para distribuição normal não Z0,05 = 1,96 e Z0,01 = 2,58. Então o resultado é significativo a 1% e H0 é rejeitada. O Tratamento A é estatisticamente mais eficiente que o B. O resultado concorda com o obtido usando a Tabela A1 para N =16. No caso de populações independentes, este teste também pode ser aplicado. 2.2.2 Amostras independentes Como pressuposições tem-se que: i) as duas amostras são casualizadas e independentes ii) as variáveis X e Y são são contínuas. Consideremos as amostras X1, X2,...,Xm e Y1, Y2,...,Yn, (m n) e procedemos a classificação conjunta das N=m+n observações, em ordem crescente. Definimos então : 1 n j j W O , em que Oj repersenta a ordem de Yj na classificação conjunta das N = m + n observações. Para grandes amostras (m e n grandes) utilizamos a aproximação normal, através da estatística W * , em que: * ( 1) ( ) 2 ( ) ( 1) 12 o o n m n W W E W W V W mn m n . Demonstra-se que W~N(0,1). Quando ocorrem empates entre valores de X e de Y, utilizamos para a obtenção do W, a média das ordens dos valores empatados e, como no caso usual, tomamos 1 n j j W O . Considere o seguinte exemplo: Xi Yi 2,3 1,8 3,2 2,3 3,8 2,3 4,5 3,2 em que: N=m+n, k=n o de grupos com empate e ti= n o de observações do grupo i. Para o exemplo anterior, se aplicássemos a aproximação normal, teríamos: k=2, t1=3, t2=2, m=4 e n=4, portanto: V(W)=11,29 e W * =-1,64. Portanto, rejeita-se Ho se |W * | ≥ Z α/2. 1,8 2,3 2,3 2,3 3,2 3,2 3,8 4,5, então: W=1+3+3+5,5=12,5. Y X Y Y X Y X X No caso da aproximação normal, além de tomarmos a média das ordens dos valores empatados, substituímos Vo(W) por: 2 1 ( ) ( 1) ( 1)( 1) 12 ( 1) k i i i i mn V W N N t t t N N Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 10 2.2. Teste de Kruskal-Wallis Este teste foi proposto para avaliar se três ou mais amostras são iguais (procedentes de uma mesma população) ou diferentes. É o substituto da Análise de Variância quando esta não pode ser utilizada, já que não exige a homogeneidade das variâncias, que as amostras tenham sido tomadas ao acaso e que tenham distribuição normal. Na verdade o teste de Kruskal-Wallis se aplica aos delineamentos inteiramente casualizados (DIC), quando há 3 ou mais tratamentos. A dinâmica de aplicação do teste será apresentada mediante a resolução do seguinte exemplo. Ex.4 Os dados da tabela abaixo, relativos a porcentagem de plantas doentes num experimento de tomateiros, foram apresentados por Pimentel-Gomes (2000) e Conagin, Nagai e Ambrósio (2006). Porcentagem de plantas doentes em um ensaio de tomateiros. Tratamento 1 Tratamento 2 Tratamento 3 10% (2) 27% (4) 40% (8) 15% (3) 28% (5) 70% (12) 5% (1) 44% (9) 55% (10) 30% (6) 35% (7) 60% (11) Primeiramente, deve-se ordenar os dados conjuntos, ignorando a procedência dos mesmos. Os números entre parênteses se referem à ordem dos dados, desde o menor (5%), que recebe o número 1, até o maior (70%), que recebe o número 12. No caso de empate adotar a média aritmética das respectivas ordens (ranks). A seguir somamos as ordens para cada um dos 3 tratamentos. Tratamento 1: R1 = 2 + 3 + 1 + 6 = 12, 1 3X ; Tratamento 2: R2 = 4 + 5 + 9 + 7 = 25, 2 6,25X ; Tratamento 3: R3 = 8 + 12 + 10 + 11 = 41, 3 10,25X . O teste se baseia exclusivamente nestes valores, sem levar em conta se as diferenças entre os dados originais são pequenas ou grandes. Devemos avaliar se as diferenças de ordem, sem nenhum critério quantitativo mais preciso, a análise não-paramétrica deste tipo dificulta muito a interpretação econômica dos Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 11 resultados. Assim sendo, como regra, os métodos não-paramétricos que usam estatísticas de ordem, devem ser evitados, pois elas ignoram a magnitude real dos dados originais. As hipóteses testadas são as seguintes: Ho: t1=t2=...=tk H1: pelo menos dois tratamentos diferem entre si Com os valores de R obtidos, calculamos a estatística H, assim definida: 13 )1( 12 1 2 N n R NN H k i i i , em que: N é o número total de parcelas no experimento e ni é o número de repetições do tratamento i. Dessa forma, rejeita-se Ho se ( )P H h . No caso presente temos: 115,8133 4 412512 1312 12 222 xH No caso de k = 3 tratamentos, a significância de H se julga com o auxílio da Tabela 17 apresentada no livro de Pimentel-Gomes (2000), ver Tabela A2 nos anexo. Nela, com n1 = n2 = n3 = 4 (número de repetições para os 3 tratamentos), achamos H = 7,731, com probabilidade = 0,007 = 0,7%. Nestas condições o resultado obtido é significativo ao nível de probabilidade 0,7% e, portanto, também ao de 1%. Para valores de k maiores que 3, a Tabela 17 (Pimentel-Gomes, 2000) não é aplicável. Para complementar os resultados obtidos até agora, é necessário aplicar um teste de comparação múltipla visando detectar as diferenças entre os tratamentos. 2.2.1 Comparações múltiplas O emprego das comparações múltiplas pode ser encarado como uma complementação do teste de Kruskal-Wallis e de Friedman, onde havíamos considerado a hipótese .210 ......: ktttH . Evidentemente, quando rejeitamos 0H , estamos admitindo que, pelo menos dois tratamentos diferem entre si. Assim, a finalidade das comparações múltiplas é localizar quando existem, as diferenças significativas entre pares de tratamentos. Os processos não-paramétricos empregados nas comparações múltiplas, quase sempre são menos eficientes do que os seus concorrentes do campo paramétricos. Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 12 Abordaremos o seguinte caso: Comparações múltiplas envolvendo todos os pares de tratamentos. Determinamos as diferenças ji RR e, a uma taxa , as d.m.s. segundo as quais ji tt são: a) Para nnnn k ........21 d.m.s. = Q 12 )1( knk A tabela 17 apresentada em Campos (1979) nos dá os valores de Q. b) No caso de tratamentos não iguais repetidos: d.m.s. = ) 11 ( 12 )1( )1( ji kk nn NN Z onde )1( kk Z é um limite superior da distribuição normal. Segue resultados de uma análise conduzida no software SAEG (exemplo 4). T e s t e d e K r u s k a l - W a l l i s Variável = PORC _________________________________________________________________________ TR Descrição Média da Média dos Dados Dados Ordens 1 ------------------------- 15.00000 3.0000 4 2 -------------------------33.50000 6.2500 4 3 ------------------------- 56.25000 10.2500 4 Valor do Teste = 8.115 (P=0.05) = 5.990 (P=0.01) = 9.210 C o m p a r a ç õ e s M ú l t i p l a s _________________________________________________________________________ Classe Diferença Mínima Significativa Observada (P=0.05) (P=0.01) 1 2 3.25000 5.97440 7.42744 1 3 7.25000 5.97440 7.42744 2 3 4.00000 5.97440 7.42744 O valor de Q (K=3) e 0.05 é 3,314, A d.m.s. =3,314 12 )143(3 x = 5,9743 = 5,974 , logo Concluímos que, para 0.05: 21 tt , 31 tt e 32 tt . Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 13 2.3. Teste de Friedman O teste de Friedman é uma espécie de análise de variância a dois critérios de variação, para dados amostrais vinculados. Por exemplo: Três cultivares de cenoura são plantadas em 4 diferentes locais. Nesse caso, os dois critérios de variação seriam: 1) cultivares; e 2) locais. O teste responde a este tipo de pergunta: seria idêntica a avaliação das cultivares em todos os locais? Portanto, este teste é usado sob o ponto de vista experimental quando se tem um delineamento em blocos casualizados (DBC). Este teste não utiliza os dados numéricos diretamente, mas sim os postos ocupados por eles, após a ordenação por valores ascendentes desses dados. A ordenação numérica é feita separadamente em cada bloco, e não em conjunto. A filosofia do teste considera que, se as diversas amostras provêm de uma mesma população, isto é, se elas são estatisticamente iguais (hipótese de nulidade, ou de (H0), a distribuição dos postos nas diversas colunas será mais ou menos eqüivalente, de modo que a soma dos postos em cada coluna será aproximadamente igual. A hipótese alternativa (H1) seria de que as amostras não pertenceriam à mesma população — isto é, seriam diferentes — e nesse caso haveria diferenças entre as somas das diversas colunas). A aplicação do teste será feita por meio do exemplo a seguir (Conagin, Nagai e Ambrósio, 2006): Ex.5 Ensaio de rotação de cultura em que 5 tratamentos da rotação são aplicados à cultura do milho sendo: 1. M – milho plantado por 12 anos sem adubação (média de 4 repetições); 2. Mad – milho adubado anualmente com mesma dosagem de NPK; 3. Mcad – milho adubado anualmente com NPK e calagem no 1º ano; 4. McadL – idem acima com plantio de leguminosas intercalar; 5. McadR – Rotação milho, algodão, amendoim – As 3 fases da rotação são plantadas anualmente de forma que todo ano há produção de milho da rotação. Produção em kg/ha dos 5 tratamentos nos 12 anos. Trat. 1 2 3 4 5 6 7 8 9 10 11 12 1 1425 1313 1950 1028 945 950 583 800 698 504 279 207 2 2880 2275 3503 2242 528 2312 767 1678 1622 1075 900 662 3 4220 3938 5358 5470 3075 4600 2753 3907 4275 3645 3225 2250 4 3980 2430 5025 5120 3337 4907 2308 3623 4128 3517 3453 2653 5 5425 3455 4812 5350 3150 5298 2528 4362 4738 5500 5792 1933 Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 14 Classificação pelo ranking dentro dos tratamentos (grupos) – No caso, as colunas refletem além das diferenças normais do ano, o efeito do ano agrícola. Trat. Anos 1 2 3 4 5 6 7 8 9 10 11 12 1 1 1 1 1 2 1 1 1 1 1 1 1 R1=13 2 2 2 2 2 1 2 2 2 2 2 2 2 R2=23 3 4 5 5 5 3 3 5 4 4 4 3 4 R3=49 4 3 3 4 3 5 4 3 3 3 3 4 5 R4=43 5 5 4 3 4 4 5 4 5 5 5 5 3 R5=52 A classificação foi feita, em ordem crescente. Não houve empates na produção, portanto os números dos ranks são sempre de 1 a 5. As seguintes condições precisam ser obedecidas: a) Os N grupos (anos = blocos) são portanto N=12; b) O número de tratamentos é k, no caso, k = 5. Admite-se que as populações são contínuas e aproximadamente da mesma forma. No caso de populações descontínuas o teste é aproximado; c) A hipótese nula especifica: H0: t1 = t2 = t3 = t4 = t5 (5 tratamentos). Dentro de cada bloco (ano) deve-se efetuar a classificação contínua das observações sendo adotado o valor 1 para o menor valor e o número 5 para o maior valor. Nos casos de empate usa-se o valor médio de classificação para todos os valores empatados. A fórmula a ser utilizada é: 13 )1 12 1 22 kNR kkN k i ir No exemplo, N=12, k=5. Então, )6)(12(35243492313 )6)(5(12 12 222222 r 067,3921676520333,02 r Como não houve empate, não há correção para 2 r . Para testarmos ao nível = 0,05 a hipótese H0 contra Ha, devemos procurar na Tabela correspondente (encontrada em PIMENTEL-GOMES, 2000, Tabela 18). Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 15 O resultado nos leva ao 2 crítico, por ser amostra grande vai-se procurar na Tabela de 2 com k-1 = 4, para = 0,05, 2 = 9,49 e para = 0,01, 2 = 13,28. Sendo o valor calculado 067,392 r , rejeita-se a hipótese nula. O resultado é altamente significativo. A conclusão é a seguinte: As condições diferentes (anos) não afetaram a colocação dos tratamentos no ranking de produção, e no caso, o tratamento 5 (melhor em produção), foi, nitidamente, superior aos outros, isto é, a rotação trienal foi superior aos 4 tipos de plantio contínuo de milho. Para se realizar comparações múltiplas visando a complementação dos resultados obtidos via aplicação do teste de Friedman, a d.m.s = Q 12 )1( knk , onde k é o número de tratamentos e n é o número de observações. O valor de Q é da Tabela 17 do livro de Humberto de Campos. 3. PRINCÍPIOS DA ESTATÍSTICA EXPERIMENTAL A pesquisa científica está constantemente se utilizando de experimentos para provar suas hipóteses. Ensaio experimental é um trabalho previamente planejado, que segue determinados princípios básicos e no qual se faz a comparação dos efeitos dos tratamentos. O termo tratamento é o método, elemento ou material cujo efeito desejamos medir ou comparar em um experimento. Exemplos: variedades de milho, níveis de proteína na ração, tipos de aleitamento de bezerros e outros. 3.1. Unidade experimental ou parcela. É a unidade que vai receber o tratamento e fornecer os dados que deverão refletir o seu efeito. Por exemplo, em experimentos de alimentação de suínos, a parcela pode ser de 1 leitão ou um grupo de leitões. Em ensaios de competição de forrageiras, a parcela pode ser uma única linha de 10 m de comprimento, ou 2 a 4 linhas, de mesmo tamanho, que serão colhidas e pesadas em conjunto. Em experimentos conduzidos em casa de vegetação a parcela pode ser um vaso; ou em laboratório, uma placa de Petri com um meio de cultura, etc. Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 16 3.2. Repetição, casualização e controle local É claro que os experimentos variam de umapesquisa para outra, porém, todos eles são regidos por alguns princípios básicos, necessários para que as conclusões que venham a ser obtidas se tornem válidas. São três os princípios básicos da experimentação: repetição, casualização e controle local. 3.2.1 Repetição O princípio da repetição consiste em aplicarmos o mesmo tratamento a várias parcelas num mesmo experimento e tem por finalidade propiciar a obtenção de uma estimativa do erro experimental. Ao se comparar, por exemplo, duas rações (A e B), aplicadas a duas parcelas constituídas cada uma por 2 leitões perfeitamente iguais, apenas o fato da ração A ter propiciado um maior ganho de peso que a ração B, não é suficiente para que possamos concluir que a ração A é mais eficiente, pois esse seu melhor desempenho poderá ter ocorrido por simples acaso. Por outro lado, se as duas rações forem aplicadas a várias parcelas e, ainda assim, verificarmos que a ração A apresenta, em média, maior ganho de peso, então já existe um indicativo de que ela seja mais eficiente, ou seja, podemos afirmar que a possibilidade deste resultado ter sido obtido por mero acaso é bastante reduzida, transmitindo então um maior grau de confiabilidade na conclusão obtida. Não existe uma regra dizendo qual deve ser o número de repetições. Isto depende do conhecimento do pesquisador sobre o assunto e do conjunto de condições em que será realizado o experimento. Como regra prática, aplicável a uma grande maioria dos casos, GOMES (1987) relata que os experimentos devem ter pelo menos 20 parcelas e 10 graus de liberdade para o resíduo. 3.2.2 Casualização Considerando o exemplo utilizado anteriormente, apesar de termos várias parcelas das rações A e B, pode ocorrer que a ração A tenha apresentado maior ganho de peso médio, por ter sido favorecida por algum fator qualquer, como por exemplo, ter todas as suas parcelas destinadas a animais com maior potencial genético. Para evitar que uma das rações seja sistematicamente favorecida por qualquer fator externo, procedemos à Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 17 casualização das rações, ou seja, as rações serão distribuídas de maneira aleatória às parcelas. Desta maneira, as rações têm a mesma probabilidade de ser destinada a qualquer parcela. Assim, o princípio da casualização tem por finalidade propiciar, a todos os tratamentos, a mesma chance de serem designados a qualquer das unidades experimentais, evitando assim que nenhum dos tratamentos seja sistematicamente favorecido ou desfavorecido por fatores externos. O princípio da casualização permite obter uma estimativa válida do erro experimental e garante o uso de testes de significância por tornar os erros experimentais independentes. Vale ressaltar que sem os princípios básicos da repetição e da casualização não existe experimentação. 3.2.3 Controle Local É um princípio muito usado, mas não é obrigatório, pois podemos realizar experimentos sem utilizá-lo. A finalidade do princípio do controle local é dividir um ambiente heterogêneo em sub-ambientes homogêneos e tornar o delineamento experimental mais eficiente, pela redução do erro experimental. Considerando o exemplo usado anteriormente, suponha que tenhamos leitões com idades muito diferentes. Diante disto, leitões com idades diferentes podem apresentar taxas de crescimento diferenciadas, portanto não podemos distribuir as rações inteiramente ao acaso. O princípio do controle local consiste em dividirmos este grupo heterogêneo quanto à idade em sub-grupos homogêneos. Estes sub-grupos assim formados são chamados de blocos e, as rações são distribuídas, de maneira casualizada, dentro de cada bloco. A utilização do princípio do controle local sempre conduz a uma redução do número de graus de liberdade do resíduo, o que causa uma desvantagem. Entretanto, essa desvantagem geralmente é compensada, pois ocorrerá também uma redução na soma de quadrados do resíduo obtendo-se, assim, maior precisão para o experimento, pois há uma redução na variância residual, devido ao fato de se isolar o efeito dos fatores que normalmente seriam incluídos no resíduo. Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 18 3.3 Grau de Liberdade (GL) O termo grau de liberdade representa o numero de valores, utilizados no calculo de uma estatística, que apresentam ―liberdade‖ para variar, ou seja, que são independentes. Por exemplo, para calcular a soma de quadrados dos desvios (SQD) de uma amostra aleatória com n observações, primeiro e necessário calcular a media e depois calcular a soma dos n desvios (cada observação menos a media). n 2 2 2 2 i 1 2 n i=1 SQX = x x = x x + x x + ...+ x x Desses n valores nem todos sao independentes, pois sabe-se que: 0...21 1 =xx++xx+xx=xx n n =i i , portanto o n-ésimo desvio não tem ―liberdade‖ para variar, pois seu valor depende dos valores de todos os outros desvios. Assim, pode-se definir que o numero de graus de liberdade associados a SQD é n-1. De forma geral, o numero de graus de liberdades associados a uma estatística e o numero de elementos na amostra, n, menos o numero de parâmetros já estimados. Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 19 4. ANÁLISE DA VARIÂNCIA É uma técnica de análise estatística que permite decompor a variação total, ou seja, a variação existente entre todas as observações, na variação devido à diferença entre os efeitos dos tratamentos e na variação devido ao acaso, que também é denominada de erro experimental ou resíduo. 4.1. Variação entre tratamentos É aquela atribuida estritamente a variabilidade das medias dos tratamentos em relação a media geral. Tambem e denominada de Soma de Quadrado de Tratamento (SQT): ,yyJ=SQT I =i i 1 2 em que: y i é a média do tratamento i, ; J y =y I =i ij i 1 y é a media geral do experimento, ; IJ y =y I =i J j= ij 1 1 J é o numero de repetições; j=1,2,...,J. I é o numero de tratamentos; i=1,2,...,I. 4.2. Variação dentro de tratamentos E devida a variação de cada observação em relação a media do tratamento. Esta variação e devida a todas as outras fontes que causam variação nas observações (efeitos não controlados), excetuando os tratamentos. Também é denominada de Soma de Quadrado do Erro (SQE): ,yy=SQE I =i J j= iij 1 1 2 em que: y i j é o valor da parcela que recebeu o tratamento i na repetição j; No entanto, para que esta técnica seja empregada é necessário que sejam satisfeitas as seguintes pressuposições: Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 20 1 a . os efeitos do modelo estatístico devem ser aditivos; 2 a . os erros experimentais devem ser normalmente distribuídos, independentes, com média zero e com variância comum. O esquema da ANOVA de um experimento instalado num DIC com I tratamentos e J repetições é apresentado a seguir: FV GL SQ QM F Tratamento (I-1) SQTrat 1I SQTrat sQM QMTrat =FCalc Re Resíduo I(J-1) SQRes 1 Re JI sSQ Total IJ - 1 SQTotal As fórmulas para se calcular as somas de quadrados (SQ) são:IJ y y=SQTotal ij ij ij ij 2 2 i ij ij i IJ y T J =SQTrat 2 21 , em que Ti é o total do tratamento i SQRes = SQTotal - SQTrat OBS: Graus de liberdade do Resíduo também é calculado por diferença, ou seja, GLRes = GLTotal - GLTrat No esquema da ANOVA e nas fórmulas apresentadas anteriormente, considera-se o experimento como sendo balanceado, isto é, todos os tratamentos têm o mesmo número de repetições (número de repetições = J). Porém, no DIC, o número de repetições pode variar Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 21 de um tratamento para outro sem que isto venha dificultar a análise. No entanto, sempre que possível, deve-se usar o mesmo número de repetições. Para concluir se existe diferença significativa entre os tratamentos, aplica-se o teste F. Este teste consiste em comparar o valor do F calculado com o valor de F tabelado, o qual é obtido na tabela de distribuição da variável aleatória F, de acordo com o nível de significância do teste e graus de liberdade para tratamentos e resíduo. As hipóteses para o teste F da análise de variância para tratamentos, são as seguintes: m=m==m=m:H I...210 , o que equivale a dizer que todos os possíveis contrastes entre as médias dos tratamentos, são estatisticamente nulos, ao nível de probabilidade que foi executado o teste. 0Hnão:Ha , o que equivale a dizer que existe pelo menos um contraste entre as médias dos tratamentos, estatisticamente diferente de zero, ao nível de probabilidade que foi realizado o teste. A regra decisória para o teste F é a seguinte: - se o valor do F calculado for maior ou igual ao valor do F tabelado, então rejeita-se H 0 e conclui-se que os tratamentos tem efeito diferenciado ao nível de significância em que foi realizado o teste; - se o valor de F calculado for menor que o valor do F tabelado, então não rejeita-se H 0 e conclui-se que os tratamentos têm efeitos iguais ao nível de significância em que foi realizado o teste. 4.3. Aplicação Consideremos um exemplo apresentado por GOMES (1984), que consiste de um experimento de competição de 4 cultivares de cana-de-açúcar (A, B, C e D), utilizando o DIC com 6 repetições. Obteve-se os seguintes resultados, em t/ha: Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 22 Cultivares Re petição A B C D 1 5 4 60 59 4 5 2 4 0 55 47 3 3 3 5 1 66 44 3 4 4 3 6 61 49 4 8 5 5 0 54 62 4 2 6 4 8 61 60 4 4 To tais 2 79 357 321 2 46 Resolução: Quadro da ANOVA FV GL SQ QM F Tratamentos 3 1174,12 391,37 9,47 * Resíduo 20 826,50 41,32 Total 23 2000,62 * Significativo ao nível de 5% de probabilidade - As somas de quadrados (SQ) foram obtidas da seguinte maneira: 622000386030062301 24 1203 62301 64 444054 444054 2 2 222 2 2 ,=,== x +++ +++= IJ y y=SQTotal ij ij ij ij Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 23 121174386030061474,5 24 1203 246279 6 11 222 2 2 ,=,= ++= IJ y T J =SQTrat i ij ij i SQRes = SQTotal - SQTrat = 2000,62 - 1174,12 = 826,50 - Os quadrados médios (QM) foram obtidos da seguinte maneira: 3241 20 50826 Re Re Re 37391 3 121174 ,= , = sGL sSQ =sQM ,= , = GLTrat SQTrat =QMTrat - O valor do F calculado será: 9,47 3241 37391 Re = , , = sQM QMTrat =Fcalc - Teste F: 0 43210 Hnão:H m=m=m=m=m:H a 3,102035 =,F=Ftab Fcalc F tab , rejeita-se H0 ao nível de 5% de probabilidade pelo teste F. Portanto existe pelo menos um contraste entre as médias dos cultivares de cana-de-açúcar estatisticamente diferente de zero. - Precisão do experimento: 12550 24 1203 ˆ ,== IJ y = N G =m ij ij QMRes = 41,32 8212100 12550 3241 100 ˆ Re (%.. ,= , , = m sQM =)VC Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 24 OBS.1 O coeficiente de variação varia de - ∞ a ∞, mas geralmente utiliza-se o 0|| CV OBS.2 (diferentes números de repetições dos tratamentos): As fórmulas anteriores são utilizadas quando o número de repetições é igual para todos os tratamentos. No caso em que o número de repetições varia de acordo com o tratamento algumas modificações devem ser levadas em conta, como por exemplo I =i i i C r T =SQTrat 1 2 em que: N G C em que : - N = número de unidades experimentais (ou a soma de todas as repetições) = I =i ir 1 - r i número de repetições do tratamento i. Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 25 5. O MODELO MATEMATICO Seja Y uma variável que deve ser predita (ou descrita) por meio de um conjunto de fatores X1, X2, ..., Xp. Pode-se, então representar Y= f( X1, X2, ..., Xp.) = f(X, e), em que e descreve um conjunto provavelmente grande de outros fatores que não foram considerados e serão chamados de erro (ou resíduo) . De forma geral nosso problema resume-se ao fato de encontrarmos uma função f(X, e) que aproxime convenientemente Y e esta função geralmente denominada de modelo matemático. Porem, para que este modelo seja corretamente associado a teoria da Estatística Experimental algumas restrições ou suposições deverão ser atendidas. 5.1. Conceituação, componentes e classificação 5.1.1 Conceituação e componentes Utilizando a notação matricial, a expressão Y = f(X, e) pode ser representada da seguinte maneira: +Xθ=Y a qual e definida como modelo linear, em que: Y é o vetor da variável dependente de dimensão n x 1; X é uma matriz conhecida (matriz de delineamento) de dimensão n x p; θ é um vetor de parâmetros desconhecidos de dimensão p x 1; ε é um vetor de erros de dimensão n x 1. Caso queira representar o modelo linear acima em termos algébricos, pode-se simplesmente fazer o desenvolvimento por meio de resoluções de equações lineares. E alem disso, caso também seja de interesse, e possível interpretar de forma pratica (aplicada a experimentação) os componentes deste, como por exemplo : ijiij e+t+m=y i= 1, 2, , I j= 1, 2, , J em que, y ij é o valor observado para a variável em estudo referente ao i-ésimo tratamento na j- ésima repetição; m é média de todas as unidades experimentais para a variável em estudo; Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 26 t i é o efeito do tratamento i no valor observado; eij é o erro associado a observação y ij ; Este modelo linear, também denominadode modelo de Gauss-Markoff, constitui uma ferramenta básica na Estatística Experimental, pois personifica a filosofia do método experimental. Isto porque Y representa a variável de interesse de um pesquisador (experimentador), X os fatores que devem ser investigados (experimentados) de forma a concluir se eles realmente exercem influencia sobre Y, e θ quantifica os efeitos de X sobre Y e ε indica que outros fatores, alheios ao interesse do pesquisador, existem, porem não foram consideradas. 5.1.2 Classificação Os modelos utilizados em Estatística Experimental são classificados de acordo com características assumidas pelos seus componentes. Dessa forma podemos classificá-los como sendo fixo, aleatório ou misto, e de acordo com Barbin (1998), tem-se as seguintes definições. 5.1.2.1 Modelos Aleatórios Dizemos que um modelo é aleatório se ele contiver apenas efeitos aleatórios, com exceção da média. Esse tipo de modelo também é chamado de modelo do tipo II. Os efeitos aleatórios que compõe o modelo poderão ocorrer quando os K tratamentos corresponderem a uma amostra aleatória de uma grande população de tratamentos. Nesse caso: Conclusões obtidas para essa amostra de tratamentos podem ser estendidas para a população; Os ti são variáveis aleatórias. Assim, informações particulares sobre um certo ti geralmente são sem utilidades; O que testamos é a hipótese a respeito da variabilidade dos efeitos de tratamento, além de estimar tal variabilidade. Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 27 5.1.2.2. Modelos Fixos Dizemos que um modelo é fixo se ele apresentar apenas efeitos fixos, com exceção do erro ou resíduo. Esse tipo de modelo, que representa a classe mais simples dentro da Estatística Experimental, também é denominado de modelo do tipo I, o qual e caracterizado pelo fato dos níveis do fator serem especificados pelo experimentador. Neste caso: Testa-se hipóteses sobre as médias de tratamentos; Conclusões são válidas apenas para esses níveis; Pode-se estar interessado em estimar , ti, ². 5.1.2.3. Modelos Mistos Quando aparecem no modelo efeitos fixos e efeitos aleatórios, alem da media e do erro, ele e dito modelo misto, ou do tipo III. Este tipo modelo tem muita importância dentro da Estatística Experimental, principalmente na área de genética e melhoramento, onde o objetivo do pesquisador é obter informações a respeito da população dos efeitos aleatórios e estimar e comparar os efeitos fixos. Um exemplo bastante comum na área de Melhoramento Genético animal e o modelo apresentado a seguir o qual apresenta o efeito de touro como aleatório. ijkliklkjiiijkl e+FS+G+S+T+F+μ=Y em que: ijklY é o peso ao nascer; é a media geral; Fi é o efeito da fazenda i, i=1,2,3,...,I; T i j é o efeito do touro j dentro da fazenda i, 20,~ Tji σNIDT ; Sk é o sexo do bezerro k, k=1,2,...,K; Gl é o efeito do grupo contemporâneo l, l=1,2,...,L; FSik é o efeito da interação entre a fazenda i e o sexo k; Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 28 ijkle é o erro experimental, 20,~ σNIDeijkl Com relação aos propósitos de se utilizar modelos fixos ou aleatórios, Barbin (1998) apresenta a seguinte Tabela, na qual diferenças marcantes entre as características desses dois modelos podem ser facilmente visualizadas e compreendidas. MODELO ALEATÓRIO MODELO FIXO Analise de variancia Maneira usual Maneira usual Estimadores dos Componentes de Variância sQM Reˆ 2 J sQMQMTrat t Re ˆ 2 sQM Reˆ 2 Hipotese H0 testada 02 =σt i 1 2 I t = 0,para todo i, ou t = t = ... = t Tetse F Admitindo-se :setemσNIDt ti 20,~ 2 22 σ Jσ+σ =F t sob H0 2 2 σ JΦ+σ =F t Conclusões As conclusões são estendidas a toda população, logo se F for significativo rejeitamos H0 (há diferença significativa entre os tratamentos de toda a população) As conclusões são limitadas aos tratamentos do ensaio, logo se F for significativo, rejeita-se H0 e conclui-se que existe pelo menos um contraste entre médias de tratamentos que difere de zero. Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 29 5.2. Desenvolvimento e restrições do modelo E importante que se conheça as hipóteses exigidas para a validade do modelo. Não podemos simplesmente admitir que elas estejam satisfeitas e partir para a analise e interpretação dos dados. As conseqüências deste procedimento podem ser perigosas. De forma geral estas hipóteses são as seguintes: Aditividade dos efeitos, Normalidade dos erros, Independência dos erros e Homogeneidade de variâncias dos tratamentos. 5.2.1 Aditividade dos efeitos Nos experimentos em DIC espera-se que os efeitos de tratamentos e os erros sejam aditivos, pois acredita-se que nenhuma variável de blocagem, que fugiu ao controle do experimentador, exerça alguma influencia marcante nas observações. Por outro lado, se algum controle importante foi negligenciado, ele pode interagir com os tratamentos tornando os efeitos de tratamentos e erros mais multiplicativos do que aditivos. Caso isto ocorra uma transformação logarítmica pode ser apropriada. Para os modelos em DBC e DQL e importante verificar se as variáveis de blocagem interagem com os tratamentos ou entre si. Para isto, existem os testes de não aditividade de Tukey, que podem ser encontrado na literatura especializada (Tukey, 1949). 5.2.2 Normalidade de erros A não normalidade dos erros afeta o coeficiente de confiança dos intervalos, que e importante na construção de estimativas, e o nível de significância dos testes. A normalidade dos erros pode ser julgada por meio dos seguintes testes:Aderência de Qui- Quadrado, Lilliefors e Shapiro-Wilk. Na presença de falta de normalidade do erro uma solução seria a transformação de dados, porem esta técnica apresenta alguns problemas como a escolha adequada da função de transformação e principalmente a interpretação dos resultados, uma vez que os dados não encontram-se descritos na escala original. Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 30 5.2.3 Independência dos erros A hipótese de que os erros normalmente distribuídos são independentes é equivalente a hipótese de que eles são não correlacionados. Para a grande maioria dos experimentos, a casualização oferece uma boa proteção contra a correlação residual. Em situações especiais, uma análise de resíduos (erros) poderia ser útil para estudar estas correlações. Constatada a correlação, deve-se procurar as causas e propor modificações no modelo. 5.2.4 Homogeneidade de variâncias A ocorrência de variâncias heterogêneas entre os diversos tratamentos é considerada uma das mais sérias e freqüentes violações das hipóteses para a validade da análise de variância. É muito comum em dados biológicos uma correlação positiva entre a média e a variância, isto é, tratamentos com médias altas tendem a apresentar variâncias altas e aqueles com médias pequenas mostram variâncias pequenas. Os testes mais utilizados para identificar a falta dehomogeneidade são: F Máximo de Hartley, Bartlett, Cochran e Levene. Constatada a heterocedasticidade, alguns procedimentos podem ser utilizados a fim de solucionar este problema como por exemplo a utilização do método dos Quadrados Mínimos Ponderados, a transformação logarítmica ou a transformação de Box-Cox. Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 31 6. PRINCIPAIS DELINEAMENTOS EXPERIMENTAIS 6.1 Delineamento Inteiramente Casualizado 6.1.1 Conceituação O Delineamento inteiramente casualizado (DIC) é o tipo de delineamento mais simples que existe. A distribuição dos tratamentos às unidades experimentais é feita completamente ao acaso, ou seja, não é feita nenhuma restrição na casualização. Este delineamento leva em consideração apenas dois princípios básicos da experimentação: repetição e casualização. É indicado quando as condições experimentais são homogêneas sendo mais utilizado em condições de laboratório e em casas de vegetação, onde as condições ambientais podem ser melhor controladas. Para a instalação desses experimentos no campo, deve-se ter certeza da homogeneidade das condições ambientais e do material experimental. No caso do DIC tem-se o seguinte modelo: jiiji etmy Jj Ii ,,2,1 ,,2,1 em que, jiy é o valor observado para a variável em estudo referente ao i-ésimo tratamento na j- ésima repetição; m é a constante inerente ao modelo; it é o efeito do tratamento i no valor observado; jie é o erro associado à observação jiy ; Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 32 O esquema da ANOVA de um experimento instalado num DIC com I tratamentos e J repetições é apresentado a seguir: FV GL SQ QM F E(QM) Fixo Aleatório Tratamento (I-1) SQTrat 1I SQTrat sQM QMTrat FCalc Re tJ 2 22 tJ Resíduo I(J-1) SQRes 1 Re JI sSQ 2 2 Total IJ - 1 SQTotal Obs.: Para um melhor entendimento das hipóteses a serem testadas ver tabela do item 5.1. em que: I 2 i i 1 t t I 1 , o qual é uma função quadrática As fórmulas para se calcular as somas de quadrados (SQ) são: IJ y ySQTotal ji ji ji ji 2 2 ; i ji ji i IJ y T J SQTrat 2 21 , em que Ti é o total do tratamento i e SQRes = SQTotal – SQTrat. OBS.1: Graus de liberdade do Resíduo também é calculado por diferença, ou seja, GLRes = GLTotal - GLTrat No esquema da ANOVA e nas fórmulas apresentadas anteriormente, considera-se o experimento como sendo balanceado, isto é, todos os tratamentos têm o mesmo número de repetições (número de repetições = J). Porém, no DIC, o número de repetições pode variar de um tratamento para outro sem que isto venha dificultar a análise. No entanto, sempre que possível, deve-se usar o mesmo número de repetições. Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 33 Para concluir se existe diferença significativa entre os tratamentos, aplica-se o teste F. Este teste consiste em comparar o valor do F calculado com o valor de F tabelado, o qual é obtido na tabela de distribuição da variável aleatória F, de acordo com o nível de significância do teste e graus de liberdade para tratamentos e resíduo. Sob determinadas restrições, as hipóteses para o teste F da análise de variância para tratamentos, são as seguintes: 1) Modelo de efeito fixo: mm...mm:H I210 , o que equivale a dizer que todos os possíveis contrastes entre as médias dos tratamentos, são estatisticamente nulos, ao nível de probabilidade que foi executado o teste. 0a Hnão:H , o que equivale a dizer que existe pelo menos um contraste entre as médias dos tratamentos, estatisticamente diferente de zero, ao nível de probabilidade que foi realizado o teste. A regra decisória para o teste F é a seguinte: - se o valor do F calculado for maior ou igual ao valor do F tabelado, então rejeita-se 0H e conclui-se que os tratamentos tem efeito diferenciado ao nível de significância em que foi realizado o teste; - se o valor de F calculado for menor que o valor do F tabelado, então não rejeita-se 0H e conclui-se que os tratamentos têm efeitos iguais ao nível de significância em que foi realizado o teste. 2) Modelo de efeito aleatório H0: σ 2 t = 0 o que equivale a dizer que o componente de variância relacionado ao efeito aleatório de tratamento assume o valor zero. Ha: σ 2 t > 0, o que equivale a dizer que o componente de variância relacionado ao efeito aleatório de tratamento não é nulo. Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 34 6.1.2 Aplicações Consideremos um exemplo apresentado por GOMES (1984), que consiste de um experimento de competição de 4 cultivares de cana-de-açúcar (A, B, C e D), utilizando o DIC com 6 repetições. Obteve-se os seguintes resultados, em t/ha: Cultivares Repetição A B C D 1 54 60 59 45 2 40 55 47 33 3 51 66 44 34 4 36 61 49 48 5 50 54 62 42 6 48 61 60 44 Totais 279 357 321 246 Resolução: Quadro da ANOVA FV GL SQ QM F Tratamentos 3 1174,12 391,37 9,47 * Resíduo 20 826,50 41,32 Total 23 2000,62 * Significativo ao nível de 5% de probabilidade - As somas de quadrados (SQ) foram obtidas da seguinte maneira: 62,200038,6030062301 24 1203 62301 64 444054 444054 2 2 222 2 2 xIJ y ySQTotal ji ji ji ji Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 35 12,117438,603005,61474 24 1203 246279 6 11 222 2 2 i ji ji i IJ y T J SQTrat SQRes = SQTotal - SQTrat = 2000,62 - 1174,12 = 826,50 - Os quadrados médios (QM) foram obtidos da seguinte maneira: 32,41 20 50,826 Re Re Re 37,391 3 12,1174 sGL sSQ sQM GLTrat SQTrat QMTrat - O valor do F calculado será: 47,9 32,41 37,391 Re sQM QMTrat Fcalc - Teste F: 0 43210 : : HnãoH mmmmmH a 10,320,3%5 FFtab tabcalc FF , rejeita-se H0 ao nível de 5% de probabilidade pelo teste F. Portanto existe pelo menos um contraste entre as médias dos cultivares de cana-de-açúcar estatisticamente diferente de zero. - Precisão do experimento: 125,50 24 1203 ˆ IJ y N G m ji ji QMRes = 41,32 %82,12100 125,50 32,41 100 ˆ Re (%).. m sQM VC Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 36 OBS.2 (diferentes números de repetições dos tratamentos): As fórmulas anteriores sãoutilizadas quando o número de repetições é igual para todos os tratamentos. No caso em que o número de repetições varia de acordo com o tratamento algumas modificações devem ser levadas em conta, como por exemplo I i rI ji ij i i N Y r T SQTrat i 1 2 , 1,1 2 em que : - N = número de unidades experimentais = r i i I 1 - r i número de unidades experimentais do tratamento i. Exercícios Propostos (1) Um engenheiro avaliou quatro banhos de têmpera para aumentar a dureza de peças de aço segundo o DIC, e obteve os seguintes dados numa escala apropriada: Total Média A 25 26 20 23 21 115 23 B 31 25 28 27 24 135 27 C 22 26 28 25 29 130 26 D 22 28 27 23 20 120 24 Realizar a ANOVA para testar a hipótese de igualdade dos efeitos de tratamentos. Resposta: Fcalc = 2,02 QMtrat = 16,66 QMres = 8,25 Ftab (5%; (I – 1); I(J– 1)) = 3,24 25ˆ Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 37 6.2 Delineamento em Blocos Casualizados 6.2.1 Conceituação O delineamento em blocos casualizados (ou delineamento em blocos ao acaso; ou ainda delineamento em blocos completos casualizados) se constitui no mais utilizado de todos os delineamentos experimentais. É utilizado quando não há completa homogeneidade nas condições experimentais. A área ou o material experimental é dividido em blocos (ou grupos) de tal forma que exista homogeneidade dentro de cada um deles e que cada um deles contenha uma repetição de cada tratamento distribuídos inteiramente ao acaso dentro de cada bloco. O DBC envolve os três princípios básicos da experimentação: Repetição; Casualização; e Controle Local. Nesses experimentos não importa que as condições experimentais de um bloco sejam diferentes das condições experimentais do outro bloco. O que importa é a homogeneidade dentro de cada bloco. A instalação de um experimento no DBC quando o mesmo não é necessário, implica na perda de eficiência e diminuição da precisão do experimento. Para o DBC o modelo estatístico é: ijjiji ebtmY em que, jiy é o valor observado para a variável em estudo referente ao tratamento i no bloco j; m é a média de todas as unidades experimentais para a variável em estudo; it é o efeito tratamento i no valor observado jiy ; jb é o efeito do bloco j no valor observado jiy ; jie é o erro associado a observação jiy . Neste tipo de delineamento a decomposição da variação total é feita da seguinte forma: Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 38 SQTotal = SQTratamentos + SQBlocos + SQResíduo O quadro da ANOVA para a análise de um experimento instalado segundo o DBC com I tratamentos e J repetições (blocos) é do seguinte tipo: FV GL SQ QM F E(QM) Fixo Aleat Misto Bloc (J-1) SQBloc 1 cos I SQBlo sQM QMBlo Fcalc Re cos bI 2 22 bI 22 bI Trat (I-1) SQTrat 1J SQTrat sQM QMTrat Fcalc Re tJ 2 22 tJ tJ 2 Res (I-1)(J-1) SQRes 11 Re JI sSQ 2 2 2 Total IJ - 1 SQTot Obs.: E(MQ) Modelo Misto: Considere tratamento fixo e bloco aleatório Em que: J 2 j j 1 b b J 1 e I 2 i i 1 t t I 1 . As fórmulas para se calcular as somas de quadrados (SQ) são: IJ y ySQTotal ji ji ji ji 2 2 ; j ji ji j IJ y B I SQBlo 2 21cos , em que Bj é o total do bloco j i ji ji i IJ y T J SQTrat 2 21 , em que Ti é o total do tratamento i SQRes = SQTotal - SQBlocos - SQTrat OBS.1: Graus de liberdade do Resíduo também é calculado por diferença, ou seja, GLRes = GLTotal - GLBlocos - GLTrat As hipóteses para o teste F da análise de variância para tratamentos, são as seguintes: Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 39 1) Modelo fixo mmmmH I ...: 210 , o que equivale a dizer que todos os possíveis contrastes entre médias de tratamentos, são estatisticamente nulos, ao nível de probabilidade que foi executado o teste. 0 ~: HoanHa , o que equivale a dizer que existe pelo menos um contraste entre médias dos tratamentos, estatisticamente diferente de zero, ao nível de probabilidade que foi realizado o teste. A regra decisória para o teste F é a mesma que no caso do DIC, ou seja: - se F calculado F tabelado rejeita-se 0H e conclui-se que os tratamentos tem efeito diferenciado ao nível de significância em que foi realizado o teste; - se F calculado < F tabelado não se rejeita 0H e conclui-se que os tratamentos têm efeitos iguais ao nível de significância em que foi realizado o teste. 2) Modelo de efeito aleatório - p/ tratamentos H0: σ 2 t = 0 o que equivale a dizer que o componente de variância relacionado ao efeito aleatório de tratamento assume o valor zero. Ha: σ 2 t > 0, o que equivale a dizer que o componente de variância relacionado ao efeito aleatório de tratamento não é nulo. - p/ blocos H0: σ 2 b = 0 o que equivale a dizer que o componente de variância relacionado ao efeito aleatório de bloco assume o valor zero. Ha: σ 2 b> 0, o que equivale a dizer que o componente de variância relacionado ao efeito aleatório de bloco não é nulo. Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________ 40 6.2.2 Aplicações Em um experimento de competição de cultivares de batata foram utilizados 4 blocos e 4 variedades, anotando-se a produção cujos valores são apresentados na tabela abaixo. variedade 1 2 3 4 1 49.3 49.4 49.6 50.0 2 49.4 49.3 49.8 49.9 3 49.2 49.4 49.5 49.7 4 49.7 49.6 50.0 50.2 Blocos Solução : 2 24 4 2 .. ij i 1 j 1 2 2 2 2 2.. i. 2 2 2 2 2.. . j y 794 SQtotal y 39403,54 1,29 IJ 16 y1 1 794 SQtrat y 198,3 ... 199,5 0,385 J IJ 4 16 y1 1 794 SQblocos y 197,6 ... 199,8 0,825 I IJ 4 16 SQres 1,29 0,385 0,825 0,08 ________________________________________________________ FV GL SQ QM Fc Pr>Fc ________________________________________________________ Blocos 3 0.825000 0.275000 30.938 0.0000 Variedade 3 0.385000 0.128333 14.438 0.0009 Resíduo 9 0.080000 0.008889 ________________________________________________________ Total 15 1.290000 ________________________________________________________ P-Value = 0,0009 ou Fcrit = F (5%;3;9) = 3,86 Paulo R. Cecon; Fabyano F. e Silva & Luiz A. Peternelli _________________________________________________________________________
Compartilhar