Baixe o app para aproveitar ainda mais
Prévia do material em texto
CAP I - INTRODUÇÃO À EXPERIMENTAÇÃO INTRODUÇÃO A experimentação tem por objetivo o estudo dos experimentos, isto é, seu Planejamento, execução, análise dos dados obtidos e interpretação dos resultados. O planejamento do experimento constitui a etapa inicial de qualquer trabalho, e, portanto, um experimento também deve se devidamente planejado, de modo a atender aos interesses do experimentador e às hipóteses básicas necessárias para validade da análise estatística. Frequentemente, o estatístico é consultado para tirar conclusões com base em dados experimentais. Considerando que essas conclusões dependem da forma como foi realizado o experimento, o estatístico solicitará uma descrição detalhada do experimento e de seus objetivos e com relativa frequência, ocorrem casos em que, após a descrição do experimento, o estatístico verifica que não pode chegar a nenhuma conclusão, tendo em vista que o experimentador ou não utilizou um delineamento adequado, ou não atendeu às hipóteses básicas necessárias para a validade da análise estatística. Para evitar que o experimentador perca tempo ou recursos, é essencial o planejamento adequado do experimento. ALGUNS CONCEITOS BÁSICOS a) Experimento ou ensaio: é um trabalho previamente planejado, que segue determinados princípios básicos e no qual se faz a comparação dos efeitos dos tratamentos. b) Fator: aquilo que se aplica em um ensaio de uma forma não homogênea, por exemplo, cultivar, quando se testam várias delas; adubação, ao se compararem diversas formulações, etc. c) Nível: as diferentes manifestações de um fator, por exemplo: as doses de adubação empregadas, os espaçamentos utilizados, as cultivares/linhagens que se testam, marcas de pneus, etc.. d) Tratamento: cada um dos níveis de um fator ou cada uma das combinações dos níveis dos fatores, quando testado mais de um fator. É o método, elemento ou material cujo efeito deseja medir ou comparar em um experimento. e) Unidade Experimental: é a unidade que vai receber o tratamento e fornecer os dados que deverão refletir o seu efeito. Pode ser uma área de solo, um vaso, um animal, a posição de montagem de um pneu, etc. f) Delineamento experimental: é o plano utilizado na experimentação e implica na forma como os tratamentos serão designados às unidades experimentais e em um amplo entendimento das análises a serem feitas quando todos os dados estiverem disponíveis. g) Esquema: quando em um mesmo experimento são avaliados dois ou mais fatores cada um com dois ou mais níveis, que podem ser combinados de maneiras diferentes. O esquema é justamente a maneira utilizada pelo pesquisador ao combinar os níveis dos fatores para obter os tratamentos. Exemplos: Esquema Fatorial e Esquema em Parcelas subdivididas. h) Variável resposta: é a variável mensurada usada para avaliar o efeito de tratamentos. Ex.: produtividade, massa seca, etc.. i) Erro experimental: é o efeito de fatores que atuam de forma aleatória e que não são passíveis de controle pelo experimentador. A pesquisa científica está constantemente se utilizando de experimentos para provar suas hipóteses. É claro que os experimentos variam de uma pesquisa para outra, porém, todos eles são regidos por alguns princípios básicos, necessários para que as conclusões que venham a ser obtidas se tornem válidas. PRINCÍPIOS BÁSICOS DA EXPERIMENTAÇÃO São três os princípios básicos da experimentação: repetição, casualização e controle local. PRINCÍPIOS DA REPETIÇÃO: Consiste em ter várias parcelas com o mesmo nível do fator (tratamento), com isso, procura-se confirmar a resposta que o individuo (material) dá a um determinado nível do fator (tratamento), e tem por finalidade propiciar a obtenção de uma estimativa do erro experimental. Quanto maior é o número de repetições, maior será a precisão do experimento. Porém esta relação vale até determinado número de repetições, pois depois daquele número, o incremento na precisão não é significativo. Não existe uma regra dizendo qual deve ser o número de repetições. Isto depende do conhecimento do pesquisador sobre o assunto e do conjunto de condições em que será realizado o experimento. O número de repetições necessários pode ser calculado através de fórmulas. A aplicação de tais fórmulas exige, no entanto, que o pesquisador tenha informações estatísticas de experimentos anteriores, o que, em geral, não acontece. O número de repetições dos níveis do fator (tratamentos) de um experimento está na dependência de vários fatores, dos quais o mais importante é, o nível de precisão desejado. Como regra prática, aplicável a uma grande maioria dos ensaios, recomenda-se que devem ter pelo menos 20 parcelas e 12 graus de liberdade para o resíduo. PRINCÍPIOS DA CASUALIZAÇÃO Consiste em distribuir dos níveis dos fatores (tratamentos) pelas parcelas através de sorteio, com isso, tem por finalidade propiciar, a todos os níveis (tratamentos), a mesma chance de serem designados a qualquer das unidades experimentais, evitando assim que nenhum dos níveis (tratamentos) seja sistematicamente favorecido ou desfavorecido por fatores externos. O princípio da casualização se faz necessário para que as variações que contribuem para o erro experimental sejam convertidas em variáveis aleatórias. Além disso, a casualização: a) Permite obter uma estimativa válida do erro experimental; b) Garante o uso de testes de significância por tornar os erros experimentais independentes; Vale ressaltar que sem os princípios básicos da repetição e da casualização não existe experimentação. PRINCÍPIO DO CONTROLE LOCAL É usado quando a área ou material experimental é heterogêneo. Neste caso, a área ou material experimental é subdividido em áreas ou lotes menores e homogêneos, de modo, a tornar o delineamento experimental mais eficiente, pela redução do erro experimental. A utilização do princípio do controle local sempre conduz a uma redução do número de graus de liberdade do resíduo, o que causa uma desvantagem. Entretanto, essa desvantagem geralmente é compensada, pois ocorrerá também uma redução na soma de quadrados do resíduo obtendo-se, assim, maior precisão para o experimento, pois há uma redução na variância residual, devido ao fato de se isolar o efeito dos fatores que normalmente seriam incluídos no resíduo. A formação dos blocos corresponde a uma estratificação e a casualização dos níveis (tratamentos) às unidades experimentais sofre a restrição de ser dentro de cada bloco. Poderá haver grande variação de um bloco para os outros, isto não importa, o que importa é que cada bloco seja tão uniforme quanto possível. FONTES DE VARIAÇÃO DE UM EXPERIMENTO Como a principal função dos delineamentos experimentais é controlar as fontes de variação, veremos os tipos de fontes de variação que ocorrem: PREMEDITADA É aquela introduzida pelo pesquisador com a finalidade de fazer comparações. Por exemplo: níveis dos fatores (tratamentos). SISTEMÁTICA Variações não intencionais, mas de natureza conhecida. Variação inerente ao material experimental. Podem ser controladas pelo pesquisador. Por exemplo: heterogeneidade do solo, tamanho de semente, etc... . ALEATÓRIA São variações de origem desconhecida, não podendo ser controladas. Constituem o erro experimental. São devidas a duas fontes: variações no material experimental e falta de uniformidade nas condições experimentais. Nem sempre é possível distinguir claramente este tipo de variação da anterior. RELAÇÃO ENTRE OS PRINCÍPIOSBÁSICOS DA EXPERIMENTAÇÃO E OS DELINEAMENTOS Fischer desenvolveu a técnica denominada análise de variância, que teve grande repercussão na pesquisa científica. Esta técnica consiste na decomposição do número de graus de liberdade e da variância total de um material heterogêneo em partes atribuídas a causas conhecidas e independentes (fatores controlados), e a uma porção residual de origem desconhecida e de natureza aleatória (fatores não controlados). Em outras palavras, a técnica da análise de variância é a que permite fazer partições número de graus de liberdade e das somas de quadrados, com cada uma das partes nos proporcionando uma estimativa de variância, denominada de quadrado médio. Para podermos utilizar a metodologia estatística nos resultados de um experimento, é necessário que o mesmo tenha considerado pelo menos os princípios da repetição e da casualização, a fim de que possamos obter uma estimativa válida para o erro experimental, que nos permite a aplicação dos testes de significância. Ao fazer um experimento considerando apenas esses dois princípios, ou seja, da repetição e da casualização, sem utilizar o principio do controle local, temos o delineamento inteiramente casualizado. Neste delineamento, que só deve ser utilizado quando tivermos absoluta certeza de homogeneidade das condições experimentais, as parcelas que receberão cada um dos tratamentos são distribuídas de forma inteiramente casual e por meio de sorteio. Se as condições experimentais não forem homogêneas, devemos utilizar o principio do controle local, estabelecendo então os blocos. O delineamento experimental assim obtido é denominado delineamento em blocos casualizado. Neste caso, devemos isolar mais uma causa de variação conhecida (fator controlado), que são os blocos. CAP II - DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC) INTRODUÇÃO Este delineamento apresenta como característica principal a necessidade de homogeneidade de ambiente para todas as unidades experimentais. É o tipo de delineamento mais simples que existe. A distribuição dos níveis dos fatores (tratamentos) às unidades experimentais é feita completamente ao acaso, ou seja, não é feita nenhuma restrição na casualização. Este é o delineamento básico, os demais se originam dele pela imposição de restrições (controle local). Envolve dois princípios básicos da experimentação: repetição e casualização. É indicado quando as condições experimentais são homogêneas, no caso da agricultura, estas condições homogêneas são mais facilmente encontráveis em laboratórios, casas de vegetação ou telados, câmaras de crescimento ou em canteiros; e, na pecuária, em maternidades, aviários ou criatórios com controle do ambiente. Para a instalação desses experimentos no campo, deve-se ter certeza da homogeneidade da área, das condições do ambiente e do material. Este delineamento apresenta as seguintes vantagens, em relação a outros delineamentos: a) É um delineamento bastante flexível visto que, pode-se usar qualquer número de tratamentos e repetições, sendo que o número de repetições pode variar de um tratamento para outro sem que isto venha dificultar a análise. No entanto, sempre que possível, deve-se usar o mesmo número de repetições. b) Apresenta maior número de graus de liberdade associado ao resíduo em relação a outros delineamentos. c) A análise estatística é simples, mesmo quando o número de repetições por tratamento é variável. Também apresenta as seguintes desvantagens, em relação a outros delineamentos: a) Exige homogeneidade total das condições experimentais. b) Pode conduzir a uma estimativa de variância residual bastante alta, uma vez que, não se utilizando o princípio do controle local, todas as variações exceto as devidas a tratamentos, são consideradas como variação do acaso. MODELO ESTATÍSTICO Para todos os delineamentos que serão estudados nesta disciplina, será lançado um modelo estatístico. Este modelo estatístico visa identificar que fatores estão influenciando a variável em estudo. Para o DIC tem-se o seguinte modelo: Yik = m + ti + eik i = 1, 2, ....., I; k = 1, 2, ....., K em que: Yik = é o valor observado para a variável em estudo referente ao i–ésimo do nível do fator (tratamento) na k–ésima repetição; m = média de todas a unidades experimentais para a variável em estudo; ti = é o efeito do particular do nível do fator (tratamento) i no valor observado Yik; eik = é o erro associado a observação Yik ou seja, é o efeito das variações de origem desconhecidas e/ou conhecidas, não controlados na parcela; eik = Yik - mi Obs.: O erro se deve ao fato de não ser possível controlar todas as condições experimentais. O erro experimental se refere às variações observadas entre as repetições do mesmo tratamento. ESQUEMA DE CASUALIZAÇÃO DOS TRATAMENTOS Seja um experimento com 5 tratamentos (A, B, C, D, E) e 4 repetições (20 parcelas) A B D E B A C D E A B C D E A B C E D C QUADRO DE TABULAÇÃO DOS DADOS A título de exemplo, considere um experimento instalado no DIC com I tratamentos e K repetições. A coleta de dados da pesquisa pode ser resumida, num quadro do tipo a seguir: Tratamentos Repetições 1 2 3 ........ I 1 Y11 Y21 Y31 ...... YI1 2 Y12 Y22 Y32 ...... YI2 ..... ...... ...... ...... ...... ...... K Y1K Y2K Y3K ...... YIK Totais T1 T2 T3 ...... TI Deste quadro pode-se retirar algumas informações de interesse: No de unidades experimentais: N = I x K Total geral: I 1i i I, 1k 1i ik TYG K Total para o tratamento i: K 1k iki YT Média para o tratamento i: K T m ii ˆ Média geral do experimento: KI G m ˆ . ANÁLISE DE VARIÂNCIA A análise de variância foi introduzida por Fisher e é essencialmente um processo baseado na decomposição da variação total existente entre uma série de observações, ou seja, a variação existente entre todas as observações, em partes, na variação devido à diferença entre os efeitos dos níveis do fator (tratamentos) e na variação devido ao acaso, que também é denominada de erro experimental ou resíduo. Na análise de variância, os valores observados Yik de uma variável resposta são descritos em termos de um modelo estatístico. Uma das pressuposições para a realização da análise de variância é que o modelo estatístico seja composto pela soma de efeitos, os quais podem ser fixos ou aleatórios. Em geral, o efeito do fator em estudo é considerado fixo. Enquanto que o efeito do erro experimental é considerado aleatório. Por exemplo, para os valores observados em um experimento instalado segundo o delineamento inteiramente casualizado (DIC) com I níveis do fator (tratamentos) e K repetições, o modelo estatístico é: Yik = m + ti + eik em que, Yik: é o valor observado para a variável resposta obtido para o i-ésimo nível do fator (tratamento) em sua k-ésima repetição; m: é a média fixa de todos os valores possíveis da variável resposta; ti: é o efeito fixo do nível do fator (tratamento) i no valor observado Yik; ti = mi − m eik: é o efeito aleatório do erro ou resíduo experimental associado ao valor observado Yik, definido por eik = Yik – mi As pressuposições para a validade dos resultados da análise de variância são que os erros experimentais: 1. Os efeitos do modelo estatístico devem ser aditivos; 2. Os erros experimentais devem independentes; 3. Os erros experimentais devem ser normalmente distribuídos;e 4. As variâncias das diferentes amostras devem ser homogêneas. A estimativa do erro experimental, no DIC, é obtida pela diferença entre o valor observado e o respectivo valor predito ikYˆ , ou seja, ikikik YˆYeˆ . O valor predito é obtido por: iik tˆmˆYˆ A estimativa do efeito do nível do fator (tratamento) i, itˆ , por sua vez é obtida por, mˆmˆtˆ ii Portanto temos que, iik mˆYˆ Então a estimativa do resíduo experimental, ikeˆ , de acordo como o modelo estatístico apresentado anteriormente é obtida por: i ikik mYe ˆˆ Portanto, antes de interpretar os resultados da análise de variância recomenda-se verificar, por meios dos procedimentos descritos a seguir, se as estimativas dos resíduos satisfazem as pressuposições da análise de variância. No entanto, para que esta técnica seja empregada é necessário que sejam satisfeitas as seguintes pressuposições: 1a) Os efeitos do modelo estatístico devem ser aditivos Nos experimentos, os vários efeitos devem ser aditivos, tanto é que para cada delineamento estatístico existe um modelo matemático denominado modelo linear aditivo. Para o delineamento inteiramente casualizado (DIC), este modelo é Yik = m + ti + eik, onde expressa que o valor de qualquer unidade experimental é resultante de uma média geral, mais um efeito do nível do fator (tratamento) e mais o efeito do erro experimental. O modelo correspondente ao Delineamento em Blocos Casualizado (DBC) é Yik = m + ti +bk + eik, onde o valor de qualquer unidade experimental é resultante de uma média geral, mais um efeito do nível do fator (tratamento), mais um efeito de blocos e mais um efeito do erro experimental. O aspecto importante, que deve notar-se nestes modelos, é que os efeitos se somam daí o nome de modelo linear aditivo. O modelo para o delineamento em blocos casualizados, por exemplo, implica que um efeito do nível do fator (tratamento) é o mesmo para todos os blocos e que o efeito de bloco é o mesmo para todos os tratamentos. Em outras palavras, se um tratamento aumenta a produção em certa quantidade acima da média geral, supomos que este tenha o mesmo efeito tanto nos blocos de alta produção como nos blocos de baixa produção. 2a) Os erros experimentais devem independentes Cada observação possui um erro que deve ser independente dos demais. O princípio da casualização assegura a validade da estimativa do erro experimental, pois permite uma distribuição independente do mesmo. A casualização evita que todas as parcelas que recebem o mesmo tratamento sejam favorecidas ou desfavorecidas entre as parcelas experimentais 3a) Os erros experimentais devem ser normalmente distribuídos A única fonte de variação de amostragem são os erros aleatórios. Estes devem ter distribuição normal (ou aproximadamente normal) com média igual a zero e variância igual S2. Felizmente, as variações da suposição de normalidade não afetam muito seriamente a validade da análise de variância. 4a) As variâncias das diferentes amostras devem ser homogêneas Na análise de variância, o valor do Quadrado Médio do Resíduo, que corresponde à estimativa da análise de variância do erro experimental, é utilizado nas fórmulas matemáticas dos testes de hipóteses. Tais testes são utilizados para verificar se existe ou não diferença significativa entre os níveis do fator (tratamentos) avaliados. O Quadrado Médio do Resíduo nada mais é que a média das diferentes variâncias de cada tratamento (amostras). Assim sendo, é importante que as variâncias das diferentes amostras sejam homogêneas, de modo que os resultados obtidos dos testes de hipóteses tenham validade. Homogeneidade das variâncias residuais Para uma variável resposta Y, considere I níveis do fator (tratamentos), cada um com K repetições, para os quais se deseja avaliar se a variância residual é idêntica para todos os níveis do fator (tratamentos). As hipóteses a serem testadas são: 2 E 2 EI 2 E3 2 E2 2 E10 σσ.....σσσ:H Ha : pelo menos um nível do fator (tratamento) apresenta variância residual diferente dos demais. Em termos práticos estamos querendo verificar se o efeito do erro experimental afetou igualmente todos os níveis do fator (tratamentos). Caso isto ocorra, as variâncias dentro dos níveis do fator (tratamentos) tenderam a apresentar valores bem similares, sendo, portanto, viável a obtenção de um estimador comum para a variância dentro dos níveis do fator (tratamentos). Na análise de variância, o cálculo do quadrado médio do resíduo é o estimador comum da variância dentro dos níveis do fator (tratamentos). Portanto, antes de interpretar os resultados da análise de variância faz-se necessário realizar um teste de hipóteses para a homogeneidade da variância dentro dos níveis do fator (tratamentos). TESTE F – MÁXIMO – HARTLEY Uma das exigências do modelo matemático e, portanto, da validade da análise de variância, é que as variâncias das diferentes amostras devem serem homogêneas. Um dos testes que pode ser utilizado é o teste de Teste F – máximo – Hartley. O teste F - máximo é simples e rápido, e só pode ser aplicado quando o número de graus de liberdade for o mesmo para todas as variâncias, ou seja, quando o número de repetições por nível do fator (tratamento) for o mesmo, porém apresenta menor precisão quando as amostras tem graus de liberdade diferentes. A estatística do teste de Teste F – máximo – Hartley é definida como: 2 mínimo 2 máximo máximo s s F onde: s2 máxima: maior valor das estimativas das variâncias entre as repetições de cada nível do fator (tratamento); s2 mínima: menor valor das estimativas das variâncias entre as repetições de cada nível do fator (tratamento); O valor calculado de Fmáximo é confrontado com o valor de Fmáximo tabelado, com I (número de estimativas das variâncias dos diferentes níveis do fator (tratamentos)) e (K – 1) graus de liberdade associados a cada estimativa de variância, sendo K número de observação (repetições) de cada nível do fator (tratamento). Logo, temos: Fmáximo calculado ≥ Fmáximo tabelado – as estimativas das variâncias são estatisticamente diferentes ao nível α% de probabilidade, isto é, não há homogeneidade de variâncias. Fmáximo calculado < Fmáximo tabelado – as estimativas das variâncias não diferem estatisticamente entre si, ao nível α% de probabilidade, isto é, as variâncias são homogêneas. Obs.: quando os graus de liberdade para cada amostra são diferentes, toma-se a média aritmética dos mesmos para usar a Tabela para Fmáximo. Ex.: Verificar se as variâncias são homogêneas pelo teste F-máximo a partir dos dados abaixo: Variedades Repetições Totais I II III IV V VI Var 1 78 90 90 75 70 88 491 Var 2 100 65 78 92 85 90 510 Var 3 102 95 102 85 80 98 562 Var 4 98 70 85 85 88 80 506 Ho: as estimativas das variâncias não diferem estatisticamente entre si, ao nível 5% de probabilidade. Ha: as estimativas das variâncias diferem estatisticamente entre si, ao nível α% de probabilidade. As variâncias de cada variedade são: 74,5667 5 6 491 40.553 1N N X X s 22 2 2 1 6000,491 5 6 510 44.098 1N N X X s 22 2 2 2 2667,48 5 6 )62(5 062.35 1N N X X s 2 2 2 2 3 06675 0983,8 5 6 506 .4 1N N X X s 22 2 2 4 01,2 5667,74 60,149 s s F 2 mínimo 2 máximo máximo Fmáximo tabelado (I = 4; K-1 = 5): 5% = 13,7 Logo, Fmáximo calculado < Fmáximo tabelado, ou seja, 2,01 < 13,7; não rejeita-se Ho ao nível de 5% de probabilidade, ou seja, pode-se concluir que as estimativas das variâncias das variedades são homogêneas. Teste de Cochran Outro teste que também pode ser utilizado é o teste de Cochran. Este teste só pode ser aplicado quando o número de graus de liberdade for o mesmo para todas as variâncias, ou seja, quando o número de repetições por tratamento for o mesmo. A estatística do teste de Cochran é definida como: t 1i 2 i 2 máx cal s s C Se Ccal ≥ Ctab (α, I, K–1), rejeita-se H0. Caso contrário, se Ccal < Ctab, não se rejeita H0 e conclui-se que existe homogeneidade de variâncias residuais entre os níveis do fator (tratamentos). O valor de Ch será comparado ao tabelado, com (I, K-I) graus de liberdade, aos níveis de 5 e 1% de probabilidade. Para os dados abaixo as variâncias dentro do nível do fator (tratamento) são apresentadas na Tabela x. Tabela x – Valores originais e ajustados de Y e estimativas dos efeitos do erro experimental. Trat Rep Yik ikYˆ ikeˆ 2 EiS 1 1 25 23 2 5,6S21E 1 2 26 23 3 1 3 20 23 -3 1 4 23 23 0 1 5 21 23 -2 2 1 31 27 4 5,7S2 2E 2 2 25 27 -2 2 3 28 27 1 2 4 27 27 0 2 5 24 27 -3 3 1 22 26 -4 5,7S2 3E 3 2 26 26 0 3 3 28 26 2 3 4 25 26 -1 3 5 29 26 3 4 1 33 31 2 5,6S2 4E 4 2 29 31 -2 4 3 31 31 0 4 4 34 31 3 4 5 28 31 -3 As hipóteses testadas na pressuposição de homogeneidade de variâncias são iguais a: 2 E 2 E4 2 E3 2 E2 2 E10 σσσσσ:H Ha: pelo menos uma 2 Ei (i = 1, 2, 3 e 4) difere das demais. O valor da estatística de Cochran, para os dados deste exemplo, é obtido por: 2679,0 5,65,75,75,6 5,7 Ccal e Ctab (5%, 4, 4) = 0,6287; Como Ccal < Ctab não rejeita-se H0. Portanto, considera-se satisfeita a pressuposição de homogeneidade de variâncias. A análise gráfica da homogeneidade de variâncias pode ser feita por meio da dispersão dos valores observados para cada nível do fator em estudo. Para o exemplo em estudo este gráfico de dispersão é apresentado na Figura abaixo. Pode ser observado que a variabilidade da produção dentro de cada variedade tende a ser a mesma em todas as variedades. Figura x – Dispersão das produções observadas em cada variedade. Um exemplo em que visualmente poderíamos ter um indicativo de que a variância não é a mesma para todos os tratamentos é apresentado na Figura abaixo. Figura x - Exemplo de gráfico de dispersão quando as variâncias dentro do nível do fator (tratamento) não é homogênea. TESTE DE BARTLETT O teste de Bartlett é dado por: C M χ 2 lg1k O método para testar se as estimativas de variâncias quando o no de repetições por tratamento forem desiguais, sendo (ni - 1) é o nº de graus de liberdade associado a essas estimativas e k nº de estimativas de variâncias, em que: k 1i t 1i 2 ii 2 i slog1nslog1n2,3026M em que e t 1i t 1i i i 1n 1 1n 1 1t3 1 1C Ni – número de repetições do nível do fator (tratamento) i; 2 is - estimativa da variância do nível do fator (tratamento) i. Sob a hipótese de nulidade de que os valores assumidos por 2 is serão estimativas de um mesmo valor de σ2 (variância comum), a razão M/C tem distribuição aproximada de χ2 com (t - 1) graus de liberdade, onde C é um fator de correção. Rejeita-se a hipótese Ho de homogeneidade de variâncias quando o valor calculado da razão M/C ≥ χ2 tab, a um nível α de probabilidade, com (k – 1) graus de liberdade. No caso de estimativas de variâncias com mesmo número de graus de liberdade a elas associado temos: k 1i 2 i 2 slogslogK1n2,3026M . e 1nk3 1k 1C NORMALIDADE DA DISTRIBUIÇÃO DOS ERROS EXPERIMENTAIS Uma das exigências do modelo matemático e, portanto, da validade da análise de variância, é que os erros eik tenham distribuição normal. TESTE DE LILLIEFORS Para verificar se os resíduos associados ao modelo estatístico utilizado aderem a uma distribuição normal, pode-se realizar o teste de hipóteses de Lilliefors. As hipóteses para este teste são: H0: os resíduos experimentais seguem uma distribuição normal. Ha: os resíduos experimentais não seguem uma distribuição normal. Este teste se baseia na comparação da frequência acumulada empírica com a frequência acumulada teórica, as quais são obtidas para cada valor do resíduo experimental. Após a ordenação crescente dos valores residuais, a frequência acumulada empírica, )eˆS( ik é obtida por: n eˆS valoresdenº )eˆS( ikik Por outro lado, para obter o valor da frequência acumulada teórica, )eˆF( ik , para cada valor ikeˆ , é necessário especificar a que distribuição normal os resíduos experimentais tendem a se aderir. Uma distribuição normal é especificada pelos parâmetros média e variância. Na realização deste teste, assume-se que os parâmetros da suposta distribuição normal dos resíduos são iguais aos valores da média e variância dos resíduos experimentais. A partir da especificação dos parâmetros da distribuição normal é possível calcular a frequência acumulada teórica. A distribuição acumulada é definida como )eˆEˆP()eˆF( ikikik . Supondo que a distribuição dos resíduos experimentais tenha sido definida como ikEˆ ~ N(m; σ2), então o valor de )eˆF( ik é obtido por: Uma representação genérica para os gráficos de uma distribuição normal e respectiva distribuição acumulada teórica são apresentados na Figura x - (a) e (b), respectivamente. Figura x – Distribuição normal (a) e distribuição acumulada (b). Espera-se que para cada valor êik os valores obtidos para )eˆS( ik e )eˆF( ik sejam bem similares, caso os resíduos experimentais sigam a distribuição normal especificada. É por esta razão que o teste de Lilliefors se baseia na comparação destes dois valores de distribuição acumulada. Após a ordenação em ordem crescente (j = 1, 2, ... , n) dos resíduos experimentais são obtidos, para cada ikeˆ , os módulos das diferenças entre )eˆF( ik − )eˆS( ik e entre 1jikjik )eˆS()eˆF( . O teste de Lilliefors se baseia na maior diferença absoluta encontrada. Esta diferença é definida como sendo a estatística D obtida por: 1jikjikjikjikj )eˆS()eˆF(,)eˆS()eˆF(máx D O valor da estatística D é então comparado com o valor tabelado Dtab de acordo com o nível de significância α e do número de resíduos experimentais. Na Figura x, apresenta as situações com um bom ajustamento a uma distribuição normal e outra com um mal ajustamento. Nesta Figura x, a curva representa a distribuição acumulada teórica, e a escada representa a distribuição acumulada empírica. Figura x – Ilustraçõesde um bom ajuste a um ajuste ruim de uma distribuição normal. Esta verificação dessa exigência pode ser feita pelo teste de Lilliefors. O teste de Lilliefors consiste em se obter: 1jikjikjikjikj )eˆS()eˆF(,)eˆS()eˆF(máx D D = máxj │F(Zi) – S(Zi)│ ou D = máx │F(Zi) – S(Zi - 1)│ Em que, F(Zi) são as probabilidades da variável normal reduzida. s mˆX Z ii em que: Xi – são os erros eik; mˆ – é a estimativa da média dos eik estimados, portanto, é igual a zero; s – é a estimativa do desvio padrão dos eik. ik ik i d s e Z 0 = desvios padronizados, n K ZS i , onde K é o número de observações ≤ Xi, em nosso caso, é o número de desvios ≤ eik. Devemos, inicialmente, obter os erros eik Como: Yik = m + ti + eik, temos que: eik = Yik - m - ti Mas, não conhecemos m e ti, logo, devemos trabalhar com suas estimativas: iikik tm Ye ˆˆˆ Temos que: ii tˆmˆ mˆ logo mˆ mˆtˆ ii Exemplo: Um pesquisador instalou um experimento com objetivo de comparar cultivares de pêssego quanto ao enraizamento de estacas. Para isto, utilizou um delineamento inteiramente casualizado com 4 cultivares e 5 repetições. O resultado em nº de estacas enraizadas foi: REPETIÇÕES TRATAMENTOS 1ª 2ª 3ª 4ª 5ª TOTAL 1 – A 2 2 1 1 0 6 2 – B 1 0 0 1 1 3 3 – C 12 10 14 17 11 64 4 – D 7 9 15 8 10 49 9,4tˆ1 ; 5,5tˆ 2 ; 7,6tˆ 3 ; 7,3tˆ 4 ; 1,6mˆ 0tˆ I 1i i ↔ (-4,9) + (-5,5) + 6,7 + 3,7 = 0 Com essas estimativas, obtemos as estimativas do erros iikik tm Ye ˆˆˆ . 0,84,9) (-6,1 2 eˆ11 0,84,9) (-6,1 2 eˆ12 0,24,9) (-6,1 1 eˆ13 ......................................... 0,2(3,7)6,1 10 eˆ45 Repetições 1ª 2ª 3ª 4ª 5ª si 2 1 – A 0,8 0,8 -0,2 -0,2 -1,2 0,7 2 – B 0,4 -0,6 -0,6 0,4 0,4 0,3 3 – C -0,8 -2,8 1,2 4,2 -1,8 7,7 4 – D -2,8 -0,8 5,2 -1,8 0,2 9,7 6,4 16 6,73 1)(KI e s 2 ik2 1448,26,4s Os 16 g.l. correspondem a 4 + 4 + 4 + 4 (de cada parcela), ou, I(K – 1) = 4 x 4 = 16 O teste de Lilliefors irá nos dizer que a distribuição dos dados (erros) difere ou não da distribuição normal. A seguir, consulta-se a tabela de probabilidade da distribuição normal reduzida, obtendo-se antes, as variáveis reduzidas Zi. s eˆ Z iki 0 Por exemplo: 30,1 1448,2 02,80- Z1 F(Z1) = 0,5000 – 0,4032 = 0,0968 84,0 1448,2 01,80- Z2 F(Z2) = 0,5000 – 0,2996 = 0,2005 ...................................... ..................................................... 42,2 1448,2 02,5 Zi F(Zi) = 0,5000 + 0,4922 = 0,9922 n K ZS i onde K é o número de desvios ≤ ikeˆ Por exemplo: 1000,0 02 2 ZS 1 2000,0 02 4 ZS 2 2500,0 02 5 ZS 3 ................................... 0000,1 02 02 ZS 20 Colocando-se os eik (ordenados) e respectivos Zi numa tabela, obtemos: ijeˆ fi Zi F(Zi) S(Zi) │F(Zi) – S(Zi)│ │F(Zi) – S(Zi-1)│ -2,8 2 -1,30 0,0968 0,1000 0,0032 0,0968 -1,8 2 -0,84 0,2005 0,2000 0,0005 0,1005 -1,2 1 -0,56 0,2877 0,2500 0,0377 0,0877 -0,8 2 -0,37 0,3557 0,3500 0,0057 0,1057 -0,6 2 -0,28 0,3897 0,4500 0,0603 0,0397 -0,2 2 -0,09 0,4641 0,5500 0,0859 0,0141 0,2 1 0,09 0,5359 0,6000 0,0641 0,0141 0,4 3 0,19 0,5753 0,7500 0,1747 0,0247 0,8 2 0,37 0,6443 0,8500 0,2057 0,1057 1,2 1 0,56 0,7123 0,9000 0,1877 0,1377 4,2 1 1,96 0,9750 0,9500 0,0025 0,0750 5,2 1 2,42 0,9922 1,0000 0,0078 0,0422 O maior valor de │F(Zi) – S(Zi)│ e │F(Zi) – S(Zi-1)│ é 0,2057, logo, D = máx │F(Zi) – S(Zi)│ = 0,2057 Consultando a tabela de Lilliefors com n = 20 e α = 0,05, obtemos: Dtab (0,05) = 0,190 Como Dcal > Dtab, rejeitamos H0, ao nível de 5% de probabilidade, isto é, a distribuição dos eij não pode ser aceita como distribuição normal. Concluímos, que os erros eik não têm homogeneidade das variâncias (teste Fmáx) e também não têm distribuição normal. Portanto, não se verifica duas das 4 exigências do modelo. INDEPENDÊNCIA DOS ERROS A independência dos erros da análise de variância significa que os erros não são correlacionados. Uma das situações que podem fazer com que este resultado não aconteça é aquela em que o valor do erro tende diminuir na sequência cronológica em que os valores são observados. Isto pode ocorrer quando, por exemplo, um laboratorista está aprendendo a usar um equipamento. No início, o erro associado a leitura é grande. À medida que são feitas novas leituras o erro tende a ser menor. Portanto, para fazer a avaliação da independência dos erros é necessário ter informações adicionais, por exemplo ordem de coleta das observações. A ordem de coleta das observações dos dados do Exemplo anterior é apresentada na Tabela abaixo e o gráfico de dispersão dos resíduos versus a ordem de coleta é apresentada na Figura abaixo. Pode-se observar na Figura abaixo que não existe nenhuma tendência nos resíduos em relação à ordem de coleta. Tabela x – Valores observados com os respectivos valores preditos, residuais e ordem de coleta. Ordem de coleta Variedade Rep Yik ikYˆ ikeˆ 1 1 1 25 23 2 5 1 2 26 23 3 9 1 3 20 23 -3 13 1 4 23 23 0 17 1 5 21 23 -2 2 2 1 31 27 4 6 2 2 25 27 -2 10 2 3 28 27 1 14 2 4 27 27 0 18 2 5 24 27 -3 3 3 1 22 26 -4 7 3 2 26 26 0 11 3 3 28 26 2 15 3 4 25 26 -1 19 3 5 29 26 3 4 4 1 33 31 2 8 4 2 29 31 -2 12 4 3 31 31 0 16 4 4 34 31 3 20 4 5 28 31 -3 Figura x – Gráfico de dispersão dos resíduos versus a ordem de coleta das observações. A Figura abaixo apresenta o gráfico de dispersão em que os erros não são independentes. Nesta Figura, pode-se observar que nas primeiras coletas, os valores residuais tendem a serem maiores do que nas últimas coletas. Uma possível explicação para isto é o aprendizado na realização do experimento. ANÁLISE DE RESÍDUOS É outra alternativa que vem ganhando maior ênfase em função dos pacotes estatísticos. De acordo com vários autores (PARENTE, 1984), os erros padronizados: 2 ikik ik s e QMRes e d Quando colocados em um gráfico, contra os valores (Yik), podem nos dar as seguintes orientações (padrões): Geralmente, essas verificações não têm sido feitas na prática. Através de experiência, sabe-se que, por exemplo, dados de produção geralmente satisfazem a essas exigências. Exemplo: Um pesquisador instalou um experimento com objetivo de comparar cultivares de pêssego quanto ao enraizamento de estacas. Para isto, utilizou um delineamento inteiramente casualizado com 4 cultivares e 5 repetições. O resultado em nº de estacas enraizadas foi: REPETIÇÕES TRATAMENTOS 1ª 2ª 3ª 4ª 5ª TOTAL 1 – A 2 2 1 1 0 6 2 – B 1 0 0 1 1 3 3 – C 12 10 14 17 11 64 4 – D 7 9 15 8 10 49 No nosso exemplo temos: TRATAMENTOS Totais imˆ 2 is C.V.(%) 2s mˆ 1 – A 6 1,2 0,7 69,72 1,7 2 – B 3 0,6 0,3 91,29 2,0 3 – C 64 12,6 7,7 21,68 1,7 4 – D 49 9,8 9,7 31,78 1,0 G = 122 mˆ = 6,1 6,4s 2 Façamos a verificação das condições de homogeneidade de variâncias e da normalidade dos erros, para os dados do nossoexemplo: Sabe-se que: ii tˆmˆ mˆ mˆ mˆtˆ ii 9,4tˆ1 5,5tˆ 2 7,6tˆ 3 7,3tˆ 4 2 ikik ji s e QMRes e d em que iikik tm Ye ˆˆˆ então temos: 0,84,9) (-6,1 2 eˆ11 0,84,9) (-6,1 2 eˆ12 0,24,9) (-6,1 1 eˆ13 ............................................... 0,2(3,7)6,1 10 eˆ44 Logo, usando-se os valores de ijeˆ apresentado acima, temos os dij, na tabela a seguir: 37,0 4,60 0,8 d11 37,0 4,60 0,8 d12 09,0 4,60 0,2- d13 ........................................................................... 09,0 4,60 0,2 d44 dij 1 – A 0,37 0,37 -0,09 -0,09 -0,56 2 – B 0,19 -0,28 -0,28 0,19 0,19 3 – C -0,37 -1,31 0,56 1,96 -0,84 4 – D -1,31 -0,37 2,42 -0,84 0,09 Y estimado Observa-se, pelo gráfico, a heterogeneidade de variâncias: a variância cresce com crescimento de ikYˆ . Façamos agora o teste Fmáx para a homogeneidade de variâncias: Gráfico de dispersão -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 0 2 4 6 8 10 12 14 33,32 33,0 7,9 s s F 2 mínimo 2 máximo máximo Fmáximo tabelado (K = 4; N-1 = 4): 5% = 20,6 Logo, Fmáximo calculado = 32,33 > Fmáximo tabelado: 5%; rejeita-se a hipótese de homogeneidade de variâncias, assim, chegamos à conclusão de que as estimativas das variâncias não são homogêneas. A não verificação de uma só exigência do modelo já é suficiente para a não validade da análise de variância. Transformação de dados Quando Fmáx é significativo em nível de 5% de probabilidade, rejeitamos a hipótese H0, ou seja, as variâncias não são homogêneas. A não verificação de uma só exigência do modelo já é suficiente para a não validade da analise de variância. Porém, foi verificada também a normalidade através do teste de Lilliefors, chegando-se a conclusão que os dados não seguem distribuição normal. Como alternativas para torna-la válida, temos: Transformação de dados, as mais usadas são: KX , onde K ≥ 0 é uma constante, para dados de contagem; arc sen 100/P , onde P = percentagem, para dados de percentagem, geralmente entre 0 e 30% ou entre 70 e 100%; log (X + K), quando há proporcionalidade entre médias e desvios padrões. Pode-se, no entanto, de acordo com BOX e COX (1964), determinar analiticamente, que tipo de transformação pode ser usado. Estabelece-se uma regressão linear entre log s2, com a variável dependente e log m ˆ , como independente. Determina-se bˆ e, a seguir: 2 bˆ 1λ O valor de λ nos indica que tipo de transformação deve ser feito. Se λ ≠ 0 temos λYY Se λ = 0 temos YlogY Em nosso exemplo, temos bˆ = 1,1310 4345,0 2 1,1310 1λ Isso nos permitiu usar λ = 0,5, por ser uma transformação de uso corrente, ou seja, YYY 0,5 Portanto, em nosso exemplo, vamos usar a transformação 0,5x ou 0,5Y ik . A constante K = 0,5 é usada porque temos várias observações com valores baixos, inclusive nulos. Com essa transformação, temos: Repetições Tratamento 1ª 2ª 3ª 4ª 5ª Totais imˆ 2s i CV% 2smˆ A 1,58 1,58 1,22 1,22 0,71 6,31 1,262 0,1276 28,35 9,9 B 1,22 0,71 0,71 1,22 1,22 5,08 1,016 0,0780 27,39 13,0 C 3,53 3,24 3,81 4,18 3,39 18,15 3,630 0,1386 10,26 26,2 D 2,74 3,08 3,94 2,91 3,24 15,91 3,182 0,2144 14,56 14,8 45,45 2,272 0,1396 ns75,2 0780,0 2144,0 s s F 2 mínimo 2 máximo máximo Como Fmáx é não significativo, não rejeitamos H0, isto é, aceitamos a homogeneidade de variâncias, o que torna válida, sob esse aspecto, a análise da variância. O teste de normalidade, por Lilliefors, apresentou D = 0,0983, não significativo, indicando que a distribuição dos dados 0,5x , não difere da normal. A análise de variância para os dados transformados em 0,5x , nos dá o seguinte resultado: F. V. GL SQ QM F Tratamento 3 26,3495 8,7832 62,87 Resíduo 16 2,2349 0,1397 Total 19 28,5844 - SQTotal = 1,582 + .... + 3,242 – 20 45,45 2 = 28,5844 SQTrat. = 22 91,15......31,6 5 1 20 45,45 2 = 26,3495 Isto significa que a variabilidade dos tratamentos é 62,87 vezes superior à variabilidade natural, que seria dos resíduos. Significa que os efeitos de tratamentos não são iguais. Quanto mais F se distancia de 1 (um), mais estaremos observando efeito dos tratamentos. Veja-se que, sob a hipótese H0, não havendo efeito de tratamentos, QMTrat e QMRes devem dar valores semelhantes (lembrar que QM = s2), logo sob H0, F ≈ 1. A medida que encontramos valores de F afastando-se de 1, no sentido maior, significa que devemos rejeitar H0, ou seja, aceitar a hipótese alternativa Ha, de que os efeitos dos tratamentos são diferentes de zero e diferentes entre si. Sob o ponto de vista de esperança Matemática dos QM’s, admintindo o modelo fixo, temos: E (QMTrat) = s2 + JΦτ em que: Φτ = 1 - I t i 2 i e E (QMRes) = σ2 Se admitirmos, como estimativas: τ 2 υˆJ σˆ QMTrat , como Φτ = 1 - I t i 2 i 2σˆ QMTrat temos: 2 τ 2 i 2 i 2 σˆ υˆ J1 σˆ tˆ 1I J σˆ QMRes QMTrat F Por essa expressão, vemos que o valor de F próximo ou afastado de 1 (um) dependerá do valor da expressão i 2 it , que é a medida de variação entre os tratamentos. Para dizermos se aqueles efeitos de tratamentos são significativos, isto é, não são devidos ao acaso, devemos consultar as tabelas de F. É comum usarmos tabelas aos níveis de 5% e 1% de probabilidade. Devem ser consultados com os graus de liberdade dos tratamentos (numerador) e graus de liberdade do resíduo (denominador). Em nosso exemplo, temos: F5% (3; 16) = 3,24 e F1% (3; 16) = 5,29 O Fcal = 62,86 **. Logo, F é significativo ao nível de 1% de probabilidade e devemos rejeitar H0. Portanto, concluímos que os tratamentos diferem entre si, há necessidade da aplicação de um teste de comparação de médias de tratamentos. ANÁLISE DE VARIÂNCIA NA FORMA MATRICIAL Partindo do modelo estatístico, pode-se decompor a variação total entre as observações nas partes que a compõem, como será demonstrado a seguir: Seja um experimento com 3 tratamentos e 5 repetições: Trat 1 Trat 2 Trat 3 Y11 Y21 Y31 Y12 Y22 Y32 Y13 Y23 Y33 Y14 Y24 Y34 Y15 Y25 Y35 T1 T2 T3 Considere-se o modelo estatístico para um experimento instalado segundo o DIC: Yik = m + ti + eij Y11= m + t1 + e11 Y31= m + t3 + e31 Y12= m + t1 + e12 Y32= m + t3 + e32 Y13= m + t1 + e13 Y33= m + t3 + e33 Y14= m + t1 + e14 Y34= m + t3 + e34 Y15= m + t1 + e15 Y35= m + t3 + e35 Y21= m + t2 + e21 Y22= m + t2 + e22 Y23= m + t2 + e23 Y24= m + t2 + e24 Y25= m + t2 + e25 Escrevendo sob forma matricial, temo: EβXY em que: Y = Vetor coluna dos dados observados; X = matriz dos coeficientes dos parâmetros; β = matriz dos parâmetros; E = vetor dos erros. Assim temos: 35 34 33 32 31 25 24 23 22 21 15 14 13 12 11 3 2 1 35 34 33 32 31 25 24 23 22 21 15 14 13 12 11 e e e e e e e e e e e e e e e t t t m Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y 1001 1001 1001 1001 1001 0101 0101 0101 0101 0101 0011 0011 0011 0011 0011 Sendo: EβXY βXYE SQerros = E’E E’E= 35 34 33 32 31 25 24 23 22 21 15 14 13 12 11 353433323125242322211514131211 e e e e e e e e e e e e e e e eeeeeeeeeeeeeee SQerros = 2 35 2 21 2 15 2 14 2 13 2 12 2 11 eeeeeee ............. Matricialmente, temos: SQerros = XβYβXYXβYβXYEE '''' SQerros = βXYXβY ''' SQerros = βXXβYXβ-βXYYY '''''' Obs.: βXY' é transposta de YXβ '' e são iguais, pois, ambas têm dimensão 1x1. Transposta de uma matriz constituída de um único elemento é o próprio elemento. Assim, temos: SQerros = βXXβYXβ-YY ''''' 2 Os valores de m, t1, t2, t3 a serem estimados são aqueles que minimizam a SQerros: β XXββXXβYXβ2 β SQerros '''''' Sendo β XXββXXβ '''' por serem matrizes de dimensão 1x1 e uma ser transposta da outra: βXXβYXβ2 β SQerros '''' 2 Fazendo β SQerros βXXYX2 '' ˆ2 YXβXX '' ˆ este é conhecido como sistema de equações normais. Algumas considerações sobre o sistema de equações YXβXX '' ˆ ou YXβS 'ˆ onde XXS ' . 1 – No caso de delineamentos experimentais não tem solução única, pois, a característica de S é menor que sua ordem. Consequentemente S é uma matriz singular (não admite inversa). Para resolver este problema procura-se obter um sistema de equações normais de solução única, a partir de restrições sobre os parâmetros constituintes de β. 2 – Característica de uma matriz pode ser definida como o número de linhas ou colunas linearmente independente. 3 – Característica de uma matriz pode também ser definida como a ordem do maior determinante não nulo desta matriz. 4 – Uma matriz não singular de dimensões nxn, tem característica n, pois, por definição, uma matriz não singular é aquela cujo determinante diferente de zero. Vamos mostrar, a seguir, que a matriz XXS ' é singular, logo o sistema é indeterminado: 1001 1001 1001 1001 1001 0101 0101 0101 0101 0101 0011 0011 0011 0011 0011 111110000000000 000001111100000 000000000011111 111111111111111 S 5005 0505 0055 55515 S Ordem de S = 4; característica de S = 3; logo, S é singular. O sistema de equações YXβˆS ' é, portanto, indeterminado, devemos impor restrições: Número de restrições = ordem da matriz – característica da matriz No presente caso, temos: no de restrições = 4 – 3 = 1 O mais usual é tomar 0tr i ii A matriz de restrição A é tal que βˆA Assim, podemos usar a seguinte matriz de restrição: 0000 0000 0000 5550 A Seja M = S – A 5005 0505 0055 55515 M - 0000 0000 0000 5550 = 5005 0505 0055 00015 onde M é uma matriz não singular (M-1) De modo geral temos o seguinte sistema de equações: YX βˆ M YXβˆAS - YX βˆA -βˆS βˆA YXβˆS ''' ' Pré-multiplicando ambos os membros por M-1, tem-se: YX M βˆ M M '-1-1 ; obs.: M-1 M = I YX M βˆ YX M βˆ I '-1'-1 que é a solução do sistema; solução esta que não é única, pois, depende das restrições impostas. M é chamada matriz inversa generalizada de S. Seja o sistema de equações YX βˆ M ' : 3 2 1 35 34 33 32 31 25 24 23 22 21 15 14 13 12 11 ' T T T G Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y X 111110000000000 000001111100000 000000000011111 111111111111111 M βˆ YX ' 3 2 1 3 2 1 T T T G tˆ tˆ tˆ mˆ 5005 0505 0055 00015 33 22 11 Ttˆ5mˆ5 Ttˆ5mˆ5 Ttˆ5mˆ5 Gmˆ15 15 G 5 T tˆ 5 mˆ5 5 T tˆmˆ5Ttˆ5 15 G 5 T tˆ 5 mˆ5 5 T tˆmˆ5Ttˆ5 15 G 5 T tˆ 5 mˆ5 5 T tˆmˆ5Ttˆ5 15 G mˆ 3 3 3 333 2 2 2 222 1 1 1 111 DESENVOLVIMENTO GERAL DA ANÁLISE DE VARIÂNCIA DO DELINEAMENTO INTEIRAMENTE CASUALIZADO COM I TRATAMENTOS e R REPETIÇÕES. O quadro teórico de dados pode ser apresentado da seguinte forma: Trat 1 Trat 2 ..... Trat I Y11 Y21 ..... YI1 Y12 Y22 ..... YI2 Y13 Y23 ..... YI3 ..... ..... ..... ..... Y1r Y2r ..... YIr Totais T1 T2 ..... TI G Médias 1mˆ 2mˆ Imˆ mˆ Considere-se o modelo estatístico para um experimento instalado segundo o DIC: Yik = m + ti + eij Y11 = m + t1 + e11 …. … … … Y12 = m + t1 + e12 …. … … … …. … … … …. … … … Y1r = m + t1 + e1r …. … … … Y21 = m + t2 + e21 YI1 = m + tI + eI1 Y22 = m + t2 + e22 YI2 = m + tI + eI2 …. … … … …. … … … Y2r = m + t2 + e2r YI4 = m + tI + eIr O sistema de equações acima pode ser representado sob a forma matricial por: EβXY em que: Y = Vetor coluna dos dados observados; X = matriz dos coeficientes dos parâmetros; β = matriz dos parâmetros; E = vetor dos erros. Assim temos: Ir I2 I1 2r 22 21 1r 12 11 Y .... Y Y .... .... .... .... Y .... Y Y Y .... Y Y Y ; 1..001 ............... 1..001 1..001 ............... ............... ............... ............... 0..101 ............... 0..101 0..101 0..011 ............... 0..011 0..011 X ; e ... e e ... ... ... ... e ... e e e ... e e E; t .... t t m β Ir I2 I1 2r 22 21 Ir 12 11 I 2 1 I 2 1 ' tˆ ... tˆ tˆ mˆ βˆ; r...00r ............... 0...r0r 0...0rr r...rrIr XXS A matriz S é singular não tendo a inversa comum. Obtém-se a inversa generalizada a partir de restrições impostas sobre os parâmetros constituintes do vetor β . A restrição usual é dada por: 0tr i ii . A matriz de restrição A é tal que βˆA . 0...000 ............... 0...000 0...000 r...rr0 A Seja: r...00r ............... 0...r0r 0...0rr 0...00Ir A - SM YXMβˆYXβˆM '-1' YX Mβˆ '-1 I 2 1 I 2 1 T ... T T G r1...00rI1- ............... 0...r10rI1- 0...0r1rI1- 0...00rI1 tˆ ... tˆ tˆ mˆ βˆ Assim, temos: mˆmˆtˆ r I G r T tˆ ........................... mˆmˆtˆ r I G r T tˆ mˆmˆtˆ rI G r T tˆ rI G mˆ II I I 22 2 2 11 1 1 Estimativa do vetor βˆ mˆmˆ ...... mˆmˆ mˆmˆ mˆ βˆ I 2 1 Análise de Variância SQTotal = rI G YY 2 ' rI G Y ... Y Y ... ... ... ... Y ... Y Y Y ... Y Y Y...YY............Y...YYY...YYSQTotal 2 rI I2 I1 2r 22 21 1r 12 11 rII2I12r22211r1211 rI G YXβSQTrat 2 '' rI G T ... T T G tˆ...tˆtˆmˆSQTrat 2 I 2 1 I21 YXβYYSQRes ''' SQRes = SQTotal – SQTrat Quadro da Análise de Variância F. V. GL SQ QM F Tratamento (I – 1) CYXβ '' SQTrat/(I – 1) sReQM QMTrat Resíduo I (r – 1) YXβYY ''' SQRes/ I (r – 1) Total (Ir – 1) C-YY ' - ANÁLISE DE VARIÂNCIA DE UM EXPERIMENTO NO DELINEAMENTO INTEIRAMENTE CASUALIZADO COM NÚMERO DIFERENTE DE REPETIÇÕES POR TRATAMENTO Quadro teórico de dados: Tratamentos Repetições Totais 1 Y11 Y12 Y13 ... ... T1 1mˆ (3 rep) 2 Y21 Y22 Y23 Y24 ... T2 2mˆ (4 rep) 3 Y31 Y32 Y33 Y34 Y35 T3 3mˆ (5 rep) 4 Y41 Y42 Y43 Y44 Y45 T4 4mˆ (5 rep) mˆ (17 rep) 45 44 43 42 41 35 34 33 32 31 24 23 22 21 13 12 11 Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y ; 10001 10001 10001 10001 10001 01001 01001 01001 01001 01001 00101 00101 00101 00101 00011 00011 00011 X ; ; tˆ tˆ tˆ tˆ mˆ β 4 3 2 1 4 3 2 1 T T T T G YX' ; N G mˆ N = número total de parcelas mˆmˆtˆ 11 mˆmˆtˆ 21 mˆmˆtˆ 31 mˆmˆtˆ 41 50005 05005 00404 00033 554317 XX'S A matriz A é tal que βˆA Restrições : 0tr ii → r1 t1 + r2 t2 + r3 t3 + r4 t4 = 0 00000 00000 00000 00000 55430 A 50005 05005 00404 00033 000017 ASM 51000171 05100171 00410 171 171 00031171 0000171 M 1 4 3 2 1 1 T T T T G 51000171 05100171 00410 171 171 00031171 0000171 YX'Mβˆ 4 3 2 1 tˆ tˆ tˆ tˆ mˆ ˆ 17 G 5 T tˆ 17 G 5 T tˆ 17 G 4 T tˆ 17 G 3 T tˆ 17 ˆ 4 4 3 3 2 2 1 1 G m SQTotal = rI G YY 2 ' 17 G Y ... Y Y ... ... ... Y Y Y Y Y Y Y Y Y Y..YY......YYYYYYYSQTotal 2 45r 42 41 32 31 24 23 22 21 13 12 11 454241323124232221131211 YY 17 G YXβSQTrat 2 '' 17 G T T T T G tˆtˆtˆtˆmˆSQTrat 2 4 3 2 1 4321 YXβˆYYSQRes ''' O quadro da análise de variância para a análise de um experimento instalado segundo o DIC, com igual número de repetições para todos os tratamentos é do seguinte tipo: FV GL SQ QM F Tratamentos (I – 1) C - YXβˆ '' 1I SQTrat QMRes QMTrat Resíduo I (K - 1) YXβˆYY ''' 1)(KI SQRes - Total I K – 1 C-YY ' - - A partir das SQTratamento e SQResíduo, obtêm-se os respectivos quadrados médios, por meio do quociente entre a soma de quadrados com o respectivo número de graus deliberdade. Para concluir se existe diferença entre tratamentos, calcula-se o valor de F, que é obtido pelo quociente do QMTrat com o QMRes. Este valor de F calculado deve ser comparado com o valor de F tabelado, o qual é obtido na tabela de distribuição da variável aleatória F, de acordo com o nível de significância do teste, graus de liberdade para tratamentos e graus de liberdade para resíduo. As hipóteses para o teste F da análise de variância para tratamentos, são as seguintes: Ho: m1 = m2 = ... = mI = m, o que equivale a dizer que todos os possíveis contrastes entre as médias dos tratamentos, são estatisticamente nulos, ao nível de probabilidade que foi executado o teste. Ha: não Ho, o que eqüivale a dizer que existe pelo menos um contraste entre as médias dos tratamentos, estatisticamente diferente de zero, ao nível de probabilidade que foi realizado o teste. A regra decisória para o teste F é a seguinte: - Se o valor do F calculado for maior ou igual ao valor do F tabelado, então rejeita-se H0 e conclui-se que os tratamentos tem efeito diferenciado ao nível de significância em que foi realizado o teste; - Se o valor de F calculado for menor que o valor do F tabelado, então não rejeita-se H0 e conclui-se que os tratamentos tem efeitos iguais ao nível de significância em que foi realizado o teste. EXEMPLO 1: Para comparar o crescimento de mudas de quatro espécies de eucalipto, um pesquisador tomou vinte parcelas similares e distribuiu, inteiramente ao acaso, cada uma 4 espécies em 5 parcelas experimentais. A partir dos dados experimentais fornecidos abaixo, é possível concluir que existe diferença significativa entre as espécies com relação ao crescimento das mudas, utilizando o nível de significância de 5%? Espécies A B C D 25 31 22 33 26 25 26 29 20 28 28 31 23 27 25 34 21 24 29 28 Totais 115 135 130 155 Médias 23 27 26 31 H0 : mA = mB = mC = mD = m H1 : não H0 H0 : Todos os possíveis contrastes entre médias de tratamentos, são estatisticamente nulos, ao nível de 5% de probabilidade. Ha : Existe pelo menos um contraste entre médias de tratamento, estatisticamente diferente de zero, ao nível de 5% de probabilidade. SQTotal = rI G YY 2 ' 75,275 20 535 28 29 ... 31 25 2829...3125SQTotal 2 SQParâmetros = YX''βˆ 50005 05005 00505 00055 000020 M 51000201 05100201 00510201 00051201 0000201 M 1 25,4 75,0 25,0 75,3 75,26 155 130 135 115 535 51000201 05100201 00510201 00051201 0000201 YX'M tˆ tˆ tˆ tˆ mˆ βˆ 1 4 3 2 1 SQParâmetros = YX''βˆ 475.14 155 130 135 115 535 25,475,025,075,375,26 SQTrat = YX''βˆ - C = 14.475 – 14.311,25 = 163,75 SQResíduo = Y’Y - YX''βˆ = 14.587 – 14.475 = 112,00 F.V. GL SQ QM F Tratamento 3 163,75 54,5833 7,80 Resíduo 16 112,00 7,00 Total 19 275,75 Ftab = F5% (3; 16) = 3,24 Fcal > Ftab : rejeita-se Ho ao nível de 5% de probabilidade, ou seja, existe pelo menos um contraste entre médias de tratamento, estatisticamente diferente de zero. Exemplo 2: Com os dados abaixo relativos a um experimento no DIC, efetuar a análise de variância e concluir para o nível de 5% de probabilidade (utilizar o método matricial). Tratamentos Total 1 2 3 4 5 20,3 25,6 24,9 30,1 31,6 21,4 26,5 27,3 32,6 32,0 22,3 26,3 26,8 32,8 31,9 24,1 25,8 26,4 33,1 32,6 25,7 25,9 30,8 88,1 129,9 131,3 159,4 128,1 636,8 H0 : m1 = m2 = m3 = m4 = m5 = m H1 : não H0 H0 : Todos os possíveis contrastes entre médias de tratamentos, são estatisticamente nulos, ao nível de 5% de probabilidade. Ha : Existe pelo menos um contraste entre médias de tratamento, estatisticamente diferente de zero, ao nível de 5% de probabilidade. SQTotal = rI G YY 2 ' 6261,335 23 8,636 6,32 9,31 ... 4,21 3,20 6,329,31...4,213,20SQTotal 2 SQParâmetros = YX''βˆ 400004 050005 005005 000505 000044 0000023 M 410000231 051000231 005100231 000510231 000041231 00000231 M 1 3380,4 1930,4 4270,1 7070,1 6620,5 6870,27 1,128 4,159 3,131 9,129 1,88 8,636 410000231 051000231 005100231 000510231 000041231 00000231 YX'M tˆ tˆ tˆ tˆ tˆ mˆ βˆ 1 5 4 3 2 1 SQParâmetros = YX''βˆ 2170,947.17 1,128 4,159 3,131 9,129 1,88 8,636 338,4193,4427,1707,1662,5687,27 SQTrat = YX''βˆ - C = 17.947,2170 – 17.631,0539 = 316,1631 SQResíduo = Y’Y - YX''βˆ = 17.966,6800 – 17.947,2170 = 19,4630 F.V. GL SQ QM F Tratamento 4 316,1631 79,0408 73,10 Resíduo 18 19,4630 1,0813 Total 22 335,6261 Ftab = F5% (4; 18) = 2,93 Fcal > Ftab : rejeita-se Ho ao nível de 5% de probabilidade, ou seja, existe pelo menos um contraste entre médias de tratamento, estatisticamente diferente de zero. Formulário e Tabelas Observações: - As tabelas que aqui constam, foram adaptadas do livro: Curso de Estatística Experimental (12ª ed) de Frederico Pimentel Gomes, 1987. - Este material será usado em provas e portanto não deverá conter informações adicionais. Tabela 1 – Áreas de uma distribuição norma padrão. Cada casa na Tabela dá a proporção sob a curva inteira entre z=0 e um valor positivo de z. As áreas para os valores de z negativos são obtidas por simetria. Tabela 2 - Valores de t em níveis de 0,50 a 0,005 de probabilidade (Tabela Bilateral)Tabela 12 - Valores críticos (dc) para o teste de Lilliefors (adaptado de Barbetta et al.2004)
Compartilhar