Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE DE BRASÍLIA FACULDADE DE TECNOLOGIA DEPARTAMENTO DE ENGENHARIA FLORESTAL DISCIPLINA: DASONOMIA Aula do Professor ILDEU SOARES MARTINS REVISÃO DE ESTATÍSTICA EXPERIMENTAL 1 Alguns conceitos úteis: Hipótese científica: é formulada pelo estudioso (pesquisador ou outro) com base em interesses específicos. Por exemplo, se o interesse for comparar métodos de quebra de dormência de sementes de uma espécie do cerrado; a hipótese pode ser: “Entre os métodos concorrentes existem um ou mais que são superiores”. Na comparação de variedades em termos de produtividade, a hipótese científica pode ser: “Há variabilidade genética entre as variedades”. Hipótese estatística: é formulada com a ajuda de profissional especializado e está ligada ao método estatístico utilizado. Por exemplo, na Anova (análise de variância), a HO (hipótese de nulidade) diz que não há efeito de tratamento, ou seja, µ1 = µ2 =.....= µt = 0, onde µi = média do tratamento i (população), com i = 1, 2, 3,...t. Lembrando que qualquer teste é construído para o valor populacional. A Ha (hipótese alternativa) será “existe pelo menos um contraste entre médias significativo”. Na análise de regressão, a hipótese estatística é construída para os valores dos parâmetros de regressão. Exemplo, no modelo 𝑦𝑖 = 𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + 𝜀𝑖, onde yi é a variável dependente, x1 e x2 são as variáveis explicativas e 𝜀𝑖 são os erros associados a cada um dos ajustes. A hipótese estatística é 𝛽0 = 𝛽1 = 𝛽2 = 𝑜 . A Ha será “existe pelo menos um parâmetro diferente de 0”. Nível de significância (α): também chamado de erro tipo 1, é a máxima probabilidade de erro ao rejeitar H0. Antes costumava-se escolher este erro a priori e comparar valores calculados e tabelados. Hoje, especialmente com o uso de computadores para análise de dados, estima-se o valor do erro e rejeita a hipótese quando o mesmo for baixo (abaixo de 5% é significativo a 5%; ou abaixo de 1% é significativo a 1%). Unidade experimental ou parcela: é a menor porção do experimento que vai receber os tratamentos, deve ser o mais homogênea possível, para que as diferenças observadas nas avaliações sejam devidas aos tratamentos. Em laboratórios, a parcela pode ser um recipiente com um certo número de sementes; no viveiro, um grupo de mudas; e, no campo, um grupo de árvores. Na determinação desses números, é preciso considerar a disponibilidade do material e lembrar que é melhor usar menos indivíduos por repetição e realizar mais repetições. Fontes de variação premeditadas: são aquela introduzidas pelo pesquisador, com a finalidade de fazer comparações. São os chamados tratamentos. Exemplos: métodos de quebra de dormência (laboratórios), níveis de adubação (viveiro ou campo), variedades (viveiro ou campo). Fontes de variação aleatórias: são aquela sobre as quais o pesquisador não tem controle. Essa fonte de variação é denominada de resíduo. 2. Princípios básicos da experimentação a) Repetição: não existe experimentação sem repetição, pois é ela que permite a estimativa do erro experimental, o qual é fundamental para todas as inferências. b) Casualização: casualizar é garantir que nenhum tratamento seja favorecido ou desfavorecido na implantação do experimento. A casualização, então, dá validade à estimativa do erro experimental. Os dois primeiros princípios são obrigatórios no âmbito da experimentação, ao contrário do terceiro princípio, descrito a seguir. c) Controle local: quando o local de experimentação for heterogêneo, deve-se proceder a estratificação, formando os chamados blocos, na esperança de que dentro de cada um dos blocos a variação seja a mínima possível. O controle local tem a função de reduzir o erro experimental. 3. Delineamentos experimentais São propostos em literatura três delineamentos experimentais básicos: DIC (delineamento inteiramente casualizado), DBC (delineamentos em blocos casualizado) e o QL (quadrado latino). Os outros são derivados desses três. 3.1. Delineamento Inteiramente ao Acaso (DIC) a) Introdução É o mais simples de todos, envolve apenas os princípios de repetição e casualização e, como não requer restrição na casualização, o local de experimentação deve ser homogêneo. Exemplos: experimentos com sementes em laboratório, uso de vasos em estufas. No caso de viveiros florestais, é possível utilizar o DIC, pois as condições (irrigação, adubação, sombreamento e outras) podem ser controladas; entretanto, deve-se tomar cuidado com a disposição dos tratamentos. Lembrar sempre que é necessário variar apenas o que se quer testar. Em condições de campo, pode-se usar o DIC? A resposta vai depender do pesquisador. A topografia é favorável? As condições de solo são homogêneas? E outras indagações serão comuns. Entretanto, é preferível usar o DBC, como veremos mais tarde. b) Planejamento do experimento Supondo um experimento com 4 tratamentos (I = 4) e 5 repetições (J = 5), o que totaliza 20 UE (unidades experimentais). Dividir o local em 20 pequenas partes e, através de sorteio (papéis numerados, por exemplo) distribuir as unidades experimentais. Com árvores no campo, é importante plantar linhas de bordadura, visando igualdade na competição entre os tratamentos. No caso de viveiros, dependendo da idade, é preciso, também, considerar a bordadura. Um dado prático, proposto por Pimentel Gomes (1985), muito utilizado, é considerar um mínimo de 20 UE, ou como veremos um pouco adiante, no mínimo 12 graus de liberdade (GL) para o resíduo. c) Modelo estatístico Este modelo é uma expressão matemática com os efeitos existentes no delineamento. 𝑦𝑖𝑗 = 𝑚 + 𝑡𝑖 + 𝑒𝑖𝑗 , em que, yij é a observação referente ao tratamento i, na repetição j; m é a média geral; ti é o efeito do tratamento i e eij é o efeito aleatório ou resíduo. Entendendo o modelo: cada vez que se faz uma avaliação ou medida (número de sementes germinadas, altura da muda ou da árvore, DAP ou outra qualquer), naquela medida tem o efeito do tratamento correspondente repetido j vezes e outro efeito não controlado; ambos os efeitos sobre uma média geral. Na realidade, m é uma constante qualquer (poderia ser 0, por exemplo); mas na prática se usa a média geral. d) Quadro com as avaliações Repetições Tratamentos 1 2 . . j Totais (Ti) 1 Y11 Y12 . . Y1j ∑ 𝑦1. 𝑗 2 Y21 Y22 . . Y2j ∑ 𝑦2. 𝑗 . . . . . . . . . . . . . . i Y1j Y2j . . yij ∑ 𝑦𝑖. 𝑗 G = Σ𝑖Σ𝑗𝑦𝑖𝑗 Onde: G é o total geral; Ti é o total do tratamento i; ti é o efeito do tratamento i, ou seja, 𝑡𝑖 = 𝑇�̅� − 𝑥𝐺̅̅ ̅ , isto é, o efeito de um tratamento é a média dele menos a média geral. Lembrando: 𝑇�̅� = 𝑇𝐼 𝐽 𝑒 𝑥𝐺̅̅ ̅ = 𝐺 𝑁 , sendo N = I.J. Será verificado que, no estudo, ∑ti = 0. e) Análise de variância (ANOVA) A análise de variância consiste na decomposição da variação total nas partes controladas (tratamentos) e não controladas (resíduo). A razão entre estas variâncias tem distribuição de F e pode ser usada para inferência a respeito dos tratamentos. O quadro de ANOVA é o seguinte: FV GL SQ QM F Tratamentos I - 1 SQT QMT QMT/QMR Resíduo I(J – 1) SQR QMR Total IJ -1 SQTo H0=os tratamentos têm o mesmo efeito (não existem diferenças significativas entre os tratamentos) Cálculo das somas de quadrados: Por definição variância é a soma de quadrado dividido pelos GL: 𝑠𝑥 2 = Σ(𝑥𝑖−�̅�) 2 𝑛−1 , por desenvolvimento simples, 𝑠𝑥 2 = Σ𝑥𝑖 2− (Σ𝑥𝑖) 2 𝑛 𝑛−1 Esta expressão vai ser usada para cálculo das somas de quadrados da ANOVA. Note que em todas elas haverá a correção (C). C = 𝐺2 𝑁 , onde N é o total de parcelas (UE), ou seja, N = I.J A soma de quadrados total se refere às parcelas: SQTo = 𝑦11 2 + 𝑦12 2 + ⋯ + 𝑦𝑖𝑗 2 − 𝐶 A soma de quadrados para tratamentos se refere aos totais de tratamentos: SQT =Σ𝑇𝑖 2 𝐽 – C A soma de quadrados do resíduo é obtida por: SQR = SQTo – SQT Obtenção dos quadrados médios Os quadrados médios são as variâncias, ou seja, cada um deles é obtido pela sua soma de quadrado dividida pelos graus de liberdade associados. QMT = SQT/(I -1) e QMR = SQR/I(J – 1) O valor de F é obtido por: F = QMT/QMR Conforme dito anteriormente, o quociente entre duas variâncias apresenta distribuição de F. Assim, o F obtido na análise (F calculado, ou simplesmente Fc) é comparado com o F obtido em tabelas (Ft). A regra de decisão é a seguinte: se Fc ≥ Ft, o resultado é significativo e implica em rejeição da Ho; e se Fc < Ft, o resultado é não significativo e implica em não rejeição da Ho. Para usar a tabela, considerar o α (nível de significância); normalmente se usa 1% ou 5%. Na tabela, nas colunas estão os GL de tratamentos e nas linhas os GL do resíduo. Vários autores apresentam tabelas em vários níveis de α (10%, 5%, 2,5%, 1% e outros) e para interpolação, é preciso usar as recíprocas dos GL (serão resolvidos exemplos a este respeito). Exemplo: Considere um experimento de competição de cultivares de Eucalyptus sp., com 4 cultivares e 5 repetições. Mediu-se as alturas das plantas (m), aos 60 meses de idade. A parcela foi constituída de 10 árvores e os dados referem-se às médias em cada parcela. Repetições Cultivares 1 2 3 4 5 1 20 18 17 21 22 2 14 12 11 10 15 3 18 22 21 20 19 4 23 25 21 22 23 Efetue a ANOVA, considerando α = 5% H0 = os tratamentos têm o mesmo efeito. Não existem diferenças significativas entre os tratamentos (cultivares) Ha = existe pelo menos um tratamento com efeito diferente A primeira providência é obter as somas de todos os tratamentos e a soma total (G). T1 = 98; T2 = 62; T3 = 100; T4 = 114; e, G = 374 Correção: C = 3742/5.4 = 6993,8 SQTo = 202 + 182 + ......+ 232 – C = 7342 - 6993,8 = 348,2 SQT = 982+ 622+ 1002+ 1142 5 – C = 7288 – 6993,8 = 294,2 SQR = 348,2 – 294,2 = 59 Quadro de ANOVA: FV GL SQ QM F Tratamentos 3 294,2 98,07 26,69* Resíduo 16 59 3,6875 Total 19 348,2 *Significativo ao nível de 5% Na tabela F5% (3;16) = 3,24; Fc > Ft implica em rejeição de H0, ou seja, existe pelo menos um contraste entre medias significativo ao nível de 5%. Nota: recentemente, especialmente com o uso de programas de computadores para realização dos testes, passou a ser comum estimar o nível de significância ao invés de comparar os valores calculados e tabelados. Os aplicativos fornecem a estimativa após o valor do F. No caso, P = 0,002. Assim, o valor de F é significativo a 0,2% (obviamente, o F é significativo a qualquer nível superior a este). Uma medida de controle experimental comumente utilizada é o coeficiente de variação experimental (CVe): 𝐶𝑉𝑒 = √𝑄𝑀𝑅 𝑥𝐺̅̅ ̅̅ 𝑥100 = √ 3,6875 374 20⁄ x 100 = 10,27%. Na classificação proposta por Pimentel Gomes; Garcia (2002), este valor pode ser considerado baixo, indicando alto controle experimental. Calculando, agora, os efeitos dos tratamentos: 𝑥𝑔 ̅̅̅̅ = 374 20 = 18,7 t1 = 98/5 – 18,7 = 0,9; t2 = 62/5 – 18,7 = -6,3; t3 = 100/5 – 18,7 = 1,3 e t4 = 114/5 – 18,7 = 4,1. Observa-se que a somatória dos efeitos dos tratamentos é nula (conceito de média). Como são 4 tratamentos, o próximo passo é verificar qual ou quais contrastes são significativos (que tratamentos diferem entre si). Para tanto, lança-se mão dos chamados procedimentos para comparações múltiplas ou testes de médias. O teste mais usado é o de Tukey. Teste de Tukey Esse teste compara todo e qualquer contraste entre duas médias. Para aplicar o teste (de uma forma bem simples): ∆ = 𝑞√ 1 2 𝑠𝑦 2. onde Δ é o discriminante de Tukey, q é o valor tabelado para uso no teste; q é função de α, número de tratamentos e GLR e s2y é a variância (estimador) do contraste. O contraste é: y = m1 – m2; m1 e m2 são duas médias quaisquer. Demonstra-se facilmente que: ∆ = 𝑞√ 1 2 ( 1 𝑟1 + 1 𝑟2 )𝑄𝑀𝑅 e se r1 = r2 = 𝑟 ≫ ∆ = 𝑞√ 𝑄𝑀𝑅 𝑟 , onde r é o número de repetições. Calcula-se o valor do discriminante e os valores de todos os contrastes, o contrates que tiver valor superior ou igual ao valor do discriminante é considerado significativo nos níveis utilizados. No exemplo: QMR = 3,6875, r = 5, m1 = 98/5 = 19,6; m2 = 62/5 = 12,4; m3 = 100/5 = 20 e m4 = 114/5 = 22,8. Na tabela de Tukey (5%): nas colunas o número de tratamentos = 4 e nas linhas o GLR = 16. O valor de q = 4,05. ∆ = 4,05√ 3,6875 5 = 4,478 Coloca-se as médias ordenadas para facilitar a interpretação: M4 = 22,8 a m1 = 24 a M3 = 20,0 a m2 = 21 a b ∆ = 3,5 M1 = 19,6 a m3 = 18 b M2 =12,4 b Médias seguidas pela mesma letra não diferem entre si, estatisticamente, pelo teste de Tukey ao nível de 5%. Notem que os tratamentos 4, 3 e1 não diferem entre si e todos eles são superiores ao tratamento 2. Cabe, agora, ao pesquisador decidir que tratamento usar, com base em aspectos econômicos e de praticabilidade. Uma propriedade importante do DIC reside na possibilidade de perda de parcelas. Diz-se que o DIC é robusto para a perda de parcelas, isto é, pode-se proceder a análise normalmente, tomando os devidos cuidados com os GL do resíduo. Será utilizado o mesmo exemplo anterior com a perda de duas parcelas. Repetições Cultivares 1 2 3 4 5 1 20 18 17 21 22 2 14 12 -- 10 15 3 18 22 21 20 -- 4 23 25 21 22 23 T1 = 98; T2 = 51, T3 = 81; T4 = 114 e G = 344 C = 3442/18 = 6574,22 SQTo = 202 + 182 + ......+ 232 – C = 6860 – 6574,22 = 285,78 SQT = 982 5 + 512 4 + 812 4 + 1142 5 – C = 6810,5 – 6574,22 = 236,28 SQR = 285,78 – 236,28 = 49,5 Quadro de ANOVA FV GL SQ QM F Tratamentos 3 236,26 78,7533 23,61* Resíduo 14 49,5 3,5357 Total 17 286,78 *significativo ao nível de 5% Ft =F5% (3,14) = 3,34 A H0 é a mesma e as interpretações são semelhantes. A estimativa do nível de significância é p = 0,0025. A média geral (𝑥𝐺̅̅ ̅) = 344/18 = 19,1111 O CVe = √ 3,5357 19,1111 𝑥 100 = 9,84%. Indica alto controle experimental. Teste de Tukey para o DIC desbalanceado: QMR = 3,5337, GLR = 14, número de tratamentos = 4. Na tabela de Tukey (5%): q = 4,11. T1 = 98; T2 = 51, T3 = 81; T4 = 114 e G = 344 M4 = 114/5 = 22,8 a M3 = 81/4 = 20,25 a M1 = 98/5 = 19,6 a M2 = 51/4 = 12,75 b Médias seguidas pela mesma letra não diferem entre si, estatisticamente, pelo teste de Tukey ao nível de 5%. É preciso calcular três discriminantes: (comparar médias com 5 repetições, médias com 4 repetições e comparar médias com 4 e 5 repetições): 1.∆1 = 𝑞√𝑄𝑀𝑅/5 = 4,11√3,5337/5 = 3,4552 2. ∆2 = 𝑞√𝑄𝑀𝑅/4 = 4,11√3,5337/4 = 3,4552 = 3.863 3. ∆3 = 𝑞√ 1 2 ( 1 5 + 1 4 )𝑄𝑀𝑅 = 4,11√ 1 2 ( 1 5 + 1 4 ) 3,5337 = 3.6648 A s interpretações não diferem do caso anterior. 3.2 Delineamentos em Blocos Casualizado (DBC) a) Introdução Quando o local de experimentação não é homogêneo, procede-se a estratificação, formando os chamados blocos. Diz-se, então, que há uma restrição na casualização. Na estratificação, espera- se que a variação entre blocos seja alta e a variação dentro dos blocos seja a mínima possível. Este delineamento, portanto, envolve os três princípios básicos. Por ser mais restritivo que o DIC e menos restritivo que o QL (veremos a seguir), é o delineamento mais utilizado na prática. b) Planejamento do experimento Supondo um experimento com 4 tratamentos (I = 4) e 5 repetições (J = 5), o que totaliza 20 UE (unidades experimentais). Formar 5 blocos (número de blocos = número de repetições) e, em cada um dos blocos, sortear ao acaso, os 4 tratamentos. São necessárias linhas de bordaduras em todo o experimento e, ainda,separando os blocos. A competição deve ser entre os tratamentos em cada um dos blocos. c) Modelo estatístico No DBC o modelo estatístico é o do DIC com a inclusão do efeito de blocos. 𝑦𝑖𝑗 = 𝑚 + 𝑡𝑖 + 𝑏𝑗 + 𝑒𝑖𝑗 , em que, yij é a observação referente ao tratamento i, na repetição j; m é a média geral; ti é o efeito do tratamento i; bj é o efeito do bloco j e eij é o efeito aleatório ou resíduo. Entendendo o modelo: O efeito dos blocos é incluído na parte controlada pelo pesquisador, assim os graus de liberdade do resíduo são diminuídos em relação ao DIC. d) Quadro com as avaliações O quadro é semelhante ao do DIC, considerando que repetições são blocos. Blocos Tratamentos 1 2 . . j Totais de tratamentos 1 Y11 Y12 . . Y1j ∑ 𝑦1. 𝑗 2 Y21 Y22 . . Y2j ∑ 𝑦2. 𝑗 . . . . . . . . . . . . . . i Y1j Y2j . . yij ∑ 𝑦𝑖. 𝑗 Totais de bloco ∑ 𝑦.1 𝑖 ∑ 𝑦.2 𝑖 . . ∑ 𝑦.𝑗 𝑖 G = Σ𝑖Σ𝑗𝑦𝑖𝑗 2 Onde: G é o total geral; Ti é o total do tratamento i; ti é o efeito do tratamento i, ou seja, 𝑡𝑖 = 𝑇�̅� − 𝑥𝐺̅̅ ̅ , isto é, o efeito de um tratamento é a média dele menos a média geral; Bj é o total do bloco j; bj é o efeito do bloco j, ou seja, 𝑏𝑗 = 𝐵�̅� − 𝑥𝐺̅̅ ̅ , isto é, o efeito de um bloco e a mpedia dele menos a média geral. 𝑇�̅� = 𝑇𝐼 𝐽 ; 𝐵𝐽̅̅ ̅ = 𝐵𝑗 𝐼 𝑒 𝑥𝐺̅̅ ̅ = 𝐺 𝑁 , sendo N = I.J. Será verificado que, no estudo, ∑ti = ∑bj = 0 e) Análise de variância Em relação à ANOVA do DIC, incluir a fonte de variação blocos FV GL SQ QM F Tratamentos I - 1 SQT QMT QMT/QMR Blocos J - 1 SQB Resíduo (I -1)(J – 1) SQR QMR Total IJ -1 SQTo A soma de quadrado de blocos é obtida da seguinte forma: SQB = 𝐵1 2+𝐵2 2+⋯+𝐵𝑗 2 𝐼 − 𝐶 As outras somas de quadrados são exatamente iguais às do DIC. Todas as outras considerações (H0, teste de F, níveis de significância, estimativa dos níveis de significância, coeficiente de variação experimental) são válidas aqui também. Nota: normalmente, não se testa os blocos, exatamente porque eles foram utilizados devido às diferenças do ambiente de experimentação, mas em alguns casos específicos pode ser de interesse do pesquisador tal procedimento. Exemplo: Considerar-se-á o mesmo exemplo do DIC, mas agora as repetições serão definidas como blocos (controladas): Blocos Cultivares 1 2 3 4 5 1 20 18 17 21 22 2 14 12 11 10 15 3 18 22 21 20 19 4 23 25 21 22 23 Efetue a ANOVA, considerando α = 1% H0 = os tratamentos têm o mesmo efeito. Ha = existe pelo menos um tratamento com efeito diferente A primeira providência é obter as somas de todos os tratamentos, de todos os blocos e a soma total (G). T1 = 98; T2 = 62; T3 = 100; T4 = 114; B1 = 75; B2 = 77; B3 = 70; B4 = 73; B5 = 79 e G = 374 C = 3742/20 = 6993,8 SQTo = 348,2; SQT = 294,2 SQB = (752 + 772 + 702 + 732 + 792) /4 – C = 7006 - 6993,8 = 12,2 SQR = SQTo – SQT – SQB = 348,2 – 294,2 – 12,2 = 41,8 Quadro de anova: FV GL SQ QM F Tratamentos 3 294,2 98,07 28,18* Blocos 4 12,2 Resíduo 12 41,8 3,48 Total 19 348,2 *significativo ao nível de 1% O resultado é significativo, portanto, rejeita-se H0. Deve-se usar um teste de médias para especificação das diferenças significativas entre os tratamentos (da mesma forma que foi utilizado o Tukey no DIC). Cve = √ 3,48 18,7 x 100 = 9,98% Observa-se que o coeficiente de variação experimental para o DBC foi muito próximo daquele calculado para o DIC (10,27%), mas, na maioria das vezes, o que acontece é o DBC ser mais eficiente do que o DIC, pois a diminuição dos GL do resíduo é acompanhada, também, por uma diminuição da SQ do resíduo, resultando em coeficientes de variações menores. Nota: O DBC não é robusto para a perda de parcela; quando acontecer este imprevisto, deve-se estimar a(s) parcela(s) perdida(s) e existem critérios para tal procedimento. Pode-se, também, usar a teoria dos blocos incompletos. Estes temas não serão tratados aqui, pois a ideia é fornecer as bases do DBC. 3.3. Delineamentos em quadrados latinos (QL) Os quadrados latinos formam blocos nas linhas e também nas colunas; é chamado delineamento com duas restrições na casualização. Desta forma, o número de tratamentos tem que ser igual ao número de repetições, daí o nome do delineamento. As fontes de variações são: tratamentos, linhas e colunas, todas essas com o mesmo número de GL, além dos resíduos. Desta forma: GL total = I2 – 1; GL tratamentos = GL linhas = GL colunas = I - 1, onde I é o número de tratamentos. O GLR = GL total - GL linhas - GL colunas. GLR = = I2 – 1 – (I -1) – (I -1) – (I-1) = = I2 – 1 – 3I + 3 = = I2 – 3I + 2 = (I -1)(I -2): GLR = (I -1)(I - 2) Este resultado implica em algumas limitações do QL: No mínimo 5 tratamentos ≫ GLR = 12 e no máximo 8 tratamentos ≫ 64 𝑈𝐸. Esta limitação superior poderia ser contornada se houver disponibilidade de recursos financeiros e operacionais, pois com o uso de aplicativos computacionais para análise dos dados facilita todo o trabalho de escritório. Os quadrados latinos não têm muita aplicação em Ciências Florestais, como um todo e Melhoramento Florestal, particularmente, assim não serão apresentados mais comentários a este respeito. Para interesses específicos ver Pimentel Gomes (2009). 3.4 Experimento fatoriais a) Introdução Os delineamentos vistos até aqui são com apenas um fator a ser testado (tratamentos). Experimentos fatoriais são aqueles que incluem mais de um fator; não são delineamentos propriamente ditos e, sim, arranjos experimentais, com base nos três delineamentos fundamentais (DIC, DBC e QL). São muito úteis por permitir analisar mais de um fator simultaneamente, inclusive a interação entre os fatores e, portanto, fornecer mais respostas. Têm a limitação de aumentar muito o número de tratamentos com a inclusão de um novo fator. b) Planejamento do experimento Serão considerados apenas os experimentos com dois fatores. Experimentos mais complexos podem ser consultados em livros de estatística experimental (PIMENTEL GOMES, 2009). Supondo um experimento envolvendo 4 variedades (fator 1) e 3 espaçamentos (fator 2). Os tratamentos serão as combinações desses dois fatores, ou seja, serão 4 x 3 = 12 tratamentos. Considerando que serão adotadas 3 repetições, o número de unidades experimentais (UE) será igual a 36 (12 x 3). As 36 UE serão arranjadas segundo um dos delineamentos fundamentais. Por exemplo, se for em DIC, todas as 36 serão sorteadas aleatoriamente no local de experimentação. No caso de usar o DBC, serão formados 3 blocos e dentro de cada um deles serão sorteados os 12 tratamentos. Em qualquer caso, deve-se plantar as linhas de bordadura conforme já explicado. c) Modelo estatístico (2 fatores) 𝑦𝑖𝑗𝑘 = 𝑚 + 𝑎𝑖 + 𝑏𝑗 + 𝑎𝑥𝑏𝑖𝑗 + 𝑒𝑖𝑗𝑘. No modelo: yijk é a observação (medida) referente à repetição k do nível i do fator A no nível j do fator B; m é a constante inerente aos dados (na prática, é a média geral); ai é o efeito do fator A; bj é o efeito do fator B; abij é o efeito da interação A x B; e, eijk é o efeito do erro aleatório ou resíduo. Note que os fatores são representados por letras maiúsculas e os efeitos dos fatores por letras minúsculas. d) Quadro de observações ou medidas Fator B Fator A 1 2 . . j Totais de A 1 y111 y112 . y11k y121 y122 . y12k . . . . . . . . y1j1 y1j2 . y1jk TA1 2 y211 y212 . Y21k y221 y222 . Y22k . . . . . . . . y2j1 y2j2 . y2jk TA2 . , . . i yi11 yi12 . yi1k yi21 yi22 . yi2k . . . . . . . . yij1 yij2 . yijlk TAi Totais de B TB1 TB2 TBj G Nota: os níveis do fator A estão nas linhas, os do fator B estão nas colunas e dentro das “caselas” estão as k repetições. d) Análise de variância:O quadro de ANOVA, considerando o delineamento básico um DIC, com r repetições, é o seguinte: FV GL SQ QM F Fator A a- 1 SQA QMA QMA/QMR Fator B b - 1 SQB QMB QMB/QMR A x B (a -1)(b -1) SQAB QMAB QMAB/QMR Resíduo ab(r – 1) SQR QMR Total abr - 1 SQTo Considerando o delineamento básico um DBC, com r repetições (ou blocos), o quadro é o seguinte: FV GL SQ QM F Fator A a- 1 SQA QMA QMA/QMR Fator B b - 1 SQB QMB QMB/QMR A x B (a -1)(b -1) SQAB QMAB QMAB/QMR Blocos r- 1 Resíduo (ab – 1)(r – 1) SQR QMR Total abr - 1 SQTo Nota: Todas as fórmulas para os GLR foram obtidas pela diferença entre o total e as outras (fator A, fator B e interação); portanto, não é necessário memorizá-las. Cálculo das somas de quadrados C = G2/abr A SQTo é calculada da mesma forma em qualquer delineamento: SQTo = 𝑦111 2 + 𝑦112 2 + ⋯+ 𝑦𝑖𝑗𝑟 2 − 𝐶 SQA = 𝑇𝐴1 2 + 𝑇𝐴2 2 +⋯.+𝑇𝐴𝑖 2 𝑏 𝑥 𝑟 − 𝐶 SQB = 𝑇𝐵1 2 + 𝑇𝐵2 2 +⋯+𝑇𝐵𝑗 2 𝑎 𝑥 𝑟 − 𝐶 Note que cada total é dividido pelo número de observações que o originou. Para cálculo da SQ da interação A x B, inicialmente considerar a SQ dos valores de A e B combinados (referentes aos totais de cada uma das combinações): SQ (A, B) = 𝑇𝐴1𝐵1 2 + 𝑇𝐴1𝐵2 2 …..+𝑇𝐴𝑖𝐵𝑗 2 𝑟 − 𝐶. Novamente, cada total é dividido pelo número de observações que o originou. Nesta última SQ estão a SQAxB, a SQA e a SQB. Assim: SQAxB = SQ(A,B) – SQA – SQB SQR = SQTo – SQA – SQB – SQAxB Os quadrados médios são calculados da mesma forma em qualquer experimento, ou seja, é sempre a SQ dividida pelo respectivo grau de liberdade. Em relação ao teste de F, neste caso são possíveis três comparações, ou seja, três hipóteses de nulidade: 1. Hipótese relativa aos níveis do Fator A: H01: a1 = a2 =...=ai = 0 (todos os níveis do fator A têm o mesmo efeito) 2. Hipótese relativa aos níveis do fator B; H02: b1 = b2 = ... =bj = 0 (todos os níveis do fator A têm o mesmo efeito) 3. Hipótese relativa à interação: H03: axb = 0 (não existe efeito da interação) No fatorial deve-se, sempre, observar a hipótese relativa à interação em primeiro lugar. A explicação dessa necessidade é a seguinte: Interação é a influência de um fator sobre o efeito do outro fator. Por exemplo, no caso de variedades (fator 1) e espaçamentos (fator2), sendo a interação significativa, quer dizer que a melhor variedade em um espaçamento não é a melhor em outro espaçamento; e o melhor espaçamento para uma variedade não é o mesmo para outra variedade. Torna-se necessário mudar a ANOVA, realizando as análises de um fator dentro dos níveis do outro. Este procedimento é denominado de decomposição hierárquica ou aninhada. Conclui-se que se a interação for significativa, as hipóteses para os efeitos principais (fator A e fator B), naquele momento, não são válidas. Obviamente, se a interação for não significativa, analisa-se, normalmente, as hipóteses quanto aos efeitos principais. Alguns autores apresentam esta análise de uma forma ligeiramente diferente, como se segue: FV GL SQ QM F Fator A a- 1 SQA QMA QMA/QMR Fator B b - 1 SQB QMB QMB/1MR A x B (a -1)(b -1) SQAB QMAB QMAB/QMR (tratamentos) (ab – 1) (SQT) Resíduo (ab – 1)(r – 1) SQR QMR Total abr - 1 SQTo A FV tratamento está entre parênteses, significando que se trata da soma das anteriores. Não se apresenta QM para esta FV, pois é apenas um artifício para calcular a SQ da interação. Neste procedimento, constrói-se um quadro auxiliar com tratamento e repetições, onde os tratamentos são as combinações dos fatores e a SQAxB = SQ tratamentos – SQA – SQB. Para cálculos manuais, este método é considerado por aqueles autores mais prático. Será considerado um primeiro exemplo; espera-se que com os exemplos qualquer outra circunstância fique esclarecida. Exemplo 1: Fatorial 4 x 5 x 3 em DIC Fator B Fator A 1 2 3 4 5 Totais A 1 12; 14. 10 8; 10; 12 14; 16; 18 10; 11; 12 11; 12; 13 183 2 10; 11; 13 9; 11; 13 12; 14; 15 11; 9; 9 10; 11; 12 170 3 8; 6; 4 6; 8; 10 10; 11; 13 6; 7; 9 5; 6; 8 117 4 16; 18; 15 14; 16; 17 18; 19; 21 12; 14; 15 13; 14; 15 237 Totais B 137 134 181 125 130 G = 707 No exemplo: a= 4; b = 5 e r = 3 ≫ 𝐶 = 𝐺2 𝑎𝑥𝑏𝑥𝑟 = 77072 60 = 8330,8167 SQTo = 122 + 142 + ⋯+ 152 − 𝐶= 9121 – 8330,8167 = 790,1833 SQA = 1832+ 1702+ 1172+ 2372 5 𝑥 3 − 𝐶 = 8816,467 – 8330,8167 = 485,6503 SQB = 1372+1342+1812+1252+ 1302 4 𝑥 3 – C = 8500.92 – 8330,8167 = 170,1083 Para cálculo da SQ interação: Combinação A x B Total A1B1 36 A1B2 30 A1B3 48 A1B4 33 A1B5 36 A2B1 34 A2B2 33 A2B3 41 A2B4 29 A2B5 33 A3B1 18 A3B2 24 A3B3 34 A3B4 22 A3B5 19 A4B1 49 A4B2 47 A4B3 58 A4B4 41 A4B5 42 SQ(A,B) = 332+362+ ..+422 𝑟 – C = 9020,333 - 8330,8167 = 689,5163 Observe, mais uma vez, que cada soma de quadrado é dividida pelo número que a originou. No caso, r = 3. SQAxB = SQ(A,B) – SQA – SQB = 689,5163 - 485,6503 - 170,1083 = 33,7577 SQR = SQTo - SQA – SQB – SQAxB = 790,1833 - 485,6503 – 170,1083 – 33,7577 = 100.667, ou SQR = SQTo – SQ(A,B) = 100.667 Quadro de ANOVA: FV GL SQ QM F P Fator A 3 485,6503 161,8834 64,3237 2,33 x 10-5 Fator B 4 170,1083 42,5271 16,8980 3,45 x10-8 A x B 12 33,7577 2,7965 1,1112ns 0,3782 Resíduo 40 100,667 2,5167 Total 59 790,1833 ns = não significativo CV = √ 1,1112 707 60⁄ x 100 = 8.946% (alto controle experimental) F5% (12, 40) = 2 H03 = não existe interação. Verifica-se que a probabilidade (erro tipo 1) é 37,82%, considerada muito alta; assim, não se rejeita a hipótese. Como a interação não existe, pode-se considerar as hipóteses sobre os efeitos principais. H01: não existe diferenças entre os níveis de A. A probabilidade é praticamente igual a 0; assim, rejeita-se a hipótese de nulidade e assume-se que há diferenças significativas entre os níveis de A. H02: não existe diferenças significativas entre os níveis de B. A probabilidade é praticamente igual a 0; assim rejeita-se a hipótese de nulidade e assume-se que há diferenças significativas entre os níveis de B. Pode-se, então, efetuar um teste de médias (Tukey, por exemplo) para os níveis de A, valendo para todos os níveis de B e vice-versa. Não esquecer que na expressão de qualquer teste o número de repetições é 15 para A e 12 para B. Exemplo 2: Fatorial 4 x 5 x 3 em DIC Fator B Fator A 1 2 3 4 5 Totais A 1 20; 18; 16 13; 14; 21 16; 15; 12 11; 17; 14 13; 10; 12 2 21; 23; 20 19; 16; 21 18; 17; 14 15; 17; 16 13; 16; 21 3 20; 18; 18 12; 11; 15 14; 18; 18 15; 13; 13 24; 23; 21 4 22; 19; 12 15; 17; 21 22; 20; 16 19; 15; 17 18; 20; 21 Totais B Os resultados da ANOVA são os seguintes: FV GL SQ QM F P Fator A 3 106,26667 35,4222 5,2477 Fator B 4 97,56667 24,3917 3,6136 A x B 12 239,9 19.9917 3,9618* 0,0049 Resíduo 40 270,0 6,75 Total 59 713,73333 *significativo ao nível de 5% CVe = 15,343% (alto controle experimental) H03: não existe interação, A probabilidade (erro tipo 1) é aproximadamente 0,49%; muito baixa. Deve-se rejeitar a hipótese. Como a interação é significativa, o efeito de um fator depende dos níveis do outro. Os valores de F para os efeitos principais não têm sentido; deve-se proceder os desdobramentos, com classificação aninhada ou hierárquica. a) Estudo dos níveis de A dentro dos níveis de B O quadro de ANOVA fica assim: FV GL SQ QM F P Fator B 4 97,56667 Fator A/B A/B1 A/B2 A/B3 A/B4 A/B5 15 3 3 3 3 3 24,9167 62,25 38 23 198 8,3056 20,75 12,667 7,6667 66 1,2305 5,0741 1,8765 1,1358 9,7778 0.31125 0,00045 0,1491 0,3462 6,75 x 10-5 Resíduo 40 270 6,75 Total 59 713,7374 A/B significa A “dentro” de B ou A aninhado em B.Em cada um dos níveis de B existem 3 GL para A (são 4 níveis de A). Calculando a SQ de A/B1 A B1 Totais 1 20; 18; 16 54 2 21; 23; 20 64 3 20; 18; 18 56 4 22; 19; 12 53 227 SQA/B1 = (542 + 642 + 562 + 532)/3 - 2272/12 = 24,9167 Notem que (mais uma vez) a soma de quadrados é dividia pelo número de observações que originou os dados. Neste caso a correção veio de 12 observações. Calculando a SQ de A/B2 Fator A B2 Totais 1 13; 14; 21 48 2 19; 16; 21 56 3 12; 11; 15 38 4 15; 17; 21 53 195 SQA/B2 = (482 + 562 + 392 + 532)/3 – 1952/12 = 3256,6667 - = 87,9167 Da mesma forma: SQA/B3 = 38; SQA/B4 = 17,6667 e SQA/B5 = 108 Nota: pode-se comprovar os cálculos das SQ, somando todas elas e obtendo o total, quando feitos manualmente. Interpretação dos valores de F e probabilidades (erro tipo 1): Observa-se que para B1, B3 e B4 não há diferenças significativas entre os níveis de A. Para B2 e B5 há diferenças significativas entre os níveis de A, devendo-se, então, usar um teste de médias (Tukey, por exemplo) para comparar os níveis de A nestes dois níveis de B. Exercício: Proceder o estudo de B dentro dos níveis de A; para facilitar, apresenta-se o quadro com as informações já conhecidas: FV GL SQ QM F Fator A 3 106,26667 Fator B/A B/A1 B/A2 B/A3 B/A4 16 4 4 4 4 Resíduo 40 270 6,75 Total 59 713,7374 Use a tabela de F de 5%. O valor do F tabelado é: F5%, 4, 40 = 2,808 3.5 Experimentos em parcelas subdivididas Os experimentos em parcelas subdivididas são uma forma de alocar o fatorial. São feitas duas casualizações: a primeira é com o chamado fator da parcela, o qual é arranjado segundo um dos delineamentos fundamentais; a segunda é com o chamado fator da subparcela, o qual tem seus níveis casualizados nos níveis do fator da parcela. Neste tipo de delineamento, são gerados dois resíduos, a saber, um ao nível de parcela e outro ao nível de subparcela. Este delineamento é utilizado quando se tem um interesse maior por um dos fatores (disponibilidade de sementes, necessidade de maior precisão), uma vez que o fator da subparcela é testado com maior precisão. Para mais informações sobre este delineamento, consulte livros de estatística experimental, por exemplo, Pimentel Gomes (2009). 3.6 Delineamentos em látices São também denominados de reticulados quadrados. São particularidades do delineamento em blocos incompletos, propostos para experimentos com uma grande quantidade de tratamentos, como é comum na área de melhoramento genético. A justificativa reside no fato de existir muita dificuldade, no caso de grande número de tratamentos, para conseguir a homogeneidade dentro dos blocos. Para estabelecimento do látice é necessário que o número de tratamentos seja um quadrado perfeito (25 ou mais). Diz-se, então, que é um delineamento com k2 tratamentos. São possíveis k + 1 repetições ortogonais e se forem adotadas todas as repetições, torna-se um delineamento chamado de BIB (blocos incompletos balanceados). O látice é classificado de acordo com o número de repetições (ortogonais) adotado e os mais utilizados são: -Látice simples: somente as duas primeiras repetições; - Látice triplo: somente as três primeiras repetições; - Látice simples duplicado: totalizando quatro repetições; - Látice triplo duplicado: totalizando seis repetições. Cada repetição contem k blocos e cada bloco contem k tratamentos; diz, então, que os blocos são aninhados dentro das repetições. Observa-se, ainda, que o bloco não contém todos os tratamentos (característica fundamental dos blocos incompletos). Nestas condições, cada par de tratamentos ocorre apenas uma vez no mesmo bloco. O objetivo destas notas de aulas, quanto aos delineamentos em látice, é proporcionar algumas informações que possam auxiliar o estudante da disciplina de Genética e Melhoramento Florestal, da Universidade de Brasília, no planejamento de experimentos. Mais informações sobre este experimento, inclusive com os planos básicos dos experimentos, podem ser encontradas em Cochran; Cox (1981). Todos os procedimentos de análise aqui especificados podem ser processados usando o programa GENES (CRUZ, 2006; CRUZ, 2013). 4. Um pouco de regressão linear a- Introdução O objetivo principal da análise de regressão é a obtenção de uma equação que explique o comportamento de uma variável Y, chamada variável dependente, em função de uma ou mais variáveis X´s, chamada variável(is) explicativa(s) e fazer inferências sobreo o ajuste. Regressão linear é quando o ajuste é feito através de uma reta e quando existe apenas uma variável explicativa a regressão é dita linear simples (RLS) e para mais de uma variável explicativa a regressão é dita linear múltipla (RLM); b- O modelo linear geral .𝑦𝑖 = 𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯+ 𝛽𝑝𝑥𝑝𝑖 + 𝜖𝑖 , em que p é o número de variáveis explicativas. 𝛽𝑖 são os parâmetros da equação e 𝜖𝑖 é o erro associado. Considerando que serão obtidos n valores das variáveis, têm-se n equações: . 𝑦1 = 𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯+ 𝛽𝑝𝑥𝑝𝑖 + 𝜖1 . 𝑦2 = 𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯ + 𝛽𝑝𝑥𝑝𝑖 + 𝜖2 .. .. .. .. ... .. .𝑦𝑛 = 𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯+ 𝛽𝑝𝑥𝑝𝑖 + 𝜖𝑛 Escrevendo na forma matricial: y = X𝛽 + 𝜖 (se desenvolver este modelo serão reproduzidas as n equações. Onde y é um vetor n x n de observações; X é uma matriz n x p +1, chamada de matriz de incidência; β é um vetor p + 1 x 1 de parâmetros a estimar e 𝝐 é um vetor n x 1 de erros associados. O modelo estimado é: �̂�𝑖 = �̂�0 + �̂�1𝑥𝑖1 + �̂�2𝑥2𝑖 + … �̂�𝑝𝑥2𝑖 Para facilitar a notação e o entendimento, será considerado um exemplo de aplicação, onde a construção das matrizes e vetores em questão ficará muito clara. y x1 x2 10 4 10 12 5 9 14 7 8 15 8 7 17 9 6 21 10 4 22 11 2 24 13 1 No exemplo: n = 8. p = 2 a) O modelo teórico: 𝑦𝑖 = 𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + 𝜖𝑖 b) O modelo estimado: �̂�𝑖 = �̂�0 + �̂�1𝑥𝑖1 + �̂�2𝑥2𝑖 c) O vetor y = ⌊ 10 12 14 15 17 21 22 24⌋ d) A matriz X= ⌊ 1 4 10 1 5 9 1 7 8 1 8 7 1 9 6 1 10 4 1 11 3 1 13 1⌋ e) O vetor 𝛽 = ⌊ �̂�0 �̂�1 �̂�2 ⌋ Na construção da matriz X, a primeira coluna é um vetor de 1´s porque o 𝛽0 é comum a todas as equações. f) Obtendo a equação de regressão: para calcular os β´s e, consequentemente, obter a equação de regressão, deve-se resolver o chamado sistema de equações normais (SEN): 𝑋`𝑋�̂� = 𝑋`𝑌 Observando o SEN: �̂� = (X`X) -1X`Y X`X pode ser rapidamente obtida por: 𝑋`𝑋 = ⌊ 𝑛 ∑𝑥1 ∑𝑥2 ∑𝑥1 ∑𝑥1 2 ∑𝑥1𝑥2 ∑𝑥2 ∑𝑥1𝑥2 ∑ 𝑥2 2 ⌋ = ⌊ 8 67 47 625 326 𝑆𝑖𝑚. 351 ⌋ X`Y também pode ser obtida rapidamente: 𝑋`𝑌 = ⌊ ∑𝑦 ∑𝑥1𝑦 ∑𝑥2𝑦 ⌋ = ⌊ 135 1235 679 ⌋ �̂� = ⌊ �̂�0 �̂�1 �̂�2 ⌋ = (X`X) -1X`Y = ⌊ 19,4708 0,4648 −1,1044 ⌋ Assim a equação é: y = 19.4708 + 0,4648x1 – 1.1044x2 Para verificar se o ajuste está correto, obtenha todos os oitos valores de �̂� (estimado pela equação) e note que Σ𝑌 = Σ�̂� = 135 Para a verificação da qualidade do ajuste: 1 Efetuar a ANOVA da regressão: FV GL SQ QM F Repressão p = 2 SQReg QMReg QMReg/QMR Desvios da regressão 5 SQR QMR Total n – 1 = 7 SQTo C = G2/n = 1352/8 = 2278,125 A SQTo = 102 + 122 + 142 + 152 + 172 + 212 + 222 + 242 – C = 2455 – 2278,125 = 176,875 A SQReg = 𝐵`̂𝑋´𝑌 − 𝐶 = ⌊19,4708 0,4648 −1.1044⌋. ⌊ 135 1235 679 ⌋ – 2278,125 = 174,5734 SQDesvios ou SQR = 176m875 – 174,5734 = 2.3016 FV GL SQ QM F P Repressão 2 174,5734 87.2867 132,19** 4,79 x 10-5 Desvios da regressão 5 3,3016 0,66032 Total 7 176,875 **significativo ao nível de 1% H0: 𝛽1 = 𝛽2 = 0 (nãoexiste regressão) A hipótese deve ser rejeitada, logo existe a regressão. Como são dois parâmetros de regressão, deve-se usar o teste de t para verificar para quem a regressão é significativa. A hipótese de nulidade é: H0: 𝛽𝑖 = 0 A estatística t é obtida por: 𝑡 = �̂�𝑖 𝑠(�̂�𝑖 ) , onde 𝑠(�̂�𝑖) é o desvio padrão associado ao parâmetro. Para cálculo do desvio padrão usar a definição de variâncias e covariâncias dos parâmetros: 𝑠2 = (𝑋`𝑋)−1𝑄𝑀𝑅 = No exemplo s2 = ⌊ 67,48 −4,495 −4,89 0,3574 0,3298 0,3049 ⌋. 0.66032 Assim: 𝑠(�̂�𝑖) = √0,3574.0,66032 = 0,4858 e 𝑠(�̂�2) = √0,3049.0,6632 = 0.4497 Aplicação do teste de t: Parâmetro valor Desvio padrão t (módulo) 𝛽1 0.4648 0,4073 1,4112 ns 𝛽2 -1.1044 0,3762 2,7357* *significativo ao nível de 5%, ns= não significativo. O valor de t tabelado é 2,57. A regressão é significativa apenas para a variável x2. Não se velicou efeito significativo para parâmetro associado ao x1. Outra medida muito usada é o coeficiente de determinação (R2): R2 = SQReg/SQTo. No exemplo: R2 = 174.5437/176,875 = 0.9868 ou 98,68%. Quer dizer que 98,68% da variação total dos dados foi “captada” pela regressão. Regressão linear simples No exemplo anterior considerar apenas y em função de x2. y x2 10 10 12 9 14 8 15 7 17 6 21 4 22 2 24 1 A aplicação da técnica fica simplificada. O vetor y é o mesmo, a matriz X´X = ⌊ 𝑛 ∑𝑥 ∑𝑥 ∑𝑥2 ⌋, o ≫ (𝑋`𝑋)−1 = 1 𝑛.∑𝑥2−(∑𝑥)2 ⌊ ∑ 𝑥2 −∑𝑥 −∑𝑥 𝑛 ⌋, X`y= ⌊ ∑𝑦 ∑𝑥𝑦 ⌋ = vetor �̂� = ⌊ �̂�0 �̂�1 ⌋. X`X = ⌊ 8 47 47 679 ⌋ ≫ (𝑋`𝑋)−1 = 1 8.625−(−67)2 ⌊ 351 −47 −47 8 ⌋ = X`y= ⌊ 135 1235 ⌋ �̂� = (X`X) -1X`Y = 1 599 ⌊ 351 −47 −47 8 ⌋. ⌊ 135 679 ⌋ =⌊ 25,8297 −1,5242 ⌋ A equação é: y = 25,8297 – 1,5242x2 ANOVA da regressão: C = 2278,125 SQto = 176,875 SQReg = ⌊25,8297 1,5242⌋. ⌊ 135 679 ⌋ – 2278,125 = 173,8527 Coeficiente de determinação (r2): r2 = 173,8527/176,875 = 0,9829 = 98,29% Não considerando x1 o modelo apresenta r2 praticamente igual a quando se considera x1. Quadro de ANOVA FV GL SQ QM F P Repressão 1 173,8527 173,8527 345,15** 0.00 Desvios da regressão 6 3,0223 0,5037 Total 7 176,875 **significativo ao nível de 1% H0: 𝛽1 = 0 (não existe regressão). Rejeita-se ho; A regressão é significativa. Pode-se estudar y através de x2. Gráfico da regressão Observações: 1 No caso de regressão simples, como é só um parâmetro, não há necessidade de usar o teste de t. Mas, se calcular o t, observa-se que t2 = F. 2 Ainda, no caso de RLS. por convenção, o coeficiente de determinação é representado por letra minúscula (r2) 3 Todos estes procedimentos podem ser feitos usando um aplicativo computacional para auxílio. Recomenda=se o GENES (CRUZ, 2006; CRUZ, 2013). Na RLS os parâmetros podem ser calculados de forma ainda mais simples: .�̂�1= �̂�𝑋𝑌 �̂�𝑋 2 e �̂�0 = �̅� − �̂�1�̅� .�̂� 𝑥𝑦 = ∑𝑥𝑦− ∑𝑥∑𝑦 𝑛 𝑛−1 e �̂�𝑥 2 = ∑𝑥2− (∑𝑥)2 𝑛 𝑛−1 (pede-se aos estudantes que comparem estas duas expressões. Como conclusão: a variância é um caso particular da covariância). y x2 x22 xy y2 10 10 100 100 100 12 9 81 108 144 14 8 64 112 196 15 7 49 105 225 17 6 36 102 289 21 4 16 84 441 22 2 4 44 484 24 1 1 24 546 Σ = 135 47 351 679 2455 Variância: s2 = 351− 47.47 8 7 = 10,6964; Covariância: sxy = 679− 135,47 8 7 = -16,3036 Parâmetro linear: �̂�1 = −16,3036 10,6964 = - 1,5242 Constante ou intercepto: �̂�0 = 135 8 − (−1,5242. 47 8 ) = 26,8297. Cálculo da correlação: .𝑠𝑦 2 = 2455− 1352 8 7 = 25.2679 . 𝑟𝑥𝑦 = −16,3036 √10,6964.25,2679 = -0,9917 ≫ 𝑟2 = 0.9835 SQReg = r2 . SQTo =0.9835.176,875 = 174,9509. Pode-se, então, montar o quadro de ANOVA. Bibliografia Citada (Revisão de Estatística Experimental) COCHRAN, W.; COX, G.M. – Diseños experimentales. 7.ed. México, Editorial Trillas, 1981. 661p. CRUZ, C. D. Programa GENES – Estatística experimental e matrizes. Viçosa, Editora UFV (Universidade Federal de Viçosa), 2006, 285 p. CRUZ, C, D. GENES: software para análise de dados em estatística experimental e em genética quantitativa. Acta Sci., Agron. [online]. 2013, vol.35, n.3, pp.271-276. PIMENTEL GOMES, F.; GARCIA. C; H. Estatística aplicada a experimentos agrícolas e florestais. Piracicaba, FEALQ, 2002, 309 p. PIMENTEL GOMES, F. Curso de estatística experimental. 15ª edição. Piracicaba, FEALQ, 2009, 451 p.
Compartilhar