Baixe o app para aproveitar ainda mais
Prévia do material em texto
Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 131 Análise de regressão (Resumo) Silvana Lages Ribeiro Garcia (FDV) e Helio Garcia Leite (UFV) Um dos usos da análise de regressão é verificar se, e como, uma ou mais variáveis independentes X influenciam o comportamento de outra variável dependente Y . As variáveis independentes podem ser fixas, como no caso de tratamentos quantitativos (por exemplo: doses de adubo, níveis de proteína, idade de plantas) ou aleatórias, como por exemplo, diâmetro de árvores, peso de animais, biomassa seca de plantas. Do ponto de vista estatístico, fazer uma análise de regressão consiste em estabelecer uma relação funcional entre a variável dependente Y e a(s) variável (eis) independentes X , ou seja, )..., , ,( 21 pXXXfY = , sendo p o número de variáveis independentes e obter e testar as estimativas dos parâmetros dessa relação. Modelo estatístico da regressão A relação entre a variável dependente Y e a(s) variável(eis) independentes )( iX é denominada modelo, podendo-se apresentar de duas maneiras: modelo linear ou modelo não- linear. Neste documento, apenas os modelos lineares serão abordados. Modelo linear Dada uma variável dependente iY , com ni ,...,2 ,1= observações e p variáveis independentes iX , também com ni ,...,2 ,1= observações, o modelo de regressão linear na forma algébrica é: ipipiii eXXXY +++++= ββββ ...22110 em que iY é a variável dependente, obtida na observação i . pββββ ,..., , , 210 são os parâmetros da regressão. piii XXX ,..., , 21 são as variáveis independentes, na observação i . ie é o erro associado à observação iY . Na forma matricial, o modelo linear pode ser apresentado como: εβ += XY em que Y é o vetor de observações. X é a matriz de variáveis independentes. β é o vetor de parâmetros. ε é o vetor de erros. Sendo: 1 2 1 ... = nn y y y Y 121 22212 12111 ...1 ............... ...1 ...1 + = ppnnn p p n xxx xxx xxx X 1 1 0 1 ... = + pp β β β β 1 2 1 ... = nn e e e ε Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 132 Pressuposições do modelo linear 1. A variável dependente Y é função linear da(s) variável(eis) independente(s). 2. Os valores da(s) variável(eis) independente(s) X são fixos, isto é, X não é uma variável aleatória. De acordo com Leite (1992), pode-se demonstrar que sob determinadas pressuposições, se X for uma variável aleatória, os resultados obtidos continuam válidos, se pressupõe-se que os valores de X são fixos. 3. A média dos erros é nula, isto é, 0)( =ieE ou φε =)( E . Essa pressuposição exclui a existência de erros sistemáticos na mensuração da variável dependente Y (Leite, 1992). As pressuposições )1( , )2( e )3( são necessárias para demonstrar que os estimadores de mínimos quadrados são não-tendenciosos, ou seja, ββ =)ˆ( E . 4. A variância do erro (ou variância residual) é sempre igual à 2σ , ou seja, 2)( σ=ieV , que implica em erros homocedásticos. Quando não é razoável supor que os erros são homocedásticos, deve-se utilizar um método ponderado para obter as estimativas do vetor β , ou seja, o método dos mínimos quadrados ponderados (Leite, 1992). 5. Os erros são independentes, ou seja, 0),( ´ =ii eeE , para íi ≠ . Isso significa que 0),( cov ´ =ii ee , ou seja, os erros são não-correlacionados. Segundo Leite (1992), essa pressuposição, em geral, não é atendida quando se trabalha com séries cronológicas de dados, sendo indicado para a obtenção das estimativas do vetor β , o método dos mínimos quadrados generalizados. As pressuposições )1( , )2( , )3( , )4( e )5( permitem demonstrar que os estimadores de mínimos quadrados são lineares, não-tendenciosos e de variância mínima (Leite, 1992). 6. Os erros seguem a Distribuição Normal, ou seja, ),0( ~ 2σNei ou ),( ~ 2σφε IN , onde N significa normalmente distribuído e I é a matriz identidade. Essa pressuposição é necessária para a construção de testes e de intervalos de confiança para os parâmetros do modelo admitido. Problemas da análise de regressão De acordo com Leite (1992), o problema básico da teoria de regressão consiste em: 1. Estimar os parâmetros do modelo admitido. 2. Construir testes de significância para esses parâmetros. 3. Construir intervalos de confiança para esses parâmetros, com base na equação obtida. Estimadores dos parâmetros do modelo de regressão A estimativa dos parâmetros do modelo de regressão pode ser feita por meio de métodos como: método dos mínimos quadrados ordinários (MMQO), método dos mínimos quadrados em dois estágios (MMQ2S), método dos mínimos quadrados ponderados (MMQP) e método dos mínimos quadrados generalizados (MMQG). A escolha de um ou outro método dependerá do atendimento das pressuposições anteriormente citadas. O MMQ2S é usado quando há interesse em ajustar um sistema de equações simultâneas. Neste documento, será abordado o método dos mínimos quadrados ordinários, que se aplica à maioria dos casos encontrados. Método dos mínimos quadrados ordinários Considerando o modelo de regressão linear, em sua forma matricial εβ += XY , o erro é dado por: βε XY −= . A soma de quadrados dos erros )(SQE pode ser obtida por: Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 133 )( )´(´ ββεε XYXYSQE −−== )( ´)´´(´ ββεε XYXY −−= ββββεε XXYXXYYY ´´´´´´´ +−−= Como as matrizes βXY ́ e YX´´β têm dimensões 1 x 1 e são mutuamente transpostas, pode-se escrever que YXXY ´´ ́ ββ = . Desta forma, a soma de quadrados dos erros pode ser escrita como: βββεε XXYXYY ´´´´2´´ +−= Sabe-se que, para obter o ponto de mínimo da soma de quadrados dos erros, é necessário fazer a diferencial )(δ de εε´ em relação a β , igualando o resultado a zero )(φ . Assim, pode-se escrever: )( )´´´´2´( )( )´( βδ βββδ βδ εεδ XXYXYY +− = )( ´´´ ´)(´´)( 2)´( δβββδβδβεεδ XXXXYX ++−= Como βδβ XX´ ´)( e )( ´´ δββ XX têm dimensões 1 x 1 e são mutuamente transpostas, têm-se )( ´´´ ´)( δβββδβ XXXX = e a diferencial da soma de quadrados dos erros pode ser escrita como: βδβδβεεδ XXYX ´ ´)( 2´´)( 2)´( +−= )´ ´( ´)( 2)´( YXXX −= βδβεεδ Sendo ´)( δβ arbitrário, se a soma de quadrados dos erros for igualada a zero )(φ , tem-se: φεεδ =)´( φβ =− )´ ˆ´( YXXX e, YXXX ´ ˆ´ =β , que é o sistema de equações normais, sendo β̂ o vetor dos estimadores dos parâmetros do modelo de regressão admitido. Para resolver esse sistema de equações, ou seja, para obter o estimador β̂ , se )´( XX é uma matriz não-singular (determinante diferente de zero) então a matriz inversa comum 1)´( −XX pode ser pré-multiplicada a ambos os membros do sistema de equações normais, da seguinte forma: YXXX ´ ˆ´ =β (pré-multiplicar a matriz 1)´( −XX ) YXXXXXXX ´)´( ˆ´)´( 11 −− =β (sendo IXXXX =− ´)´( 1 , matriz identidade) YXXX ´)´( ˆ 1−=β é o estimador de mínimos quadrados, que torna mínima a soma de quadrados dos erros. Ao se obter as estimativas por meio do estimador β̂ , está-se obtendo os coeficientes da equação de regressão pelo método dos mínimos quadrados ordinários. Análise de variância da regressão e teste F Conforme já visto, toda análise de variância consiste no desdobramento da variação total em partes devidas a fontes de variação intencional e não-controlada. Na análise de variância da regressão segue-se o mesmo procedimento, obtendo-se as somas de quadrados total, devido à regressão e independente da regressão. Hipóteses: :0H 0...21 ==== pβββ (os coeficientes de regressão são iguais a zero). :1H não 0H (existe pelo menosum coeficiente de regressão diferente de zero). Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 134 Soma de quadrados total A soma de quadrados total é dada por: CYYSQtotal −= ´ a) com 1−= nGLtotal graus de liberdade quando o modelo inclui a constante 0β . b) com nGLtotal = quando o modelo não inclui a constante 0β . sendo C a correção obtida por: n y C n i i 2 1 = ∑ = Soma de quadrados da regressão A soma de quadrados da regressão, também denominada soma de quadrados devida à regressão, é dada por: CYXSQreg −= ´´β , com pGLreg = graus de liberdade, sendo p o número de variáveis independentes no modelo. Soma de quadrados do resíduo da regressão: A soma de quadrados do resíduo da regressão, também denominada soma de quadrados dos desvios da regressão ou soma de quadrados independente da regressão, ou soma de quadrados dos erros da regressão, conforme já visto, é dada por: )( )´(´ ββεε XYXYSQRreg −−== )( ´)´´(´ ββεε XYXY −−= ββββεε XXYXXYYY ´´´´´´´ +−−= Como as matrizes βXY ́ e YX´´β têm dimensões 1 x 1 e são mutuamente transpostas, pode-se escrever que YXXY ´´ ́ ββ = . Desta forma, a soma de quadrados dos erros pode ser escrita como: βββ XXYXYYSQRreg ´´´´2´ +−= Como YXXX ´ ˆ´ =β , tem-se: YXYXYYSQRreg ´´ˆ´´ˆ2´ ββ +−= Logo, YXYYSQRreg ´´ˆ´ β−= , a) com pnGLRreg −−= 1 graus de liberdade quando o modelo inclui a constante 0β . b) com pnGLRreg −= quando o modelo não inclui a constante 0β . Na prática, a SQRreg é obtida pela diferença entre a soma de quadrados total e a soma de quadrados da regressão, ou seja: SQregSQtotalSQRreg −= Quadrado médio da regressão O quadrado médio da regressão é obtido pela razão entre a soma de quadrados e os graus de liberdade da regressão, ou seja: p SQreg GLreg SQregQMreg == Quadrado médio do resíduo da regressão O quadrado médio do resíduo da regressão é obtido pela razão entre a soma de quadrados de resíduos e os graus de liberdade do resíduo da regressão, ou seja: GLRreg SQRregQMRreg = , sendo pnGLRreg −−= 1 ou pnGLRreg −= Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 135 F calculado O valor de F calculado é obtido pela razão entre o quadrado médio da regressão e o quadrado médio do resíduo da regressão, ou seja: QMRreg QMregFcal = F tabelado: );( GLRregGLregFFtab α= , em que α é o nível de significância, GLreg é o número de graus de liberdade da regressão e GLRreg é o número de graus de liberdade do resíduo da regressão (Tabelas 8 e 9 ). A análise de variância da regressão pode ser apresentada como no Quadro 32 . Quadro 32 – Análise de variância da regressão FV GL SQ QM F Regressão P SQreg QMreg F cal Resíduo (n-1) – p ou n – p SQRreg QMRreg Total n – 1 ou n SQtotal Regra de decisão Se tabcal FF ≥ , a regressão é significativa, ou seja, existe pelo menos um coeficiente de regressão estatisticamente diferente de zero, considerando o nível α de significância. Se tabcal FF < , a regressão é não-significativa, ou seja, todos os coeficientes de regressão são estatisticamente nulos, considerando o nível α de significância. Testes de significância para os parâmetros de regressão: Os parâmetros do modelo de regressão, seja apresentado na forma algébrica, ipipiii eXXXY +++++= ββββ ...22110 ou matricial, εβ += XY , podem ser testados. Para isso, é necessário conhecer as variâncias e as covariâncias dos parâmetros. A estimativa da matriz de variâncias e covariâncias dos parâmetros de modelo de regressão, denotada por vôc )ˆ(β é dada por: vôc == − )ˆ(ˆ...)ˆ,ˆv(ôc)ˆ,ˆv(ôc)ˆ,ˆv(ôc ............... )ˆ,ˆv(ôc...)ˆ(ˆ)ˆ,ˆv(ôc)ˆ,ˆv(ôc )ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ(ˆ)ˆ,ˆv(ôc )ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ,ˆcov()ˆ(ˆ )´()ˆ( 210 222120 121110 020100 21 pppp p p p V V V V SXX βββββββ βββββββ βββββββ βββββββ β em que 2S é o quadrado médio do resíduo da regressão )(QMRreg , denominado variância residual. )ˆ(ˆ iV β é a estimativa da variância do parâmetro iβ . )ˆ,ˆv(ôc ´ii ββ é a estimativa da covariância entre os parâmetros iβ e ´iβ , para íi ≠ . Os erros-padrão das estimativas dos parâmetros de regressão são obtidos extraindo-se a raiz quadrada das variâncias, dispostas na diagonal principal da matriz de variâncias e covariâncias, sendo utilizados nos testes de significância dos parâmetros. Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 136 O teste mais utilizado para verificar a significância dos parâmetros da regressão é o teste t, descrito a seguir: Hipóteses: 0H : 0=iβ (ou seja, o coeficiente de regressão é estatisticamente nulo) 1H :. 0≠iβ (o coeficiente de regressão é diferente de zero). Diferença mínima significativa (DMS): A diferença mínima significativa (DMS) do teste t é obtido em função do nível de significância )(α do teste e do número de graus de liberdade do resíduo da regressão )(GLRreg , ou seja: )1()( pntGLRregtttab −−== αα para modelos que incluem 0β (Tabela 15 ). )()( pntGLRregtttab −== αα para modelos que não incluem 0β (Tabela 15 ). Estimativa do t a ser testado: )ˆ( ˆ i i cal S t β ββ − = Na maioria dos casos, por hipótese, 0=β . Assim, o t calculado é expresso por: )ˆ( ˆ i i cal S t β β = em que calt é a estimativa do t calculado. iβ̂ é a estimativa do parâmetro a ser testado. )ˆ( iS β é o erro-padrão da estimativa do parâmetro de regressão. Regra de decisão: - Se tabcal tt || ≥ , rejeita-se 0H , ou seja, o coeficiente de regressão é estatisticamente diferente de zero, ao nível α de probabilidade. - Se tabcal tt || < , não se rejeita 0H , ou seja, o coeficiente de regressão é estatisticamente nulo, ao nível α de probabilidade. Observações: - A hipótese a ser testada não necessariamente tem que ser nula. - Algumas vezes pode ser de interesse testar a constante de regressão. - É importantíssimo que os coeficientes de regressão sejam significativos. - Intervalos de confiança para as estimativas dos parâmetros podem ser obtidos por: αβββ tSIC iii )ˆ(ˆ:)ˆ( ± . Qualidade do ajuste da equação de regressão: Uma vez ajustada a equação de regressão, seja pelo método matricial, com o uso da expressão YXXX ´)´( ˆ 1−=β ou por meio de somatórios (não apresentados neste documento), verificado o teste F da análise de variância e testadas as significâncias dos coeficientes, a qualidade do ajuste deve ser verificada. O coeficiente de determinação, o erro-padrão e o coeficiente de variação da regressão podem ser utilizados com esse propósito, além da análise gráfica dos resíduos da regressão. É importante também analisar os sinais dos coeficientes da equação e fazer as devidas interpretações. Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 137 1. Coeficiente de determinação O coeficiente de determinação )( 2R é definido como a parte da variação total da característica estudada que pode ser explicada pela equação de regressão. A proporção da variável dependente Y que está sendo explicada pela(s) variável(eis) independente(s) X também define o coeficiente de determinação, que é dado por: SQtotal SQregR =2 em que 2R é o coeficiente de determinação. SQreg é a soma de quadrados da regressão. SQtotal é a soma de quadrados total. A amplitude do coeficiente de determinação é 10 2 ≤≤ R , ou, expressa em porcentagem, %1000 2 ≤≤ R , indicando que quanto mais próximo de 1 (um) ou de %100 , melhor será a qualidade do ajuste. 2. Coeficiente de determinação corrigido Quando o número de observações é igual a 2 (dois pontos), entre eles só é possível ajustar a equação de uma única reta, com coeficientede determinação máximo, igual a 1. Neste caso, os desvios da regressão são nulos. Pode-se dizer então, que o coeficiente de determinação 2R é dependente do número de observações )(n da amostra e tende a aumentar quando n diminui. Para contornar esse problema é utilizado o coeficiente de determinação corrigido )( 2R , também chamado coeficiente de determinação corrigido (ou ajustado) para os graus de liberdade e expresso por: − − −= 2 1 222 n RRR em que 2R é o coeficiente de determinação corrigido. 2R é o coeficiente de determinação. n é o número de observações. Observações: - 22 RR ≤ , exceto quando 12 =R - O 2R pode ser negativo. - Na prática, quando o modelo de regressão é linear simples, com forma algébrica: iii eXY ++= 110 ββ , o coeficiente de determinação, inclusive o corrigido, é denotado por letra minúscula, ou seja, é escrito como 2r ou 2r . 3. Erro-padrão da regressão O erro-padrão da regressão )( yxS mede a variação das observações em torno da curva gerada pela equação, ou seja, mede os desvios da regressão e é dado por: QMRregS yx = O intervalo da dispersão das observações pode ser definido, se for associada uma distribuição de probabilidade ao erro-padrão da regressão, considerando um nível de significância α . Por exemplo, se for utilizada a distribuição t e o nível de significância α , em )1( α− das vezes em que for ajustado o modelo de regressão, a estimativa do erro-padrão estará no intervalo αtS yx ± . Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 138 4. Coeficiente de variação da regressão Outra medida da qualidade do ajuste de uma equação é o coeficiente de variação da regressão, expresso em porcentagem da média da variável dependente. Esta medida é dada por: 100. Y QMRreg CV = em que CV é o coeficiente de variação. QMRreg é o quadrado médio do resíduo da regressão. Y é a média dos valores observados da variável dependente Y . 5. Análise gráfica dos resíduos: Em qualquer análise de regressão, desde que o número de observações não seja muito reduzido )10( ≤n , é importante efetuar análises gráficas dos resíduos. Estas análises resultam em uma visão clara da qualidade do ajuste, da possível ocorrência de tendências indesejáveis (superestimação ou subestimação) e da presença de dados discrepantes (que às vezes podem ser caracterizados como outliers e eliminados procedendo-se um novo ajuste do modelo). Permitem ainda identificar o uso de um modelo inadequado e a violação de pressuposições da análise de variância. Os resíduos da regressão são definidos como as diferenças entre os valores estimados pela equação e os valores observados da variável dependente Y , ou seja, iii YYe −= ˆˆ . Existem várias formas de se fazer a análise gráfica dos resíduos da regressão, entre elas: a) Gráfico de Y e Ŷ versus X ; b) Gráfico de Ŷ (estimativa da variável dependente) versus Y (variável dependente observada); c) Distribuição de freqüência dos desvios da regressão; d) Gráfico de desvios percentuais. x Y o bs er va do e Y e st im ad o (a) Y observado Y e st im ad o (b) -100 -75 -50 -25 0 25 50 75 100 Desvios (%) Fr eq uê nc ia (c) Y observado D es vi os (% ) (d) Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 139 Exemplo 21: Em um plantio de soja, num sistema agroflorestal, foram amostradas 12 plantas, aleatoriamente, durante um período de oito dias após a aplicação de um determinado herbicida. A biomassa seca da parte aérea, em g/planta, com o objetivo de estudar seu crescimento. Os dados mensurados são apresentados no Quadro 33 . Quadro 33 – Biomassa seca de soja, em g/planta Planta Tempo (dias) Biomassa 1 1 66 2 2 100 3 3 148 4 3 142 5 4 197 6 5 228 7 5 238 8 5 239 9 6 272 10 6 279 11 7 327 12 8 377 Para estudar a relação funcional entre o tempo e a biomassa deve-se fazer inicialmente um gráfico de dispersão a fim de verificarmos a presença de outliers e analisar o comportamento dos dados. 0 150 300 450 0 2 4 6 8 10 Tempo (dias) B io m as sa (g /p la nt a) Figura 4 – Biomassa seca observada da parte aérea de plantas de soja. Nesta dispersão não foram detectados outliers e observou-se que a biomassa aumenta linearmente com o aumento do tempo, sugerindo que o modelo linear simples pode ser adequado para descrever a relação funcional. Cabe lembrar que em geral esse tipo de dado apresenta comportamento com tendência sigmoidal ou exponencial; aqui, para simplificação, foi utilizado apenas um pequeno segmento de dados com tendência linear.. O modelo estatístico na forma algébrica é: iii eXY ++= 110 ββ O modelo estatístico na forma matricial é: εβ += XY em que Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 140 11212 11 10 9 8 7 6 5 4 3 2 1 377 327 279 272 239 238 228 197 142 148 100 66 = = y y y y y y y y y y y y Y 212 81 71 61 61 51 51 51 41 31 31 21 11 =X 11 0 2 = β β β 112 11 10 9 8 7 6 5 4 3 2 1 12 = e e e e e e e e e e e e ε Ajuste da equação de regressão: Obtenção da matriz XX ' : 22 212 122 29955 5512 81 71 61 61 51 51 51 41 31 31 21 11 876655543321 111111111111 ' = =XX Determinante da matriz XX ' : 56330253588)55( )55()299( )12()'( det =−=−=XX . Como XX ' é uma matriz não-singular (ou seja, com determinante diferente de zero), existe a matriz inversa comum 1)'( −XX , dada por: [ ] ' 1 )'( )'( det 1)'( XXcof XX XX =− sendo [ ] ' )'( XXcof a transposta da matriz de cofatores de )'( XX . Matriz de cofatores de )'( XX : [ ] − − = = 1255 55299 )'( 2221 1211 cc cc XXcof [ ] 299)299( 1299 det)1( 1111 ==−= +c [ ] 55)55( 155 det)1( 2112 −=−=−= +c [ ] 55)55( 155 det)1( 1221 −=−=−= +c [ ] 12)12( 112 det)1( 2222 ==−= +c Transposta da matriz de cofatores (também chamada de matriz adjunta): [ ] − − = 1255 55299 )'( ' XXcof Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 141 Matriz inversa comum 1)'( −XX : [ ] − − = − − ==− 0213,00977,0 0977,05311,0 1255 55299 563 1)'( )'( det 1)'( ' 1 XXcof XX XX Matriz YX ' : 12 112 122 060.14 613.2 377 327 279 272 239 238 228 197 142 148 100 66 876655543321 111111111111 ' = =YX Estimativa do vetor de parâmetros da regressão: = = − − == − 1 0 22 1 ˆ ˆ 4139,44 1865,14 060.14 613.2 0213,00977,0 0977,05311,0 ')'(ˆ β ββ YXXX Equação ajustada: XY 4139,441865,14ˆ += Análise de variância da regressão: Soma de quadrados total: CYYSQtotal −= ' [ ] 00,865.661 377 327 279 272 239 238 228 197 142 148 100 66 37732727927223923822819714214810066' 112 121 = =YY Correção: 75,980.568 12 )613.2( 2 2 1 == = ∑ = n y C n i i 25,884.9275,980.56800,865.661' =−=−= CYYSQtotal com 111121 =−=−= nGLtotal g.l. Soma de quadrados da regressão: CYXSQreg −= ''β̂Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 142 [ ] 75,980.568 060.14 613.2 4139,441865,14 − =SQreg 01,548.9275,980.56876,528.661 =−=SQreg , com 1== pGLreg g.l. Soma de quadrados do resíduo da regressão: YXYYSQRreg ''ˆ' β−= 24,33676,528.66100,865.661 =−=SQRreg , com 1011121 =−−=−−= pnGLRreg g.l. Quadro 34 – Análise de variância da regressão FV GL SQ1/ QM1/ F Regressão 1 92.548,01 92.548,0100 2752,44 ** Resíduo 10 336,24 33,6240 Total 11 92.884,25 ** F significativo a 1% de probabilidade. F tabelado: 04,10)10 ;1()1;();( %1 ==−−== FpnpFGLRregGLregFFtab αα (Tabela 9 ). Regra de decisão: Como tabcal FF > , rejeita-se 0H , ou seja, existe pelo menos um coeficiente de regressão estatisticamente diferente de zero, a %1 de probabilidade. Neste caso, como o único coeficiente de regressão é o 1β , o teste F é conclusivo. O teste t para o coeficiente de regressão é dispensável, uma vez que é válida a relação Ft =2 . Apesar disso, a significância do coeficiente 1β será testada para efeito didático. Teste de significância para os parâmetros: Hipóteses: 0H : 01 =β (ou seja, o coeficiente de regressão é estatisticamente nulo) 1H :. 01 ≠β (o coeficiente de regressão é diferente de zero). Diferença mínima significativa (DMS): 23,2)10()1112()1()( %5%5 ==−−=−−== ttpntGLRregtttab αα 17,3)10(%1 == t (Tabela 15). Matriz de variâncias e covariâncias: == − )ˆ(ˆ)ˆ,ˆ( vôc )ˆ,ˆ( vôc)ˆ(ˆ)'()ˆ( vôc 110 10021 βββ ββββ V VSXX − − = − − = 7162,02851,3 2851,38577,17 )6240,33( 0213,00977,0 0977,05311,0 )ˆ( vôc β Estimativa do t a ser testado: 48,52 7162,0 4139,44 )ˆ( ˆ === i i cal S t β β Regra de decisão: Como tabcal tt || > , rejeita-se 0H , ou seja, o coeficiente de regressão é estatisticamente diferente de zero, a %1 de probabilidade, pelo teste t. Qualidade do ajuste: Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 143 1. Coeficiente de determinação: 9964,0 25,884.92 01,548.922 === SQtotal SQregr ou seja, %64,99 da variação na biomassa pode ser explicada pela variação do tempo. 2. Erro-padrão: 7986,56240,33 === QMRregS yx ou seja, a dispersão dos dados em torno da regressão ajustada é de 7986,5 g/planta. 3. Coeficiente de variação: %66,2100. 75,217 6249,33 100. === Y QMRreg CV ou seja, a dispersão dos dados em torno da regressão ajustada, em relação à média é igual a %66,2 . 4. Análise gráfica dos resíduos, de Y e Ŷ versus X e de gráfico de desvios percentuais 0 150 300 450 0 2 4 6 8 10 Tempo (dias) B io m as sa (g /p la nt a) 0 150 300 450 0 2 4 6 8 10 Biomassa observada (g/planta) B io m as sa e st im ad a (g /p la nt a) -100 -50 0 50 100 0 150 300 450 Biomassa observada (g/p lanta) D es vi os (% ) Exemplo 22: Em um plantio de milho do mesmo sistema agroflorestal da questão anterior, foram amostradas 25 parcelas, aleatoriamente, nas quais foram avaliados a altura da primeira espiga )( 1X , o teor de proteína )( 2X e a produção por hectare )(Y . Para avaliar o efeito da altura da primeira espiga e do teor de proteína sobre a produção, pode-se ajustar um modelo de regressão que descreva tais relações. Os dados mensurados são apresentados no Quadro 35 . Quadro 35 – Altura da primeira vagem, teor de proteína e produção de milho Parcela Altura (cm) )( 1X Proteína (mg) )( 2X Produção (kg/ha) )(Y 1 0,60 82 110,2 2 1,35 163 233,3 3 1,01 61 138,4 4 0,53 86 105,1 5 0,85 42 111,3 6 1,53 199 273,3 7 1,25 120 198,0 8 0,52 39 76,2 9 1,61 222 294,7 10 0,68 60 104,8 11 1,27 93 184,0 12 0,86 141 172,0 13 1,13 72 156,9 14 0,78 88 131,6 15 1,39 203 261,7 16 1,02 161 199,9 17 0,51 45 78,5 18 0,62 22 75,4 19 1,15 143 201,7 20 1,20 183 230,5 21 1,44 129 221,5 22 0,51 60 86,0 23 1,03 102 165,5 24 1,56 170 258,8 25 0,77 122 151,3 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 144 Para estudar a relação funcional entre a altura da primeira espiga e do teor de proteína com a produção, deve-se inicialmente fazer um gráfico de dispersão para a produção em função da altura da primeira espiga e outro, da produção em função do teor de proteína, conforme a seguir. 0 100 200 300 400 0,0 0,5 1,0 1,5 2,0 Altura da primeira espiga (cm) Pr od uç ão (k g/ ha ) 0 100 200 300 400 0 50 100 150 200 250 Teor de proteína (mg) Pr od uç ão (k g/ ha ) Nestas dispersões não foram detectados outliers e observou-se que a produção de milho aumenta à medida que tanto a altura da primeira espiga (Figura 5 ) como o teor de proteína (Figura 6 ) aumentam. As Figuras sugerem que existe uma relação funcional da variável dependente, de efeito linear simples com ambas as variáveis independentes. Neste caso, o modelo linear múltiplo a ser estudado é: ii eXXY +++= 22110 βββ (modelo estatístico na forma algébrica) ou εβ += XY (modelo estatístico na forma matricial) em que 12525 24 3 2 1 3,151 8,258 ... 4,138 3,233 2,110 ... = = y y y y y Y 325 12277,01 17056,11 ......... 6101,11 16335,11 8260,01 =X 12 1 0 3 = β β β β 125 24 3 2 1 25 ... = e e e e e Y Ajuste da equação de regressão: Obtenção da matriz XX ' : 33 325 253 00,044.39407,222.300,808.2 07,222.347,2817,25 00,808.217,2500,25 12277,01 17056,11 ......... 6101,11 16335,11 8260,01 122170...6116382 77,056,1...01,135,160,0 11...111 ' = =XX Determinante da matriz XX ' : O determinante da matriz )'( XX pode ser calculado pela regra de Sarrus. 07,222.300,808.2 47,2817,25 17,2500,25 00,044.39407,222.300,808.2 07,222.347,2817,25 00,808.217,2500,25 )07,222.3)(17,25)(00,808.2()00,808.2)(07,222.3)(17,25()00,044.394)(47,28( )00,25()'( det ++=XX )00,808.2)(47,28)(00,808.2()07,222.3)(07,222.3)(00,25()00,044.394)(17,25)(17,25( −−− 43,211.257.2)'( det =XX Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 145 Como XX ' é uma matriz não-singular (ou seja, com determinante diferente de zero), existe a matriz inversa comum 1)'( −XX , dada por: [ ] ' 1 )'( )'( det 1)'( XXcof XX XX =− sendo [ ] ' )'( XXcof a transposta da matriz de cofatores de )'( XX Matriz de cofatores de )'( XX : [ ] − −− − = = 22,7839,874.974,155.1 39,874.900,236.966.192,514.870 75,155.192,514.87060,697.836 )'( 333231 232221 131211 ccc ccc ccc XXcof 60,697.836 00,044.39407,222.3 07,222.347,28 det)1( 1111 = −= +c 92,514.870 00,044.39400,808.2 07,222.317,25 det)1( 2112 −= −= +c 74,155.1 07,222.300,808.2 47,2817,25 det)1( 3113 = −= +c 92,514.870 00,044.39407,222.3 00,808.217,25 det)1( 1221 −= −= +c 00,236.966.1 00,044.39400,808.2 00,808.200,25 det)1( 2222 = −= +c 39,874.9 07,222.300,808.2 17,2500,25 det)1( 3223 −= −= +c 74,155.1 07,222.347,28 00,808.217,25 det)1( 1331 = −= +c 39,874.9 07,222.317,25 00,808.200,25 det)1( 2332 −= −= +c 22,78 47,2817,25 17,2500,25 det)1( 3333 = −= +c Transposta da matriz de cofatores (também chamada de matriz adjunta): [ ] − −− − = 22,7839,874.974,155.1 39,874.900,236.966.192,514.870 75,155.192,514.87060,697.836)'( ' XXcof Matriz inversa comum 1)'( −XX : [ ] ' 1 )'( )'( det 1)'( XXcof XX XX =− − −− − =− 22,7839,874.974,155.1 39,874.900,236.966.192,514.870 75,155.192,514.87060,697.836 43,211.257.2 1)'( 1XX − −− − =− 000035,0004375,0000512,0 004375,08711,03857,0 000512,03857,03707,0 )'( 1XX Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 146 Matriz YX ' : 13 125 253 40,885.560 23,800.4 60,220.4 3,151 8,258 ... 4,138 3,233 2,110 122170...6116382 77,056,1...01,135,160,0 11...111 ' = =YX Estimativa do vetor de parâmetros da regressão: − −− − == − 40,885.560 23,800.4 60,220.4 000035,0004375,0000512,0 004375,08711,03857,0 000512,03857,03707,0 ')'(ˆ 1 YXXXβ = == − 2 1 0 1 ˆ ˆ ˆ 6014,0 0733,100 5191,0 ')'(ˆ β β β β YXXX Equação ajustada: 21 6014,0 0733,1005191,0ˆ XXY ++= Análise de variância da regressão: Soma de quadrados total: CYYSQtotal −= ' [ ] 90,896.819 3,151 8,258 ... 4,138 3,233 2,110 3,1518,258...4,1383,2332,110' 125 251 = =YY Correção: 57,538.712 25 )60,220.4( 2 2 1 == = ∑ = n y C n i i 33,358.10757,538.71290,896.819' =−=−= CYYSQtotal com 241251 =−=−= nGLtotal g.l. Soma de quadrados da regressão: CYXSQreg −= ''β̂ [ ] 67,538.712 40,885.560 23,800.4 60,220.4 6014,00733,1005191,0 − =SQreg 86,352.10757,538.71243,891.819 =−=SQreg , com 2== pGLreg g.l. Soma de quadrados do resíduo da regressão: YXYYSQRreg ''ˆ' β−= 47,543,891.81990,896.819 =−=SQRreg , com 2221251 =−−=−−= pnGLRreg g.l. Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 147 Quadro 36 – Análise de variância da regressão FV GL SQ QM F Regressão 2 107.352,86 53.676,4300 215.914,84 ** Resíduo 22 5,47 0,2486 Total 24 107.358,33 ** F significativo a 1% de probabilidade. F tabelado: 72,5)22 ;2()1;();( %1 ==−−== FpnpFGLRregGLregFFtab αα (Tabela 9 ). Regra de decisão: Como tabcal FF > , rejeita-se 0H , ou seja, existe pelo menos um coeficiente de regressão estatisticamente diferente de zero, a %1 de probabilidade. Neste caso, pode ser que a significância apresentada no teste F seja devida apenas ao coeficiente 1β , ao coeficiente 2β , ou a ambos. É necessário testar esses coeficientes por meio do teste t. Teste de significância para os parâmetros: Matriz de variâncias e covariâncias: 21)'()ˆ( vôc SXX −=β = )ˆ()ˆ,ˆ( vôc)ˆ,ˆ( vôc )ˆ,ˆ( vôc)ˆ(ˆ)ˆ,ˆ( vôc )ˆ,ˆ( vôc)ˆ,ˆ( vôc)ˆ( )ˆ( vôc 22120 21110 20100 βββββ βββββ βββββ β V V V (0,2486) 000035,0004375,0000512,0 004375,08711,03857,0 000512,03857,03707,0 )ˆ( vôc − −− − =β 000009,00011,0000127,0 0011,02166,00959,0 000127,00959,00922,0 )ˆ( vôc − −− − =β 1) Teste t para o coeficiente 1β : Hipóteses: 0H : 01 =β (ou seja, o coeficiente de regressão é estatisticamente nulo) 1H : 01 ≠β (o coeficiente de regressão é diferente de zero). Diferença mínima significativa (DMS): 07,2)22()2125()1()( %5%5 ==−−=−−== ttpntGLRregtttab αα 82,2)22(%1 == t (Tabela 15). Estimativa do t a ser testado: 03,215 2166,0 0733,100 )ˆ(ˆ 0ˆ )ˆ( ˆ 1 1 1 1 == − = − = β β β ββ VS tcal Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 148 Regra de decisão: Como tabcal tt || > , rejeita-se 0H , ou seja, o coeficiente de regressão 1β é estatisticamente diferente de zero, a %1 de probabilidade, pelo teste t. 2) Teste t para o coeficiente 2β : Hipóteses: 0H : 02 =β (ou seja, o coeficiente de regressão é estatisticamente nulo) 1H : 02 ≠β (o coeficiente de regressão é diferente de zero). Diferença mínima significativa (DMS): 07,2)22()2125()1()( %5%5 ==−−=−−== ttpntGLRregtttab αα 82,2)22(%1 == t (Tabela 15 ). Estimativa do t a ser testado: 47,200 000009,0 6014,0 )ˆ(ˆ 0ˆ )ˆ( ˆ 2 2 2 2 == − = − = β β β ββ VS tcal Regra de decisão: Como tabcal tt || > , rejeita-se 0H , ou seja, o coeficiente de regressão 2β é estatisticamente diferente de zero, a %1 de probabilidade, pelo teste t. Qualidade do ajuste: Coeficiente de determinação: 9999,0 33,358.107 86,352.1072 === SQtotal SQregr ou seja, %99,99 da variação na produção de milho pode ser explicada pela variação da altura da primeira espiga e do teor de proteína. Erro-padrão: 4986,02486,0 === QMRregS yx ou seja, a dispersão dos dados em torno da regressão ajustada é de 4986,0 kg/ha. Coeficiente de variação: %30,0100. 82,168 2486,0 100. === Y QMRreg CV ou seja, a dispersão dos dados em torno da regressão ajustada, em relação à média é igual a %30,0 . Análise gráfica dos resíduos: 0 100 200 300 400 0 100 200 300 400 Produção observada (kg/ha) Pr od uç ão e st im ad a (k g/ ha ) -5,0 -2,5 0,0 2,5 5,0 0 100 200 300 400 Produção observada (kg/ha) D es vi os (% ) 0,2 0,8 1,4 45 135 2250 100 200 300 400 Pr od uç ão (k g/ ha ) Altura (cm) Prot. (mg) Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 149 Análise de regressão para dados com repetição De acordo com Hofmann e Vieira (1983), quando para um ou mais valores da variável independente X tem-se um ou mais valores da variável dependente Y , é possível obter duas estimativas da variância residual (Figura 8 ). Figura 8 – Decomposição da soma de quadrados do resíduo da regressão. Uma das estimativas é dada pelo quadrado médio do resíduo da análise de variância )(QMR , denominado erro puro, em que cada valor de X é considerado como um tratamento distinto a que está sendo submetida a variável Y . A outra é dada pelo quadrado médio do resíduo da análise de variância da regressão )(QMRreg . Como essas estimativas não são coincidentes, a falta de ajustamento do modelo pode ser estimada por: SQRSQRregSQFa −= em que SQFa é a soma de quadrados da falta de ajustamento. SQRreg é a soma de quadrados dos resíduos da regressão. SQR é a soma de quadrados dos resíduos da análise de variância (do delineamento experimental). Sabendo que SQregSQtotalSQRreg −= e ainda que SQTSQtotalSQR −= , tem-se: )( SQTSQtotalSQregSQtotalSQFa −−−= )SQTSQtotalSQregSQtotalSQFa +−−= SQregSQTSQFa −= , com pIGLFa −−= )1( graus de liberdade. em que SQT é a soma de quadrados de tratamentos. SQreg é a soma de quadrados devida à regressão. Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 150 Teste para a falta de ajustamento No caso de dados com repetição, quando uma equação de regressão é ajustada, além das medidas de qualidade do ajuste, deve-se levar em conta a adequação do modelo (falta de ajustamento), efetuando-se o teste F como se segue: Procedimento: 1) Análise de variância dos dados de Y , de acordo com o delineamento experimental. Nesta oportunidade, obtém-se a estimativa do quadrado médio do resíduo da análise de variância )(QMR , denominado erro puro. 2) Estimativa da equação de regressão. Nesta oportunidade, obtém-se o quadrado médio do resíduo da análise de variância da regressão )(QMRreg . 3) Efetuar o teste F para a falta de ajustamento, como mostrado no Quadro 37 . Hipóteses: 0H : o modelo de regressão é adequado para descrever os dados. 1H : o modelo de regressão não é adequado para descrever os dados. Quadro37 – Análise de variância da regressão com o teste para a falta de ajustamento FV GL SQ QM F Regressão GLreg SQreg QMreg F reg Resíduo da regressão GLRreg SQRreg QMRreg Falta de ajustamento GLFa SQFa QMFa F Fa Resíduo GLR SQR QMR Total GLtotal Valor calculado: QMR QMFaFFa = em que QMFa é a estimativa do quadrado médio da falta de ajustamento. QMR é a estimativa do quadrado médio do resíduo da análise de variância (erro puro). Valor tabelado: );( GLRGLFaFFtab α= , sendo α o nível de significância, GLFa o número de graus de liberdade da falta de ajustamento e GLR o número de graus de liberdade do resíduo da análise de variância. Regra de decisão: - Se tabcal FF ≥ , rejeita-se 0H , ou seja, o modelo é inadequado para descrever os dados. Neste caso, existe um erro sistemático (bias) decorrente do uso de um modelo inadequado. - Se tabcal FF < , não se rejeita 0H , ou seja, o modelo é adequado para descrever os dados. Neste caso, tanto o quadrado médio da falta de ajustamento ( QMFa ) quanto o quadrado médio do resíduo da análise de variância ( QMR ) podem ser utilizados como estimativa da variância residual. É desejável, portanto, que o teste para a falta de ajustamento seja não-significativo. Do ponto de vista prático, sabendo que o teste para a falta de ajustamento consiste na decomposição da soma de quadrados de tratamentos )(SQT em uma parte devida à regressão )(SQreg e outra devida à falta de ajustamento )(SQFa , a análise de variância da regressão pode ser apresentada como no Quadro 38 . Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 151 Quadro 38 – Análise de variância da regressão com o teste para a falta de ajustamento FV GL SQ QM F Tratamentos (I – 1) (SQT) Devido à regressão GLreg SQreg QMreg F reg Falta de ajustamento GLFa SQFa QMFa F Fa Resíduo GLR SQR QMR Total GLtotal Ajuste da equação de regressão No caso de dados com repetição, o ajuste de equações de regressão pode ser feito de três formas: 1. Com os dados individuais Modelo: εβ += XY em que Y é o vetor de observações, constituído pelos dados individuais. X é a matriz de variáveis independentes. β é o vetor de parâmetros. ε é o vetor de erros. Estimativa do vetor de parâmetros: YXXX ')'(ˆ 1−=β Matriz de variâncias e covariâncias: QMRXX 1)'()ˆ( vôc −=β vôc == − )ˆ(ˆ...)ˆ,ˆv(ôc)ˆ,ˆv(ôc)ˆ,ˆv(ôc ............... )ˆ,ˆv(ôc...)ˆ(ˆ)ˆ,ˆv(ôc)ˆ,ˆv(ôc )ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ(ˆ)ˆ,ˆv(ôc )ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ,ˆcov()ˆ(ˆ )'()ˆ( 210 222120 121110 020100 1 pppp p p p V V V V QMRXX βββββββ βββββββ βββββββ βββββββ β em que QMR é o quadrado médio do resíduo da análise de variância (erro puro). Somas de Quadrados: Soma de quadrados total: CYYSQtotal −= ' , sendo IJ y C I i J j ij 2 1 1 = ∑∑ = = Soma de quadrados da regressão: CYXSQreg −= ''β̂ Soma de quadrados da falta de ajustamento: SQregSQTSQFa −= Coeficiente de determinação: SQT SQregR =2 Teste de significância para os parâmetros de regressão: Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 152 Hipóteses: 0H : 0=iβ (ou seja, o coeficiente de regressão iβ é estatisticamente nulo) 1H : 0≠iβ (o coeficiente de regressão iβ é diferente de zero). Diferença mínima significativa (DMS): )( GLRtttab α= , sendo α o nível de significância e GLR o número de graus de liberdade do resíduo da análise de variância. Estimativa do t a ser testado: )ˆ( ˆ )ˆ(ˆ 0ˆ )ˆ( ˆ i i i i i i cal SVS t β β β β β ββ = − = − = Regra de decisão: - Se tabcal tt || ≥ , rejeita-se 0H , ou seja, o coeficiente de regressão é estatisticamente diferente de zero, ao nível α de probabilidade. - Se tabcal tt || < , não se rejeita 0H , ou seja, o coeficiente de regressão é estatisticamente nulo, ao nível α de probabilidade (Ou, a contribuição da variável independente associada ao coeficiente testado é não-significativa, ao nível α de probabilidade). Exemplo 23: Foram testados quatro níveis de um fator E ( ,850.2 950.2 , 050.3 e 150.3 ), em um experimento inteiramente casualizado com cinco repetições (Quadro 39). Verificadas as pressuposições da análise de variância procedeu-se a mesma, cujos resultados são apresentados no Quadro 40 . Quadro 39 – Dados do DIC Repetição Fator E 2.850 2.950 3.050 3.150 1 179,1 192,7 158,2 148,7 2 242,2 149,2 211,8 145,6 3 206,1 164,5 208,0 140,6 4 192,1 127,2 166,0 142,0 5 178,2 235,2 163,8 112,2 Quadro 40 – Anova do DIC FV GL SQ QM F Tratamentos 3 10.078,70 3.359,5667 4,02 * Resíduo 16 13.359,06 834,9413 * F significativo a 5% de probabilidade. 24,3)61 ;3();( %5 === FGLRGLTFFtab α 29,5)61 ;3(%1 == F (Tabela 9 ). Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 153 Como tabcal FF > , rejeita-se 0H , ou seja, existe efeito significativo dos níveis do fator E, a %5 de probabilidade. Neste caso, é necessário estabelecer uma relação funcional entre Y e esses níveis. Pela dispersão dos dados a seguir, optou-se pelo modelo linear simples. 1) Ajuste da equação com os dados individuais: O modelo estatístico, na forma matricial é: εβ += XY em que Y é o vetor de observações, constituído pelos dados individuais. X é a matriz de variáveis independentes. β é o vetor de parâmetros. ε é o vetor de erros. 12045 22 21 15 14 13 12 11 2,112 ... 2,149 7,192 2,178 1,192 1,206 2,242 1,179 ... = = y y y y y y y y Y 220 31501 ...... 19501 29501 28501 28501 28501 28501 28501 =X 11 0 2 = β β β 145 22 21 15 14 13 12 11 20 ... = e e e e e e e e ε Estimativa do vetor de parâmetros: YXXX ')'(ˆ 1−=β = = 000.250.180000.60 000.6020 31501 ...... 28501 28501 3150...28502850 1...11 ' 220 202 XX det 000.000.5)000.60( 000.60)000.250.180( 20' =−=XX − − = − − =− 000004,0012,0 012,005,36 20000.60 000.60000.250.180 000.000.5 1)'( 1XX = = 0,860.345.10 4,463.3 2,112 ... 2,242 1,179 3150...28502850 1...11 ' 120 202 YX Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 154 = − = − − == − 1 01 ˆ ˆ 1774,0 2500,705 0,860.345.10 4,463.3 000004,0012,0 012,005.36 ')'(ˆ β ββ YXXX Equação ajustada: XY 1774,02500,705ˆ −= Análise de variância da regressão: Correção: 98,756.599 )5)(4( )4,463.3( 2 2 1 1 == = ∑∑ = = IJ y C I i J j ij Soma de quadrados total: [ ] 98,756.599 2,112 ... 2,242 1,179 2,112...2,2421,179' − =−= CYYSQtotal 76,437.2398,756.59974,194.623 =−=SQtotal Soma de quadrados da regressão: CYXSQreg −= ''β̂ [ ] 98,756.599 0,860.345.10 4,463.3 1774,02500,705 − −=SQreg 14,864.798,756.59912,621.607 =−=SQreg Soma de quadrados do resíduo da regressão: YXYYSQRreg ''ˆ' β−= 62,573.1512,621.60774,194.623 =−=SQRreg Soma de quadrados da falta de ajustamento: SQRSQRregSQFa −= 56,214.206,359.1362,573.15 =−=−= SQRSQRregSQFa ou 56,214.214,864.770,078.10 =−=−= SQregSQTSQFaQuadro 41 – Análise de variância da regressão com o teste para a falta de ajustamento FV GL SQ QM F Tratamentos (3) 10.078,70 3.359,5667 4,02 * Devido à regressão 1 7.864,14 7.864,1400 9,42 ** Falta de ajustamento 2 2.214,56 1.107,2800 1,33 * Resíduo 16 13.359,06 834,9414 Total 19 23.437,76 ** F significativo a 1% de probabilidade. * F significativo a 5% de probabilidade. ns F não- significativo a 5% de probabilidade. 24,3)61 ;3();( %5 === FGLRGLTFFtab α 29,5)61 ;3(%1 == F . 49,4)61 ;1();( %5 === FGLRGLregFFtab α 53,8)61 ;1(%1 == F . 63,3)61 ;2();( %5 === FGLRGLFaFFtab α 23,6)61 ;2(%1 == F . Observe que no Quadro 41, as somas de quadrados devido à regressão e da falta de ajustamento foram apresentadas da mesma forma que foram obtidas nos cálculos. Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 155 2. Com os totais de tratamentos Modelo: εβ += XY em que Y é o vetor de observações, constituído pelos totais dos tratamentos. X é a matriz de variáveis independentes. β é o vetor de parâmetros. ε é o vetor de erros. Estimativa do vetor de parâmetros: YXXX J ')'(1ˆ 1−=β , sendo J o número de repetições. É importante observar que a equação estimada com os totais dos tratamentos é igual àquela estimada com os dados individuais. Matriz de variâncias e covariâncias: J QMRXX )'()ˆ( vôc 1−=β vôc == − )ˆ(ˆ...)ˆ,ˆv(ôc)ˆ,ˆv(ôc)ˆ,ˆv(ôc ............... )ˆ,ˆv(ôc...)ˆ(ˆ)ˆ,ˆv(ôc)ˆ,ˆv(ôc )ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ(ˆ)ˆ,ˆv(ôc )ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ,ˆcov()ˆ(ˆ )'()ˆ( 210 222120 121110 020100 1 pppp p p p V V V V J QMRXX βββββββ βββββββ βββββββ βββββββ β em que QMR é o quadrado médio do resíduo da análise de variância (erro puro). J é o número de repetições. Somas de Quadrados: Soma de quadrados total: CYYSQtotal −= ' , sendo IJ y C I i J j ij 2 1 1 = ∑∑ = = Soma de quadrados da regressão: CYXSQreg −= ''β̂ Soma de quadrados da falta de ajustamento: SQregSQTSQFa −= = = 689,1 907,8 868,8 997,7 4 3 2 1 T T T T Y = 31501 30501 29501 28501 X = 1 0 β β β = 4 3 2 1 e e e e ε Estimativa do vetor de parâmetros: YXXX J ')'(1ˆ 1−=β = = 000.050.36000.12 000.124 31501 30501 29501 28501 3150305029502850 1111 ' 220 202 XX det 000.200)000.12( 000.12)000.050.36( 4' =−=XX − − = − − =− 00002,006,0 06,025,180 4000.12 000.12000.050.36 000.200 1)'( 1XX Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 156 = = 0,860.345.10 4,463.3 1,689 907,8 8,868 7,997 3150305029502850 1111 ' 120 202 YX = − = − − == − 1 01 ˆ ˆ 1774,0 2500,705 0,860.345.10 4,463.3 000004,0012,0 012,025,180 5 1')'(1ˆ β ββ YXXX J Equação ajustada: XY 1774,02500,705ˆ −= Análise de variância da regressão: Correção: 98,756.599 )5)(4( )4,463.3( 2 2 1 1 == = ∑∑ = = IJ y C I i J j ij Soma de quadrados total: [ ] 98,756.599 1,689 8,907 8,868 7,997 1,6898,9078,8687,997 5 1'1 − =− = CYY J SQtotal 70,078.1098,756.59968,835.60998,756.599)38,178.049.3( 5 1 =−=−=SQtotal Observe que no caso do ajuste da equação com os totais dos tratamentos, a chamada soma de quadrados total é igual à soma de quadrados de tratamentos do delineamento experimental. Soma de quadrados da regressão: CYXSQreg −= ''β̂ [ ] 98,756.599 0,860.345.10 4,463.3 1774,02500,705 − −=SQreg 31,450.798,756.59929,207.607 =−=SQreg Soma de quadrados do resíduo da regressão: YXYY J SQRreg ''ˆ'1 β− = 39,628.229,207.60768.835.60929,207.607)38,178.049.3( 5 1 =−=−=SQRreg ou soma de quadrados da falta de ajustamento: 39,628.231,450.770,078.10 =−=−= SQregSQTSQFa . Quadro 42 – Análise de variância da regressão com o teste para a falta de ajustamento FV GL SQ QM F Tratamentos (3) 10.078,70 3.359,5667 4,02 * Devido à regressão 1 7.450,31 7.450,3100 8,92 ** Falta de ajustamento 2 2.628,39 1.314,1950 1,57 ns Resíduo 16 13.359,06 834,9414 Total 19 23.437,76 ** F significativo a 1% de probabilidade. * F significativo a 5% de probabilidade.ns F não- significativo a 5% de probabilidade. 24,3)61 ;3();( %5 === FGLRGLTFFtab α 29,5)61 ;3(%1 == F . 49,4)61 ;1();( %5 === FGLRGLregFFtab α 53,8)61 ;1(%1 == F . 63,3)61 ;2();( %5 === FGLRGLFaFFtab α 23,6)61 ;2(%1 == F . Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 157 Observe que no Quadro 42 , as somas de quadrados devido à regressão e da falta de ajustamento foram apresentadas da mesma forma que foram obtidas nos cálculos. 3. Com as médias dos tratamentos Modelo: εβ += XY em que Y é o vetor de observações, constituído pelas médias dos tratamentos. X é a matriz de variáveis independentes. β é o vetor de parâmetros. ε é o vetor de erros. Estimativa do vetor de parâmetros: YXXX ')'(ˆ 1−=β É importante observar que a equação estimada com as médias dos tratamentos é igual àquela estimada com os dados individuais. Matriz de variâncias e covariâncias: J QMRXX )'()ˆ( vôc 1−=β vôc == − )ˆ(ˆ...)ˆ,ˆv(ôc)ˆ,ˆv(ôc)ˆ,ˆv(ôc ............... )ˆ,ˆv(ôc...)ˆ(ˆ)ˆ,ˆv(ôc)ˆ,ˆv(ôc )ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ(ˆ)ˆ,ˆv(ôc )ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ,ˆcov()ˆ(ˆ )'()ˆ( 210 222120 121110 020100 1 pppp p p p V V V V J QMRXX βββββββ βββββββ βββββββ βββββββ β em que QMR é o quadrado médio do resíduo da análise de variância (erro puro). J é o número de repetições. Somas de quadrados: Soma de quadrados total: CYYSQtotal −= ' , sendo IJ y C I i J j ij 2 1 1 = ∑∑ = = Soma de quadrados da regressão: )''ˆ( CYXJSQreg −= β Soma de quadrados da falta de ajustamento: SQregSQTSQFa −= = = 137,82 181,56 173,76 199,54 ˆ ˆ ˆ ˆ 4 3 2 1 m m m m Y = 31501 30501 29501 28501 X = 1 0 β β β = 4 3 2 1 e e e e ε Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 158 Estimativa do vetor de parâmetros: YXXX ')'(ˆ 1−=β = = 000.050.36000.12 000.124 31501 30501 29501 28501 3150305029502850 1111 ' 220 202 XX det 000.200)000.12( 000.12)000.050.36( 4' =−=XX − − = − − =− 00002,006,0 06,025,180 4000.12 000.12000.050.36 000.200 1)'( 1XX = = 00,172.069.2 68,692 82,137 181,56 76,173 54,199 3150305029502850 1111 'YX = − = − − == − 1 01 ˆ ˆ 1774,0 2500,705 00,172.069.2 68,692 00002,006,0 06,025,180 ')'(ˆ β ββ YXXX Equação ajustada: XY 1774,02500,705ˆ −= Análise de variância da regressão: Correção: 98,756.599 )5)(4( )4,463.3( 2 2 1 1 == = ∑∑ = = IJ y C I i J j ij Soma de quadrados total: [ ] 98,756.599 82,137 56,181 76,173 54,199 82,13756,18176,17354,199 5)'( − =−= CYYJSQtotal70,078.1098,756.59968,835.60998,756.599)14,967.121( 5 =−=−=SQtotal Observe que no caso do ajuste da equação com as médias dos tratamentos, a chamada soma de quadrados total é igual à soma de quadrados de tratamentos do delineamento experimental. Soma de quadrados da regressão: CYXJSQreg −= )''ˆ( β [ ] 98,756.599 00,712.069.2 68,692 1774,02500,705 5 − −=SQreg 31,450.798,756.59930,207.60798,756.599)46,441.121( 5 =−=−=SQreg Soma de quadrados do resíduo da regressão: )''ˆ'( YXYYJSQRreg β−= 40,628.2)46,441.12114,967.121( 5 =−=SQRreg ou soma de quadrados da falta de ajustamento: 39,628.231,450.770,078.10 =−=−= SQregSQTSQFa Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 159 Quadro 43 – Análise de variância da regressão com o teste para a falta de ajustamento FV GL SQ QM F Tratamentos (3) 10.078,70 3.359,5667 4,02 * Devido à regressão 1 7.450,31 7.450,3100 8,92 ** Falta de ajustamento 2 2.628,39 1.314,1950 1,57 ns Resíduo 16 13.359,06 834,9414 Total 19 23.437,76 ** F significativo a 1% de probabilidade. * F significativo a 5% de probabilidade. ns F não- significativo a 5% de probabilidade. Em qualquer das forma de ajuste apresentadas: dados individuais, totais dos tratamentos e médias dos tratamentos, observou-se que o teste F para a regressão apresentou resultado significativo, a %1 de probabilidade (Quadros 43 e 42 ,41 ). Conclui-se que existe pelo menos um coeficiente de regressão estatisticamente diferente de zero. Como o modelo testado é o linear simples, não é necessário testar o coeficiente de regressão por meio do teste t. Também no três casos apresentados, o teste para a falta de ajustamento foi não- significativo, indicando que o modelo linear simples é adequado para descrever Y=f(E), em nível de %1 de probabilidade. Qualidade do ajuste: Coeficiente de determinação: 7392,0 70,078.10 31,450.72 === SQT SQregr ou seja, %92,73 da variação em Y pode ser explicada pela variação em E. Erro-padrão: 25,361.314,1950 === QMRregS yx . ou seja, a dispersão dos dados em torno da regressão ajustada é de 25,36 . Coeficiente de variação: %93,20100. 17,173 1950,314.1 100. === Y QMRreg CV ou seja, a dispersão dos dados em torno da regressão ajustada, em relação à média é igual a %93,20 .
Compartilhar