Buscar

Regresso_Linear_HGL

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 131
Análise de regressão 
(Resumo) 
 
Silvana Lages Ribeiro Garcia (FDV) e Helio Garcia Leite (UFV) 
 
 Um dos usos da análise de regressão é verificar se, e como, uma ou mais variáveis 
independentes X influenciam o comportamento de outra variável dependente Y . As variáveis 
independentes podem ser fixas, como no caso de tratamentos quantitativos (por exemplo: doses 
de adubo, níveis de proteína, idade de plantas) ou aleatórias, como por exemplo, diâmetro de 
árvores, peso de animais, biomassa seca de plantas. 
 Do ponto de vista estatístico, fazer uma análise de regressão consiste em estabelecer uma 
relação funcional entre a variável dependente Y e a(s) variável (eis) independentes X , ou seja, 
)..., , ,( 21 pXXXfY = , sendo p o número de variáveis independentes e obter e testar as 
estimativas dos parâmetros dessa relação. 
 
Modelo estatístico da regressão 
 A relação entre a variável dependente Y e a(s) variável(eis) independentes )( iX é 
denominada modelo, podendo-se apresentar de duas maneiras: modelo linear ou modelo não-
linear. Neste documento, apenas os modelos lineares serão abordados. 
 
Modelo linear 
 Dada uma variável dependente iY , com ni ,...,2 ,1= observações e p variáveis 
independentes iX , também com ni ,...,2 ,1= observações, o modelo de regressão linear na forma 
algébrica é: 
 
 ipipiii eXXXY +++++= ββββ ...22110 
em que 
iY é a variável dependente, obtida na observação i . 
pββββ ,..., , , 210 são os parâmetros da regressão. 
piii XXX ,..., , 21 são as variáveis independentes, na observação i . 
ie é o erro associado à observação iY . 
 Na forma matricial, o modelo linear pode ser apresentado como: 
 εβ += XY 
em que 
Y é o vetor de observações. 
X é a matriz de variáveis independentes. 
β é o vetor de parâmetros. 
ε é o vetor de erros. 
Sendo: 
1
2
1
...
 












=
nn y
y
y
Y 
121
22212
12111
...1
...............
...1
...1
 
+













=
ppnnn
p
p
n
xxx
xxx
xxx
X 
1
1
0
1
...
 














=
+ pp
β
β
β
β 
1
2
1
...
 












=
nn e
e
e
ε 
 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 132
Pressuposições do modelo linear 
1. A variável dependente Y é função linear da(s) variável(eis) independente(s). 
2. Os valores da(s) variável(eis) independente(s) X são fixos, isto é, X não é uma variável 
aleatória. 
 De acordo com Leite (1992), pode-se demonstrar que sob determinadas pressuposições, 
se X for uma variável aleatória, os resultados obtidos continuam válidos, se pressupõe-se que os 
valores de X são fixos. 
3. A média dos erros é nula, isto é, 0)( =ieE ou φε =)( E . 
 Essa pressuposição exclui a existência de erros sistemáticos na mensuração da variável 
dependente Y (Leite, 1992). 
 As pressuposições )1( , )2( e )3( são necessárias para demonstrar que os estimadores de 
mínimos quadrados são não-tendenciosos, ou seja, ββ =)ˆ( E . 
4. A variância do erro (ou variância residual) é sempre igual à 2σ , ou seja, 2)( σ=ieV , que 
implica em erros homocedásticos. 
 Quando não é razoável supor que os erros são homocedásticos, deve-se utilizar um 
método ponderado para obter as estimativas do vetor β , ou seja, o método dos mínimos 
quadrados ponderados (Leite, 1992). 
5. Os erros são independentes, ou seja, 0),( ´ =ii eeE , para íi ≠ . Isso significa que 0),( cov ´ =ii ee , 
ou seja, os erros são não-correlacionados. 
 Segundo Leite (1992), essa pressuposição, em geral, não é atendida quando se trabalha 
com séries cronológicas de dados, sendo indicado para a obtenção das estimativas do vetor β , o 
método dos mínimos quadrados generalizados. 
 As pressuposições )1( , )2( , )3( , )4( e )5( permitem demonstrar que os estimadores de 
mínimos quadrados são lineares, não-tendenciosos e de variância mínima (Leite, 1992). 
6. Os erros seguem a Distribuição Normal, ou seja, ),0( ~ 2σNei ou ),( ~ 2σφε IN , onde N 
significa normalmente distribuído e I é a matriz identidade. 
 Essa pressuposição é necessária para a construção de testes e de intervalos de confiança 
para os parâmetros do modelo admitido. 
 
Problemas da análise de regressão 
 De acordo com Leite (1992), o problema básico da teoria de regressão consiste em: 
1. Estimar os parâmetros do modelo admitido. 
2. Construir testes de significância para esses parâmetros. 
3. Construir intervalos de confiança para esses parâmetros, com base na equação obtida. 
 
Estimadores dos parâmetros do modelo de regressão 
 A estimativa dos parâmetros do modelo de regressão pode ser feita por meio de métodos 
como: método dos mínimos quadrados ordinários (MMQO), método dos mínimos quadrados em 
dois estágios (MMQ2S), método dos mínimos quadrados ponderados (MMQP) e método dos 
mínimos quadrados generalizados (MMQG). A escolha de um ou outro método dependerá do 
atendimento das pressuposições anteriormente citadas. O MMQ2S é usado quando há interesse 
em ajustar um sistema de equações simultâneas. Neste documento, será abordado o método dos 
mínimos quadrados ordinários, que se aplica à maioria dos casos encontrados. 
 
Método dos mínimos quadrados ordinários 
 Considerando o modelo de regressão linear, em sua forma matricial εβ += XY , o erro é 
dado por: βε XY −= . 
 A soma de quadrados dos erros )(SQE pode ser obtida por: 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 133
 )( )´(´ ββεε XYXYSQE −−== 
 )( ´)´´(´ ββεε XYXY −−= 
 ββββεε XXYXXYYY ´´´´´´´ +−−= 
 Como as matrizes βXY ́ e YX´´β têm dimensões 1 x 1 e são mutuamente transpostas, 
pode-se escrever que YXXY ´´ ́ ββ = . Desta forma, a soma de quadrados dos erros pode ser 
escrita como: 
 βββεε XXYXYY ´´´´2´´ +−= 
 Sabe-se que, para obter o ponto de mínimo da soma de quadrados dos erros, é necessário 
fazer a diferencial )(δ de εε´ em relação a β , igualando o resultado a zero )(φ . Assim, pode-se 
escrever: 
 
)( 
)´´´´2´( 
)( 
)´( 
βδ
βββδ
βδ
εεδ XXYXYY +−
= 
 
 )( ´´´ ´)(´´)( 2)´( δβββδβδβεεδ XXXXYX ++−= 
 Como βδβ XX´ ´)( e )( ´´ δββ XX têm dimensões 1 x 1 e são mutuamente transpostas, 
têm-se )( ´´´ ´)( δβββδβ XXXX = e a diferencial da soma de quadrados dos erros pode ser escrita 
como: 
 βδβδβεεδ XXYX ´ ´)( 2´´)( 2)´( +−= 
 )´ ´( ´)( 2)´( YXXX −= βδβεεδ 
 Sendo ´)( δβ arbitrário, se a soma de quadrados dos erros for igualada a zero )(φ , tem-se: 
 φεεδ =)´( 
 φβ =− )´ ˆ´( YXXX e, 
 YXXX ´ ˆ´ =β , que é o sistema de equações normais, sendo β̂ o vetor dos estimadores dos 
parâmetros do modelo de regressão admitido. 
 Para resolver esse sistema de equações, ou seja, para obter o estimador β̂ , se )´( XX é 
uma matriz não-singular (determinante diferente de zero) então a matriz inversa comum 1)´( −XX 
pode ser pré-multiplicada a ambos os membros do sistema de equações normais, da seguinte 
forma: 
 YXXX ´ ˆ´ =β (pré-multiplicar a matriz 1)´( −XX ) 
 YXXXXXXX ´)´( ˆ´)´( 11 −− =β (sendo IXXXX =− ´)´( 1 , matriz identidade) 
 YXXX ´)´( ˆ 1−=β é o estimador de mínimos quadrados, que torna mínima a soma 
 de quadrados dos erros. 
 Ao se obter as estimativas por meio do estimador β̂ , está-se obtendo os coeficientes da 
equação de regressão pelo método dos mínimos quadrados ordinários. 
 
Análise de variância da regressão e teste F 
 Conforme já visto, toda análise de variância consiste no desdobramento da variação total 
em partes devidas a fontes de variação intencional e não-controlada. Na análise de variância da 
regressão segue-se o mesmo procedimento, obtendo-se as somas de quadrados total, devido à 
regressão e independente da regressão. 
 
Hipóteses: 
 :0H 0...21 ==== pβββ (os coeficientes de regressão são iguais a zero). 
 :1H não 0H (existe pelo menosum coeficiente de regressão diferente de zero). 
 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 134
Soma de quadrados total 
 A soma de quadrados total é dada por: 
 CYYSQtotal −= ´ 
a) com 1−= nGLtotal graus de liberdade quando o modelo inclui a constante 0β . 
b) com nGLtotal = quando o modelo não inclui a constante 0β . 
sendo C a correção obtida por: 
n
y
C
n
i
i
2
1








=
∑
= 
Soma de quadrados da regressão 
 A soma de quadrados da regressão, também denominada soma de quadrados devida à 
regressão, é dada por: 
 CYXSQreg −= ´´β , com pGLreg = graus de liberdade, sendo p o número de variáveis 
independentes no modelo. 
 
Soma de quadrados do resíduo da regressão: 
 A soma de quadrados do resíduo da regressão, também denominada soma de quadrados 
dos desvios da regressão ou soma de quadrados independente da regressão, ou soma de 
quadrados dos erros da regressão, conforme já visto, é dada por: 
 )( )´(´ ββεε XYXYSQRreg −−== 
 )( ´)´´(´ ββεε XYXY −−= 
 ββββεε XXYXXYYY ´´´´´´´ +−−= 
 Como as matrizes βXY ́ e YX´´β têm dimensões 1 x 1 e são mutuamente transpostas, 
pode-se escrever que YXXY ´´ ́ ββ = . Desta forma, a soma de quadrados dos erros pode ser 
escrita como: 
 βββ XXYXYYSQRreg ´´´´2´ +−= 
 Como YXXX ´ ˆ´ =β , tem-se: YXYXYYSQRreg ´´ˆ´´ˆ2´ ββ +−= 
 Logo, YXYYSQRreg ´´ˆ´ β−= , 
a) com pnGLRreg −−= 1 graus de liberdade quando o modelo inclui a constante 0β . 
b) com pnGLRreg −= quando o modelo não inclui a constante 0β . 
 Na prática, a SQRreg é obtida pela diferença entre a soma de quadrados total e a soma de 
quadrados da regressão, ou seja: 
 SQregSQtotalSQRreg −= 
 
Quadrado médio da regressão 
 O quadrado médio da regressão é obtido pela razão entre a soma de quadrados e os graus 
de liberdade da regressão, ou seja: 
 
p
SQreg
GLreg
SQregQMreg == 
 
Quadrado médio do resíduo da regressão 
 O quadrado médio do resíduo da regressão é obtido pela razão entre a soma de quadrados 
de resíduos e os graus de liberdade do resíduo da regressão, ou seja: 
 
GLRreg
SQRregQMRreg = , sendo pnGLRreg −−= 1 ou pnGLRreg −= 
 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 135
F calculado 
 O valor de F calculado é obtido pela razão entre o quadrado médio da regressão e o 
quadrado médio do resíduo da regressão, ou seja: 
 
QMRreg
QMregFcal = 
 
F tabelado: );( GLRregGLregFFtab α= , em que α é o nível de significância, GLreg é o 
número de graus de liberdade da regressão e GLRreg é o número de graus de 
liberdade do resíduo da regressão (Tabelas 8 e 9 ). 
 A análise de variância da regressão pode ser apresentada como no Quadro 32 . 
Quadro 32 – Análise de variância da regressão 
 
 
FV GL SQ QM F 
 
 
 Regressão P SQreg QMreg F cal 
Resíduo (n-1) – p ou n – p SQRreg QMRreg 
 
 
Total n – 1 ou n SQtotal 
 
 
 
Regra de decisão 
 Se tabcal FF ≥ , a regressão é significativa, ou seja, existe pelo menos um coeficiente de 
regressão estatisticamente diferente de zero, considerando o nível α de significância. 
 Se tabcal FF < , a regressão é não-significativa, ou seja, todos os coeficientes de regressão 
são estatisticamente nulos, considerando o nível α de significância. 
 
Testes de significância para os parâmetros de regressão: 
 Os parâmetros do modelo de regressão, seja apresentado na forma algébrica, 
 ipipiii eXXXY +++++= ββββ ...22110 
ou matricial, εβ += XY , podem ser testados. Para isso, é necessário conhecer as variâncias e as 
covariâncias dos parâmetros. 
 A estimativa da matriz de variâncias e covariâncias dos parâmetros de modelo de 
regressão, denotada por vôc )ˆ(β é dada por: 
vôc


















== −
)ˆ(ˆ...)ˆ,ˆv(ôc)ˆ,ˆv(ôc)ˆ,ˆv(ôc
...............
)ˆ,ˆv(ôc...)ˆ(ˆ)ˆ,ˆv(ôc)ˆ,ˆv(ôc
)ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ(ˆ)ˆ,ˆv(ôc
)ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ,ˆcov()ˆ(ˆ
)´()ˆ(
210
222120
121110
020100
21
pppp
p
p
p
V
V
V
V
SXX
βββββββ
βββββββ
βββββββ
βββββββ
β 
em que 
2S é o quadrado médio do resíduo da regressão )(QMRreg , denominado variância residual. 
)ˆ(ˆ iV β é a estimativa da variância do parâmetro iβ . 
)ˆ,ˆv(ôc ´ii ββ é a estimativa da covariância entre os parâmetros iβ e ´iβ , para íi ≠ . 
 Os erros-padrão das estimativas dos parâmetros de regressão são obtidos extraindo-se a 
raiz quadrada das variâncias, dispostas na diagonal principal da matriz de variâncias e 
covariâncias, sendo utilizados nos testes de significância dos parâmetros. 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 136
 O teste mais utilizado para verificar a significância dos parâmetros da regressão é o teste 
t, descrito a seguir: 
Hipóteses: 
 0H : 0=iβ (ou seja, o coeficiente de regressão é estatisticamente nulo) 
 1H :. 0≠iβ (o coeficiente de regressão é diferente de zero). 
Diferença mínima significativa (DMS): 
 A diferença mínima significativa (DMS) do teste t é obtido em função do nível de 
significância )(α do teste e do número de graus de liberdade do resíduo da regressão )(GLRreg , 
ou seja: 
 )1()( pntGLRregtttab −−== αα para modelos que incluem 0β (Tabela 15 ). 
 )()( pntGLRregtttab −== αα para modelos que não incluem 0β (Tabela 15 ). 
Estimativa do t a ser testado: 
 
)ˆ(
ˆ
i
i
cal
S
t
β
ββ −
= 
 Na maioria dos casos, por hipótese, 0=β . Assim, o t calculado é expresso por: 
 
)ˆ(
ˆ
i
i
cal
S
t
β
β
= 
em que 
calt é a estimativa do t calculado. 
iβ̂ é a estimativa do parâmetro a ser testado. 
)ˆ( iS β é o erro-padrão da estimativa do parâmetro de regressão. 
Regra de decisão: 
 - Se tabcal tt || ≥ , rejeita-se 0H , ou seja, o coeficiente de regressão é estatisticamente 
diferente de zero, ao nível α de probabilidade. 
 
 - Se tabcal tt || < , não se rejeita 0H , ou seja, o coeficiente de regressão é estatisticamente 
nulo, ao nível α de probabilidade. 
 
Observações: 
 - A hipótese a ser testada não necessariamente tem que ser nula. 
 - Algumas vezes pode ser de interesse testar a constante de regressão. 
 - É importantíssimo que os coeficientes de regressão sejam significativos. 
 - Intervalos de confiança para as estimativas dos parâmetros podem ser obtidos por: 
αβββ tSIC iii )ˆ(ˆ:)ˆ( ± . 
 
Qualidade do ajuste da equação de regressão: 
 Uma vez ajustada a equação de regressão, seja pelo método matricial, com o uso da 
expressão YXXX ´)´( ˆ 1−=β ou por meio de somatórios (não apresentados neste documento), 
verificado o teste F da análise de variância e testadas as significâncias dos coeficientes, a 
qualidade do ajuste deve ser verificada. 
 O coeficiente de determinação, o erro-padrão e o coeficiente de variação da regressão 
podem ser utilizados com esse propósito, além da análise gráfica dos resíduos da regressão. É 
importante também analisar os sinais dos coeficientes da equação e fazer as devidas 
interpretações. 
 
 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 137
1. Coeficiente de determinação 
 O coeficiente de determinação )( 2R é definido como a parte da variação total da 
característica estudada que pode ser explicada pela equação de regressão. A proporção da 
variável dependente Y que está sendo explicada pela(s) variável(eis) independente(s) X 
também define o coeficiente de determinação, que é dado por: 
 
SQtotal
SQregR =2 
em que 
2R é o coeficiente de determinação. 
SQreg é a soma de quadrados da regressão. 
SQtotal é a soma de quadrados total. 
 A amplitude do coeficiente de determinação é 10 2 ≤≤ R , ou, expressa em porcentagem, 
%1000 2 ≤≤ R , indicando que quanto mais próximo de 1 (um) ou de %100 , melhor será a 
qualidade do ajuste. 
 
2. Coeficiente de determinação corrigido 
 Quando o número de observações é igual a 2 (dois pontos), entre eles só é possível 
ajustar a equação de uma única reta, com coeficientede determinação máximo, igual a 1. Neste 
caso, os desvios da regressão são nulos. 
 Pode-se dizer então, que o coeficiente de determinação 2R é dependente do número de 
observações )(n da amostra e tende a aumentar quando n diminui. Para contornar esse problema 
é utilizado o coeficiente de determinação corrigido )( 2R , também chamado coeficiente de 
determinação corrigido (ou ajustado) para os graus de liberdade e expresso por: 
 






−
−
−=
2
1 222
n
RRR 
em que 
2R é o coeficiente de determinação corrigido. 
2R é o coeficiente de determinação. 
n é o número de observações. 
Observações: 
 - 22 RR ≤ , exceto quando 12 =R 
 - O 2R pode ser negativo. 
 - Na prática, quando o modelo de regressão é linear simples, com forma algébrica: 
iii eXY ++= 110 ββ , o coeficiente de determinação, inclusive o corrigido, é denotado por letra 
minúscula, ou seja, é escrito como 2r ou 2r . 
 
3. Erro-padrão da regressão 
 O erro-padrão da regressão )( yxS mede a variação das observações em torno da curva 
gerada pela equação, ou seja, mede os desvios da regressão e é dado por: 
 QMRregS yx = 
 O intervalo da dispersão das observações pode ser definido, se for associada uma 
distribuição de probabilidade ao erro-padrão da regressão, considerando um nível de 
significância α . 
 Por exemplo, se for utilizada a distribuição t e o nível de significância α , em )1( α− das 
vezes em que for ajustado o modelo de regressão, a estimativa do erro-padrão estará no intervalo 
αtS yx ± . 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 138
4. Coeficiente de variação da regressão 
 Outra medida da qualidade do ajuste de uma equação é o coeficiente de variação da 
regressão, expresso em porcentagem da média da variável dependente. Esta medida é dada por: 
 100.
 
Y
QMRreg
CV = 
em que 
CV é o coeficiente de variação. 
QMRreg é o quadrado médio do resíduo da regressão. 
Y é a média dos valores observados da variável dependente Y . 
 
5. Análise gráfica dos resíduos: 
 Em qualquer análise de regressão, desde que o número de observações não seja muito 
reduzido )10( ≤n , é importante efetuar análises gráficas dos resíduos. Estas análises resultam em 
uma visão clara da qualidade do ajuste, da possível ocorrência de tendências indesejáveis 
(superestimação ou subestimação) e da presença de dados discrepantes (que às vezes podem ser 
caracterizados como outliers e eliminados procedendo-se um novo ajuste do modelo). Permitem 
ainda identificar o uso de um modelo inadequado e a violação de pressuposições da análise de 
variância. 
 Os resíduos da regressão são definidos como as diferenças entre os valores estimados 
pela equação e os valores observados da variável dependente Y , ou seja, iii YYe −= ˆˆ . 
Existem várias formas de se fazer a análise gráfica dos resíduos da regressão, entre elas: 
a) Gráfico de Y e Ŷ versus X ; b) Gráfico de Ŷ (estimativa da variável dependente) versus Y 
(variável dependente observada); c) Distribuição de freqüência dos desvios da regressão; d) 
Gráfico de desvios percentuais. 
x
Y
 o
bs
er
va
do
 e
 Y
 e
st
im
ad
o
 
(a) 
Y observado
Y
 e
st
im
ad
o
 
(b) 
-100 -75 -50 -25 0 25 50 75 100
Desvios (%)
Fr
eq
uê
nc
ia
 
(c) 
Y observado
D
es
vi
os
 (%
)
 
(d) 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 139
Exemplo 21: 
 Em um plantio de soja, num sistema agroflorestal, foram amostradas 12 plantas, 
aleatoriamente, durante um período de oito dias após a aplicação de um determinado herbicida. 
A biomassa seca da parte aérea, em g/planta, com o objetivo de estudar seu crescimento. Os 
dados mensurados são apresentados no Quadro 33 . 
 
Quadro 33 – Biomassa seca de soja, em g/planta 
 
 
Planta Tempo (dias) Biomassa 
 
 
1 1 66 
2 2 100 
3 3 148 
4 3 142 
5 4 197 
6 5 228 
7 5 238 
8 5 239 
9 6 272 
10 6 279 
11 7 327 
12 8 377 
 
 
 
 Para estudar a relação funcional entre o tempo e a biomassa deve-se fazer inicialmente 
um gráfico de dispersão a fim de verificarmos a presença de outliers e analisar o comportamento 
dos dados. 
0
150
300
450
0 2 4 6 8 10
Tempo (dias)
B
io
m
as
sa
 (g
/p
la
nt
a)
 
Figura 4 – Biomassa seca observada da parte aérea de plantas de soja. 
 
 Nesta dispersão não foram detectados outliers e observou-se que a biomassa aumenta 
linearmente com o aumento do tempo, sugerindo que o modelo linear simples pode ser adequado 
para descrever a relação funcional. Cabe lembrar que em geral esse tipo de dado apresenta 
comportamento com tendência sigmoidal ou exponencial; aqui, para simplificação, foi utilizado 
apenas um pequeno segmento de dados com tendência linear.. 
 O modelo estatístico na forma algébrica é: iii eXY ++= 110 ββ 
 O modelo estatístico na forma matricial é: εβ += XY 
em que 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 140
11212
11
10
9
8
7
6
5
4
3
2
1
377
327
279
272
239
238
228
197
142
148
100
66
 






































=






































=
y
y
y
y
y
y
y
y
y
y
y
y
Y 
212 81
71
61
61
51
51
51
41
31
31
21
11






































=X 
11
0
2






=
β
β
β 
112
11
10
9
8
7
6
5
4
3
2
1
12






































=
e
e
e
e
e
e
e
e
e
e
e
e
ε 
 
Ajuste da equação de regressão: 
Obtenção da matriz XX ' : 
22
212
122 29955
5512
81
71
61
61
51
51
51
41
31
31
21
11
876655543321
111111111111
' 





=












































=XX 
Determinante da matriz XX ' : 
 56330253588)55( )55()299( )12()'( det =−=−=XX . 
 Como XX ' é uma matriz não-singular (ou seja, com determinante diferente de zero), 
existe a matriz inversa comum 1)'( −XX , dada por: 
 [ ] ' 1 )'( 
)'( det
1)'( XXcof
XX
XX =− 
sendo [ ] ' )'( XXcof a transposta da matriz de cofatores de )'( XX . 
Matriz de cofatores de )'( XX : [ ] 





−
−
=





=
1255
55299
)'( 
2221
1211
cc
cc
XXcof 
 [ ] 299)299( 1299 det)1( 1111 ==−= +c 
 [ ] 55)55( 155 det)1( 2112 −=−=−= +c 
 [ ] 55)55( 155 det)1( 1221 −=−=−= +c 
 [ ] 12)12( 112 det)1( 2222 ==−= +c 
Transposta da matriz de cofatores (também chamada de matriz adjunta): 
 [ ] 





−
−
=
1255
55299
)'( ' XXcof 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 141
Matriz inversa comum 1)'( −XX : 
 [ ] 





−
−
=





−
−
==−
0213,00977,0
0977,05311,0
1255
55299
563
1)'( 
)'( det
1)'( ' 1 XXcof
XX
XX 
Matriz YX ' : 
12
112
122 060.14
613.2
377
327
279
272
239
238
228
197
142
148
100
66
876655543321
111111111111
' 





=












































=YX 
Estimativa do vetor de parâmetros da regressão: 
 








=





=











−
−
== −
1
0
22
1
ˆ
ˆ
4139,44
1865,14
060.14
613.2
0213,00977,0
0977,05311,0
')'(ˆ
β
ββ YXXX 
Equação ajustada: XY 4139,441865,14ˆ += 
 
Análise de variância da regressão: 
Soma de quadrados total: CYYSQtotal −= ' 
[ ] 00,865.661
377
327
279
272
239
238
228
197
142
148
100
66
37732727927223923822819714214810066'
112
121 =






































=YY 
Correção: 75,980.568
12
)613.2( 2
2
1 ==








=
∑
=
n
y
C
n
i
i
 
25,884.9275,980.56800,865.661' =−=−= CYYSQtotal 
 com 111121 =−=−= nGLtotal g.l. 
 
Soma de quadrados da regressão: CYXSQreg −= ''β̂Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 142
[ ] 75,980.568
060.14
613.2
 4139,441865,14 −





=SQreg 
01,548.9275,980.56876,528.661 =−=SQreg , com 1== pGLreg g.l. 
 
Soma de quadrados do resíduo da regressão: YXYYSQRreg ''ˆ' β−= 
24,33676,528.66100,865.661 =−=SQRreg , com 1011121 =−−=−−= pnGLRreg g.l. 
 
Quadro 34 – Análise de variância da regressão 
 
 
FV GL SQ1/ QM1/ F 
 
 
 Regressão 1 92.548,01 92.548,0100 2752,44 ** 
Resíduo 10 336,24 33,6240 
 
 
Total 11 92.884,25 
 
** F significativo a 1% de probabilidade. 
 
F tabelado: 04,10)10 ;1()1;();( %1 ==−−== FpnpFGLRregGLregFFtab αα (Tabela 9 ). 
 
Regra de decisão: 
 Como tabcal FF > , rejeita-se 0H , ou seja, existe pelo menos um coeficiente de regressão 
estatisticamente diferente de zero, a %1 de probabilidade. 
 Neste caso, como o único coeficiente de regressão é o 1β , o teste F é conclusivo. O teste t 
para o coeficiente de regressão é dispensável, uma vez que é válida a relação Ft =2 . Apesar 
disso, a significância do coeficiente 1β será testada para efeito didático. 
 
Teste de significância para os parâmetros: 
Hipóteses: 
 0H : 01 =β (ou seja, o coeficiente de regressão é estatisticamente nulo) 
 1H :. 01 ≠β (o coeficiente de regressão é diferente de zero). 
 
Diferença mínima significativa (DMS): 
 23,2)10()1112()1()( %5%5 ==−−=−−== ttpntGLRregtttab αα 
 17,3)10(%1 == t (Tabela 15). 
Matriz de variâncias e covariâncias: 








== −
)ˆ(ˆ)ˆ,ˆ( vôc
)ˆ,ˆ( vôc)ˆ(ˆ)'()ˆ( vôc
110
10021
βββ
ββββ
V
VSXX 
 





−
−
=





−
−
=
7162,02851,3
2851,38577,17
)6240,33( 
0213,00977,0
0977,05311,0
)ˆ( vôc β 
Estimativa do t a ser testado: 
 48,52
7162,0
4139,44
)ˆ(
ˆ
===
i
i
cal
S
t
β
β 
Regra de decisão: 
 Como tabcal tt || > , rejeita-se 0H , ou seja, o coeficiente de regressão é estatisticamente 
diferente de zero, a %1 de probabilidade, pelo teste t. 
 
 
Qualidade do ajuste: 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 143
1. Coeficiente de determinação: 9964,0
25,884.92
01,548.922 ===
SQtotal
SQregr 
ou seja, %64,99 da variação na biomassa pode ser explicada pela variação do tempo. 
2. Erro-padrão: 7986,56240,33 === QMRregS yx 
ou seja, a dispersão dos dados em torno da regressão ajustada é de 7986,5 g/planta. 
3. Coeficiente de variação: %66,2100.
75,217
6249,33
100.
 
===
Y
QMRreg
CV 
ou seja, a dispersão dos dados em torno da regressão ajustada, em relação à média é igual a 
%66,2 . 
4. Análise gráfica dos resíduos, de Y e Ŷ versus X e de gráfico de desvios percentuais 
0
150
300
450
0 2 4 6 8 10
Tempo (dias)
B
io
m
as
sa
 (g
/p
la
nt
a)
 
0
150
300
450
0 2 4 6 8 10
Biomassa observada (g/planta)
B
io
m
as
sa
 e
st
im
ad
a 
(g
/p
la
nt
a)
-100
-50
0
50
100
0 150 300 450
Biomassa observada (g/p lanta)
D
es
vi
os
 (%
)
 
 
Exemplo 22: 
 Em um plantio de milho do mesmo sistema agroflorestal da questão anterior, foram 
amostradas 25 parcelas, aleatoriamente, nas quais foram avaliados a altura da primeira espiga 
)( 1X , o teor de proteína )( 2X e a produção por hectare )(Y . Para avaliar o efeito da altura da 
primeira espiga e do teor de proteína sobre a produção, pode-se ajustar um modelo de regressão 
que descreva tais relações. Os dados mensurados são apresentados no Quadro 35 . 
 
Quadro 35 – Altura da primeira vagem, teor de proteína e produção de milho 
Parcela Altura (cm) )( 1X Proteína (mg) )( 2X Produção (kg/ha) )(Y 
1 0,60 82 110,2 
2 1,35 163 233,3 
3 1,01 61 138,4 
4 0,53 86 105,1 
5 0,85 42 111,3 
6 1,53 199 273,3 
7 1,25 120 198,0 
8 0,52 39 76,2 
9 1,61 222 294,7 
10 0,68 60 104,8 
11 1,27 93 184,0 
12 0,86 141 172,0 
13 1,13 72 156,9 
14 0,78 88 131,6 
15 1,39 203 261,7 
16 1,02 161 199,9 
17 0,51 45 78,5 
18 0,62 22 75,4 
19 1,15 143 201,7 
20 1,20 183 230,5 
21 1,44 129 221,5 
22 0,51 60 86,0 
23 1,03 102 165,5 
24 1,56 170 258,8 
25 0,77 122 151,3 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 144
 Para estudar a relação funcional entre a altura da primeira espiga e do teor de proteína 
com a produção, deve-se inicialmente fazer um gráfico de dispersão para a produção em função 
da altura da primeira espiga e outro, da produção em função do teor de proteína, conforme a 
seguir. 
 
0
100
200
300
400
0,0 0,5 1,0 1,5 2,0
Altura da primeira espiga (cm)
Pr
od
uç
ão
 (k
g/
ha
)
 
0
100
200
300
400
0 50 100 150 200 250
Teor de proteína (mg)
Pr
od
uç
ão
 (k
g/
ha
)
 
 
 Nestas dispersões não foram detectados outliers e observou-se que a produção de milho 
aumenta à medida que tanto a altura da primeira espiga (Figura 5 ) como o teor de proteína 
(Figura 6 ) aumentam. As Figuras sugerem que existe uma relação funcional da variável 
dependente, de efeito linear simples com ambas as variáveis independentes. 
 Neste caso, o modelo linear múltiplo a ser estudado é: 
 ii eXXY +++= 22110 βββ (modelo estatístico na forma algébrica) 
ou εβ += XY (modelo estatístico na forma matricial) 
em que 
12525
24
3
2
1
3,151
8,258
...
4,138
3,233
2,110
...




















=




















=
y
y
y
y
y
Y 
325 12277,01
17056,11
.........
6101,11
16335,11
8260,01




















=X 
12
1
0
3










=
β
β
β
β 
125
24
3
2
1
25
...




















=
e
e
e
e
e
Y 
 
Ajuste da equação de regressão: 
Obtenção da matriz XX ' : 
33
325
253 00,044.39407,222.300,808.2
07,222.347,2817,25
00,808.217,2500,25
12277,01
17056,11
.........
6101,11
16335,11
8260,01
122170...6116382
77,056,1...01,135,160,0
11...111
'










=






























=XX 
Determinante da matriz XX ' : 
 O determinante da matriz )'( XX pode ser calculado pela regra de Sarrus. 
 
07,222.300,808.2
47,2817,25
17,2500,25
 
00,044.39407,222.300,808.2
07,222.347,2817,25
00,808.217,2500,25










 
)07,222.3)(17,25)(00,808.2()00,808.2)(07,222.3)(17,25()00,044.394)(47,28( )00,25()'( det ++=XX 
 )00,808.2)(47,28)(00,808.2()07,222.3)(07,222.3)(00,25()00,044.394)(17,25)(17,25( −−− 
43,211.257.2)'( det =XX 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 145
 Como XX ' é uma matriz não-singular (ou seja, com determinante diferente de zero), 
existe a matriz inversa comum 1)'( −XX , dada por: 
 [ ] ' 1 )'( 
)'( det
1)'( XXcof
XX
XX =− 
sendo [ ] ' )'( XXcof a transposta da matriz de cofatores de )'( XX 
 
Matriz de cofatores de )'( XX : 
 [ ]










−
−−
−
=










=
22,7839,874.974,155.1
39,874.900,236.966.192,514.870
75,155.192,514.87060,697.836
)'( 
333231
232221
131211
ccc
ccc
ccc
XXcof 
 60,697.836
00,044.39407,222.3
07,222.347,28
 det)1( 1111 =





−= +c 
 92,514.870
00,044.39400,808.2
07,222.317,25
 det)1( 2112 −=





−= +c 
 74,155.1
07,222.300,808.2
47,2817,25
 det)1( 3113 =





−= +c 
 92,514.870
00,044.39407,222.3
00,808.217,25
 det)1( 1221 −=





−= +c 
 00,236.966.1
00,044.39400,808.2
00,808.200,25
 det)1( 2222 =





−= +c 
 39,874.9
07,222.300,808.2
17,2500,25
 det)1( 3223 −=





−= +c 
 74,155.1
07,222.347,28
00,808.217,25
 det)1( 1331 =





−= +c 
 39,874.9
07,222.317,25
00,808.200,25
 det)1( 2332 −=





−= +c 
 22,78
47,2817,25
17,2500,25
 det)1( 3333 =





−= +c 
 
Transposta da matriz de cofatores (também chamada de matriz adjunta): 
 [ ]










−
−−
−
=
22,7839,874.974,155.1
39,874.900,236.966.192,514.870
75,155.192,514.87060,697.836)'( ' XXcof 
 
Matriz inversa comum 1)'( −XX : 
 [ ] ' 1 )'( 
)'( det
1)'( XXcof
XX
XX =− 
 










−
−−
−
=−
22,7839,874.974,155.1
39,874.900,236.966.192,514.870
75,155.192,514.87060,697.836
 
43,211.257.2
1)'( 1XX 
 










−
−−
−
=−
000035,0004375,0000512,0
004375,08711,03857,0
000512,03857,03707,0
 )'( 1XX 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 146
 
Matriz YX ' : 
13
125
253 40,885.560
23,800.4
60,220.4
3,151
8,258
 ...
4,138
3,233
2,110
122170...6116382
77,056,1...01,135,160,0
11...111
'










=






























=YX 
Estimativa do vetor de parâmetros da regressão: 
 




















−
−−
−
== −
40,885.560
23,800.4
60,220.4
 
000035,0004375,0000512,0
004375,08711,03857,0
000512,03857,03707,0
')'(ˆ 1 YXXXβ 
 










=










== −
2
1
0
1
ˆ
ˆ
ˆ
6014,0
0733,100
5191,0
 ')'(ˆ
β
β
β
β YXXX 
Equação ajustada: 21 6014,0 0733,1005191,0ˆ XXY ++= 
 
Análise de variância da regressão: 
 
Soma de quadrados total: CYYSQtotal −= ' 
[ ] 90,896.819
3,151
8,258
 ...
4,138
3,233
2,110
3,1518,258...4,1383,2332,110'
125
251 =




















=YY 
Correção: 57,538.712
25
)60,220.4( 2
2
1 ==








=
∑
=
n
y
C
n
i
i
 
33,358.10757,538.71290,896.819' =−=−= CYYSQtotal 
 com 241251 =−=−= nGLtotal g.l. 
 
Soma de quadrados da regressão: CYXSQreg −= ''β̂ 
 [ ] 67,538.712
40,885.560
23,800.4
60,220.4
 6014,00733,1005191,0 −










=SQreg 
 86,352.10757,538.71243,891.819 =−=SQreg , com 2== pGLreg g.l. 
 
Soma de quadrados do resíduo da regressão: YXYYSQRreg ''ˆ' β−= 
47,543,891.81990,896.819 =−=SQRreg , com 2221251 =−−=−−= pnGLRreg g.l. 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 147
Quadro 36 – Análise de variância da regressão 
 
 
FV GL SQ QM F 
 
 
 Regressão 2 107.352,86 53.676,4300 215.914,84 ** 
Resíduo 22 5,47 0,2486 
 
 
Total 24 107.358,33 
 
** F significativo a 1% de probabilidade. 
 
F tabelado: 72,5)22 ;2()1;();( %1 ==−−== FpnpFGLRregGLregFFtab αα (Tabela 9 ). 
 
Regra de decisão: 
 Como tabcal FF > , rejeita-se 0H , ou seja, existe pelo menos um coeficiente de regressão 
estatisticamente diferente de zero, a %1 de probabilidade. Neste caso, pode ser que a 
significância apresentada no teste F seja devida apenas ao coeficiente 1β , ao coeficiente 2β , ou a 
ambos. É necessário testar esses coeficientes por meio do teste t. 
 
Teste de significância para os parâmetros: 
 
Matriz de variâncias e covariâncias: 21)'()ˆ( vôc SXX −=β 
 










=
)ˆ()ˆ,ˆ( vôc)ˆ,ˆ( vôc
)ˆ,ˆ( vôc)ˆ(ˆ)ˆ,ˆ( vôc
)ˆ,ˆ( vôc)ˆ,ˆ( vôc)ˆ(
)ˆ( vôc
22120
21110
20100
βββββ
βββββ
βββββ
β
V
V
V
 
 (0,2486) 
000035,0004375,0000512,0
004375,08711,03857,0
000512,03857,03707,0
)ˆ( vôc










−
−−
−
=β 
 
000009,00011,0000127,0
0011,02166,00959,0
000127,00959,00922,0
)ˆ( vôc










−
−−
−
=β 
 
1) Teste t para o coeficiente 1β : 
Hipóteses: 
 0H : 01 =β (ou seja, o coeficiente de regressão é estatisticamente nulo) 
 1H : 01 ≠β (o coeficiente de regressão é diferente de zero). 
 
Diferença mínima significativa (DMS): 
 07,2)22()2125()1()( %5%5 ==−−=−−== ttpntGLRregtttab αα 
 82,2)22(%1 == t (Tabela 15). 
 
Estimativa do t a ser testado: 
 03,215
2166,0 
0733,100
)ˆ(ˆ 
0ˆ
)ˆ(
ˆ
1
1
1
1 ==
−
=
−
=
β
β
β
ββ
VS
tcal 
 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 148
Regra de decisão: 
 Como tabcal tt || > , rejeita-se 0H , ou seja, o coeficiente de regressão 1β é 
estatisticamente diferente de zero, a %1 de probabilidade, pelo teste t. 
 
2) Teste t para o coeficiente 2β : 
Hipóteses: 
 0H : 02 =β (ou seja, o coeficiente de regressão é estatisticamente nulo) 
 1H : 02 ≠β (o coeficiente de regressão é diferente de zero). 
Diferença mínima significativa (DMS): 
 07,2)22()2125()1()( %5%5 ==−−=−−== ttpntGLRregtttab αα 
 82,2)22(%1 == t (Tabela 15 ). 
 
Estimativa do t a ser testado: 
 47,200
000009,0 
6014,0
)ˆ(ˆ 
0ˆ
)ˆ(
ˆ
2
2
2
2 ==
−
=
−
=
β
β
β
ββ
VS
tcal 
 
Regra de decisão: 
 Como tabcal tt || > , rejeita-se 0H , ou seja, o coeficiente de regressão 2β é 
estatisticamente diferente de zero, a %1 de probabilidade, pelo teste t. 
 
Qualidade do ajuste: 
Coeficiente de determinação: 9999,0
33,358.107
86,352.1072 ===
SQtotal
SQregr 
ou seja, %99,99 da variação na produção de milho pode ser explicada pela variação da altura da 
primeira espiga e do teor de proteína. 
 
Erro-padrão: 4986,02486,0 === QMRregS yx 
ou seja, a dispersão dos dados em torno da regressão ajustada é de 4986,0 kg/ha. 
 
Coeficiente de variação: %30,0100.
82,168
2486,0
100.
 
===
Y
QMRreg
CV 
ou seja, a dispersão dos dados em torno da regressão ajustada, em relação à média é igual a 
%30,0 . 
 
Análise gráfica dos resíduos: 
 
0
100
200
300
400
0 100 200 300 400
Produção observada (kg/ha)
Pr
od
uç
ão
 e
st
im
ad
a 
(k
g/
ha
)
 
-5,0
-2,5
0,0
2,5
5,0
0 100 200 300 400
Produção observada (kg/ha)
D
es
vi
os
 (%
)
 
0,2
0,8
1,4 45
135
2250
100
200
300
400
Pr
od
uç
ão
 (k
g/
ha
)
Altura (cm)
Prot. 
(mg)
 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 149
Análise de regressão para dados com repetição 
 
 De acordo com Hofmann e Vieira (1983), quando para um ou mais valores da variável 
independente X tem-se um ou mais valores da variável dependente Y , é possível obter duas 
estimativas da variância residual (Figura 8 ). 
 
 
 
Figura 8 – Decomposição da soma de quadrados do resíduo da regressão. 
 
 
 Uma das estimativas é dada pelo quadrado médio do resíduo da análise de variância 
)(QMR , denominado erro puro, em que cada valor de X é considerado como um tratamento 
distinto a que está sendo submetida a variável Y . A outra é dada pelo quadrado médio do resíduo 
da análise de variância da regressão )(QMRreg . 
 Como essas estimativas não são coincidentes, a falta de ajustamento do modelo pode ser 
estimada por: 
 
 SQRSQRregSQFa −= 
em que 
SQFa é a soma de quadrados da falta de ajustamento. 
SQRreg é a soma de quadrados dos resíduos da regressão. 
SQR é a soma de quadrados dos resíduos da análise de variância (do delineamento 
experimental). 
 
 Sabendo que SQregSQtotalSQRreg −= e ainda que SQTSQtotalSQR −= , tem-se: 
 )( SQTSQtotalSQregSQtotalSQFa −−−= 
 )SQTSQtotalSQregSQtotalSQFa +−−= 
 SQregSQTSQFa −= , com pIGLFa −−= )1( graus de liberdade. 
em que 
SQT é a soma de quadrados de tratamentos. 
SQreg é a soma de quadrados devida à regressão. 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 150
Teste para a falta de ajustamento 
 No caso de dados com repetição, quando uma equação de regressão é ajustada, além das 
medidas de qualidade do ajuste, deve-se levar em conta a adequação do modelo (falta de 
ajustamento), efetuando-se o teste F como se segue: 
 
Procedimento: 
1) Análise de variância dos dados de Y , de acordo com o delineamento experimental. 
 Nesta oportunidade, obtém-se a estimativa do quadrado médio do resíduo da análise de 
variância )(QMR , denominado erro puro. 
 
2) Estimativa da equação de regressão. 
 Nesta oportunidade, obtém-se o quadrado médio do resíduo da análise de variância da 
regressão )(QMRreg . 
3) Efetuar o teste F para a falta de ajustamento, como mostrado no Quadro 37 . 
Hipóteses: 
 0H : o modelo de regressão é adequado para descrever os dados. 
 1H : o modelo de regressão não é adequado para descrever os dados. 
 
Quadro37 – Análise de variância da regressão com o teste para a falta de ajustamento 
 
 
FV GL SQ QM F 
 
 
Regressão GLreg SQreg QMreg F reg 
Resíduo da regressão GLRreg SQRreg QMRreg 
 
 
Falta de ajustamento GLFa SQFa QMFa F Fa 
Resíduo GLR SQR QMR 
 
 
Total GLtotal 
 
 
Valor calculado: 
QMR
QMFaFFa = 
em que 
QMFa é a estimativa do quadrado médio da falta de ajustamento. 
QMR é a estimativa do quadrado médio do resíduo da análise de variância (erro puro). 
Valor tabelado: );( GLRGLFaFFtab α= , sendo α o nível de significância, GLFa o número de 
graus de liberdade da falta de ajustamento e GLR o número de graus de 
liberdade do resíduo da análise de variância. 
Regra de decisão: 
 - Se tabcal FF ≥ , rejeita-se 0H , ou seja, o modelo é inadequado para descrever os dados. 
Neste caso, existe um erro sistemático (bias) decorrente do uso de um modelo inadequado. 
 - Se tabcal FF < , não se rejeita 0H , ou seja, o modelo é adequado para descrever os dados. 
Neste caso, tanto o quadrado médio da falta de ajustamento ( QMFa ) quanto o quadrado médio 
do resíduo da análise de variância ( QMR ) podem ser utilizados como estimativa da variância 
residual. É desejável, portanto, que o teste para a falta de ajustamento seja não-significativo. 
 Do ponto de vista prático, sabendo que o teste para a falta de ajustamento consiste na 
decomposição da soma de quadrados de tratamentos )(SQT em uma parte devida à regressão 
)(SQreg e outra devida à falta de ajustamento )(SQFa , a análise de variância da regressão pode 
ser apresentada como no Quadro 38 . 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 151
Quadro 38 – Análise de variância da regressão com o teste para a falta de ajustamento 
 
 
FV GL SQ QM F 
 
 
Tratamentos (I – 1) (SQT) 
 
 Devido à regressão GLreg SQreg QMreg F reg 
 Falta de ajustamento GLFa SQFa QMFa F Fa 
 
Resíduo GLR SQR QMR 
 
 
Total GLtotal 
 
 
 
Ajuste da equação de regressão 
 No caso de dados com repetição, o ajuste de equações de regressão pode ser feito de três 
formas: 
 
1. Com os dados individuais 
 Modelo: εβ += XY 
em que 
Y é o vetor de observações, constituído pelos dados individuais. 
X é a matriz de variáveis independentes. 
β é o vetor de parâmetros. 
ε é o vetor de erros. 
 
Estimativa do vetor de parâmetros: YXXX ')'(ˆ 1−=β 
 
Matriz de variâncias e covariâncias: QMRXX 1)'()ˆ( vôc −=β 
vôc


















== −
)ˆ(ˆ...)ˆ,ˆv(ôc)ˆ,ˆv(ôc)ˆ,ˆv(ôc
...............
)ˆ,ˆv(ôc...)ˆ(ˆ)ˆ,ˆv(ôc)ˆ,ˆv(ôc
)ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ(ˆ)ˆ,ˆv(ôc
)ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ,ˆcov()ˆ(ˆ
)'()ˆ(
210
222120
121110
020100
1
pppp
p
p
p
V
V
V
V
QMRXX
βββββββ
βββββββ
βββββββ
βββββββ
β 
em que QMR é o quadrado médio do resíduo da análise de variância (erro puro). 
 
Somas de Quadrados: 
Soma de quadrados total: CYYSQtotal −= ' , sendo 
IJ
y
C
I
i
J
j
ij
2
1 1 








=
∑∑
= = 
Soma de quadrados da regressão: CYXSQreg −= ''β̂ 
Soma de quadrados da falta de ajustamento: SQregSQTSQFa −= 
Coeficiente de determinação: 
SQT
SQregR =2 
Teste de significância para os parâmetros de regressão: 
 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 152
Hipóteses: 
 0H : 0=iβ (ou seja, o coeficiente de regressão iβ é estatisticamente nulo) 
 1H : 0≠iβ (o coeficiente de regressão iβ é diferente de zero). 
 
Diferença mínima significativa (DMS): 
 )( GLRtttab α= , sendo α o nível de significância e GLR o número de graus de liberdade 
do resíduo da análise de variância. 
 
Estimativa do t a ser testado: 
 
)ˆ(
ˆ
)ˆ(ˆ 
0ˆ
)ˆ(
ˆ
i
i
i
i
i
i
cal
SVS
t
β
β
β
β
β
ββ
=
−
=
−
= 
Regra de decisão: 
 - Se tabcal tt || ≥ , rejeita-se 0H , ou seja, o coeficiente de regressão é estatisticamente 
diferente de zero, ao nível α de probabilidade. 
 - Se tabcal tt || < , não se rejeita 0H , ou seja, o coeficiente de regressão é estatisticamente 
nulo, ao nível α de probabilidade (Ou, a contribuição da variável independente associada ao 
coeficiente testado é não-significativa, ao nível α de probabilidade). 
 
 
Exemplo 23: 
 Foram testados quatro níveis de um fator E ( ,850.2 950.2 , 050.3 e 150.3 ), em um 
experimento inteiramente casualizado com cinco repetições (Quadro 39). 
 Verificadas as pressuposições da análise de variância procedeu-se a mesma, cujos 
resultados são apresentados no Quadro 40 . 
 
Quadro 39 – Dados do DIC 
 
 
 
 
Repetição 
Fator E 
 
 
 2.850 2.950 3.050 3.150 
 
 
 
 1 179,1 192,7 158,2 148,7 
 2 242,2 149,2 211,8 145,6 
 3 206,1 164,5 208,0 140,6 
 4 192,1 127,2 166,0 142,0 
 5 178,2 235,2 163,8 112,2 
 
 
 
 
 
Quadro 40 – Anova do DIC 
 
 
FV GL SQ QM F 
 
 
Tratamentos 3 10.078,70 3.359,5667 4,02 * 
Resíduo 16 13.359,06 834,9413 
 
* F significativo a 5% de probabilidade. 
 
24,3)61 ;3();( %5 === FGLRGLTFFtab α 29,5)61 ;3(%1 == F (Tabela 9 ). 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 153
 Como tabcal FF > , rejeita-se 0H , ou seja, existe efeito significativo dos níveis do fator E, 
a %5 de probabilidade. Neste caso, é necessário estabelecer uma relação funcional entre Y e 
esses níveis. Pela dispersão dos dados a seguir, optou-se pelo modelo linear simples. 
 
 
1) Ajuste da equação com os dados individuais: 
 
 O modelo estatístico, na forma matricial é: εβ += XY 
em que 
Y é o vetor de observações, constituído pelos dados individuais. 
X é a matriz de variáveis independentes. 
β é o vetor de parâmetros. 
ε é o vetor de erros. 
 
12045
22
21
15
14
13
12
11
2,112
 ...
2,149
7,192
2,178
1,192
1,206
2,242
1,179
 
 ...




























=




























=
y
y
y
y
y
y
y
y
Y 
220 31501
 ......
19501
29501
28501
28501
28501
28501
28501
 




























=X 
11
0
2
 





=
β
β
β 
145
22
21
15
14
13
12
11
20
 ...
 




























=
e
e
e
e
e
e
e
e
ε 
 
Estimativa do vetor de parâmetros: YXXX ')'(ˆ 1−=β 
 





=


















=
000.250.180000.60
000.6020
31501
 ......
28501
28501
3150...28502850
1...11
 '
220
202
XX 
 det 000.000.5)000.60( 000.60)000.250.180( 20' =−=XX 
 





−
−
=





−
−
=−
000004,0012,0
012,005,36
20000.60
000.60000.250.180
 
000.000.5
1)'( 1XX 
 





=


















=
0,860.345.10
4,463.3
2,112
 ...
2,242
1,179
3150...28502850
1...11
 '
120
202
YX 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 154
 








=





−
=











−
−
== −
1
01
ˆ
ˆ
1774,0
2500,705
0,860.345.10
4,463.3
 
000004,0012,0
012,005.36
')'(ˆ
β
ββ YXXX 
 Equação ajustada: XY 1774,02500,705ˆ −= 
 
Análise de variância da regressão: 
 Correção: 98,756.599
)5)(4(
)4,463.3( 2
2
1 1
==








=
∑∑
= =
IJ
y
C
I
i
J
j
ij
 
Soma de quadrados total: 
 [ ] 98,756.599
2,112
...
2,242
1,179
2,112...2,2421,179' −












=−= CYYSQtotal 
 76,437.2398,756.59974,194.623 =−=SQtotal 
Soma de quadrados da regressão: CYXSQreg −= ''β̂ 
 [ ] 98,756.599
0,860.345.10
4,463.3
1774,02500,705 −





−=SQreg 
 14,864.798,756.59912,621.607 =−=SQreg 
Soma de quadrados do resíduo da regressão: YXYYSQRreg ''ˆ' β−= 
 62,573.1512,621.60774,194.623 =−=SQRreg 
Soma de quadrados da falta de ajustamento: SQRSQRregSQFa −= 
 56,214.206,359.1362,573.15 =−=−= SQRSQRregSQFa 
ou 56,214.214,864.770,078.10 =−=−= SQregSQTSQFaQuadro 41 – Análise de variância da regressão com o teste para a falta de ajustamento 
 
 
FV GL SQ QM F 
 
 
Tratamentos (3) 10.078,70 3.359,5667 4,02 * 
 
 Devido à regressão 1 7.864,14 7.864,1400 9,42 ** 
 Falta de ajustamento 2 2.214,56 1.107,2800 1,33 * 
 
Resíduo 16 13.359,06 834,9414 
 
 
Total 19 23.437,76 
 
** F significativo a 1% de probabilidade. * F significativo a 5% de probabilidade. 
ns F não- significativo a 5% de probabilidade. 
 
24,3)61 ;3();( %5 === FGLRGLTFFtab α 29,5)61 ;3(%1 == F . 
49,4)61 ;1();( %5 === FGLRGLregFFtab α 53,8)61 ;1(%1 == F . 
63,3)61 ;2();( %5 === FGLRGLFaFFtab α 23,6)61 ;2(%1 == F . 
 Observe que no Quadro 41, as somas de quadrados devido à regressão e da falta de 
ajustamento foram apresentadas da mesma forma que foram obtidas nos cálculos. 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 155
2. Com os totais de tratamentos 
 Modelo: εβ += XY 
em que 
Y é o vetor de observações, constituído pelos totais dos tratamentos. 
X é a matriz de variáveis independentes. 
β é o vetor de parâmetros. 
ε é o vetor de erros. 
 
Estimativa do vetor de parâmetros: 
 YXXX
J
')'(1ˆ 1−=β , sendo J o número de repetições. 
 É importante observar que a equação estimada com os totais dos tratamentos é igual 
àquela estimada com os dados individuais. 
 
Matriz de variâncias e covariâncias: 
J
QMRXX )'()ˆ( vôc 1−=β 
vôc


















== −
)ˆ(ˆ...)ˆ,ˆv(ôc)ˆ,ˆv(ôc)ˆ,ˆv(ôc
...............
)ˆ,ˆv(ôc...)ˆ(ˆ)ˆ,ˆv(ôc)ˆ,ˆv(ôc
)ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ(ˆ)ˆ,ˆv(ôc
)ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ,ˆcov()ˆ(ˆ
)'()ˆ(
210
222120
121110
020100
1
pppp
p
p
p
V
V
V
V
J
QMRXX
βββββββ
βββββββ
βββββββ
βββββββ
β 
em que 
QMR é o quadrado médio do resíduo da análise de variância (erro puro). 
J é o número de repetições. 
 
Somas de Quadrados: 
Soma de quadrados total: CYYSQtotal −= ' , sendo 
IJ
y
C
I
i
J
j
ij
2
1 1 








=
∑∑
= = 
Soma de quadrados da regressão: CYXSQreg −= ''β̂ 
Soma de quadrados da falta de ajustamento: SQregSQTSQFa −= 
 












=












=
689,1
907,8
868,8
997,7
4
3
2
1
T
T
T
T
Y 












=
31501
30501
29501
28501
X 





=
1
0 
β
β
β 












=
4
3
2
1
e
e
e
e
ε 
Estimativa do vetor de parâmetros: YXXX
J
')'(1ˆ 1−=β 
 





=


















=
000.050.36000.12
000.124
31501
30501
29501
28501
3150305029502850
1111
 '
220
202
XX 
 det 000.200)000.12( 000.12)000.050.36( 4' =−=XX 
 





−
−
=





−
−
=−
00002,006,0
06,025,180
4000.12
000.12000.050.36
 
000.200
1)'( 1XX 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 156
 





=


















=
0,860.345.10
4,463.3
1,689
907,8
8,868
7,997
3150305029502850
1111
 '
120
202
YX 
 








=





−
=











−
−
== −
1
01
ˆ
ˆ
1774,0
2500,705
0,860.345.10
4,463.3
 
000004,0012,0
012,025,180
5
1')'(1ˆ
β
ββ YXXX
J
 
 Equação ajustada: XY 1774,02500,705ˆ −= 
 
Análise de variância da regressão: 
 Correção: 98,756.599
)5)(4(
)4,463.3( 2
2
1 1
==








=
∑∑
= =
IJ
y
C
I
i
J
j
ij
 
Soma de quadrados total: 
 [ ] 98,756.599
1,689
8,907
8,868
7,997
1,6898,9078,8687,997 
5
1'1 −

















=−




= CYY
J
SQtotal 
 70,078.1098,756.59968,835.60998,756.599)38,178.049.3(
5
1
=−=−=SQtotal 
 Observe que no caso do ajuste da equação com os totais dos tratamentos, a chamada 
soma de quadrados total é igual à soma de quadrados de tratamentos do delineamento 
experimental. 
 
Soma de quadrados da regressão: CYXSQreg −= ''β̂ 
 [ ] 98,756.599
0,860.345.10
4,463.3
1774,02500,705 −





−=SQreg 
 31,450.798,756.59929,207.607 =−=SQreg 
Soma de quadrados do resíduo da regressão: YXYY
J
SQRreg ''ˆ'1 β−




= 
 39,628.229,207.60768.835.60929,207.607)38,178.049.3(
5
1
=−=−=SQRreg 
ou soma de quadrados da falta de ajustamento: 
 39,628.231,450.770,078.10 =−=−= SQregSQTSQFa . 
Quadro 42 – Análise de variância da regressão com o teste para a falta de ajustamento 
FV GL SQ QM F 
Tratamentos (3) 10.078,70 3.359,5667 4,02 * 
 
 Devido à regressão 1 7.450,31 7.450,3100 8,92 ** 
 Falta de ajustamento 2 2.628,39 1.314,1950 1,57 ns 
 
Resíduo 16 13.359,06 834,9414 
Total 19 23.437,76 
 
** F significativo a 1% de probabilidade. * F significativo a 5% de probabilidade.ns F não- significativo a 5% de probabilidade. 
24,3)61 ;3();( %5 === FGLRGLTFFtab α 29,5)61 ;3(%1 == F . 
49,4)61 ;1();( %5 === FGLRGLregFFtab α 53,8)61 ;1(%1 == F . 
63,3)61 ;2();( %5 === FGLRGLFaFFtab α 23,6)61 ;2(%1 == F . 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 157
 Observe que no Quadro 42 , as somas de quadrados devido à regressão e da falta de 
ajustamento foram apresentadas da mesma forma que foram obtidas nos cálculos. 
 
3. Com as médias dos tratamentos 
 
 Modelo: εβ += XY 
 
em que 
Y é o vetor de observações, constituído pelas médias dos tratamentos. 
X é a matriz de variáveis independentes. 
β é o vetor de parâmetros. 
ε é o vetor de erros. 
 
Estimativa do vetor de parâmetros: YXXX ')'(ˆ 1−=β 
 
 É importante observar que a equação estimada com as médias dos tratamentos é igual 
àquela estimada com os dados individuais. 
 
Matriz de variâncias e covariâncias: 
J
QMRXX )'()ˆ( vôc 1−=β 
 
vôc


















== −
)ˆ(ˆ...)ˆ,ˆv(ôc)ˆ,ˆv(ôc)ˆ,ˆv(ôc
...............
)ˆ,ˆv(ôc...)ˆ(ˆ)ˆ,ˆv(ôc)ˆ,ˆv(ôc
)ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ(ˆ)ˆ,ˆv(ôc
)ˆ,ˆv(ôc...)ˆ,ˆv(ôc)ˆ,ˆcov()ˆ(ˆ
)'()ˆ(
210
222120
121110
020100
1
pppp
p
p
p
V
V
V
V
J
QMRXX
βββββββ
βββββββ
βββββββ
βββββββ
β 
 
em que 
QMR é o quadrado médio do resíduo da análise de variância (erro puro). 
J é o número de repetições. 
 
Somas de quadrados: 
Soma de quadrados total: CYYSQtotal −= ' , sendo 
IJ
y
C
I
i
J
j
ij
2
1 1 








=
∑∑
= = 
 
Soma de quadrados da regressão: )''ˆ( CYXJSQreg −= β 
 
Soma de quadrados da falta de ajustamento: SQregSQTSQFa −= 












=












=
137,82
181,56
173,76
199,54
ˆ
ˆ
ˆ
ˆ
4
3
2
1
m
m
m
m
Y 












=
31501
30501
29501
28501
X 





=
1
0 
β
β
β 












=
4
3
2
1
e
e
e
e
ε 
 
 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 158
Estimativa do vetor de parâmetros: YXXX ')'(ˆ 1−=β 
 





=


















=
000.050.36000.12
000.124
31501
30501
29501
28501
3150305029502850
1111
 '
220
202
XX 
 det 000.200)000.12( 000.12)000.050.36( 4' =−=XX 
 





−
−
=





−
−
=−
00002,006,0
06,025,180
4000.12
000.12000.050.36
 
000.200
1)'( 1XX 
 





=


















=
00,172.069.2
68,692
82,137
181,56
76,173
54,199
3150305029502850
1111
 'YX 
 








=





−
=











−
−
== −
1
01
ˆ
ˆ
1774,0
2500,705
00,172.069.2
68,692
 
00002,006,0
06,025,180
')'(ˆ
β
ββ YXXX 
 Equação ajustada: XY 1774,02500,705ˆ −= 
 
Análise de variância da regressão: 
 Correção: 98,756.599
)5)(4(
)4,463.3( 2
2
1 1
==








=
∑∑
= =
IJ
y
C
I
i
J
j
ij
 
 
Soma de quadrados total: 
 [ ] 98,756.599
82,137
56,181
76,173
54,199
82,13756,18176,17354,199 5)'( −












=−= CYYJSQtotal70,078.1098,756.59968,835.60998,756.599)14,967.121( 5 =−=−=SQtotal 
 Observe que no caso do ajuste da equação com as médias dos tratamentos, a chamada 
soma de quadrados total é igual à soma de quadrados de tratamentos do delineamento 
experimental. 
 
Soma de quadrados da regressão: CYXJSQreg −= )''ˆ( β 
 [ ] 98,756.599
00,712.069.2
68,692
1774,02500,705 5 −





−=SQreg 
 31,450.798,756.59930,207.60798,756.599)46,441.121( 5 =−=−=SQreg 
 
Soma de quadrados do resíduo da regressão: )''ˆ'( YXYYJSQRreg β−= 
 40,628.2)46,441.12114,967.121( 5 =−=SQRreg 
ou soma de quadrados da falta de ajustamento: 
 39,628.231,450.770,078.10 =−=−= SQregSQTSQFa 
 
 Silvana L. R. Garcia (FDV) e Helio Garcia Leite (UFV), 2005 159
Quadro 43 – Análise de variância da regressão com o teste para a falta de ajustamento 
 
 
FV GL SQ QM F 
 
 
Tratamentos (3) 10.078,70 3.359,5667 4,02 * 
 
 Devido à regressão 1 7.450,31 7.450,3100 8,92 ** 
 Falta de ajustamento 2 2.628,39 1.314,1950 1,57 ns 
 
Resíduo 16 13.359,06 834,9414 
 
 
Total 19 23.437,76 
 
** F significativo a 1% de probabilidade. * F significativo a 5% de probabilidade. 
ns F não- significativo a 5% de probabilidade. 
 
 Em qualquer das forma de ajuste apresentadas: dados individuais, totais dos tratamentos e 
médias dos tratamentos, observou-se que o teste F para a regressão apresentou resultado 
significativo, a %1 de probabilidade (Quadros 43 e 42 ,41 ). Conclui-se que existe pelo menos um 
coeficiente de regressão estatisticamente diferente de zero. Como o modelo testado é o linear 
simples, não é necessário testar o coeficiente de regressão por meio do teste t. 
 Também no três casos apresentados, o teste para a falta de ajustamento foi não-
significativo, indicando que o modelo linear simples é adequado para descrever Y=f(E), em nível 
de %1 de probabilidade. 
 
Qualidade do ajuste: 
Coeficiente de determinação: 7392,0
70,078.10
31,450.72 ===
SQT
SQregr 
ou seja, %92,73 da variação em Y pode ser explicada pela variação em E. 
 
Erro-padrão: 25,361.314,1950 === QMRregS yx . 
ou seja, a dispersão dos dados em torno da regressão ajustada é de 25,36 . 
 
Coeficiente de variação: %93,20100.
17,173
1950,314.1
100.
 
===
Y
QMRreg
CV 
ou seja, a dispersão dos dados em torno da regressão ajustada, em relação à média é igual a 
%93,20 .

Continue navegando