Buscar

Análise de Regressão: Intervalo de Confiança e Importância da Coleta de Dados


Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

AULA 03 – ANÁLISE DE REGRESSÃO
Intervalo de confiança (IC) 
 
O intervalo de confiança para a estimativa Ŷ em função de um novo valor conhecido de Xi , é 
expresso por: 
 
 
 
Em que: 
iŶ = valor estimado em função de Xi conhecido; 
( )2/,2nt a- = valor tabelado da distribuição de t, com n–2 graus de liberdade, pelo fato de se perder 
uma observação em Y e outra em X, ao nível de 
!
" de significância. 
	
( ) X2/,2ni s.tŶIC a-±=
𝒀"𝟎 	±	𝐭 𝛂
𝟐;	𝐧+𝟐	
	 𝐐𝐌𝐑𝐞𝐬
𝟏
𝐧
+		
𝐗𝟎 − 𝐗5 𝟐
∑ 𝐗𝐢 − 𝐗	5 𝟐𝐧𝐢8𝟏
�
Portanto, para um dado valor de Xi=X0 se pode estimar a esperança de uma valor de Yi, 
representado por E(Yi/Xi=X0) = 0Ŷ . 
	
Exemplo: Calcular o intervalo de confiança de 0Ŷ , quando o valor de X0 =28. 
 
Y" = 0,0137M + 0,6034	X" 
 
Y" = 0,0137 + 0,6034 28 = 	16,91 
	
INTERVALO DE CONFIANÇA
Então com 𝒕𝟎,𝟎𝟓;𝟏𝟑) = 𝟐, 𝟏𝟔
𝑰𝑪 = 𝟏𝟔, 𝟗𝟏	 ± 𝟐, 𝟏𝟔 𝟎, 𝟕𝟎𝟕𝟎
𝟏
𝟏𝟓
	+
𝟐𝟖 − 𝟏𝟔, 𝟗𝟏 𝟐
𝟑𝟎𝟑, 𝟔
�
IC = 16,91 ± (2,16)(0,58)
IC = 16,91 ± 1,25
15,66 m ≤	𝝁𝒀 ≤ 𝟏𝟖, 𝟏𝟔 m
Portanto, o valor de Y0 a 95% de probabilidades deverá estar próximo de 16,91m, variando de 
15,66 m a 18,16 m. 
	
IMPORTÂNCIA DA COLETA DE DADOS
A coleta de dados é uma fase fundamental no processo de modelagem, pois dependendo da magnitude do erro
basta um valor ser obtido ou compilado de forma errônea para que o ajuste produza equações com coeficientes
tendenciosos que afetam a precisão da equação.
Considere uma situação em que se deseja estimar a produtividade de clones de Eucalyptus sp. aos 6 anos de idade
em função da pluviosidade anual no ano de plantio, ajustando os seguintes modelos:
Yi = β0 + β1 Xi + ɛi
YI = βK. XI
NO . εI
Em que:
Yi = Produtividade de clones Eucalyptus sp. em m3/ha aos 6 anos;
Xi = Pluviosidade mm/ano no plantio. 
OBS. Yi Xi 𝐘𝐢𝟐 𝐗𝐢𝟐 𝐘𝐢𝐗𝐢
1 180 460 32400 211600 82800
2 200 500 40000 250000 100000
3 155 300 24025 90000 46500
4 310 570 96100 324900 176700
5 170 400 28900 160000 68000
6 160 360 25600 129600 57600
7 190 480 36100 230400 91200
8 220 600 48400 360000 132000
9 158 320 24964 102400 50560
10 182 420 33124 176400 76440
11 204 520 41616 270400 106080
12 220 590 48400 348100 129800
13 192 480 36864 230400 92160
14 205 532 42025 283024 109060
15 166 340 27556 115600 56440
TOTAIS 2912 6872 586074 3282824 1375340
MÉDIAS 194,13 528,62
O valor de Yi na observação 4 foi compilado como sendo 310 m3/ha quando na realidade o valor correto 
seria 210 m3/ha.
Ajustando Yi = β0 + β1Xi +ɛi se obtém a seguinte equação: 
!" = $%, '(%) + 	,, %,'-." 
Com o seguinte quadro da ANOVA 
FV GL SQ QM Fcalc Ftab 
Regressão 1 12653,13 12653,13 20,37** 9,07 
Resíduo 13 8074,60 621,12 
Total 14 20757,73 
 
Coeficiente de determinação r2 
r2 = 0,6095 
 
O ajuste do modelo na forma não linear intrinsecamente linear Y" = β%. X"(). ε" se fez com a 
transformação logarítmica na seguinte forma: ln Yi = ln β0 + β1 ln Xi + ln ɛi. Assim, torna-se 
necessária a transformação logarítmica dos dados para entrar na tabela anterior substituindo Yi por 
ln Yi e Xi por ln Xi. A equação resultante foi a seguinte: 
+, -. = /, 1234 + 6, 3274 +,89 
Com o seguinte quadro da ANOVA 
FV GL SQ QM Fcalc Ftab 
Regressão 1 0,3039 0,3339 33,39** 9,07 
Resíduo 13 0,1295 0,0100 
Total 14 0,4334 
 
Coeficiente de determinação r2 
r2 = 0,7012 
 
Substituindo o valor da observação 4 que é 310 m3/ha por 210 m3/ha, após o novo ajuste se obtém 
a seguinte equação: 
!" = $%, '(() + 	', ,,-%." 
Com o seguinte quadro da ANOVA 
FV GL SQ QM Fcalc Ftab 
Regressão 1 6720,4364 6720,4364 442,81** 9,07 
Resíduo 13 197,2969 15,1767 
Total 14 6917,7333 
 
Coeficiente de determinação r2 
r2 = 0,9715 
 O ajuste do modelo logaritmizado gerou a seguinte equação: 
/0 !1 = ', 2)-' + ', %,,' /0." 
Com o seguinte quadro da ANOVA 
FV GL SQ QM Fcalc Ftab 
Regressão 1 0,1930 0,1930 321,67** 9,07 
Resíduo 13 0,0076 0,0006 
Total 14 0,2006 
 
Coeficiente de determinação r2 
r2 = 0,9621 
 
O quadro abaixo mostra os valores de r2 obtidos nos quatro ajustes usando valores diferentes 
para a observação 4: 
MODELO r2 (usando 310 m3/ha) r2 (usando 210 m3/ha) 
Yi = β0 + β1 Xi + ɛi 0,6095 0,9715 
ln Yi = ln β0 + β1 ln Xi + ln ɛi 0,7012 0,9621 
 
Observa-se que para o modelo linear o a perda de precisão foi de 0,3620 que corresponde 
a 36,20% e para o logaritmo a perda foi de 26,09%. 
 
REGRESSÃO LINEAR MÚLTIPLA. 
 
Corresponde a um modelo linear no qual a variável dependente Yi é relacionada com várias 
variáveis independentes Xi. 
 
Generalizando um modelo linear, pode-se escrever: 
 
inn22110i iii
XXXY e+b++b+b+b= ! 
 
Em que: 
Yi = variável dependente; 
Xi = variáveis independentes; 
n10 ,,, bbb ! = parâmetros de modelo; 
ie = erro da regressão. 
	
Os erros ie do modelo podem ser escritos da seguinte forma: 
 
iii nn22110ii
XXXY b--b-b-b-=e ! 
 
Usa-se o mesmo procedimento do método dos mínimos quadrados empregado para o modelo linear 
simples, sendo que tem que se derivar para cada parâmetro associado a respectiva variável 
independente. 
 
2
nn22110
n
1i
i
n
1i
2
i )XβXβXββ(yε iii -----=åå
==
! 	
( )( )å
å
=
= =------=
¶
¶ n
1i
nn2i2110i
0
n
1i
2
i
01XbXbXbbY2
b
ε
ii
! 	
nn22110 XbXbXbYb ----= !
Para os parâmetros βi, tem-se: 
 
( )( )å
å
=
= =------=
¶
e¶ n
1i
i1nn22110i
1
n
1i
2
i
0XXbXbXbbY2
b iii
! 
	
( )( )å
å
=
= =------=
¶
e¶ n
1i
2nn22110i
2
n
1i
2
i
0XXbXbXbbY2
b iiii
!
å å å å å
å å å åå
å å å å å
å å å å
= = = = =
= = = ==
= = = = =
= = = =
=++++
=++++
=++++
=++++
n
1i
n
1i
n
1i
n
1i
n
1i
in
2
nnn22n11n0
n
1i
n
1i
n
1i
n
1i
i2n2
n
1i
n
2
2221120
n
1i
n
1i
n
1i
n
1i
n
1i
i1n1n212
2
1110
n
1i
n
1i
n
1i
n
1i
inn22110
YXXbXXbXXbXb
YXXXbXbXXbXb
YXXXbXXbXbXb
YXbXbXbnb
iiiiiii
iiiiiii
iiiiiii
iii
!
"
!
!
!
 
Uma maneira simples de se conseguir tal simplificação é a de se trabalhar com os valores dos 
desvios, tornando ( ) ( )i i i ix = X -X e y = Y-Y . Sabendo-se que: 
 
( )
( )å å
åå
= =
==
==-
==-
n
1i
n
1i
ii
n
1i
i
n
1i
i
0yYY
0xXX
 
 
O sistema de equações se torna em: 
 
å å å å
å å å å
å å å å
= = = =
= = = =
= = = =
®=+++
®=+++
®=+++
n
1i
n
1i
n
1i
n
1i
nin
2
nnn22n11
n
1i
n
1i
n
1i
n
1i
2i2ni2n
2
22211
1
n
1i
n
1i
n
1i
i
n
1i
1n1n212
2
11
bdeEquaçãoyxxbxxbxxb
bdeEquaçãoyxxxbxbxxb
bdeEquaçãoyxxxbxxbxb
iiiiii
iiiii
iiiiii
!
"
!
!
	
As somas dos quadrados e soma dos produtos
corrigidos para as médias são computados da forma
conhecida:
å å
åå
å å
åå
å å
å
å å
å
== =
==
= =
==
= =
=
= =
=
-=
-=
÷
ø
ö
ç
è
æ
-=
÷
ø
ö
ç
è
æ
-=
n
1ji
n
1i
n
1i
j
n
1i
i
jiji
n
1i
n
1i
n
1i
i
n
1i
i
iiii
n
1i
n
1i
2n
1i
i
2
i
2
i
n
1i
n
1i
2n
1i
i
2
i
2
i
n
)X)(X(
XXxx
n
)Y)(X(
YXyx
n
X
Xx
n
Y
Yy
Considerar o exemplo proposto por Freese (1962), em que se relacionou o crescimento 
volumétrico (Yi) de um povoamento equiâneo de Pinus elliottii e Pinus taeda, com área basal total 
(X1), porcentagem de área basal em Pinus elliottii (X2) e índice de sítio para Pinus elliottii (X3), 
ajustando o modelo: 
 
i33i22110i ii
XXXY e+b+b+b+b= 
 
Yi X1i X2i X3i Yi X1i X2i X3i 
65 
78 
85 
50 
55 
59 
82 
66 
113 
86 
104 
92 
96 
65 
41 
90 
53 
42 
57 
32 
71 
60 
93 
80 
101 
100 
84 
72 
79 
48 
67 
52 
52 
82 
80 
65 
96 
81 
78 
59 
84 
48 
75 
83 
74 
61 
59 
73 
72 
66 
99 
90 
86 
88 
93 
70 
81 
77 
83 
97 
90 
87 
74 
70 
75 
75 
93 
76 
71 
61 
55 
77 
98 
95 
90 
93 
45 
50 
60 
68 
75 
82 
72 
46 
93 
68 
51 
82 
70 
61 
96 
80 
76 
74 
96 
58 
58 
69 
85 
71 
84 
81 
78 
89 
81 
77 
70 
76 
85 
80 
68 
65 
 Soma 
Média 
2206 
78,7857 
1987 
70,9643 
2003 
71,5357 
2179 
77,8214 
 
Em que: 
Yi = Volume da parcela; 
X1i = Área basal em pés quadrados; 
X2i = Porcentagem de área basalde Pinus elliottii; 
X3i = Índice de sítio dado pela altura média das árvores dominantes e codominantes em pés. 
	
Desta forma, tem-se: 
 
ï
ï
ï
î
ï
ï
ï
í
ì
=++
=++
=++
å å å å
å å å å
å å å å
= = = =
= = = =
= = = =
n
1i
n
1i
n
1i
n
1i
ii3
2
33322311
n
1i
n
1i
n
1i
n
1i
i2323
2
22211
n
1i
n
1i
n
1i
n
1i
i1313212
2
11
yxxbxxbxxb
yxxxbxbxxb
yxxxbxxbxb
iiiii
iiiiii
iiiiii
 
	
å å å å å
å å å åå
å å å å å
å å å å
= = = = =
= = = ==
= = = = =
= = = =
=++++
=++++
=++++
=++++
n
1i
n
1i
n
1i
n
1i
n
1i
in
2
nnn22n11n0
n
1i
n
1i
n
1i
n
1i
i2n2
n
1i
n
2
2221120
n
1i
n
1i
n
1i
n
1i
n
1i
i1n1n212
2
1110
n
1i
n
1i
n
1i
n
1i
inn22110
YXXbXXbXXbXb
YXXXbXbXXbXb
YXXXbXXbXbXb
YXbXbXbnb
iiiiiii
iiiiiii
iiiiiii
iii
!
"
!
!
!
EQUAÇÕES NORMAIS EQUAÇÕES REDUZIDAS
As somas de quadrados e somas dos produtos corrigidos para as médias são computados da 
forma familiar: 
 
( )å å
å
= =
= =-+++=
÷
ø
ö
ç
è
æ
-=
n
1i
2
2
n
1i
22
2n
1i
i
2
i
2
i 7143,597428
2206617865
n
Y
Yy ! 
 
( )å å
å
= =
= =-+++=
÷
ø
ö
ç
è
æ
-=
n
1i
n
1i
2
222
2n
1i
1
2
1
2
1 9643,1143628
1987
469041
n
X
Xx
i
ii
! 
 
( )( ) ( )( ) ( )( ) ( )( )å å
åå
= =
== -+++=
÷
ø
ö
ç
è
æ
÷
ø
ö
ç
è
æ
-=
n
1i
n
1i
n
1i
i
n
1i
i1
i1ii1 28
22061987
614678906541
n
YX
YXyx
i
! 
 
å
=
=
n
1i
ii1 7858,6428yx 
	
Substituindo estes valores nas equações normais, tem-se: 
 
9286,3327b1072,2606b6786,1789b8215,3458
2143,2632b6786,1789b9643,5998b4642,1171
7858,6428b8215,3458b4642,1171b9643,11436
321
321
321
=++
=++-
=+-
 
 
Então, resolvendo-se as equações normais pelo processo anteriormente citado, tem-se: 
 
1) Dividir cada equação pelo coeficiente numérico de b1: 
 
962156792,0b753466809,0b517424389,0b
246943867,2b527727949,1b120911334,5b
,562105960,0b302424788,0b102427897,0b
321
321
321
=++
-=--
=+-
 
	
1) Subtraindo as equações de b2 e b3 de b1, tem-se: 
 
400050832,0b451042021,0b619852286,0
809049827,2b830152737,1b018483437,5
32
32
-=--
=+ 
 
2) Dividir cada equação pelo coeficiente numérico de b2: 
 
b2 + 0,364682430b3 = 0,559740779 
b2 + 0,72766049894b3 = 0,645397042 
	
1) Subtraindo a equação resultante de b3 de b2, tem-se: 
 
-0,362978064b3 = - 0,08556566263 
 
2) Encontra-se, então, o valor de b3: 
 
235981927,0
362978064,0
085656263,0b3 =-
-
= 
 
3) Com o valor de b3, substitui-se o mesmo em uma das equações do item (3), encontrando-
se o valor de b2. 
 
b2 + ( 0,364682430) ( 0,235981927) = 0,559740779 
 
b2 = 0,473682316 
	
1) Substitui-se os valores de b2 e b3 em uma das equações de (1) encontrando-se o valor de b1.
b1 = 0,102427897) ( 0,473682316) + ( 0,302424788) ( 0,235981927) = 0,562105960
b1= 0,53925759
Dados os valores de b1, b 2 e b3, encontra-se facilmente o valor de b0 . 
 
7320,1173196808,11b
).8214,77)(235981927,0()5357,71)(473682316,0()9643,70)(539257459,0(7857,78b
XbXbXbYb
0
0
3322110
-@-=
---=
---=
 
Resultando na equação: 
 
321i X0,2360X0,4737X0,539211,7320Ŷ +++-= 
	
ANÁLISE DA VARIÂNCIA
( )å
å
å
=
=
=
-=
÷
ø
ö
ç
è
æ
-=
n
1i
2
ii
2n
1i
in
1i
2
i YYn
Y
YSQT
( ) ååå
===
+=-
n
1i
i22
n
1i
ii1
n
1i
2
i yxbyxbYŶ iiSQREG =
SQRES =
( )
( ) ( ) ( )
7754,4759389,54987143,5974sReSQ
9389,54989286,33272360,02143,26324737,07858,64285392,0gReSQ
7143,5974
28
2206617865SQT
2
222
=-=
=++=
=-+++= !
 
 
Então: 
FV GL SQ QM F 
Regressão 
Erro 
 3 
24 
5798,9389 
 475,7754 
1832,9796 
 19,8240 
92,463** 
TOTAL 24 5974,7143 
 
F tabelado a 1% de probabilidades com 3 graus de liberdade para a regressão e 24 para o resíduo 
é igual a 4,72, indicando que a regressão se ajusta aos dados de maneira altamente significativa. 
	
COEFICIENTE DE DETERMINAÇÃO OU 
ÍNDICE DETERMINÍSTICO (R2)
9204,0
7143,5974
9389,5798
R
:Então
SQT
gReSQ
y
yxbyxb
R
2
n
1i
2
i
n
1i
n
1i
i22i11
2
ii
==
=
+
=
å
å å
=
= =
 
 
Indicando que 92,04% das variações dos dados estão sendo explicadas pela regressão. 
	
( )22aj
2
aj
2
aj
2
R1
pn
1n1R
SQT
sReSQ
SQT
SQT
pn
1n1
SQT
sReSQSQT.
pn
1n1R
SQT
sReSQ.
pn
1n1
SQT)pn(
sReSQ)1n(1
1n
SQT
)pn(
SReSQ
1R
SQT
sReSQ1
SQT
sReSQSQT
SQT
gReSQR
-÷÷
ø
ö
çç
è
æ
-
-
-=
÷÷
ø
ö
çç
è
æ
-÷÷
ø
ö
çç
è
æ
-
-
-=
-
÷÷
ø
ö
çç
è
æ
-
-
-=
÷÷
ø
ö
çç
è
æ
-
-
-=
-
-
-=
-
--=
-=
-
==
COEFICIENTE DE DETERMINAÇÃO AJUSTADO 𝐑𝐚𝐣𝟐
g g
Quando se trabalha com mais de uma variável independente, há necessidade de se conhecer qual a
contribuição de cada variável independente para se determinar qual(is) variável(is) deveria(m) ser ou
não incluída(s) na equação resultante.
Testar a variável X1i na presença de X2i e X3i. 
 
As equações normais para ajustar X2i e X3i são: 
 
å å å
å å å
= = =
= = =
=+
=+
n
1i
n
1i
n
1i
i3
2
3
,
332
,
2
n
1i
n
1i
n
1i
i232
,
3
2
2
,
2
yxxbxxb
yxxxbxb
iiii
iiii
 
	
ïî
ï
í
ì
=+
=+
9286,3327b1072,2606b6786,1789
2143,2632b6786,1789b9643,5998
,
3
,
2
,
3
,
2 
 
:setem,bdevaloroCalculando ,3 - 
 
6786,1789
b9643,59982143,2632
b
,
2,
3
-
= 	
Desta forma, tem-se: 
 
ï
ï
ï
î
ï
ï
ï
í
ì
=++
=++
=++
å å å å
å å å å
å å å å
= = = =
= = = =
= = = =
n
1i
n
1i
n
1i
n
1i
ii3
2
33322311
n
1i
n
1i
n
1i
n
1i
i2323
2
22211
n
1i
n
1i
n
1i
n
1i
i1313212
2
11
yxxbxxbxxb
yxxxbxbxxb
yxxxbxxbxb
iiiii
iiiiii
iiiiii
 
	
Substituindo na segunda equação se obtém: 
 
0683,505b9368,69459286,3327b6154,87359969,3832b6786,1789
9286,33271072,2606
6786,1789
b9643,59982143,2632b6786,1789
,
2
,
2
,
2
,
2,
2
-=-=-+
=÷÷
ø
ö
çç
è
æ -
+
 
 
072714,0b
9368,6945
0683,505b
,
2
,
2
=
-
-
=
 
 
( )
1789,6786
0,07027145998,96432632,2143b,3
-
= 	
1,22704b,3 = 	
	
Então: 
 
÷
ø
ö
ç
è
æ
+÷
ø
ö
ç
è
æ
= åå
==
n
1i
ii33
n
1i
i2232 yxbyxbXeXdeSQReg i 	
	
( ) ( )3327,92861,227042632,21430,072714XeXdeSQReg 32 += 	
	
4274,9003XeXdeSQReg 32 = 
	
O quadro da análise da variância passa a ser o seguinte: 
FV GL SQ QM F 
Reg. de X1, X2 e X3 
Reg. de X2 e X3 
3 
2 
5498,9389 
4274,9003 
 
Ganho de X1 
Resíduo 
1 
24 
1224,0386 
457,7754 
1224,0386 
 19,8240 
61,7452** 
TOTAL 27 5974,7143 
 
Como o valor de F foi significativo, há uma indicação de que a variável independente X1 deve ser 
considerada na equação. 
	
**
VARIÁVEIS INDICADORAS (DUMMY)
Exemplo: Considere as produções volumétricas (m3) de árvores de três clones de eucaliptos (A, B 
e C) aos seis anos plantados no mesmo tipo de solo. 
 V D H D2H X1 X2 
0,0116 5,3 9,6 269,66 1 0 
0,0157 6,1 9,0 334,89 1 0 
0,0125 5,5 8,9 269,23 1 0 
0,0182 6,5 10,0 422,50 1 0 
0,0204 6,8 10,2 471,65 1 0 
0,0233 7,0 10,3 504,70 1 0 
0,0093 5,0 9,0 225,00 1 0 
0,0253 7,2 10,0 518,40 1 0 
0,0140 6,0 8,5 306,00 1 0 
0,0120 5,4 7,9 230,36 1 0 
0,0304 8,0 11,0 704,00 0 1 
0,0337 8,2 10,9 732,92 0 1 
0,0291 7,9 10,0 624,10 0 1 
0,0276 7,8 10,5 638,82 0 1 
0,0410 8,9 12,0 950,52 0 1 
0,0437 9,0 11,9 963,90 0 1 
0,0350 8,4 10,8 762,05 0 1 
0,0465 9,1 12,5 1035,13 0 1 
0,0374 8,5 12,0 867,00 0 1 
0,0507 9,4 12,4 1095,66 0 1 
0,0540 10,0 10,0 1000,00 0 0 
0,0679 11,0 11,0 1331,00 0 0 
0,0609 12,0 11,9 1713,60 0 0 
0,0777 11,5 12,1 1600,23 0 0 
0,0808 13,0 11,6 1960,40 0 0 
0,0673 11,4 10,3 1338,59 0 0 
0,0861 12,2 10,9 1622,36 0 0 
0,0693 11,2 10,0 1254,40 0 0 
0,0539 10,2 10,0 1040,40 0 0 
0,0690 12,0 10,9 1569,60 0 0 
 
Em que: 
V = Volume em m3; 
D = Diâmetro à altura do peito em cm; 
H = Altura da árvore em m; 
D2H = Variável independente; 
X1 = Variável indicadora para o clone A (1,0); 
O modelo ajustado é: 
 
 Vi = β" +	β% D'H ) +	β'	X%) +	β+	X') +	ε) 
 
Após o ajuste, a equação resultante foi a seguinte: 
 
ii 21i
2
i X01185,0X01774,0H)(D00032,002263,0V̂ --+= 
A análise da variância apresentou o seguinte resultado:FV GL SQ QM F 
Regressão 3 0,01514 0,00504 252,0** 
Resíduo 26 0,00062 0,00002 
Total 29 0,01576 
 
O valor de F altamente significativo indica que a regressão está se ajustando aos dados. Para se 
conhecer com qual precisão, calcula-se o coeficiente de determinação: 
 
0,9607
0,01576
0,01514
SQTotal
oSQRegressã
R2 === 
	
Significando que 96,19% das variações dos dados estão explicadas pela equação geral. 
 
A equação para o clone A é a seguinte: 
 
=iV̂ 0,02263 + 0,00032 (D
2H)i – (0,01774)(1) – (0,01185)(0) 
 
Resultando em: 
 
i
2
i
i
2
i
H)(D00032,000489,0V̂
H)(D00032,0)01774,002263,0(V̂
+=
+-= 
 
A equação para o clone B é: 
 
)1(01185,0)0(01774,0H)(D00032,002263,0V̂ i
2
i --+= 
i
2
i
i
2
i
H)(D00032,001078,0V̂
H)(D00032,0)01185,002263,0(V̂
+=
+-= 
 
A equação para o clone C é: 
 
(0)01185,0(0) 01774,0H)(D00032,002263,0V̂ i
2
i --+= 
 
i
2
i H)(D00032,002263,0V̂ += 
	
Uma forma de verificar se a inclusão de uma variável indicadora é significativa, pode ser realizada 
calculando a contribuição dessa variável indicadora, como foi visto no item l. Para calcular as 
contribuições de X1i e X2i se faz necessário isolar uma de cada vez no sistema de equações. Para 
calcular a contribuição de X1i se ajusta o modelo com as presenças das variáveis (D
2H)i e X2i cuja 
soma de quadrados deverá ser subtraída da regressão completa. O mesmo procedimento se utiliza 
para calcular a contribuição de X2i e para o Clone C como se segue: 
 
FV GL SQ QM F 
Reg. de D2H, X1 e X2 3 0,01514 0,00504 252,0
** 
Reg. de D2H e X2 2 0,01487 
Ganho de X1 (Clone A) 1 0,00027 0,00027 13,5
** 
Reg. de D2H e X1 2 0,01488 
Ganho de X2 (Clone B) 1 0,00026 0,00026 13,0
** 
Reg. de X1 e X2 2 0,01392 
Ganho de D2H (Clone C) 1 0,00122 0,00122 61,0** 
Resíduo 26 0,00060 0,00002 
Total 29 0,01574 
 
Os valores de F tabelado com 1 grau de liberdade para a regressão e 26 graus de liberdade para o 
resíduo são 4,23 e 7,72 para 5% e 1% de probabilidade, indicando que os três clones têm 
contribuições altamente significativas, isto é, são diferentes entre si em termos de crescimento. 
	
Modelos com a restrição de β0=0 
 
Existem situações em que a restrição de que β0=0 deve ser considerada, principalmente quando se 
modela a variável dependente como sendo custos, pois quando a(s) variável(eis) independente 
for(em) igual(is) a zero a variável dependente também deve ser zero. Ou até mesmo em modelos 
volumétricos, admitindo que quando o DAP e H forem zero, o volume também é zero. 
 
Por exemplo, o modelo linear simples se torna em Yi = β1Xi + εi. Aplicando o método dos mínimos 
quadrados, tem-se: 
 
( )åå
==
-=
n
1i
2
i1i
n
1i
2
i XβYε 
	
( )( )å
å
=
= =--=
÷
ø
ö
ç
è
æ
n
1i
ii1i
1
2n
1i
i
0XXbY2
βd
εd
( )
( )
( )
n
i 1 i i
i=1
n
i i 1 i
i=1
n
i i 1 i
i=1
n n
2
i i 1 i
i=1 i=1
n n
2
1 i i i
i=1 i=1
n
i i
i=1
1 n
2
i
i=1
-2 Y -b X (X )=0
0X Y -b X =
-2
X Y -b X =0
X Y -b X =0
b X = X Y
X Y
b =
X
å
å
å
å å
å å
å
å
Como a linha da regressão passa pela origem, pois β0 = 0, implica em: 
 
n n n
2 2 2
i i i
i=1 i=1 i=1
n n n
2 2 2
i i i
i=1 i=1 i=1
(Y -Y) = (Y -0) = Y
ˆ ˆ ˆ(Y -Y) = (Y -0) = Y
å å å
å å å
 
 
Como i 1 iŶ =b X , a SQReg = ( )
n
2
1 i
i=1
b Xå e a ( )
n
2
i 1 i
i=1
SQRes= Y -b Xå . 
	
O quadro da análise da variância é o que segue: 
FV GL SQ QM F 
 
Regressão 
 
 1 ( )
n
2
1 i
i=1
b Xå ( )
n
2
1 i
i=1
b Xå 
 
QMReg/QMRes 
 
Resíduo 
 
N-1 ( )
n
2
i 1 i
i=1
Y -b Xå ( )
n
2
i 1 i
i=1
Y -b X
n-1
å
 
 
 
Total 
 
 N 
n
2
i
i=1
Yå 
 
 
O grau de liberdade total é igual a N porque se trabalha com os valores não corrigidos, isto é, o 
termo da correção C = 
2n
i
i=1
Y
n
æ ö
ç ÷
è ø
å
não é considerado. 
	
Considerar os dados do exemplo anterior, mas sem as variáveis indicadoras e ajustar o modelo: 
 
Vi = β1(D
2H)i + εi 
 
A estimativa do parâmetro β1 é: 
n
i i
i=1
1 n
2
i
i=1
X Y
1401,400028b = = =0,000046
30301806,14750X
å
å
 
 
Resultando na seguinte equação 
 
V" = 0,0000456	(DAP2H)i	
	
𝐘"K ± t U
V;W+X
QMRes 1 +	
XK
∑ XI − X5 VWI8X
�
Os cálculos das somas de quadrados para a análise da variância (ANOVA) se processam da forma 
que segue: 
SQTotal = 
n
2
i
i=1
Y =å 0,06572 
SQReg. = ( ) 06481,0Xb
n
1i
2
i1 =å
=
 
SQRes = ( )
n
2
i 1 i
i=1
Y -b Xå = SQTotal – SQReg.= 0,06572-0,06468 = 0,00104 
O quadro da ANOVA é o que segue: 
FV GL SQ QM F 
Regressão 1 0,06481 0,06481 2065,30** 
Resíduo 29 0,00091 0,00003 
Total 30 0,06572 
 
O coeficiente de determinação para a regressão sem b0 é expresso por r"# 
r"# =
0,06481
0,06572 = 0,9861 
 
Indicando que 98,62% das variações dos dados estão explicadas pela equação. 
	
Para um valor de DAP = 60 e H = 9,0, tem-se X0 = D2H = 324. O intervalo de confiança para VK̀ será:
𝐘"𝟎 ± t U
V;W+X
QMRes 1 +	
XK
∑ XI − X5 VWI8X
�
VK̀ = 0,0000456	 324 = 0,0148	
t(0,05;29) = 2,021
𝟎, 𝟎𝟏𝟒𝟖 ± 2,045 0,00004 1 +	
324
7145301,5
�
= 0,0148 ± 0,0129
0,0019 ≤ V"K ≤ 0,0277	ml
Que é um intervalo de confiança com uma grande amplitude, isto é, 0,0258 m3 (0,0277-0,0019). 
No mesmo exemplo considere o ajuste do modelo incluindo a interseção b0. Após o ajuste, a 
equação resultante é seguinte: 
 
i
2
i H)(D0000456,00007543,0V̂ += 
 
A análise da variância apresentou o seguinte resultado: 
FV GL SQ QM F 
Regressão 1 0,01485 0,01485 495,00** 
Resíduo 28 0,00089 0,00003 
Total 29 0,01576 
 
O coeficiente de determinação para a regressão incluindo b0 é: 
 
r" = 0,014980,01576 = 0,9425 
	
O intervalo de confiança de V" para DAP = 6,0 e H = 9,0 com X0 = D2H = 324 será: 
 
Y" 	±	 t '
(;	*+(	
	 QMRes 1n +		
(X" − X)(
X8 − X	 (*89:
 
 
3
i m0,0155(324)0,00004560,0007543V̂ =+= 
 
t(0,05;28) = 2,048 
 
0.0115	 ± 	2,048 0,00003 130 +		
(324 − 878,57)(
7145301,5 
 
0,0115 ±	(2,048)(0,0015) 
 
0,0115 ±	0,0031 m3 
 
0,0084 ≤ V0 ≤ 0,0148	mF 
 
Portanto, a amplitude do intervalo de confiança passa a ser de 0,0064 m3.	
Para fazer tal comparação se recomenda calcular a soma de quadrados dos
desvios entre os valores reais e os estimados ∑ YI − Y"I
VW
I8X
A simples comparação mostra que rKV = 0,9861 > 	 rV = 0,9425 que levaria
a conclusão de que o modelo com β0 = 0 resultou em uma equação mais
precisa. Esta interpretação é errônea, pois a comparação direta não pode ser
feita, uma vez que no cálculo do rKV em seu denominador não se subtrai a
correção, enquanto que no modelo β0 a correção é considerada e isto
conduz a rKV > 	 rV
Ajustar dois modelos contendo duas variáveis independentes na área que você trabalha.
𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏𝑿𝟏 + 𝜷𝟐𝑿𝟐 + 𝜺𝒊
𝒀𝒊 = 𝜷𝟎𝑿𝟏
𝜷𝟏𝑿𝟐
𝜷𝟐𝜺𝒊
transformado em linear por logaritmização dos termos:
𝒍𝒏𝒀𝒊 = 𝒍𝒏𝜷𝟎 + 𝜷𝟏𝒍𝒏𝑿𝟏 + 𝜷𝟐𝒍𝒏𝑿𝟐 + 𝒍𝒏𝜺𝒊
Fazer análise da variância completa, coeficiente de determinação e contribuição das 
variáveis independentes.
Usar no mínimo 20 dados. Só é permitido o uso do computador na planilha dos dados, o 
resto tem que ser feito a mão, mostrando passo a passo.
Primeiro trabalho

Continue navegando