Capítulo 1 Regressão Linear Simples

•

UFF

Yasser Ramos Guimaraes

20/04/2018

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada à Engenharia

684 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Cap´ıtulo 1
Regressa˜o Linear Simples
Suponha que n unidades amostrais sejam observadas e sejam (Yi, Xi) varia´veis aleato´rias
observadas para a i-e´sima unidade amostral, sendo Yi a varia´vel de interesse e Xi uma varia´vel
aleato´ria relacionada a varia´vel de interesse. Por exemplo, o interesse pode estar em modelar
a temperatura dia´ria e a umidade pode servir para explicar a temperatura. Neste caso, Yi e´ a
temperatura observada no dia i e Xi e´ a umidade observada neste mesmo dia. A v.a. Yi e´ chamada
de varia´vel resposta e, Xi, de covaria´vel ou varia´vel explicativa.
Um modelo de regressa˜o estabelece uma relac¸a˜o entre a v.a. resposta e a v.a. explicativa. Para
estabelecer esta relac¸a˜o, faz-se um gra´fico de dispersa˜o de Yi versus Xi, i = 1, . . . , n. A figura 1.1
apresenta exemplos de gra´ficos deste tipo com diferentes relac¸o˜es: a figura (a) sugere uma relac¸a˜o
linear, a figura (b) sugere uma relac¸a˜o quadra´tica, a figura (c) sugere uma relac¸a˜o cu´bica e a figura
(d) sugere uma relac¸a˜o exponencial.
Um modelo cla´ssico e´ o que estabelece uma relac¸a˜o linear entre a v.a. resposta e a v.a. explicativa,
ou seja,
Yi = β0 +Xiβ1 + ei.
O paraˆmetro β0 e´ o coeficiente linear da reta e e´ chamado de intercepto. Ele representa um n´ıvel
comum a todos os indiv´ıduos. O paraˆmetro β1 e´ o coeficiente angular e representa o efeito que a
varia´vel explicativa tem sobre a varia´vel resposta. Os paraˆmetros (β0, β1) sa˜o chamados de coeficientes
de regressa˜o.
1
2 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
ll
ll
l
l
l
l
l
l l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l ll
l
l
l
l
l
ll
l
l
−2 −1 0 1 2
2
4
6
8
10
x
y
(a)
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l
l
l
l l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
lll
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
ll
l
l
l
ll
l
l
l
l
l
ll
l
ll
l
l
l
l
l
l
−2 −1 0 1 2
4
6
8
10
14
x
y
(b)
l
l
l
l
l
l l l
l
l
l
ll l l l
l
l
l
ll l
ll
l
l
ll
l
lll
ll
l
ll
l
l
l ll
l
l
ll
l
l
l
l lll
l
l l
l
l
l
l
ll
l
l
l
l l
l
l
l ll
l
ll l lll
l
l
l
lll
l
l
ll ll
l
ll ll ll
l
l
−2 −1 0 1 2−
10
0
0
50
15
0
x
y
(c)
l
l
l
l
l
l l
l
l
l
l
l
l
l l
l
l
l
l
l
l l
l
l
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
ll ll
l
ll
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
ll l
l
l
l
l
l l
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
−2 −1 0 1 2
5
10
15
20
25
x
y
(d)
Figura 1.1: Exemplos de gra´ficos de dispersa˜o.
Espera-se que o intercepto e a covaria´vel expliquem bem os valores de Yi, ou seja, espera-se que
os erros dos indiv´ıduos, ei, sejam pequenos e estejam aleatoriamente em torno de zero, isto e´,
E[ei] = 0.
Ale´m disso, supo˜e-se que os erros possuem a mesma variaˆncia (homocedasticidade), ou seja, que
V AR[e1] = V AR[e2] = . . . = V AR[en] = σ
2.
OBS: Considere desconhecidos os coeficientes de regressa˜o e a variaˆncia dos erros. Sendo assim,
pode se ter interesse em estimar estes paraˆmetros. Para obter uma estimativa pontual para os
1.1. AJUSTE DO MODELO 3
paraˆmetros β0 e β1 na˜o precisamos assumir nenhuma distribuic¸a˜o para ei. Pore´m, quando queremos
uma estimativa intervalar ou quando queremos estimar a variaˆncia de Yi, precisamos assumir alguma
distribuic¸a˜o. Nesta parte do curso, estudaremos apenas o caso no qual ei ∼ N(0, σ2), i = 1, . . . , n.
Dessa forma, temos que
Yi ∼ N(β0 +Xiβ1, σ2).
Antes de estimar os paraˆmetros, precisamos observar, pelo gra´fico de dispersa˜o, os seguintes
pressupostos
• linearidade
• homocedasticidade
• independeˆncia
A homocedasticidade implica que a dispersa˜o vertical e´ a mesma para qualquer valor de x. Nem
sempre e´ simples perceber este pressuposto de forma visual.
O pressuposto de normalidade e os citados acima podem ser verificados apo´s obtermos uma
estimativa dos coeficientes. Maiores detalhes, sera˜o dados na Sec¸a˜o 1.2.
1.1 Ajuste do Modelo
O ajuste do modelo consiste em obter uma estimativa para os paraˆmetros da regressa˜o baseada em
uma amostra de tamanho n das varia´veis (Yi, Xi), i = 1, . . . , n. Estimadores dos paraˆmetros podem
ser obtidos atrave´s do me´todo dos mı´nimos quadrados ou do me´todo da ma´xima verossimilhanc¸a,
por exemplo. Comentaremos apenas o me´todo dos mı´nimos quadrados.
Inicialmente, analisaremos um caso particular, do modelo de regressa˜o linear simples, que e´ obtido
quando consideramos que o intercepto e´ nulo. Posteriormente, estudaremos o ajuste do modelo
quando ha´ intercepto e coeficiente angular.
4 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES
1.1.1 Modelo com intercepto somente
Suponha que seja razoa´vel supor uma relac¸a˜o na qual a func¸a˜o linear tenha coeficiente angular
igual a zero, ou seja, na˜o ha´ relac¸a˜o entre a v.a. resposta e a v.a. explicativa. Enta˜o, a func¸a˜o e´
Yi = β0 + ei
Estimando o coeficiente β0
Tendo uma amostra de tamanho n de Yi, podemos estimar β0 atrave´s do me´todo de mı´nimos
quadrados, ou seja, minimizamos a soma dos erros quadra´ticos
SQR =
n∑
i=1
e2i =
n∑
i=1
(Yi − β0)2
da seguinte forma
∂SQR
∂β0
=
n∑
i=1
−2(Yi − β0)
∂SQR
∂β0
= 0 ⇔ −
n∑
i=1
Yi + nβ0 = 0
⇔ β0 =
∑n
i=1 Yi
n
= Y¯ .
Para provar que este candidato e´ um ponto de mı´nimo, calculamos a segunda derivada:
∂2SQR
∂β20
= 2.
Note que ∂
2SQR
∂β20
> 0 para qualquer β0. Logo, o candidato e´ ponto de mı´nimo e, enta˜o, e´ um estimador
para β0. Logo,
βˆ0 = Y¯ .
Supondo que ei ∼ N(0, σ2), temos que um estimador na˜o viesado para σ2 e´
S2 =
∑n
i=1 (Yi − Y¯ )2
n− 1 .
1.1. AJUSTE DO MODELO 5
1.1.2 Modelo com coeficiente angular somente
Suponha que seja razoa´vel supor uma relac¸a˜o na qual a func¸a˜o linear tenha coeficiente linear
igual a zero. Enta˜o, a func¸a˜o e´
Yi = Xiβ + ei
Estimando o coeficiente β
Tendo uma amostra de tamanho n, de Xi e de Yi, podemos estimar β atrave´s do me´todo de
mı´nimos quadrados, ou seja, minimizamos a soma dos erros quadra´ticos
SQR =
n∑
i=1
e2i =
n∑
i=1
(Yi −Xiβ)2
da seguinte forma
∂SQR
∂β
=
n∑
i=1
2(Yi −Xiβ)(−Xi)
∂SQR
∂β
= 0 ⇔ −2
n∑
i=1
YiXi + 2β
n∑
i=1
X2i = 0
⇔ β =
∑n
i=1 YiXi∑n
i=1X
2
i
OBS: Sejam SXY =
∑n
i=1 YiXi e SX =
∑n
i=1X
2
i . Para provar que este candidato e´ um ponto de
mı´nimo, calculamos a segunda derivada:
∂2SQR
∂β2
= 2
n∑
i=1
X2i
Note que ∂
2SQR
∂β2
> 0 para qualquer β. Logo, o candidato e´ ponto de mı´nimo e, enta˜o, e´ um estimador
para β. Logo,
βˆ =
SXY
SX
Supondo que ei ∼ N(0, σ2), temos que um estimador na˜o viesado para σ2 e´
S2 =
∑n
i=1 (Yi −Xiβˆ)2
n− 1 .
6 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES
1.1.3 Modelo com intercepto e coeficiente angular
Incluindo o coeficiente linear, tambe´m chamado de intercepto, temos que
Yi = β0 +Xiβ1 + ei
Estimandoos coeficientes β0 e β1
Tendo uma amostra de tamanho n, de Xi e de Yi, podemos estimar β0 e β1 atrave´s do me´todo
de mı´nimos quadrados, ou seja, minimizamos a soma dos erros quadra´ticos
SQR =
n∑
i=1
e2i =
n∑
i=1
(Yi − β0 −Xiβ1)2
da seguinte forma
∂SQR
∂β0
=
n∑
i=1
2(Yi − β0 −Xiβ)(−1)
∂SQR
∂β0
= 0 ⇔
n∑
i=1
Yi − nβ0 − β1
n∑
i=1
Xi = 0
⇔ β0 =
∑n
i=1 Yi
n
− β1
∑n
i=1 Xi
n
⇔ β0 = Y¯ − β1X¯
∂SQR
∂β1
=
n∑
i=1
2(Yi − β0 −Xiβ)(−Xi)
∂SQR
∂β1
= 0 ⇔
n∑
i=1
YiXi − β0
n∑
i=1
Xi − β1
n∑
i=1
X2i = 0
⇔ β1 =
∑n
i=1 YiXi − β0
∑n
i=1Xi∑n
i=1X
2
i
⇔ β1 =
∑n
i=1 YiXi − Y¯
∑n
i=1Xi + β1X¯
∑n
i=1Xi∑n
i=1 X
2
i
⇔ β1 =
∑n
i=1 YiXi − Y¯
∑n
i=1Xi∑n
i=1 X
2
i − X¯
∑n
i=1Xi
⇔ β1 =
∑n
i=1 (Yi − Y¯ )(Xi − X¯)∑n
i=1 (Xi − X¯)2
pois
1.1. AJUSTE DO MODELO 7
n∑
i=1
YiXi − Y¯
n∑
i=1
Xi =
n∑
i=1
YiXi − Y¯
n∑
i=1
Xi + nX¯Y¯ − nX¯Y¯
=
n∑
i=1
YiXi − Y¯
n∑
i=1
Xi +
n∑
i=1
X¯Y¯ −
n∑
i=1
X¯Yi
=
n∑
i=1
[
YiXi − Y¯ Xi + X¯Y¯ − X¯Yi
]
=
n∑
i=1
[
Yi(Xi − X¯)− Y¯ (Xi − X¯)
]
=
n∑
i=1
[
(Yi − Y¯ )(Xi − X¯)
]
n∑
i=1
(X2i − X¯Xi) =
n∑
i=1
(X2i − X¯Xi − X¯2 + X¯2)
=
n∑
i=1
(X2i − X¯Xi − X¯Xi + X¯2) =
n∑
i=1
(X2i − X¯)2
Provando que e´ ponto de mı´nimo:
∂2SQR
∂β20
= 2n
∂2SQR
∂β21
= 2
n∑
i=1
X2i
∂2SQR
∂β0β1
= 2
n∑
i=1
Xi =
∂2SQR
∂β1β0
Logo, a matriz Hessiana e´
H =
 2n 2∑ni=1Xi
2
∑n
i=1Xi 2
∑n
i=1 X
2
i

8 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES
e o determinante dela e´
det(H) = 4n
n∑
i=1
X2i − 4
n∑
i=1
Xi
(
n∑
i=1
Xi
)
= 4n
n∑
i=1
X2i − 4
(
n∑
i=1
Xi
)2
= 4n
 n∑
i=1
X2i −
1
n
(
n∑
i=1
Xi
)2
= 4n
 n∑
i=1
X2i − n2
1
n
(
1
n
n∑
i=1
Xi
)2
= 4n
[
n∑
i=1
X2i − nX¯2
]
= 4n
[
n∑
i=1
(Xi − X¯)2
]
> 0 para quaisquer β0 e β1
E, como 2n > 0, temos que os estimadores de β0 e β1 sa˜o, respectivamente,
βˆ0 = Y¯ − βˆ1X¯
βˆ1 =
∑n
i=1
[
(Yi − Y¯ )(Xi − X¯)
]∑n
i=1 (Xi − X¯)2
Supondo que ei ∼ N(0, σ2), temos que um estimador na˜o viesado para σ2 e´
S2 =
∑n
i=1 (Yi − βˆ0 −Xiβˆ1)2
n− 2 .
1.2 Ana´lise do ajuste
Apo´s o ajuste do modelo, pode se investigar a adequac¸a˜o do modelo proposto, ou seja, analisamos
se a relac¸a˜o proposta para as varia´veis Yi e Xi e´ adequada. Esta ana´lise e´ obtida atrave´s dos res´ıduos,
eˆi = Yi − Yˆi,
sendo Yˆi chamado de valor ajustado para a v.a. resposta i. Os valores ajustados sa˜o obtidos
pela relac¸a˜o proposta substituindo os paraˆmetros desconhecidos pelos seus estimadores, como, por
exemplo, quando propo˜e-se um modelo com intercepto e coeficiente angular, os valores ajustados sa˜o
Yˆi = βˆ0 −Xiβˆ1.
1.3. PROPRIEDADES E DISTRIBUIC¸O˜ES DOS ESTIMADORES 9
Podemos verificar os pressupostos do modelo atrave´s de gra´ficos dos res´ıduos. O pressuposto de
normalidade pode ser verificado atrave´s de um histograma dos res´ıduos. Um outro gra´fico poss´ıvel,
neste caso, e´ o do qqnorm que compara os quantis da normal com os quantis dos res´ıduos. Quanto
mais pro´ximos estes quantis estiverem, maior e´ o ind´ıcio de normalidade, ou seja, o gra´fico do qqnorm
tem que parecer uma reta. Outros gra´ficos podem ser feitos para analisar o ajuste, tais como
• um gra´fico de dispersa˜o dos res´ıduos versus as varia´veis respostas (serve para analisar o
pressuposto de independeˆncia e homocedasticidade);
• um gra´fico de dispersa˜o dos res´ıduos versus as varia´veis explicativas (serve para analisar o
pressuposto de independeˆncia e homocedasticidade);
• um gra´fico de dispersa˜o dos res´ıduos somente (serve para analisar o pressuposto de
independeˆncia e homocedasticidade e serve para verificar se os res´ıduos esta˜o aleatoriamente
em torno do zero).
Espera-se que os gra´ficos de dispersa˜o dos res´ıduos na˜o tenham qualquer padra˜o e que os pontos
estejam aleatoriamente dispersos.
1.3 Propriedades e distribuic¸o˜es dos estimadores
Para estudar as propriedades dos estimadores, considere o modelo com intercepto e coeficiente
angular, ou seja,
Yi = β0 +Xiβ1 + ei.
Vimos que os estimadores dos coeficientes de regressa˜o sa˜o βˆ0 = Y¯ − βˆ1X¯ e βˆ1 =
∑n
i=1[(Yi−Y¯ )(Xi−X¯)]∑n
i=1 (Xi−X¯)2 .
Podemos obter a me´dia e a variaˆncia destes estimadores. A demonstrac¸a˜o disto pode ser encontrada
no livro do Bussab e do Morettin. Sendo assim, temos que
E[βˆ0] = β0,
V AR[βˆ0] =
σ2
∑n
i=1X
2
i
n
∑n
i=1 (Xi − X¯)2
,
E[βˆ1] = β1,
V AR[βˆ1] =
σ2∑n
i=1 (Xi − X¯)2
.
10 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES
E, enta˜o, βˆ0 e´ um estimador na˜o viesado para β0 e βˆ1 e´ um estimador na˜o viesado para β1.
Suponha que ei ∼ N(0, σ2). Enta˜o, tem-se as seguintes distribuic¸o˜es para os estimadores, ja´ que
β0 e β1 sa˜o combinac¸o˜es lineares de v.a. normais e independentes,
βˆ0 ∼ N
(
β0,
σ2
∑n
i=1X
2
i
n
∑n
i=1 (Xi − X¯)2
)
,
βˆ1 ∼ N
(
β1,
σ2∑n
i=1 (Xi − X¯)2
)
,
(n− 2)S2
σ2
∼ χ2(n−2).
Atrave´s das distribuic¸o˜es amostrais dos estimadores, pode-se criar intervalos de confianc¸a e
realizar teste de hipo´teses.
Intervalo de confianc¸a para o intercepto
Um intervalo de confianc¸a bilateral para o intercepto, β0, com n´ıvel de confianc¸a de γ% e´[
βˆ0 − t(α/2;n−2)
√
S2
∑n
i=1 X
2
i
n
∑n
i=1 (Xi − X¯)2
, βˆ0 + t(α/2;n−2)
√
S2
∑n
i=1X
2
i
n
∑n
i=1 (Xi − X¯)2
]
sendo t(α/2;n−2) o quantil 1−α/2 da distribuic¸a˜o t-Student com n−2 graus de liberdade e α = 1−γ.
Intervalo de confianc¸a para o coeficiente angular
Um intervalo de confianc¸a bilateral para o coeficiente angular, β1, com n´ıvel de confianc¸a de γ%
e´ [
βˆ1 − t(α/2;n−2)
√
S2∑n
i=1 (Xi − X¯)2
, βˆ1 + t(α/2;n−2)
√
S2∑n
i=1 (Xi − X¯)2
]
sendo t(α/2;n−2) o quantil 1−α/2 da distribuic¸a˜o t-Student com n−2 graus de liberdade e α = 1−γ.
Intervalo de confianc¸a para a resposta me´dia
A resposta me´dia da v.a. resposta Yi e´
µi = E[Yi] = β0 + β1Xi.
Um estimador pontual para µi e´ µˆi = Yˆi = βˆ0 + βˆ1Xi. Para criar uma estimativa intervalar, tem-se
que
Yˆi ∼ N
(
β0 +Xiβ1 , σ
2
[
1
n
+
(Xi − X¯)2∑n
i=1 (Xi − X¯)2
])
.
1.4. TABELA DA ANOVA 11
Um intervalo de confianc¸a bilateral para a resposta me´dia, µ, com n´ıvel de confianc¸a de γ% e´[
Yˆi − t(α/2;n−2)
√
S2
(
1
n
+
(Xi − X¯)2∑n
i=1 (Xi − X¯)2
)
, Yˆi + t(α/2;n−2)
√
S2
(
1
n
+
(Xi − X¯)2∑n
i=1 (Xi − X¯)2
)]
,
sendo t(α/2;n−2) o quantil 1−α/2 da distribuic¸a˜o t-Student com n−2 graus de liberdade e α = 1−γ.
1.3.1 Previsa˜o
Muitas vezes, ha´ o interesse de obter uma previsa˜o da v.a. resposta associada a varia´vel explicativa
conhecida Xf . Denotaremos a v.a. a ser prevista por Yf . Tem-se que Yf = β0 + β1Xf + ef . Logo,
um estimador pontual na˜o viesado para Yf e´
Yˆf = βˆ0 + βˆ1Xf + eˆf = βˆ0 + βˆ1Xf ,
pois E[ef ] = 0. Para obter o erro da previsa˜o, calcula-se a variaˆncia de Yf− Yˆf . Desta forma, pode-se
mostrar que
V AR[Yf − Yˆf ] = V AR[Yf ] + V AR[Yˆf ] = V AR[ef ] + V AR[βˆ0 + βˆ1Xf ]
= σ2 + σ2
[
1
n
+
(Xi − X¯)2∑n
i=1 (Xf − X¯)2
]
= σ2
[
1 +
1
n
+
(Xi − X¯)2∑n
i=1 (Xf − X¯)2
]
.
Logo, um intervalo de confianc¸a bilateral para a predic¸a˜o, Yf , com n´ıvel de confianc¸a de γ% e´[
Yˆf − t(α/2;n−2)
√
S2
(
1 +
1
n
+
(Xf − X¯)2∑n
i=1 (Xi − X¯)2
)
, Yˆf + t(α/2;n−2)
√
S2
(
1 +
1
n
+
(Xf − X¯)2∑n
i=1 (Xi − X¯)2
)]
,
sendo t(α/2;n−2) o quantil 1−α/2 da distribuic¸a˜o t-Student com n−2 graus de liberdade e α = 1−γ.
1.4 Tabela da ANOVA
Queremos testar se as me´dias de Yi sa˜o iguais para todos osindiv´ıduos. Como E[Yi] = β0 + β1Xi,
queremos testar se
H0 : β1 = 0
H1 : β1 6= 0.
12 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES
Sendo assim, compararemos 2 modelos:
Yi = β0 + ei, ( modelo M0),
Yi = β0 + β1Xi + ei, ( modelo M1).
Supondo o modelo M0 verdadeiro, temos que o valor ajustado do modelo e´ yˆ
M0
i = y¯ =
∑n
i=1 yi/n.
Supondo o modelo M1 verdadeiro, temos que o valor ajustado do modelo e´ yˆ
M1
i = βˆ0 +xiβˆ1, sendo
βˆ0 = y¯ − βˆ1xi e βˆ1 =
∑n
i=1 (xi−x¯)(yi−y¯)∑n
i=1 (xi−x¯)2 .
Para estimar a variabilidade do erro ei, ou seja, para estimar σ
2 = V AR[ei], calcula-se a variaˆncia
da diferenc¸a entre o valor observado yi e seu respectivo valor ajustado yˆi. Sendo assim, para o
modelo M0, analisa-se yi − y¯, obtendo-se o seguinte estimador pontual para σ2: S2T =
∑n
i=1 (yi−y¯)2
n−1 .
E, para o modelo M1, analisa-se yi − βˆ0 − xiβˆ1, obtendo-se o seguinte estimador pontual para σ2:
S2 =
∑n
i=1 (yi−βˆ0−xiβˆ1)2
n−2 .
Seja SQT a soma dos quadrados totais, ou seja, a soma dos quadrados dos res´ıduos quando
supomos H0 verdadeiro. Seja SQRes a soma dos quadrados dos res´ıduos quando H1 e´ verdadeiro
(equivalente a variac¸a˜o explicada pela regressa˜o). Seja SQReg a variac¸a˜o na˜o explicada pela
regressa˜o. Logo,
SQReg =
n∑
i=1
(Yˆi − Y¯ )2,
SQRes =
n∑
i=1
(Yi − βˆ0 −Xiβˆ1)2,
SQT =
n∑
i=1
(Yi − Y¯ )2.
sendo Y¯ a me´dia amostral de toda a amostra, βˆ0 = y¯ − βˆ1xi e βˆ1 =
∑n
i=1 (xi−x¯)(yi−y¯)∑n
i=1 (xi−x¯)2 . Logo
SQT = SQReg + SQRes.
A medida SQReg pode ser interpretada como sendo uma distaˆncia ou variabilidade entre o valor
ajustado do modelo somente com intercepto e o valor ajustado do modelo com intercepto e coeficiente
angular, ou seja, estamos avaliando a alterac¸a˜o obtida na modelagem com a inclusa˜o do coeficiente
angular. SQRes mede o quanto o valor ajustado do modelo M1 difere dos valores observados e SQT
mede o quanto o valor ajustado do modelo M0 difere dos valores observados.
1.5. MODELO NA˜O LINEAR 13
A tabela da ANOVA e´ composta por estas medidas da seguinte forma
Fontes de graus de Soma dos Me´dia da soma dos Valor F
variac¸a˜o liberdade quadrados quadrados
Regressa˜o 1 SQReg MSQReg = SQReg/1 F = MQReg/MQRes
Res´ıduos n-2 SQRes S2 = MSQRes = SQRes/(n− 2)
Total n-1 SQT S2T = SQT/(n− 1)
A Sec¸a˜o 1.3 conte´m a distribuic¸a˜o de βˆ1. Logo, supondo H0 verdadeiro, tem-se que
βˆ1 ∼ N
(
0,
σ2∑n
i=1 (Xi − X¯)2
)
e
(n− 2)S2
σ2
∼ χ2(n−2)
⇒ T = βˆ1√
S2∑n
i=1 (Xi−X¯)2
∼ t(n−2).
E´ poss´ıvel mostrar que
βˆ21
S2∑n
i=1
(Xi−X¯)2
∼ F(1,n−2). Logo, rejeito H0 se T > c ou se T < −c, sendo
Pr(T > c) = α/2. Posso realizar este mesmo teste da seguinte forma: rejeito H0 se F = T
2 > k ,
sendo Pr(F > k) = α, F ∼ F(1,n−2). Logo, pela tabela da ANOVA, rejeitamos H0 se F > k sendo
k o valor cr´ıtico da distribuic¸a˜o F-Snedecor com (1, n− 2) graus de liberdade cuja probabilidade de
uma varia´vel aleato´ria com esta distribuic¸a˜o assumir um valor acima de k e´ α.
Para avaliar o quanto ganhou-se com o modelo Yi = β0 +Xiβ1 + ei versus o modelo Yi = β0 + ei,
mede-se o coeficiente de determinac¸a˜o, dado por
R2 =
SQReg
SQT
.
Este coeficiente assume valores em [0, 1] e indica o quanto o modelo consegue explicar a varia´vel
resposta. Quanto maior R2, mais explicativo e´ o modelo. Por exemplo, se R2 = 0, 90, enta˜o tem-se
que 90% da varia´vel dependente consegue ser explicada pelas covaria´veis utilizadas no modelo.
1.5 Modelo na˜o linear
Suponha que sugere-se o seguinte modelo para os dados
Yi = α exp(θx) + ωi.
14 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES
Para estimar os paraˆmetros (α, θ) deste modelo pelo me´todo de mı´nimos quadrados, e´ necessa´rio
derivar
∑n
i=1 (Yi − α exp(θx))2 com respeito a cada um dos paraˆmetros, depois igualar estas derivadas
a zero obtendo desta forma um candidato, em seguida, obter a matriz das segundas derivadas e
analisar se o candidato e´ ponto de mı´nimo. Realizar este procedimento requer algum procedimento
de otimizac¸a˜o na˜o linear, dificultando a estimac¸a˜o dos paraˆmetros. Podemos transformar a equac¸a˜o
acima de forma a obter um modelo mais simples, da seguinte forma
Yi = α exp(θx) + ωi,
= α exp(θx)ui,
log(Yi) = log(α) + θx+ log(ui),
sendo ui > 0. Seja Y
∗
i = log(Yi), β0 = log(α), β1 = θ e log(ui) = ei. Enta˜o, temos que
Y ∗i = β0 +Xiβ1 + ei.
1.6 Exemplo 1
Em um processo industrial, mediu-se a temperatura me´dia e a quantidade de vapor. Os dados esta˜o
na tabela 1.1 (Draper & Smith, 1998, Appendix A).
1.6. EXEMPLO 1 15
Tabela 1.1: Dados do exemplo
Temperatura Quantidade
me´dia (0F ) de Vapor
35,3 10,98
29,7 11,13
30,8 12,51
58,8 8,40
61,4 9,27
71,3 8,73
74,4 6,36
76,7 8,50
70,7 7,82
57,5 9,14
46,4 8,24
28,9 12,19
28,1 11,88
Temperatura Quantidade
me´dia (0F ) de Vapor
39,1 9,57
46,8 10,94
48,5 9,58
59,3 10,09
70,0 8,11
70,0 6,83
74,5 8,88
72,1 7,68
58,1 8,47
44,6 8,86
33,4 10,36
28,6 11,08
1. Fac¸a um gra´fico de dispersa˜o supondo que o interesse esteja na quantidade de vapor e que
a temperatura me´dia seja uma varia´vel explicativa. Qual relac¸a˜o podemos propor para estas
varia´veis?
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
30 40 50 60 70
7
8
9
10
11
12
temperatura média
qu
an
tid
ad
e 
de
 v
a
po
r
Figura 1.2: Gra´fico de dispersa˜o do exemplo 1.
16 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES
Resposta: Pela figura 1.2, podemos propor que Yi = β0 + β1Xi + ei, sendo Yi a quantidade de
vapor e Xi a temperatura me´dia.
2. Ajuste o modelo proposto no ı´tem anterior.
Resposta: Tem-se que y¯ = 9, 424, x¯ = 52, 6,
∑25
i=1 (xi − x¯)2 = 7154, 42,
∑25
i=1 (yi − y¯)(xi − x¯) =
−571, 128, βˆ0 = 13, 6230, βˆ1 = −0, 0798. Logo, o modelo ajustado (ou a reta obtida pelo
me´todo dos mı´nimos quadrados) e´
yˆi = 13, 6230− 0, 0798xi.
3. Analise os res´ıduos do modelo ajustado. Desenhe a reta ajustada no gra´fico de dispersa˜o feito
no primeiro item. Desenhe tambe´m um intervalo de confianc¸a para a resposta me´dia e para a
quantidade de vapor usando um n´ıvel de confianc¸a de 95%. Ale´m disso, avalie se os paraˆmetros
do modelo proposto sa˜o estatisticamente significativos.
Resposta: Sejam eˆi = yi− yˆi, para i = 1, . . . , 25, os res´ıduos do modelo ajustado. Tem-se que o
valor me´dio dos res´ıduos e´
∑25
i=1 eˆi/25 = 0. Lembrando que um dos pressupostos da regressa˜o
e´: E[ei] = 0, para todo i.
Suponha que ei ∼ N(0, σ2). Pelo histograma dos res´ıduos encontrado na figura 1.3, na˜o
podemos afirmar que os res´ıduos tem ind´ıcios de normalidade pore´m temos uma quantidade
pequena de dados dificultando a ana´lise visual. Pelos gra´ficos de dispersa˜o dos res´ıduos,
encontrados nesta mesma figura, parece ter restado um padra˜o quando analisamos os res´ıduos
versus a quantidade de vapor. Nesta figura, tambe´m tem-se o qqnorm, um gra´fico que compara
os quantis dos res´ıduos com os quantis da distribuic¸a˜o normal. Note que os res´ıduos esta˜o
pro´ximos da reta, exceto nas caudas.
Ale´m de analisar os res´ıduos, pode-se avaliar o ajuste do modelo da seguinte forma: a figura 1.4
conte´m o gra´fico de dispersa˜o da temperatura versus a quantidade de vapor, a reta do modelo
ajustado e um intervalo de confianc¸a para a resposta me´dia e para a varia´vel resposta. Note
que os valores observados esta˜o dentro do IC para a varia´vel resposta.
1.6. EXEMPLO 1 17
resíduos
de
ns
id
ad
e
−2.0 −1.0 0.0 0.5 1.0 1.5
0
1
2
3
4
5
(a)
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
5 10 15 20 25
−1.
5
−
0.
5
0.
5
1.
0
unidade amostral
re
sí
du
os
(b)
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
30 40 50 60 70
−
1.
5
−
0.
5
0.
5
1.
0
temperatura média
re
sí
du
os
(c)
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
7 8 9 10 11 12
−
1.
5
−
0.
5
0.
5
1.
0
quantidade de vapor
re
sí
du
os
(d)
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
−2 −1 0 1 2
−
1.
5
−
0.
5
0.
5
1.
0
quantis da N(0,1)
qu
an
tis
 d
os
 re
sí
du
os
(e)
Figura 1.3: Analisando os res´ıduos do modelo ajustado do exemplo. Figura (a): histograma dos
res´ıduos. Figura (b): Gra´fico de dispersa˜o dos res´ıduos. Figura(c): Gra´fico de dispersa˜o dos res´ıduos
versus a covaria´vel. Figura(d): Gra´fico de dispersa˜o dos res´ıduos versus a temperatura me´dia. Figura
(e): Comparando os quantis dos res´ıduos (quantis amostrais) com os quantis da distribuic¸a˜o normal.
18 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
30 40 50 60 70
6
8
10
12
temperatura média
qu
an
tid
ad
e 
de
 v
a
po
r
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l Valor observado
Reta ajustada
IC para a média
IC para a va resposta
Figura 1.4: Gra´fico de dispersa˜o com a reta ajustada, intervalo de confianc¸a de 95% das me´dias das
temperaturas me´dias e intervalo de confianc¸a de 95% das temperaturas me´dias.
Tabela 1.2: Tabela ANOVA para o exemplo 1.
Fontes de graus de Soma dos Me´dia da soma dos Valor F
variac¸a˜o liberdade quadrados quadrados
Regressa˜o 1 45,5924 45,5924 F = 57, 5428
Res´ıduos 23 18,2234 0,7923
Total 24 63,8158 2,6590
Pela tabela da ANOVA 1.6, tem-se que F = 57, 5428 > 0, 0161 (quantil de 95% da F(1,23)).
Logo, rejeita-se a hipo´tese H0 : β1 = 0 versus H1 : β1 6= 0, ao n´ıvel de significaˆncia de 5%.
O coeficiente de determinac¸a˜o R2 = 0, 7144, ou seja, o modelo com intercepto e coeficiente
angular explica 71, 44% da variabilidade total da varia´vel resposta, indicando que o modelo
adotado e´ uma proposta boa.
Para testar se o intercepto e´ significativo, pode-se criar um intervalo de confianc¸a para este
paraˆmetro e analisar se o zero pertence a este intervalo. Logo, um IC bilateral para β0, ao n´ıvel
de confianc¸a de 95% e´ [12, 4201 ; 14, 8258]. Logo, o intercepto e´ significativo.
Um IC bilateral para σ2, ao n´ıvel de confianc¸a de 95% e´ [0, 4786 ; 1, 5591]. Note que a
variabilidade deste paraˆmetro e´ razoavelmente pequena.
1.7. EXEMPLO 2 19
4. Para uma temperatura de 800F, qual e´ a quantidade de vapor prevista? Informe uma estimativa
pontual e uma estimativa intervalar, ao n´ıvel de confianc¸a de 90%.
Resposta: yˆf = 7, 2366(4, 6067 ; 9, 8667).
1.7 Exemplo 2
Um psico´logo esta´ investigando a relac¸a˜o entre o tempo que um indiv´ıduo leva para reagir a um
est´ımulo visual e sua idade. Os dados esta˜o na tabela 1.3.
Tabela 1.3: Dados do exemplo 2
Tempo (Y ) Idade (X)
96 20
92 20
106 20
100 20
98 25
104 25
110 25
101 25
116 30
106 30
Tempo (Y ) Idade (X)
109 30
100 30
112 35
105 35
118 35
108 35
113 40
112 40
127 40
117 40
1. Fac¸a um gra´fico de dispersa˜o. Qual relac¸a˜o podemos propor para estas varia´veis?
Resposta: Pela figura 1.5, podemos propor que Yi = β0 + β1Xi + ei, sendo Yi o tempo de
resposta e Xi a idade.
2. Ajuste o modelo proposto no ı´tem anterior.
Resposta: Tem-se que y¯ = 107, 5, x¯ = 30,
∑n
i=1 (xi − x¯)2 = 1000,
∑n
i=1 (yi − y¯)(xi − x¯) = 900,
βˆ0 = 80, 5, βˆ1 = 0, 9. Logo, o modelo ajustado (ou a reta obtida pelo me´todo dos mı´nimos
quadrados) e´
yˆi = 80, 5 + 0, 9xi.
20 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
20 25 30 35 40
95
10
5
11
5
12
5
idade
te
m
po
 d
e 
re
sp
os
ta
Figura 1.5: Gra´fico de dispersa˜o do exemplo 2.
3. Analise os res´ıduos do modelo ajustado. Desenhe a reta ajustada no gra´fico de dispersa˜o feito
no primeiro item. Desenhe tambe´m um intervalo de confianc¸a para a resposta me´dia e para a
quantidade de vapor usando um n´ıvel de confianc¸a de 95%. Ale´m disso, avalie se os paraˆmetros
do modelo proposto sa˜o estatisticamente significativos.
Resposta: Sejam eˆi = yi − yˆi, para i = 1, . . . , n, os res´ıduos do modelo ajustado. Tem-se que o
valor me´dio dos res´ıduos e´
∑n
i=1 eˆi/n = 0. Lembrando que um dos pressupostos da regressa˜o
e´: E[ei] = 0, para todo i.
Suponha que ei ∼ N(0, σ2). Pelo histograma dos res´ıduos encontrado na figura 1.6, na˜o
podemos afirmar que os res´ıduos tem ind´ıcios de normalidade pore´m temos uma quantidade
pequena de dados dificultando a ana´lise visual. Pelos gra´ficos de dispersa˜o dos res´ıduos,
encontrados nesta mesma figura, parece ter restado um padra˜o quando analisamos os res´ıduos
versus o tempo de resposta e parece haver observac¸o˜es discrepantes. Nesta figura, tambe´m tem-
se o qqnorm, um gra´fico que compara os quantis dos res´ıduos com os quantis da distribuic¸a˜o
normal. Note que os res´ıduos esta˜o distantes da reta na cauda superior.
Ale´m de analisar os res´ıduos, pode-se avaliar o ajuste do modelo da seguinte forma: a figura 1.7
conte´m o gra´fico de dispersa˜o da temperatura versus a quantidade de vapor, a reta do modelo
ajustado e um intervalo de confianc¸a para a resposta me´dia e para a varia´vel resposta. Note
que os valores observados esta˜o dentro do IC para a varia´vel resposta.
1.7. EXEMPLO 2 21
resíduos
de
ns
id
ad
e
−10 −5 0 5 10 15
0
1
2
3
4
5
6
7
(a)
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
5 10 15 20
−
5
0
5
10
unidade amostral
re
sí
du
os
(b)
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
20 25 30 35 40
−
5
0
5
10
idade
re
sí
du
os
(c)
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
95 100 110 120
−
5
0
5
10
tempo de resposta
re
sí
du
os
(d)
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
−2 −1 0 1 2
−
5
0
5
10
quantis da N(0,1)
qu
an
tis
 d
os
 re
sí
du
os
(e)
Figura 1.6: Analisando os res´ıduos do modelo ajustado do exemplo. Figura (a): histograma dos
res´ıduos. Figura (b): Gra´fico de dispersa˜o dos res´ıduos. Figura (c): Gra´fico de dispersa˜o dos
res´ıduos versus a idade. Figura (d): Gra´fico de dispersa˜o dos res´ıduos versus o tempo de resposta.
Figura (e): Comparando os quantis dos res´ıduos (quantis amostrais) com os quantis da distribuic¸a˜o
normal.
22 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
20 25 30 35 40
90
10
0
11
0
12
0
13
0
idade
te
m
po
 d
e 
re
sp
os
ta
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l Valor observado
Reta ajustada
IC para a média
IC para a va resposta
Figura 1.7: Gra´fico de dispersa˜o com a reta ajustada, intervalo de confianc¸a de 95% das me´dias dos
tempos de resposta e intervalo de confianc¸a de 95% dos temposde respostas.
Tabela 1.4: Tabela ANOVA para o exemplo 1.
Fontes de graus de Soma dos Me´dia da soma dos Valor F
variac¸a˜o liberdade quadrados quadrados
Regressa˜o 1 810 810 F = 25, 8970
Res´ıduos 18 563 31,2778
Total 19 1373 72,2632
Pela tabela da ANOVA 1.6, tem-se que F = 25, 8970 > 4, 4139 (quantil de 95% da F(1,18)).
Logo, rejeita-se a hipo´tese H0 : β1 = 0 versus H1 : β1 6= 0, ao n´ıvel de significaˆncia de 5%.
O coeficiente de determinac¸a˜o R2 = 0, 59, ou seja, o modelo com intercepto e coeficiente angular
explica 59% da variabilidade total da varia´vel resposta, indicando que o modelo adotado e´ uma
proposta razoa´vel.
Para testar se o intercepto e´ significativo, pode-se criar um intervalo de confianc¸a para este
paraˆmetro e analisar se o zero pertence a este intervalo. Logo, um IC bilateral para β0, ao n´ıvel
de confianc¸a de 95% e´ [69, 0478 ; 91, 9522]. Logo, o intercepto e´ significativo.
Um IC bilateral para σ2, ao n´ıvel de confianc¸a de 95% e´ [17, 8581 ; 68, 4021].
1.8. EXEMPLO 3 23
4. Para um indiv´ıduo com 32 anos, qual e´ o tempo de resposta previsto? Informe uma estimativa
pontual e uma estimativa intervalar, ao n´ıvel de confianc¸a de 90%.
Resposta: yˆf = 109, 3(92, 4769 ; 126, 1231).
1.8 Exemplo 3
Os dados esta˜o na tabela 1.5.
Tabela 1.5: Dados do exemplo 3
Taxa de inflac¸a˜o Ano
9 1961
24 1963
72 1965
128 1967
192 1969
277 1971
373 1973
613 1975
1236 1977
2639 1979
1. Fac¸a um gra´fico de dispersa˜o. Qual relac¸a˜o podemos propor para estas varia´veis?
Resposta: Pela figura 1.8, podemos propor que Y ∗i = α exp(θXi) + ωi, sendo Y
∗
i a taxa de
inflac¸a˜o e Xi o ano. Este modelo pode ser reescrito da seguinte forma: Yi = β0 + β1Xi + ei,
sendo Yi o logar´ıtimo da taxa de inflac¸a˜o e Xi o ano. A figura 1.9 apresenta o gra´fico de
dispersa˜o para o logar´ıtimo da inflac¸a˜o.
2. Ajuste o modelo proposto no ı´tem anterior.
24 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES
l l
l
l
l
l
l
l
l
l
1965 1970 1975
0
50
0
15
00
25
00
ano
ta
xa
 d
e 
in
fla
çã
o
Figura 1.8: Gra´fico de dispersa˜o do exemplo 3.
l
l
l
l
l
l
l
l
l
l
1965 1970 1975
2
3
4
5
6
7
8
ano
lo
g 
da
 ta
xa
 d
e 
in
fla
çã
o
Figura 1.9: Gra´fico de dispersa˜o do exemplo 3.
Resposta: Tem-se que y¯ = 5, 27, x¯ = 1970,
∑n
i=1 (xi − x¯)2 = 330,
∑n
i=1 (yi − y¯)(xi − x¯) = 93,
βˆ0 = −549, 928, βˆ1 = 0, 28. Logo, o modelo ajustado (ou a reta obtida pelo me´todo dos
mı´nimos quadrados) e´
yˆi = −549, 928 + 0, 28xi.
3. Analise os res´ıduos do modelo ajustado. Desenhe a reta ajustada no gra´fico de dispersa˜o feito
no primeiro item. Desenhe tambe´m um intervalo de confianc¸a para a resposta me´dia e para a
quantidade de vapor usando um n´ıvel de confianc¸a de 95%. Ale´m disso, avalie se os paraˆmetros
do modelo proposto sa˜o estatisticamente significativos.
Resposta: Sejam eˆi = yi − yˆi, para i = 1, . . . , n, os res´ıduos do modelo ajustado. Tem-se que o
valor me´dio dos res´ıduos e´
∑n
i=1 eˆi/n = 0. Lembrando que um dos pressupostos da regressa˜o
e´: E[ei] = 0, para todo i.
1.8. EXEMPLO 3 25
Suponha que ei ∼ N(0, σ2). Pelo histograma dos res´ıduos encontrado na figura 1.11, na˜o
podemos afirmar que os res´ıduos tem ind´ıcios de normalidade pore´m temos uma quantidade
pequena de dados dificultando a ana´lise visual. Pelos gra´ficos de dispersa˜o dos res´ıduos,
encontrados nesta mesma figura, parece ter restado um padra˜o, indicando que o pressuposto de
independeˆncia e de homocedasticidade esta´ incorreto. Nesta figura, tambe´m tem-se o qqnorm,
um gra´fico que compara os quantis dos res´ıduos com os quantis da distribuic¸a˜o normal. Note
que os res´ıduos esta˜o pro´ximos da reta, indicando que o pressuposto de normalidade esta´ sendo
atendido.
Ale´m de analisar os res´ıduos, pode-se avaliar o ajuste do modelo da seguinte forma: a figura
1.10 conte´m o gra´fico de dispersa˜o da temperatura versus a quantidade de vapor, a reta do
modelo ajustado e um intervalo de confianc¸a para a resposta me´dia e para a varia´vel resposta.
Note que os valores observados esta˜o dentro do IC para a varia´vel resposta.
l
l
l
l
l
l
l
l
l
l
1965 1970 1975
2
3
4
5
6
7
8
ano
lo
g 
da
 ta
xa
 d
e 
in
fla
çã
o
l
l
l
l
l
l
l
l
l
l
l Valor observado
Reta ajustada
IC para a média
IC para a va resposta
Figura 1.10: Gra´fico de dispersa˜o com a reta ajustada, intervalo de confianc¸a de 95% das me´dias dos
tempos de resposta e intervalo de confianc¸a de 95% dos tempos de respostas.
26 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES
resíduos
de
ns
id
ad
e
−0.6 −0.2 0.0 0.2 0.4 0.6
0.
0
0.
5
1.
0
1.
5
2.
0
2.
5
3.
0
(a)
l
l
l l
l
l
l
l
l
l
2 4 6 8 10
−
0.
4
−
0.
2
0.
0
0.
2
0.
4
unidade amostral
re
sí
du
os
(b)
l
l
l l
l
l
l
l
l
l
1965 1970 1975
−
0.
4
−
0.
2
0.
0
0.
2
0.
4
ano
re
sí
du
os
(c)
l
l
l l
l
l
l
l
l
l
2 3 4 5 6 7 8
−
0.
4
−
0.
2
0.
0
0.
2
0.
4
log da taxa de inflação
re
sí
du
os
(d)
l
l
l l
l
l
l
l
l
l
−1.5 −0.5 0.0 0.5 1.0 1.5
−
0.
4
−
0.
2
0.
0
0.
2
0.
4
quantis da N(0,1)
qu
an
tis
 d
os
 re
sí
du
os
(e)
Figura 1.11: Analisando os res´ıduos do modelo ajustado do exemplo. Figura (a): histograma dos
res´ıduos. Figura (b): Gra´fico de dispersa˜o dos res´ıduos. Figura(c): Gra´fico de dispersa˜o dos res´ıduos
versus a idade. Figura(d): Gra´fico de dispersa˜o dos res´ıduos versus o tempo de resposta. Figura (e):
Comparando os quantis dos res´ıduos (quantis amostrais) com os quantis da distribuic¸a˜o normal.
1.8. EXEMPLO 3 27
Tabela 1.6: Tabela ANOVA para o exemplo 1.
Fontes de graus de Soma dos Me´dia da soma dos Valor F
variac¸a˜o liberdade quadrados quadrados
Regressa˜o 1 26,21 26,21 F = 243, 51
Res´ıduos 8 0,86 0,11
Total 9 27,07 3,01
Pela tabela da ANOVA 1.6, tem-se que F = 243, 51 > 5, 32 (quantil de 95% da F(1,8)). Logo,
rejeita-se a hipo´tese H0 : β1 = 0 versus H1 : β1 6= 0, ao n´ıvel de significaˆncia de 5%.
O coeficiente de determinac¸a˜o R2 = 0, 9682, ou seja, o modelo com intercepto e coeficiente
angular explica 96, 82% da variabilidade total do logar´ıtimo da varia´vel resposta, indicando
que o modelo adotado e´ uma proposta boa.
Para testar se o intercepto e´ significativo, pode-se criar um intervalo de confianc¸a para este
paraˆmetro e analisar se o zero pertence a este intervalo. Logo, um IC bilateral para β0, ao n´ıvel
de confianc¸a de 95% e´ [−631, 97 ; −467, 88]. Logo, o intercepto e´ significativo.
Um IC bilateral para σ2, ao n´ıvel de confianc¸a de 95% e´ [0, 05 ; 0, 39].
4. Para o ano de 1972, qual e´ a taxa de inflac¸a˜o prevista?
Resposta: exp(5, 8360) = 342, 3991.
	Regressão Linear Simples
	Ajuste do Modelo
	Modelo com intercepto somente
	Modelo com coeficiente angular somente
	Modelo com intercepto e coeficiente angular
	Análise do ajuste
	Propriedades e distribuições dos estimadores
	Previsão
	Tabela da ANOVA
	Modelo não linear
	Exemplo 1
	Exemplo 2
	Exemplo 3