Buscar

Apostila de Regressao Linear

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Me´todos Estat´ısticos Quantitativos
Renato Nunes Pereira
Junho de 2014
Atenc¸a˜o: Guia de Estudo, montado de
acordo com as refereˆncias bibliogra´ficas.
Suma´rio
1 Regressa˜o Linear Simples 1
1.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 O modelo estat´ıstico de uma regressa˜o linear simples . . . . . . . 2
1.3 Estimac¸a˜o dos paraˆmetros . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Notac¸o˜es especiais . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2 Propriedades dos estimadores de mı´nimos quadrados . . . 8
1.3.3 Decomposic¸a˜o da soma de quadrados total . . . . . . . . 9
1.4 Valor esperado das Somas de Quadrados . . . . . . . . . . . . . . 13
1.5 Ana´lise de variaˆncia da regressa˜o . . . . . . . . . . . . . . . . . . 13
1.6 Estimativas das variaˆncias das estimativas dos paraˆmetros, testes
de hipo´teses a respeito dos paraˆmetros e respectivos intervalos de
confianc¸a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.7 Teste para falta de ajuste (ou teste de linearidade) . . . . . . . . 18
2 Exerc´ıcios 21
3 BIBLIOGRAFIA 25
1 Regressa˜o Linear Simples
1.1 Introduc¸a˜o
A teoria de Regressa˜o teve origem no se´culo XIX com Galton. Em um de
seus trabalhos ele estudou a relac¸a˜o entre a altura dos pais e dos filhos (Xi e
Yi), procurando saber como a altura do pai influenciava a altura do filho. Notou
que se o pai fosse muito alto ou muito baixo, o filho teria uma altura tendendo
a` me´dia. Por isso, ele chamou de regressa˜o, ou seja, existe uma tendeˆncia de os
dados regredirem a` me´dia. A utilizac¸a˜o de modelos de regressa˜o, pode ter por
objetivos:
i) Predic¸a˜o
Uma vez que se espera que uma parte da variac¸a˜o de Y e´ explicada pe-
las varia´veis X, enta˜o, pode-se utilizar o modelo para obter valores de Y
correspondentes a valores de X que na˜o estavam entre os dados. Esse pro-
cesso denomina-se predic¸a˜o e, em geral, sa˜o usados valores de X que esta˜o
dentro do intervalo de variac¸a˜o estudado.
1
ii) Selec¸a˜o de varia´veis
Frequentemente, na˜o se tem ideia de quais sa˜o as varia´veis que afetam
significativamente a variac¸a˜o de Y. Para responder a esse tipo de questa˜o,
conduzem-se estudos onde esta´ presente um grande nu´mero de varia´veis.
A ana´lise de regressa˜o pode auxiliar no processo de selec¸a˜o de varia´veis,
eliminando aquelas cuja contribuic¸a˜o na˜o seja importante.
iii) Estimac¸a˜o de paraˆmetros
Dado um modelo e um conjunto de dados (amostra) referente a`s varia´veis
resposta e preditoras, estimar paraˆmetros, ou ainda, ajustar o modelo aos
dados, significa obter valores (estimativas) para os paraˆmetros, por algum
processo, tendo por base o modelo e os dados observados.
iv) Infereˆncia
O ajuste de um modelo de regressa˜o tem, em geral, por objetivos ba´sicos,
ale´m de estimar os paraˆmetros, realizar infereˆncias sobre eles, tais como
testes de hipo´teses e intervalos de confianc¸a.
Em geral, as varia´veis X’s sa˜o chamadas varia´veis independentes ou explana-
to´rias, enquanto que a varia´vel Y e´ chamada varia´vel dependente ou resposta.
1.2 O modelo estat´ıstico de uma regressa˜o linear simples
Dados n pares de duas varia´veis, Xi, Yi (i = 1, 2, ..., n), se admitirmos que
Y e´ func¸a˜o linear de X, podemos estabelecer uma regressa˜o linear simples, cujo
modelo estat´ıstico e´
Yi = β0 + β1Xi + εi, i = 1, 2, ..., n
em que β0 e β1 sa˜o os paraˆmetros a serem estimados.
Verifica-se que para X = 0, β0 representa o ponto onde a reta corta o eixo
dos Y’s e por isso e´ chamado intercepto (ou coeficiente linear). Ja´ β1 e´ chamado
coeficiente de regressa˜o ou coeficiente angular da reta, pois, da interpretac¸a˜o
geome´trica da derivada tem-se
β1 = tgα
em que α representa o aˆngulo da reta referente a relac¸a˜o entre X e Y no ponto
em que essa reta intercepta o eixo X.
A ana´lise de regressa˜o tambe´m pode ser aplicada a`s relac¸o˜es na˜o-lineares.
Inicialmente estudaremos apenas o caso da reta. Veremos adiante o caso das
relac¸o˜es na˜o lineares.
Ao estabelecer o modelo de regressa˜o linear simples, pressupo˜e-se que:
i) A relac¸a˜o entre X e Y e´ linear.
ii) Os valores de X sa˜o fixos (ou controlados).
iii) A me´dia do erro e´ nula, isto e´, E(εi) = 0.
2
iv) Para um dado valor de X, a variaˆncia do erro εi e´ sempre σ
2, denominada
da variaˆncia residual, isto e´
V ar(εi) = E(ε
2
i )− [E(εi)]2 = E(ε2i ) = σ2
o que implica em
V ar(Yi) = E[Yi − E(Yi)]2 = E(ε2i ) = σ2
Diz-se, enta˜o, que o erro e´ homoceda´stico, ou que se tem homocedasticia
(do erro ou da varia´vel dependente).
v) O erro de uma observac¸a˜o e´ independente do erro de outra observac¸a˜o,
isto e´,
Cov(εi, ε
,
i) = E(εiε
,
i)− E(εi)E(ε,i) = E(εiε,i) = 0,∀i 6= i,
vi) Os erros teˆm distribuic¸a˜o normal.
combinando (iii), (iv) e (v) tem-se εi ∼ N(0, σ2) e, portanto,
Yi ∼ N(β0 + β1Xi, σ2). A suposic¸a˜o de normalidade e´ necessa´ria para a elabo-
rac¸a˜o dos testes de hipo´teses e obtenc¸a˜o de intervalos de confianc¸a.
1.3 Estimac¸a˜o dos paraˆmetros
Uma tarefa importante associada com o modelo de regressa˜o linear e´ a es-
timac¸a˜o dos valores de β0 e β1, de forma que os desvios dos valores observados
em relac¸a˜o aos estimados sejam mı´nimos. Isso equivale a minimizar o compri-
 
Figura 1: Regressa˜o Linear
mento do vetor ε = (ε1, ε2, ..., εn)
,. Usando a norma euclideana para avaliar o
comprimento de ε, tem-se:
Z = ||ε||2 =
n∑
i=1
ε2i =
n∑
i=1
[Yi − E(Yi)]2 =
n∑
i=1
[Yi − β0 − β1Xi]2
3
Deseja-se, portanto, estimar β0 e β1 tais que Z seja mı´nima. Esse me´todo e´
chamado me´todo dos mı´nimos quadrados. Para isso, obteˆm-se as derivadas
parciais: 
∂Z
∂β0
= −2∑ni=1[Yi − (βˆ0 + βˆ1Xi)] = 0
⇒
∂Z
∂β1
= −2∑ni=1[Yi − (βˆ0 + βˆ1Xi)](Xi) = 0
⇒

∑n
i=1 Yi −
∑n
i=1 βˆ0 −
∑n
i=1 βˆ1Xi = 0 (I)∑n
i=1XiYi −
∑n
i=1 βˆ0Xi −
∑n
i=1 βˆ1X
2
i = 0 (II)
De (I) tem-se:
n∑
i=1
Yi − nβˆ0 − βˆ1
n∑
i=1
Xi = 0⇒
nβˆ0 =
n∑
i=1
Yi − βˆ1
n∑
i=1
Xi ⇒
βˆ0 = Y¯ − βˆ1X¯
Substituindo (I) em (II), temos
n∑
i=1
XiYi − (Y¯ − βˆ1X¯)
n∑
i=1
Xi − βˆ1
n∑
i=1
X2i = 0⇒
βˆ1X¯
n∑
i=1
Xi − βˆ1
n∑
i=1
X2i = −
n∑
i=1
XiYi + Y¯
n∑
i=1
Xi ⇒
βˆ1(X¯
n∑
i=1
Xi −
n∑
i=1
X2i ) = Y¯
n∑
i=1
Xi −
n∑
i=1
XiYi ⇒
βˆ1 =
Y¯
∑n
i=1Xi −
∑n
i=1XiYi
X¯
∑n
i=1Xi −
∑n
i=1X
2
i
⇒
βˆ1 =
∑n
i=1XiYi − nX¯Y¯∑n
i=1X
2
i − nX¯2
Portanto 
βˆ0 = Y¯ − βˆ1X¯
βˆ1 =
∑n
i=1XiYi−nX¯Y¯∑n
i=1X
2
i−nX¯2
Obtendo-se as derivadas parciais de segunda ordem de Z em relac¸a˜o a β0 e
a β1, tem-se:
∂2Z
∂β20
= 2
∑n
i=1 1 = 2n > 0
∂2Z
∂β0β1
= 2
∑n
i=1Xi
e
4
∂2Z
∂β21
= 2
∑n
i=1X
2
i
Portanto,
∣∣∣∣∣
∂2Z
∂β20
∂2Z
∂β20β
2
1
∂2Z
∂β20β
2
1
∂2Z
∂β21
∣∣∣∣∣=
∣∣∣∣ 2n 2∑ni=1Xi2∑ni=1Xi 2∑ni=1X2i
∣∣∣∣= 4 [n∑ni=1X2i − (∑ni=1Xi)2]
= 4n
∑n
i=1(Xi − X¯)2 ≥ 0, o que mostra que Z e´ mı´nima para βˆ0 e βˆ1. Logo, a
reta estimada pelo me´todo dos mı´nimos quadrado e´ dada por:
Yˆ = βˆ0 + βˆ1Xi.
1.3.1 Notac¸o˜es especiais
SXX =
n∑
i=1
(Xi − X¯)2
=
n∑
i=1
(X2i − 2XiX¯ + X¯2)
=
n∑
i=1
X2i − 2nX¯2 + nX¯2
=
n∑
i=1
X2i − nX¯2
SXY =
n∑
i=1
(Xi − X¯)(Yi − Y¯ )
=
n∑
i=1
(XiYi −XiY¯ − X¯Yi + X¯Y¯ )
=
n∑
i=1
XiYi − nX¯Y¯ − nX¯Y¯ + nX¯Y¯
=
n∑
i=1
XiYi − nX¯Y¯
e
5
SY Y =
n∑
i=1
(Yi − Y¯ )2
=
n∑
i=1
(Y 2i − 2YiY¯ + Y¯ 2)
=
n∑
i=1
Y 2i − 2nY¯ 2 + nY¯ 2
=
n∑
i=1
Y 2i − nY¯ 2
Os EMQ de β0 e β1 em termos da notac¸a˜o acima sa˜o: βˆ0 = Y¯ − βˆ1X¯ e
βˆ1 =
SXY
SXX
.
Para exemplificar, consideremos a amostra de 10 pares de valores Xi, Yi da
Tabela 1, representados graficamente na Figura 2.
Tabela 1: Valores de Xi e Yi(i=1,..., 10)
X Y X Y
0 3 3 4
1 2 4 7
1 3 5 6
2 5 5 7
3 4 6 9
Sa˜o dados, a seguir, os resultados da alguns ca´lculos intermedia´rios para obten-
c¸a˜o das estimativas βˆ0 e βˆ1.
βˆ0 = Y¯ − βˆ1X¯ = 5− 1× 3 = 2
βˆ1 =
∑n
i=1XiYi−nX¯Y¯∑n
i=1X
2
i−nX¯2
= 186×3×5126−10×32 = 1
A reta de regressa˜o estimada e´
Yˆ = 2 +X
> X<-c(0,1,1,2,3,3,4,5,5,6)
> X
[1] 0 1 1 2 3 3 4 5 5 6
> Y<-c(3,2,3,5,4,4,7,6,7,9)
> Y
[1] 3 2 3 5 4 4 7 6 7 9
> Y1<-2 + X
6
> plot(X,Y, ylim = c(0,9))
> lines(X,Y1,lwd=2)
l
l
l
l
ll
l
l
l
l
0 1 2 3 4 5 6
0
2
4
6
8
X
Y
Figura 2: Representac¸a˜o gra´fica dos pares de valores da Tabela 1 e a reta ajus-
tada (Yˆ = βˆ0 + βˆ1X)
7
1.3.2 Propriedades dos estimadores de mı´nimos quadrados
(a) O ponto (X¯, Y¯ ) e´ um ponto da reta estimada Yˆi = βˆ0 + βˆ1Xi. (Verificac¸a˜o
em sala de aula!)
(b)
n∑
i=1
εˆi = 0, decorrendo que
n∑
i=1
Yi =
n∑
i=1
Yˆi (Verificac¸a˜o em sala de aula!)
(c)
n∑
i=1
Xiεˆi = 0 (A soma dos res´ıduos ponderados pela varia´vel regressora
e´ sempre igual a zero. Isto e´,
n∑
i=1
Xiεˆi = 0), decorrendo que
n∑
i=1
XiYi =
n∑
i=1
XiYˆi(Verificac¸a˜o em sala de aula!)
(d) A soma dos res´ıduos ponderados pelos valores ajustados e´ igual a zero.
Isto e´,
n∑
i=1
Yˆiεˆi = 0 (Verificac¸a˜o em sala de aula!)
(e) Os estimadores de mı´nimos quadrados de βˆ0 e βˆ1 sa˜o func¸o˜es lineares das
observac¸o˜es Y ,i s. Isto e´,
n∑
i=1
ciYi, sendo ci =
(Xi − X¯)
n∑
i=1
(Xi − X¯)2
n∑
i=1
diYi, sendo di =
1
n
− ciX¯
Note que
(e1)
n∑
i=1
ci = 0 (Verificac¸a˜o em sala de aula!)
(e2)
n∑
i=1
ciXi = 1 (Verificac¸a˜o em sala de aula!)
(e3)
n∑
i=1
di = 1 (Verificac¸a˜o em sala de aula!)
(e4)
n∑
i=1
diXi = 0 (Verificac¸a˜o em sala de aula!)
(f) Os estimadores de mı´nimos quadrados de β0 e β1 sa˜o na˜o viesados, isto e´,
E(βˆ0) = β0 e E(βˆ1) = β1
(Verificac¸a˜o em sala de aula!)
8
(g) A variaˆncia dos estimadores de mı´nimos quadrados de β0 e β1 e´ mı´nima
entre as variaˆncias de qualquer outros estimadores lineares na˜o viesados
(em Y) de β0 e β1. (Teorema Gauss-Markov).
V ar(βˆ1) =
σ2
n∑
i=1
(Xi − X¯)2
V ar(βˆ0) = σ
2
 1n + X¯
2
n∑
i=1
(Xi − X¯)2

(Verificac¸a˜o em sala de aula!)
(h) Como Yi ∼ N(β0 + β1Xi, σ2) e βˆ0 e βˆ1 sa˜o combinac¸o˜es lineares dos Y ,i s,
enta˜o,
βˆ0 ∼ N(β0, V ar(βˆ0))
pois
E(βˆ0) = β0 e V ar(βˆ0) = σ
2
 1n + X¯
2
n∑
i=1
(Xi − X¯)2

e
βˆ1 ∼ N(β1, V ar(βˆ1))
E(βˆ1) = β1 e V ar(βˆ1) =
σ2
n∑
i=1
(Xi − X¯)2
Ale´m disso temos que Yˆi ∼ N(β0 + β1Xi, V ar(Yˆi)) pois,
E(Yˆi) = β0 + β1Xi e V ar(Yˆi) = σ
2
 1n + (Xi − X¯)
2
n∑
i=1
(Xi − X¯)2

1.3.3 Decomposic¸a˜o da soma de quadrados total
Demonstraremos que
n∑
i=1
(Yi − Y¯ )2 =
n∑
i=1
(Yi − Yˆi)2 +
n∑
i=1
(Yˆi − Y¯ )2
isto e´, que a soma de quadrados total (S.Q.Total) e´ igual a` soma de quadrados
residual (S.Q.Res.), tambe´m chamada soma de quadrados dos desvios, mais a
soma de quadrados da regressa˜o (S.Q.Reg). Partimos do fato que o desvio de
9
uma determinada observac¸a˜o em relac¸a˜o ao valor estimado correspondente pode
ser decomposto da seguinte forma
εˆi = Yi − Yˆi = (Yi − Y¯ )− (Yˆi − Y¯ ) (1)
isto e´,
o desvio n~ao explicado pelo modelo = desvio total - desvio devido ao modelo
Isso tudo pode ser facilmente visualizado pela figura 3.
 Figura 3: Decomposic¸a˜o dos desvios εˆi = Yi − Yˆi = (Yi − Y¯ )− (Yˆi − Y¯ )
Tem-se, enta˜o, que a soma de quadrados dos desvios (parte na˜o explicada
pelo modelo) e´ dada por:
n∑
i=1
εˆi
2 =
n∑
i=1
(Yi − Yˆi)2
=
n∑
i=1
(Yi − Y¯ − Yˆi + Y¯ )2
=
n∑
i=1
[(Yi − Y¯ )− (Yˆi − Y¯ )]2
=
n∑
i=1
(Yi − Y¯ )2 − 2
n∑
i=1
(Yi − Y¯ )(Yˆi − Y¯ ) +
n∑
i=1
(Yˆi − Y¯ )2
=
n∑
i=1
(Yi − Y¯ )2 −
n∑
i=1
(Yˆi − Y¯ )2
10
Mas,
n∑
i=1
(Yˆi − Y¯ )2 =
n∑
i=1
(βˆ0 − βˆ1Xi − Y¯ )2
=
n∑
i=1
(Y¯ − βˆ1X¯ + βˆ1Xi − Y¯ )2
= βˆ1
2
n∑
i=1
(Xi − X¯)2
que por depender do coeficiente βˆ1 e´ chamada soma de quadrados de regressa˜o.
Tem-se, portanto
S.Q.Res = S.Q.Total - S.Q.Reg
ou ainda,
S.Q.Total = S.Q.Res + S.Q.Reg
Isto e´, a variabilidade total dos dados (medida pela S.Q.Total) pode ser
subdividida em duas partes:
1. Uma parte que depende da magnitude do coeficiente βˆ1, isto e´, depende
do quanto o modelo explica (medida pela S.Q.Reg);
2. Outra que depende da falta de ajuste do modelo ou o quanto o modelo
na˜o explica (medida pela S.Q.Res)
Note-se que a S.Q.Reg, ale´m de depender da magnitude do coeficiente de
regressa˜o, depende, tambe´m, da soma de quadrados de desvios dos X,s. Por-
tanto, e´ importante que os valores de X sejam bem escolhidos, de forma que
a variac¸a˜o fique representada adequadamente e que a magnitude de S.Q.Reg
possa ser atribu´ıda basicamente ao coeficiente de regressa˜o. O coeficiente de
determinac¸a˜o, definido por
r2 =
S.Q.Reg
S.Q.Total
,
indica a proporc¸a˜o da variac¸a˜o de Y que e´ “ explicada”pela regressa˜o. Note que
0 ≤ r2 ≤ 1.
Se estamos interressados em estimar valores de Y a partir de valores de X, a
regressa˜o sera´ tanto mais u´til quanto mais pro´ximo de um estiver o valor de r2.
Vamos, agora, verificar a decomposic¸a˜o da soma de quadrados total e calcular
o valor do coeficiente de determinac¸a˜o para o exemplo apresentado na sec¸a˜o 1.3.
Da Tabela 1 obtemos
11
S.Q.Total =
n∑
i=1
(Yi − Y¯ )2
=
n∑
i=1
Y 2i − nY¯ 2
=
n∑
i=1
Y 2i −
(
n∑
i=1
Yi)
2
n
= 294− 250 = 44
S.Q.Reg = βˆ21
n∑
i=1
(Xi − X¯)2
= βˆ21

n∑
i=1
X2i −
(
n∑
i=1
Xi)
2
n

= 1×
[
126− 30
2
10
]
= 36
S.Q.Res = S.Q.Total− S.Q.Reg
= 44− 36 = 8
Esta e´ uma maneira usual de obter os valores das va´rias somas de quadrados.
A t´ıtulo de ilustrac¸a˜o para uma melhor compreensa˜o do que esta´ sendo feito,
vamos calcular a S.Q.Reg. e S.Q.Res. diretamente da sua definic¸a˜o; para isso
precisamos obter inicialmente, os valores Yˆi e εi = Yi − Yˆi, apresentados na
Tabela 2.
S.Q.Reg =
n∑
i=1
(Yˆi − Y¯ )2
= (−3)2 + (−2)2 + ...+ 22 + 32
= 36
que e´ o mesmo valor obtido anteriormente, pela expressa˜o
S.Q.Reg = βˆ21
n∑
i=1
(Xi − X¯)2
12
Tabela 2: Valores de Xi, Yi, Yˆi, yˆi = (Yˆi − Yˆ ) e εi
Xi Yi Yˆi = 2 +X yˆi εi
0 3 2 -3 +1
1 2 3 -2 -1
1 3 3 -2 0
2 5 4 -1 +1
3 4 5 0 -1
3 4 5 0 -1
4 7 6 +1 +1
5 6 7 +2 -1
5 7 7 +2 0
6 9 8 +3 +1
O valor da soma de quadrados residual, obtido anteriormente por diferenc¸a,
pode agora ser obtido diretamente:
S.Q.Res =
n∑
i=1
ε2i
= +1 + (−1) + 0 + ....+ 0 + 1
= 8
Utilizando os valores obtidos da S.Q.Reg e S.Q.Total o valor do coeficiente
de determinac¸a˜o e´:
r2 =
36
44
= 0, 818 ou 81, 8%
1.4 Valor esperado das Somas de Quadrados
(a) Soma de Quadrados Total
E(S.Q.Total) = β21
n∑
i=1
(Xi − X¯)2 + (n− 1)σ2 (2)
(b) Soma de Quadrados de Regress~ao
E(S.Q.Reg) = β21
n∑
i=1
(Xi − X¯)2 + σ2 (3)
(c) Soma de Quadrados Resı´dual
E(S.Q.Res) = E(S.Q.Total)− E(S.Q.Reg) = (n− 2)σ2 (4)
1.5 Ana´lise de variaˆncia da regressa˜o
Os valores das esperanc¸as das somas de quadrados, apresentadas no item
anterior, justificam que se associe a`s somas de quadrado total, de regressa˜o e
residual n - 1, 1, n -2 graus de liberdade, respectivamente.
13
Por definic¸a˜o, os quadrados me´dios sa˜o obtidos dividindo as somas de qua-
drados pelos respectivos graus de liberdade.
Enta˜o, para o caso de uma regressa˜o linear simples, temos
Q.M.Reg. = S.Q.Reg.
e
Q.M.Res. =
S.Q.Res.
n− 2
Lembrando (5) e (6), obtemos
E(Q.M.Reg) = β21
n∑
i=1
(Xi − X¯)2 + σ2 (5)
e
E(Q.M.Res) = σ2(6)
De posse destes resultados, podemos conduzir a ana´lise de variaˆncia da re-
gressa˜o linear simples, conforme o esquema seguinte
Tabela 3: Esquema de ana´lise de variaˆncia
Causas de Variac¸a˜o G.L S.Q Q.M E(Q.M.)
Regressa˜o 1 βˆ1
2
(
n∑
i=1
X2i −D
)
S.Q.Reg
1
β21
n∑
i=1
(Xi − X¯)2 + σ2
Res´ıduo n - 2 por diferenc¸a S.Q.Res
n−2 σ
2
Total n - 1
n∑
i=1
Y 2i − C
em que G.L = Graus de Liberdade; S.Q = Soma de Quadrados; Q.M = Qua-
drados Me´dios. Sendo
D =

n∑
i=1
Xi

2
n e C =

n∑
i=1
Yi

2
n
Considerando as diferentes amostras aleato´rias de tamanho n que poderiam
ser obtidas a partir da populac¸a˜o de pares de valores (X,Y), e sendo verdadeiras
as 6 pressuposic¸o˜es dadas na subsec¸a˜o 1.2, conclu´ımos que:
(a) o Q.M.Res. e´ uma estimativa na˜o tendenciosa da variaˆncia residual (σ2);
(b) o Q.M.Reg. e´, em me´dia, igual a essa mesma variaˆncia residual (σ2)
somada ao produto de
n∑
i=1
(Xi − X¯)2 pelo quadrado do paraˆmetro β21 . E´
claro que se β21 = 0, o Q.M.Reg e´, em me´dia, igual a σ
2.
14
Na˜o o faremos aqui, mas pode-se demonstrar que, se os erros teˆm distribuic¸a˜o
normal e se β1 = 0, o quociente
F =
Q.M.Reg
Q.M.Res
tem distribuic¸a˜o de F com 1 e n -2 graus de liberdade.
Enta˜o, para testar a hipo´tese
H0 : β1 = 0,
ao n´ıvel de significaˆncia adotado, podemos utilizar a estat´ıstica F. Nesse caso,
o procedimento consiste em rejeitar H0 para todo F maior ou igual ao F cr´ıtico
com 1 e n− 2 graus de liberdade, relativo ao n´ıvel de significaˆncia adotado.
De posse destes resultados, temos um acre´cimo no quadro da ana´lise de
variaˆncia da regressa˜o linear simples, conforme o esquema seguinte
Tabela 4: Esquema de ana´lise de variaˆncia
C.V G.L S.Q Q.M E(Q.M.) F
Regressa˜o 1 βˆ1
2
(
n∑
i=1
X2i −D
)
S.Q.Reg
1
β21
n∑
i=1
(Xi − X¯)2 + σ2 Q.M.RegQ.M.Res
Res´ıduo n - 2 por diferenc¸a S.Q.Res
n−2 σ
2
Total n - 1
n∑
i=1
Y 2i − C
Note que, se essa hipo´tese e´ verdadeira, tanto o Q.M.Reg como o S.Q.Res sa˜o
em me´dia, iguais a σ2 e o valor F tende a 1. Para β1 6= 0 teremos E(Q.M.Reg) >
E(Q.M.Res), e o valor de F tende a ser superior a 1. Para ilustrar a aplicac¸a˜o
desses conceitos, voltemos a considerar o exemplo nume´rico da Tabela 1. Para
este exemplo, obtemos a seguinte tabela de ana´lise de variaˆncia:
De posse destes resultados, podemos conduzir a ana´lise de variaˆncia da re-
gressa˜o linear simples, conforme o esquema seguinte
Tabela 5: Esquema de ana´lise de variaˆncia
C.V G.L S.Q Q.M F
Regressa˜o 1 36 36 36
Res´ıduo 8 8 1
Total 9 44
Ao n´ıvel de significaˆncia de 5% e para 1 e 8 graus de liberdade, o valor cr´ıtico
de F e´ 5,32 (ver tabela de valores cr´ıticos de F). O valor de F calculado, sendo
superior ao valor cr´ıtico, e´ significativo ao n´ıvel de 5%. Consequentemente,
rejeitamos a hipo´tese H0 : β1 = 0 em favor da hipo´tese alternativa Ha : β1 6= 0,
a esse n´ıvel de significaˆncia.
15
1.6 Estimativas das variaˆncias das estimativas dos paraˆ-
metros, testes de hipo´teses a respeito dos paraˆmetros
e respectivos intervalos de confianc¸a
Na subsec¸a˜o 1.3.2 deduzimos que
V (βˆ1) =
σ2
n∑
i=1
(Xi − X¯)2
e que
V (βˆ0) =
 1n + X¯
2
n∑
i=1
(Xi − X¯)2
σ2
As respectivas estimativas sa˜o obtidas substituindo σ2 por s2 = Q.M.Res.;
ou seja,
Vˆ (βˆ1) = s
2(βˆ1) =
s2
n∑
i=1
(Xi − X¯)2
(7)
Vˆ (βˆ0) = s
2(βˆ0) =
 1n + X¯
2
n∑
i=1
(Xi − X¯)2
 s2 (8)
As estimativas dos desvios padro˜es s2(βˆ0) e s
2(βˆ1) sa˜o obtidas extraindo a
raiz quadrada das respectivas estimativas de variaˆncia.
Demonstra-se que, sendo va´lidas as seis pressuposic¸o˜es apresentadas na sub-
sec¸a˜o 1.2, inclusive a que estabelece a normalidade da distribuic¸a˜o dos erros,
enta˜o o quociente
t(βˆ1) =
βˆ1 − β1
s(βˆ1)
e t(βˆ0) =
βˆ0 − β0
s(βˆ0)
tem distribuic¸a˜o de t com n− 2 graus de liberdade.
Os valores de t(βˆ1) e t(βˆ0) podem ser utilizados para testar hipo´teses sobre
os valores dos paraˆmetros, como ilustraremos a seguir com base no exemplo
nume´rico que estamos desenvolvendo.
Calculemos, inicialmente, as estimativas das variaˆncias de β1 e de β0.
Vˆ (βˆ1) =
s2
n∑
i=1
(Xi − X¯)2
=
1
36
16
Vˆ (βˆ0) =
 1n + X¯
2
n∑
i=1
(Xi − X¯)2
 s2 = 110 + 936
As estimativas dos desvios padro˜es sa˜o
s(βˆ1) =
1
6
e
s(βˆ0) =
√
0, 35
Para testar a hipo´tese H0 : β1 = 0, contra a hipo´tese alternativa Ha : β1 6= 0,
ao n´ıvel de significaˆncia de 5%, calculamos
t(β1) =
1− 0
1/6
= 6
Para um teste bilateral, o valor cr´ıtico de t com 8 graus de liberdade, ao n´ıvel
de significaˆncia de 5%, e´ 2,306 (ver tabela de valores cr´ıticos de t). Portanto, o
valor calculado t(β1) e´ significativa ao n´ıvel de 5%, ou seja, rejeitamos H0 em
favor de Ha, a esse n´ıvel de significaˆncia.
Note que este teste e´ perfeitamente equivalente ao teste F feito na ana´lise de
variaˆncia, uma vez que o valor de F calculado e´ igual ao quadrado do valor de
t calculado e que o valor cr´ıtico de F e´ igual ao quadrado do valor cr´ıtico de t.
Consideremos, agora, que desejamos testar a hipo´tese H0 : β0 = 3 contra
a hipo´tese alternativa Ha : β0 < 3, ao n´ıvel de significaˆncia de 5%. Para isso
calculamos
t(β0) =
2− 3√
0, 35
= −1, 690
A regia˜o de rejeic¸a˜o para este teste e´ t < −1, 860. Como o valor calculado
na˜o pertence a esse intervalo, ele na˜o e´ significativo, ou seja, na˜o rejeitamos, ao
n´ıvel de significaˆncia de 5%, a hipo´tese H0 : β0 = 3.
Tambe´m podem ser obtidos intevalos de confianc¸a para os paraˆmetros. Sendo
t0 o valor cr´ıtico de t com n − 2 graus de liberdade e ao n´ıvel de confianc¸a
estabelecido, os intervalos de confianc¸a para β1 e para β0 sa˜o, respectivamente,
βˆ1 − t0s(βˆ1) < β1 < βˆ1 + t0s(βˆ1)
e
βˆ0 − t0s(βˆ0) < β0 < βˆ0 + t0s(βˆ0)
Vamos determinar, no exemplo nume´rico que estamos desenvolvendo, o in-
tervalos de confianc¸a para β1 ao n´ıvel de confianc¸a de 90%. O valor cr´ıtico de t
para 8 graus de liberdade e´ 1,860. Enta˜o o intervalo de 90% de confianc¸a e´
1− 1, 860× 1
6
< β1 < 1 + 1, 860
1
6
0, 69 < β1 < 1, 31
17
1.7 Teste para falta de ajuste (ou teste de linearidade)
Ja´ foi visto que o
Q.M.Res. =
1
n− 2
n∑
i=1
εˆ2 = (Yi − Yˆi)2
da ana´lise de variaˆncia da regressa˜o e´ uma estimativa na˜o tendenciosa da
variaˆncia do erro ou da variaˆncia residual (σ2), sob a suposic¸a˜o de que o modelo
ajustado e´ correto. Quando dispomos, para um ou mais valores de X, de mais
de um valor observado de Y, e´ poss´ıvel obter uma outra estimativa da variaˆncia
do erro. Essa outra estimativa de σ2 e´ dada pelo quadrado me´dio do res´ıduo de
uma ana´lise de variaˆncia em que cada valor distinto de X e´ encarado como um
diferente “tratamento ”a que esta´ sendo submetida a varia´vel Y. Temos, enta˜o,
dois res´ıduos; nesta sec¸a˜o, vamos nos referir primeiro, explicitamente, como “
res´ıduo de regressa˜o ”e ao segundo, simplesmente como “ res´ıduo”.
Para mostrar como e´ feita a ana´lise de variaˆncia, consideremos os dados da
Tabela 1, que esta˜o reagrupados na Tabela 6. Sendo K o nu´mero de valores
distintos de Xi, representamos por Tk(k = 1, 2, ...,K) os totais de tratamento,
isto e´, as somas dos valores de Yi, para cada valor distinto de Xi.
Sejam nk(k = 1, 2, ...,K) os nu´meros de observac¸o˜es de Yi para cada trata-
mento.
Tabela 6: Valores de Xi e Yi para uma amostra de 10 observac¸o˜es, agrupadas
conforme valores distintos de Xi
Valores distintos de Xi (Xk) Valores de Yi Totais (Tk)
0 3 3
1 2 e 3 5
2 5 5
3 4 e 4 8
4 7 7
5 6 e 7 13
6 9 9
Os valores me´dios de Y para cada valor distinto de Xi, chamados “ me´dias
de tratamentos”, sa˜o dados por
Y¯k =
Tk
nk
, k = 1, 2,...,K
A soma de quadrados de tratamentos (S.Q.T.) e´ dada por
S.Q.Trat. =
K∑
k=1
T 2k
nk
−
(
n∑
i=1
Yi
)2
n
(9)
E´ poss´ıvel demonstrar que a soma de quadrados de res´ıduo, isto e´, a soma
dos quadrados das diferenc¸as entre os valores observados (Yi) e as me´dias (Y¯k)
18
dos tratamentos correspondentes, pode ser obtida subtraindo a S.Q.Trat. da
S.Q.Total.
Considerando 9 e lembrando que
S.Q.Total =
n∑
i=1
Y 2i −
(
n∑
i=1
Yi
)2
n
conclu´ımos que
S.Q.Res. =
n∑
i=1
Y 2i −
K∑
k=1
T 2k
nk
(10)
Com base nas esperanc¸as dessas somas de quadrados, justifica-se a associac¸a˜o
de K - 1 e n - K graus de liberdade a` S.Q.Trat. e S.Q.Res., respectivamente.
No caso do exemplo nume´rico que estamos desenvolvendo temos que
S.Q.Total = 44;
S.Q.Trat =
32
1
+
52
2
+
52
1
+
82
2
+
72
1
+
132
2
+
92
1
− 50
2
10
(11)
= 293− 250 = 43,
com K -1 = 6 graus de liberdade.
S.Q.Res. = 44− 43 = 1
com n- K = 3 graus de liberdade.
Vimos anteriormente que
S.Q.Res. da Reg. = 8
A`s diferenc¸as entre me´dias de tratamentos (Y¯k) e os respectivos valores de
Y estimados pela regressa˜o (Yˆk) associamos a soma de quadrados de “ falta de
ajuste ”, definida por
S.Q. Falta de Aj. =
K∑
k=1
nk(Y¯k − Yˆk)2
(12)
E´ poss´ıvel demonstrar que
S.Q.Res.daReg. = S.Q.Res+ S.Q.FaltadeAj.
19
ou
S.Q.FaltadeAj. = S.Q.Res.daReg.− S.Q.Res
com (n-2)-(n -K) = K -2 gruas de liberdade.
Uma vez que
S.Q.Res. da Reg. = S. Q. Total - S.Q.Reg.
e
S.Q.Res. = S.Q.Total − S.Q.Trat.;
temos, alternativamente, que
S.Q.FaltadeAj. = S.Q.Trat.− S.Q.Reg. (13)
com (K-1)-1 = K - 2 graus de liberdade.
Para o exemplo nume´rico que estamos desenvolvendo, temos, de acordo com
13,
S.Q.FaltadeAj. = 8− 1 = 7,
com K -2 = 5 graus de liberdade.
Esta´ claro que o mesmo valor seria obtido substituindo a S.Q.Reg. da
S.Q.Trat. O leitor pode verificar, tambe´m, que o mesmo resultado e´ obtido
utilizando 13.
Constru´ımos, assim, a Tabela 7, de ana´lise de variaˆncia.
Tabela 7: Ana´lise de variaˆncia
C.V G.L S.Q Q.M F
Regressa˜o 1 36 36 36
Res´ıduo de Regressa˜o 8 8 1
Falta de Ajuste 5 7 1,4 4,2
Res´ıduo 3 1 0,33
Total 9 44
Ao n´ıvel de significaˆncia de 5%, o valor cr´ıtico de F com 5 e 3 graus de liber-
dade e´ 9,01. O resultado obtido mostra que a “ falta de ajuste”na˜o e´ significativa
ao n´ıvel de 5%.
Nos casos em que a “ falta de ajuste”´e significativa, conclu´ımos que o modelo
linear utilizado na˜o e´ apropriado. Nesses casos, o quadrado me´dio do res´ıduo
da regressa˜o na˜o estimaria corretamente a variaˆncia residual (σ2), pois estaria
incluindo um erro sistema´tico devido ao uso de um modelo inapropriado.
20
2 Exerc´ıcios
Questa˜o 1. E´ dada uma amostra de 10 pares de valores
X Y
-2 0
-2 0
-1 2
-1 3
0 4
0 4
1 5
1 6
2 8
2 8
Admite-se que as varia´veis X e Y esta˜o relacionadas de acordo com o modelo
Yi = β0 + β1Xi + εi, em que os εi sa˜o varia´veis aleato´rias independentes com
distribuic¸a˜o normal de me´dia zero e variaˆncia σ2.
(a) Determine as estimativas dos paraˆmetros de regressa˜o linear.
(b) Teste H0 : β1 = 0 ao n´ıvel de significaˆncia de 5%.
(c) Calcule o coeficiente de determinac¸a˜o.
(d) Determine a estimativa de Y para X = 3.
(e) Teste a validade do modelo linear para esses dados.
Resposta:
(a) Yˆ = 4 + 1, 9X;
(b) F = 320, 89, rejeita-se H0 : β1 = 0;
(c) r2 = 0, 976;
(d) Yˆ = 9, 7;
(e) O valor de F para “ falta de ajuste”´e 1,33, na˜o significativo ao n´ıvel de 5%.
Na˜o se rejeita o modelo linear;
Questa˜o 2 Acredita-se que a umidade de um produto infuencia a densidade
final do produto. Num experimento, a umidade foi controlada e a densidade
final foi medida resultando os seguintes dados (codificados).
umidade(X) 4,7 5,0 5,2 5,2 5,9 4,7 5,9 5,2 5,2 5,3 5,9 5,6 5,6
densidade(Y) 3 3 4 5 10 2 9 3 3 7 6 6 4
(a) Se adotarmos o modelo de regressa˜o linear, qual o significado pra´tico de
β1?
(b) Ajuste o modelo e construa a ANOVA.
(c) Teste as hipo´teses H0 : β1 = 0 versus H1 : β1 6= 0. Que modelo voceˆ
adotaria para esses dados?
21
Resposta:
(a) β1 sera´ a mudanc¸a me´dia ocasionada na densidade do produto, por uma
mudanc¸a unita´ria na umidade;
(b) βˆ1 = 5, 073, βˆ0 = −21, 848 e Fcalculado = 30, 27;
(c) O modelo linear proposto e´ adequado.
Questa˜o 3 Os dados a seguir proveˆm de um experimento para testar o desem-
penho de uma ma´quina industrial. Utilizaram neste experimento uma mistura
de o´leo diesel e ga´s, derivados de materiais destilados orgaˆnicos. O valor da ca-
pacidade da ma´quina em cavalo vapor (HP) foi coletado a diversas velocidades
medidas em rotac¸o˜es por minuto (rpm × 100).
X Y X Y X Y X Y
22,0 64,03 15,0 48,85 18,0 52,90 15,0 45,79
20,0 62,47 17,0 51,17 16,0 48,84 17,0 51,17
18,0 54,94 19,0 58,00 14,0 42,74 19,0 56,65
16,0 48,84 21,0 63,21 12,0 36,63 21,0 62,61
14,0 43,73 22,0 64,03 10,5 32,05 23,0 65,31
12,0 37,48 20,0 62,63 13,0 39,68 24,0 63,89
X
=velocidade e Y = capacidade.
Admitindo-se que as varia´vies X e Y esta˜o relacionadas de acordo com o
modelo Yi = β0 + β1Xi + εi, pede-se:
(a) Obter a equac¸a˜o ajustada e trac¸ar seu gra´fico. Mostre tambe´m o diagrama
de dispersa˜o;
(b) Calcule o coeficiente de determinac¸a˜o e interprete;
(c) Verifique que
n∑
i=1
εˆi = 0;
(d) Verifique que
n∑
i=1
Yi =
n∑
i=1
Yˆi;
(e) Interprete a estimativa encontrada para β1;
Questa˜o 4. E´ dada uma amostra de 5 pares de valores:
X Y
1 3,0
2 7,5
3 7,0
4 11,5
5 11,0
Admite-se que as varia´veis X e Y esta˜o relacionadas de acordo com o modelo
Yi = β0 + β1Xi + εi, em que os εi sa˜o varia´veis aleato´rias independentes com
distribuic¸a˜o normal de me´dia zero e variaˆncia σ2.
(a) Determine as estimativas dos paraˆmetros da regressa˜o linear;
22
(b) Calcule o coeficiente de determinac¸a˜o e fac¸a a ana´lise de variaˆncia da
regressa˜o, considerando o n´ıvel de significaˆncia de 5%;
(c) Teste, ao n´ıvel de significaˆncia de 0,5%, a hipo´tese H0 : β1 = −2 contra a
hipo´tese alternativa Ha : β1 6= −2;
(d) Teste, ao n´ıvel de significaˆncia de 0,5%, a hipo´tese H0 : β0 = 13 contra a
hipo´tese alternativa Ha : β0 < 13.
Resposta:
(a) Yˆ = 2 + 2X;
(b) r2 = 0, 842; F = 16, significativo;
(c) t = 8, significativo;
(d) t = −6, 63, significativo.
Questa˜o 5. Mostre que βˆ1 e´ um estimador consistente de β1.
Dica: Para mostrar que βˆ1 e´ consistente, basta mostrar que E(βˆ1) =
β1 e lim
n→∞V (βˆ1) = 0.
Questa˜o 6. A partir de uma amostra de 27 pares de valores foi obtida a
equac¸a˜o de regressa˜o de Y em relac¸a˜o a X
Yˆ = 25, 0 + 2, 00X
Sabendo que s = 1, 50(s2 = Q.M.Res.), que a estimativa do desvio padra˜o de X
e´ s(X) = 3, 00 e que X¯ = 7, 50,
(a) determine o intervalo de confianc¸a do coeficiente de regressa˜o ao n´ıvel de
confianc¸a de 95%;
(b) teste, ao n´ıvel de significaˆncia de 1%, a hipo´tese de que o coeficiente de
regressa˜o da populac¸a˜o e´ 1,70.
Resposta:
(a) 2± 0, 202;
(b) t = 3, 054, significativo.
Questa˜o 7. Numa ana´lise de regressa˜o (Yi = β0 + β1Xi + εi) foram obtidos, a
partir de uma amostra de 6 pares de valores X e Y, os seguintes resultados:
r2 =
16
25
; s(X) = 3; s(Y ) = 5; X¯ = 3 e Y¯ = 10
(a) Determine o intervalo de 95% de confianc¸a para β1, sabendo que Y e´ uma
func¸a˜o crescente de X;
(b) Teste, ao n´ıvel de significaˆncia de 5%, a hipo´tese H0 : β0 = 0 contra a
hipo´tese alternativa Ha : β0 > 0.
Resposta:
(a) -0, 06 a + 2,72;
(b)t = 2, 954, significativo.
Questa˜o 8. Sa˜o dados os seguintes valores, obtidos de uma amostra aleato´ria
com 10 observac¸o˜es:
23
X Y
0 2,5; 3,5
1 1; 3
2 2; 4
3 0; 2
4 0,5; 1,5
Admite-se que as varia´veis X e Y esta˜o relacionadas de acordo com o modelo
Yi = β0 + β1Xi + εi, em que os εisa˜o varia´veis aleato´rias independentes com
distribuic¸a˜o normal de me´dia zero e variaˆncia σ2.
(a) Determine a reta de regressa˜o de Y em relac¸a˜o a X, de acordo com o
me´todo dos mı´nimos quadrados;
(b) Verifique se ha´ razo˜es para rejeitar o modelo linear, ou seja, teste a “falta
de ajuste”;
(c) Calcule o coeficiente de determinac¸a˜o e verifique se e´ estatisticamente di-
ferente de zero, atrave´s do teste F, considerando um n´ıvel de significaˆncia
de 5%;
(d) Teste a hipo´tese H0 : β1 = 0 contra a hipo´tese altenativa Ha : β1 > 0, ao
n´ıvel de significaˆncia de 5%;
(e) Teste a hipo´tese H0 : β0 = 1 contra a hipo´tese altenativa Ha : β1 6= 0, ao
n´ıvel de significaˆncia de 1%;
Resposta:
(a)Yˆ = 3− 0, 5X;
(b) O valor de F para falta de ajuste e´ igual a 5/7, na˜o significativo;
(c) r2 = 1/3; F = 4, na˜o significativo;
(d) t = −2, na˜o significativo;
(e) t = 3, 27, na˜o significativo.
24
3 BIBLIOGRAFIA
DEMETRIO, C.G.B.; ZOCCHI, S, S. Modelos de Regressa˜o. Piracicaba:
2006.
HOFFMANN, R.; VIEIRA, S. Ana´lise de Regressa˜o - Uma introduc¸a˜o
a E´conometria. 2ª edic¸a˜o, Sa˜o Paulo, 1983.
25

Continue navegando