Buscar

Regressão Linear Simples e MQO

Prévia do material em texto

O Modelo de 
Regressão Simples
y = β0 + β1x + u
Terminologia
„ No modelo de regressão linear simples, 
onde y = β0 + β1x + u, tipicamente nos
referimos a Y como variável dependente, 
resposta ou explicada
„ E X é a variável independente, explicativa, 
de controle, regressor ou covariável
Um pressuposto simples
„ O valor médio de u, o termo de erro, na 
população é 0. Ou seja,
E(u) = 0
„ Este não é um pressuposto restritivo, 
dado que podemos sempre usar β0 para
normalizar E(u) a 0
Média Condicional Zero
„ É necessário fazer um pressuposto
crucial sobre como u e x se relacionam
„ É desejável que saber algo sobre x não
nos forneça nenhuma informação sobre
u, tal que eles seja completamente não
relacionados. Isto é,
E(u|x) = E(u) = 0
que implica em
E(y|x) = β0 + β1x
.
.
E(y|x) como uma função linear de x, onde, para
qualquer x, a distribuição de y é centrada em E(y|x)
E(y|x) = β0 + β1x
y
f(y)
x1 x2
Mínimos Quadrados Ordinários
„ Idéia básica da regressão é estimar os
parâmetros populacionais a partir de uma
amostra
„ Denote {(xi,yi): i=1, …,n} uma amostra
aleatória de tamanho n da população
„ Para cada observação nesta amostra, 
yi = β0 + β1xi + ui
Linha de regressão populacional, pontos de dados 
amostrais e termos de erros associados
.
..
.
y4
y1
y2
y3
x1 x2 x3 x4
}
}
{
{
u1
u2
u3
u4
x
y E(y|x) = β0 + β1x
Derivando Estimativas de Mínimos
Quadrados
„ Para derivar as estimativas MQO, é
necessário compreender que o principal 
pressuposto, E(u|x) = E(u) = 0, também
implica que
Cov(x,u) = E(xu) = 0 
„ Por quê? Lembre-se a probabilidade
básica que Cov(X,Y) = E(XY) – E(X)E(Y)
Derivando Estimativas de Mínimos
Quadrados
„ Podemos escrever as 2 restrições
somente em termos de x, y, β0 e β1 , dado 
que
u = y – β0 – β1x
E(y – β0 – β1x) = 0
E[x(y – β0 – β1x)] = 0
„ Estas são chamadas restrições de 
momentos
Derivando MQO Usando o Método
de Momentos
„ A abordagem do método de momentos para a 
estimação implica impor as restrições de 
momento populacionais sobre os momentos
amostrais
„ O que isto significa? Lembre-se que para E(X), 
a média da distribuição populacional, um 
estimador amostral de E(X) é simplesmente a 
média aritmética da amostra
Mais sobre a Derivação de 
MQO
„ Queremos escolher valores dos parâmetros
que assegurem que as versões amostrais das
restrições de momentos sejam verdadeiras
„ As versões amostrais são:( )
( ) 0ˆˆ
0ˆˆ
1
10
1
1
10
1
=−−
=−−
∑
∑
=
−
=
−
n
i
iii
n
i
ii
xyxn
xyn
ββ
ββ
Mais sobre a Derivação de 
MQO
„ Dada a definição de uma média amostral, e 
propriedados dos somatórios, podemos
rescrever a primeira condição como: 
xy
xy
10
10
ˆˆ
ou
,ˆˆ
ββ
ββ
−=
+=
Mais sobre a Derivação de 
MQO
( )( )
( ) ( )
( )( ) ( )∑∑
∑∑
∑
==
==
=
−=−−
−=−
=−−−
n
i
ii
n
i
i
n
i
ii
n
i
ii
n
i
iii
xxyyxx
xxxyyx
xxyyx
1
2
1
1
1
1
1
1
11
ˆ
ˆ
0ˆˆ
β
β
ββ
Tal que a inclinação estimada
MQO é
( )( )
( )
( ) 0 dado
ˆ
1
2
1
2
1
1
>−
−
−−
=
∑
∑
∑
=
=
=
n
i
i
n
i
i
n
i
ii
xx
xx
yyxx
β
Resumo da estimativa de 
inclinação MQO
„ A estimativa da inclinação é a covariância
amostral entre x e y dividida pela variância
amostral de x
„ Se x e y são positivamente correlacionados, a 
inclinação será positiva
„ Se x e y são negativamente correlacionados, a 
inclinação será negativa
„ Portanto, é necessário que x varie na amostra
Mais MQO
„ Intuitivamente, MQO está ajustando uma reta
através de pontos amostrais tal que a soma dos 
quadrados dos resíduos seja a menor possível
(daí o termo mínimos quadrados)
„ O resíduo, û, é uma estimativa de um termo de 
erro, u, e é a diferenã entre a reta ajustada
(função de regressão amostral) e o ponto
amostral observado
Reta de regressão amostral, pontos de dados 
amostrais e termos de erros estimados associados
.
..
.
y4
y1
y2
y3
x1 x2 x3 x4
}
}
{
{
û1
û2
û3
û4
x
y
xy 10 ˆˆˆ ββ +=
Abordagem alternativa à derivação
„ Dada a idéia intuitiva de ajustar uma reta, podemos
pensar em um problema formal de minimização
„ Ou seja, queremos escolher parâmetros tais que
minimizem o seguinte:
( ) ( )∑∑
==
−−=
n
i
ii
n
i
i xyu
1
2
10
1
2 ˆˆˆ ββ
Abordagem alternativa
„ Usando cálculo para resolver o problema de 
minimização para os 2 parâmetros, obtemos as 
seguintes condições de primeira ordem, que são
as mesmas obtidas antes, multiplicadas por n
( )
( ) 0ˆˆ
0ˆˆ
1
10
1
10
=−−
=−−
∑
∑
=
=
n
i
iii
n
i
ii
xyx
xy
ββ
ββ
Propriedades algébricas de 
MQO
„ A soma dos resíduos de MQO é zero
„ Assim, a média amostral dos resíduos
MQO também é zero
„ A covariância amostral entre os
regressores e os resíduos MQO é zero
„ A reta de regressão MQO sempre passa
pela média da amostra
Propriedades algébricas
(formais)
xy
ux
n
u
u
n
i
ii
n
i
in
i
i
10
1
1
1
ˆˆ
0ˆ
0 
ˆ
 portanto, e 0ˆ
ββ +=
=
==
∑
∑∑
=
=
=
Mais terminologia
( )
( )
SQR SQE SQT :Então
(SQR) resíduos dos quadrados dos soma ˆ
(SQE) explicada quadrados dos soma ˆ
(SQT) totalquadrados dos soma 
:entãodefinir Podemos
 ˆˆ
explicada, não uma e explicada parte uma
de feita como observação cada empensar Podemos
2
2
2
+=
=
=−
=−
+=
∑
∑
∑
i
i
i
iii
u
yy
yy
uyy
Provando que SQT = SQE + SQR
( ) ( ) ( )[ ]
( )[ ]
( ) ( )
( )
( )∑
∑
∑ ∑∑
∑
∑∑
=−
+−+=
−+−+=
−+=
−+−=−
0 ˆˆ que sabemos e
SQE ˆˆ2 SQR 
ˆˆˆ2ˆ
ˆˆ
ˆˆ
22
2
22
yyu
yyu
yyyyuu
yyu
yyyyyy
ii
ii
iiii
ii
iiii
Qualidade do ajuste
„ Como pensar se nossa reta de regressão
amostral ajusta bem nossos dados amostrais?
„ Podemos calcular a fração da soma de 
quadrados total (SQT) que é explicada pelo
modelo; este é o R2 da regressão
„ R2 = SQE/SQT = 1 – (SQR/SQT)
Viés de MQO
„ Assumindo que o modelo populacional é linear 
nos parâmetros como em y = β0 + β1x + u
„ Assumindo que usamos uma amostra aleatória
de tamanho n, {(xi, yi): i=1, 2, …, n}, a partir do 
modelo populacional. Podemos escrever o 
modelo amostral como yi = β0 + β1xi + ui
„ Assumindo que E(u|x) = 0 e assim E(ui|xi) = 0
„ Assumindo que há variação em xi
Viés de MQO
„ Para pensar no viés, é necessário rescrever o 
estimador em termos do parâmetro populacional
„ Começando rescrevendo a fórmula como
( )
( )∑
∑
−≡
−=
22
21
onde
ˆ
xxs
s
yxx
ix
x
iiβ
Viés de MQO
( ) ( )( )
( ) ( )
( )
( ) ( )
( ) ii
iii
ii
iii
iiiii
uxx
xxxxx
uxx
xxxxx
uxxxyxx
∑
∑∑
∑
∑∑
∑∑
−+
−+−
=−+
−+−
=++−=−
10
10
10
ββ
ββ
ββ
Viés de MQO
( )
( ) ( )
( )
( )
211
2
1
2
ˆ
assim e
como rescritoser podenumerador o portanto
,0
x
ii
iix
iii
i
s
uxx
uxxs
xxxxx
xx
∑
∑
∑∑
∑
−+=
−+
−=−
=−
ββ
β
Viés de MQO
( )
( ) ( ) 1211
21
1ˆ
então ,1ˆ
que tal, seja
βββ
ββ
=⎟⎠
⎞⎜⎝
⎛+=
⎟⎠
⎞⎜⎝
⎛+=
−=
∑
∑
ii
x
ii
x
i
ii
uEdsE
uds
xxd
Resumo
„ As estimativas MQO de β1 e β0 não são 
viesadas
„ Prova depende dos 4 pressupostos – se 
algum pressuposto não é verificado, MQO 
não é necessariamente não viesado
„ Viés é umadescrição do estimador: em 
uma dada amostra, podemos estar “perto”
ou “longe” do parâmetro verdadeiro
Variância dos Estimadores
MQO
„ Sabendo que a distribuição amostral do nosso 
estimador está centrado em torno do parâmetro 
verdadeiro
„ Queremos saber sobre a dispersão desta 
distribuição
„ Mais fácil pensar sobre esta variância sob um 
pressuposto adicional, tal que
Var(u|x) = σ2 (Homocedasticidade)
Variância em MQO
Var(u|x) = E(u2|x)-[E(u|x)]2
E(u|x) = 0 →σ2 = E(u2|x) = E(u2) = Var(u)
„ σ2 é também a variância não condicional, 
chamada variância do erro
„ σ, a raiz quadrada da variância do erro é
chamado de desvio padrâo do erro
E(y|x)=β0 + β1x
Var(y|x) = σ2
Caso Homocedástico
.
.
E(y|x) = β0 + β1x
y
f(y|x)
x1 x2
Caso Heterocedástico
.
xx1 x2
yf(y|x)
x3
. . E(y|x) = β0 + β1x
Variância em MQO
( )
( ) ( )
( )1222222
2
2
2
222
2
2
2
2
2
2
2
211
ˆ1
11
11
1ˆ
βσσ
σσ
ββ
Varsss
dsds
uVardsudVars
udsVarVar
x
x
x
i
x
i
x
ii
x
ii
x
ii
x
==⎟⎠
⎞⎜⎝
⎛
=⎟⎠
⎞⎜⎝
⎛=⎟⎠
⎞⎜⎝
⎛=
⎟⎠
⎞⎜⎝
⎛=⎟⎠
⎞⎜⎝
⎛
=⎟⎟⎠
⎞⎜⎜⎝
⎛ ⎟⎠
⎞⎜⎝
⎛+=
∑∑
∑∑
∑
Resumo
„ Quanto maior a variância do erro, σ2, 
maior a variância do estimador da 
inclinação
„ Quanto maior a variabilidade em xi, 
menor a variância do estimador da 
variância 
„ Como resultado, um maior tamanho de 
amostra deveria diminuir a variância do 
estimador da inclinação
„ Problema: variância do erro é
desconhecida 
Estimando a Variância do Erro
„ Não conhecemos a variância do erro, σ2, 
porque não observamos os erros, ui
„ O que observamos são os resíduos, ûi
„ Podemos usar os resíduos para calcular
uma estimativa da variância do erro
Estimando a Variância do Erro
( )( ) ( )
( ) ( )2/ˆ2
1ˆ
é de viesadonãoestimador um Então,
ˆˆ
ˆˆ
ˆˆˆ
22
2
1100
1010
10
−=−=
−−−−=
−−++=
−−=
∑ nSQRun
u
xux
xyu
i
i
iii
iii
σ
σ
ββββ
ββββ
ββ
Estimando a Variância do Erro
( )
( ) ( )( ) 2121
1
2
/ˆˆe.p.
 , ˆ de padrão erro o obtemos por ˆ dosubstituin
ˆe.p. quelembrar 
regressão da padrão Erro ˆˆ
∑ −=
=
==
xx
s
i
x
σβ
βσσ
σβ
σσ

Continue navegando