Regressão linear simples

•

UFPE

0

Aline Roberta

20/09/2018

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Gestão de Produção

9.152 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Regressão Linear Simples
Econometria 
Alexandre Gori Maia
Bibliografia Básica:
Maia, Alexandre Gori (2017). Econometria: conceitos e aplicações. Cap. 1-3; 5.
Ementa:
• Definição;
• Estimador de MQO para RLS;
• Teorema de Gauss-Markov;
• Variância dos Estimadores;
• Teste t para os coeficientes;
• Análise de Varância
Mínimos Quadrados - EQT
Y1
1 Passo) Definir Erro Quadrático Total:

Y2 Y3 Y4 Y5
e1
e2
e3
e4
e5 e2 = Y2 – 
e3 = Y3 – 
e4 = Y4 – 
e5 = Y5 – 
2
5
2
4
2
3
2
2
2
1 e e e e e EQT 
2
5
2
4
2
3
2
2
2
1 θ)Y θ)Y θ)Y θ)Y θ)Y EQT  (((((
 θ)(Y ) θ ( EQT
5
1i
2
i


Supondo que Y seja uma função de : Yi =  + ei
e1 = Y1 – 
Os erros ei
representam os 
erros de 
mensuração de Y a 
partir de .
A função EQT é 
uma medida do 
erro total que 
cometemos ao 
utilizar  para 
estimar Y na 
função Yi=+ei
EQT - Exemplo
Y1 = 100
Y2 = 200
Y3 = 300
Y4 = 400
Y5 = 500
Seja o conjunto 
de valores de Y θ)(Y ) θ ( EQT
5
1i
2
i


EQT() 
300.000 100
150.000 200
100.000 300
150.000 400
300.000 500
0
50.000
100.000
150.000
200.000
250.000
300.000
350.000
0 100 200 300 400 500 600*
Supondo que Y seja uma função de : Yi =  + ei
Para este conjunto de dados, o valor de  que minimizaria a função 
EQT (*) seria o 300.
Estimador de Mínimos Quadrados
2 Passo) Encontrar  que minimiza EQT:
 )θ(Y e EQT
n
1i
2
i
n
1i
2
i 

 ˆˆ
^

E
Q
T
0
ˆ



 θ
EQT
*
^
0 
 θd
EQTd

ˆ



n
1i
i 1))(θ2(Y 
 θd
EQTd ˆ
ˆ 


n
1i
n
1i
i θ2Y2
ˆ
0θ2nY2 
 θd
EQTd n
1i
i  

ˆ
ˆ n
Y
 θ
n
1i
i
ˆ
Para uma amostra de tamanho n teremos:
ii eY ˆ
ˆ 
^
Função de Regressão Populacional
X
Y
Yi =  + Xi + ei Modelo de Regressão 
Linear Simples para Y
na população
Y é a variável dependente ou regressando
X é a variável independente ou explanatória
Onde:
Xi
E(Y/Xi)
E(Y/Xi) é a esperança condicional de Y e representa o valor esperado de Y
para o i-ésimo valor de X
 é o intercepto ou constante do modelo
 é o coeficiente angular do modelo
ei é o erro, ou variação de Yi não explicada pelo modelo
ei
Yi
Erro de previsão:
Seja Xi a i-ésima observação de X, teremos:
Yi é o valor observado em Y para o i-ésimo valor de X
E(Y/Xi) =  + Xi
ou
Seja a relação entre Y e X na população:
Interpretação dos Coeficientes
Para cada valor controlado de X, teremos 
um valor esperado de Y.
X1 X
Y
E(Y1)
e1
X2 X3
e2
e3
O erro representa variáveis omitidas ou 
mesmo dificuldades para mensurar aquelas 
presentes no modelo. 
Pressupõe-se que o efeito do erro seja 
mínimo e que este esteja aleatoriamente 
distriuído em torno da reta de regressão.
X
Y
E(Yi)
Xi
X
Y
0
E(Y/0)=

  )0()0/(YE
 


dX
Xd
dX
YdE
X
YE )()()(
Para compreendermos a interpretação 
dos coeficientes do modelo:
O intercepto  representa o valor esperado de Y 
quando o valor controlado de X for nulo:
O coeficiente angular , por sua vez, representa 
a variação marginal no valor esperado de Y 
dada uma variação unitária em X
Função de Regressão Amostral
X
Y
Yi =  + Xi + ei
Função de regressão amostral:
Yi =  + Xi
Y previsto pelo ajuste:
^
Xi
Yi
^
ei
ei = Yi – Yi
Resíduo, valor não previsto pelo ajuste:
^
Função de Erro Quadrático Total (EQT):
 e e e EQT
2
n
2
2
2
1 ˆ...ˆˆ 
2
nn
2
22
2
11 )YY)YY )YY EQT
ˆ(...ˆ(ˆ( 
 )Y(Y EQT
n
1i
2
ii

 ˆ )]Xβ[Y
n
1i
2
ii

 ˆˆ(
Em uma amostra, a relação entre Y e X será dada por:
^ ^ ^
^ ^
^
^
Método de Mínimos Quadrados
X
Y
ê2
ê1
ê3
ê4 ê5
ê6 ên
 )]ˆˆ([
1
2


n
i
ii XβαYEQT
Mínimos Quadrados Ordinários:
O método de mínimos quadrados ordinários (MQO) 
ajustará a reta que apresentar as menores distâncias 
quadráticas entre os valores observados e a reta (êi). 
Em outras palavras, os estimadores de MQO dos 
parâmetros  e  minimizarão o valor da função de 
Erro Quadrático Total (EQT), dada por:
  
 n
i ii
XY2 
EQT
1
0)1)](ˆˆ([
ˆ

Para encontrar os valores que minimizam a função EQT:
XβY 1
ˆˆ 







n
1i
22
i
n
1i
ii
XnX
YXnYX
βˆ
  
 n
i iii
XXY2 
 β
 EQT
1
0))](ˆˆ([
ˆ

(1)
(2)
Estimadores de MQO
Estimadores de Mínimos Quadrados Ordinários: 
iii eXY  
Seja o modelo de Regressão Linear Simples (RLS) para o conjunto de dados 
populacionais e sua equivalente representação na amostra:
Os estimadores de MQO para os parâmetros  e , ou seja, os estimadores que 
minimizam o valor de êi
2, serão dadas por:
XβY ˆˆ 







n
i
i
n
i
ii
XnX
YXnYX
β
1
22
1ˆe
Para simplificar os cálculos, podemos demonstrar que essas expressões podem
também ser dadas como função dos desvios de X e Y em relação às suas
respectivas médias amostrais:
XβY ˆˆ 











 
n
i
i
n
i
ii
n
i
i
n
i
ii
n
i
i
n
i
ii
x
Yx
x
yX
x
yx
β
1
2
1
1
2
1
1
2
1ˆe
Onde:
XXx ii  YYy ii 
e
(3)
(5)(4)
iii eXY ˆ
ˆˆ  
Estimadores de MQO - Exemplo
Y 
(Renda)
X 
(Anos 
Estudo)
4 1
8 4
10 6
12 7
Seja a relação entre renda familiar em salários mínimos (Y), anos de 
estudo (X) do responsável pela família:
iii eXY  
Para cada ano adicional de escolaridade da 
pessoa responsável, espera-se um acréscimo de 
1,98 SM na renda familiar. O rendimento esperado 
para famílias lideradas por pessoas sem 
escolaridade seria de 2,71 SMs.
A partir dos dados de uma amostra de 4 oobservações, os 
estimadores de MQO para a função amostral serão:
iii eXY ˆ
ˆˆ  
XβY ˆˆ 




n
i
i
n
i
ii
x
yx
β
1
2
1ˆ
29,1
21
27

71,2)5,4(29,15,8 
iii eXY ˆ29,171,2 
Distribuição Amostral dos Estimadores
Y
X
Seja uma população com 20 observações:
Y=+X+e
Função de 
Regressão
Populacional
Y=+X+e
Função ajustada
para amostra 1
^ ^
Os estimadores de MQO variarão aleatoriamente em função dos valores
observados na amostra. 
Y
X
^
Y=+X+e
Função ajustada
para amostra 2
^ ^ ^
Teorema de Gauss-Markov
Teorema de Gauss-Markov
Sob a hipótese da veracidade de alguns pressupostos, os estimadores obtidos pelo 
método de mínimos quadrados ordinários serão os Melhores Estimadores Lineares 
Não Viesados (MELNV, ou BLUE - Best Linear Unbiased Estimator).
Em outras palavras:
 )ˆE(
estimador não viesado
E:
)'ˆVar()ˆVar(  
estimador mais eficiente que ’, 
qualquer que seja ’ outro estimador 
de 
^
^
1 – Relação Linear
X
Y
Modelo é linear nas variáveis pois todos 
os expoentes de Y e X são iguais a 1.
iii eβXαY 
Modelo é linear nos parâmetros pois 
todos os expoentes dos parâmetros são 
iguais a 1.
X
Y iii eβXαY  2
Modelo não é linear nas variáveis pois o 
expoente de X não é igual a 1.
Modelo é linear nos parâmetros pois 
todos os expoentes dos parâmetros são 
iguais a 1.
Linearidade nos parâmetros 
e nas variáveisLinearidade nos parâmetros
2- Valores de X são Fixos
Y
XX2
E(Y2)
X1
E(Y1)
iii eXY  
Pressupõe que o valor de X seja controlado em repetidas amostras para 
se observar variações aleatórias de Y.
Premissa utilizada em inúmeras 
demonstrações, embora seja, muitas 
vezes, pouco factível. Nessas 
circunstâncias, cuidados adicionais 
deverão ser tomados para que as 
estimativas de MQO não sejam viesadas.
3 - Esperança Condicional Zero
Os erros apresentam esperança condicional zero, ou seja, esses não 
podem estar associados aos regressores.
A média dos erros associados a cada 
valor controlado de X será sempre 0, 
não importa qual seja o valor de X.
X
Y
Xi
E(Y/Xi)
ei
Yi
0)()|(  ii eEXeE ii XXYE  )/(
4 - Homocedasticidade
Homocedasticidade
2)/( ii XeVar
Heterocedasticidade
Y
XjX1
E(Y1)
X2
E(Y2)
Var(e2)=
2
Var(e1)=
2
Y
XjX1 X2
Var(e2)=
2
2E(Y1)
Var(e1)=
2
1
E(Y2)
A variabilidade dos erros deve ser constante, qualquer que seja o valor 
de :X
5 – Ausência de Autocorrelação
Não Autocorrelacionado
0)(),(   sttstt eeEeeCov
Autocorrelacionado
e
t
0)( stteeE
e
t
0)( stteeE
Não há correlação entre os erros do modelo regressão:
A autocorrelação é frequente em análise de séries temporais de dados 
espaciais.
Modelo Clássico de Regressão Linear
1) Relação Linear entre X e Y: 
O ajuste só é válido para relações lineares.
2) Os valores de X são fixos em repetidas amostras, não aleatórios:
Quem varia é o regressando, o regressor é fixo e dado, qualquer que seja a 
amostra. Fazemos a pressuposição que dado um valor de X, Y irá variar 
segundo uma distribuição de probabilidade com valor esperado dado por E(Y|Xi).
3) Esperança condicional dos erros igual a zero, ou seja, E(e|Xi)=0: 
É a mesma coisa afirmar que E(Y|Xi)=+Xi.
4) A variabilidade dos erros é constante, ou seja, E(ei
2)=2
Os erros são homocedásticos, ou seja, sua variância é a mesma para qualquer X.
5) Os erros são não autocorrelacionados, ou seja, E(eiej)=0: 
Não há relação entre valores ordenados dos erros segundo tempo ou espaço.
6) Os erros apresentam distribuição normal: 
Não é um pressuposto necessário para que os estimadores de MQO sejam 
MELNV, mas necessário para que as inferências sejam válidas.
M
o
d
e
lo
 C
lá
s
s
ic
o
 d
e
 R
e
g
re
s
s
ã
o
 L
in
e
a
r
Variância dos Estimadores
Variância dos estimadores de MQO: 
Caso os pressupostos do Teorema de Gauss-Markov sejam válidos, o método de 
MQO oferecerá estimadores não viesados para os coeficientes do modelo e para 
suas respectivas variâncias. As variâncias dos estimadores e seus respetivos 
estimadores serão dados por:
Seja o modelo de RLS:
iii eXY  


2
2
2)ˆ()ˆ(
ix
EVar

2
2
2
2)ˆ()ˆ( 



i
i
xn
X
EVar
Onde 2=Var(ei) é a variânica dos erros ou variância da regressão e 
2 seu
respectivo estimador, dado por:
2
ˆ
ˆ
2
2



n
ei
2
2
2
2
2
2
2
ˆ ˆ
1
ˆ 











ii
i
x
X
nxn
X
S


2
2
2
ˆ
ˆ
ix
S


  iiii yxye ˆˆ 22
^
onde
H0: =0 
H1: 0 
Então, para verificar que os estimadores de MQO são significativos:
Sob a hipótese de H0 ser 
verdadeiro temos...
),0(ˆ 2ˆ~N
0
ˆ
p/2 p/2
valor obtido pela amostra
p é a probabilidade de erro 
ao afirmar que  é 
significativo no modelo
Teste de hipótese para :
H0: =0 
H1: 0 
Sob a hipótese de H0 ser 
verdadeiro temos...
),0(ˆ 2
βˆ
~Nβ 
0
ˆ
p/2 p/2
p é a probabilidade de erro 
ao afirmar que  é 
significativo no modelo
Teste de hipótese para 1:
valor obtido pela amostra
Teste t para os Estimadores
Y
(Renda)
X
(Anos 
Estudo)
4 1
8 4
10 6
12 7
Seja a relação entre renda familiar em salários mínimos (Y), anos de 
estudo (X) do responsável pela família:
iii eXY  
A partir dos dados de uma amostra de 4 oobservações, as 
estimativas de MQO para a função amostral serão:
iii eXY ˆ
ˆˆ   iii eXY ˆ29,171,2 
Variância dos Estimadores - Exemplo
As estimativas das variâncias dos erros e dos estimadores de 
MQO serão:
2
2
2
2
2
2
ˆ 4165,01735,01429,0
21
5,4
4
1
ˆ
1


















ix
X
n
S
2
2
2
2
ˆ 0825,00068,0
21
1429,0ˆ

 ix
S


2
2
2 3780,01429,0
24
2857,0
2
ˆ
ˆ 





n
ei
H0: =0 
H1: 0 
Conhecendo os erros padrões e a fdp dos estimadores, temos que:
Aplicando a estatística de 
teste tn–2
2t
0
52,6
0,011
0,011
a probabilidade de erro ao 
afirmar que o intercepto é 
significativo no modelo é de 
0,2%
Teste de hipótese para 0:
H0: =0 
H1: 0 
Aplicando a estatística 
de teste tn–2
2t
0
6,15
0,002
0,002
a probabilidade de erro ao 
afirmar que a variável X é 
significativa no modelo é de 
0,4%
Teste de hipótese para 1:
42,0
71,20ˆ
ˆ





S
t
08,0
29,10ˆ
ˆ





S
t
Teste t- Exemplo
Análise de Variância
Y
Y



n
1i
2
i )YY(SQReg
ˆ 

n
1i
2
i )Y(YSTQ  

n
1i
2
i )iY(Y SQRes
ˆ
Y
Quando X explica Y Quando X não explica Y
Maior Soma dos 
Quadrados da 
Regressão
Menor Soma dos 
Quadrados da 
Regressão
X
Y
X
Y
^
Y
^
Soma Total dos Quadrados (STQ)
Mensura a variabilidade total da variável dependente. 
Soma dos Quadrados



n
i
i
n
i
i y)Y(YSTQ
1
2
1
2
Soma dos Quadrados da Regressão (SQReg)
Mensura a variabilidade da variável dependente explicada 
pelo modelo. 



n
i
ii
n
i
i
n
i
i yxx)YY(gSQ
1
1
1
22
1
1
2 ˆˆˆRe 
Soma dos Quadrados da Regressão (SQReg)
Mensura a variabilidade residual, não explicada pelo 
modelo. 



n
i
ii
n
i
i
n
i
i
n
i
ii yxye)Y(YsSQ
1
1
1
2
1
2
1
2 ˆˆˆRe 
Coeficiente de Determinação (R2):
Definição: Estima a proporção da variabilidade da 
variável dependente (Y) que é explicada pela(s) variável(eis) 
independente(s) do modelo de regressão.
1
Escala de R2:
independência 
linear
relação 
linear exata
Coeficiente de Determinação











 



n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
y
x
y
e
)Y(Y
)YY(
STQ
gSQ
R
1
2
1
2
2
1
1
2
1
2
1
2
1
2
2 ˆ
ˆ
1
ˆ
Re 
0 A significância das escalas depende muito da 
natureza da variável dependente
Análise de Variância
H0: 1=0 (o modelo não contribui)
H1: 10 (o modelo contribui)
Problema: O modelo contribui para explicar Y? 
Sob a hipótese 
de H0 ser 
verdadeiro 
temos...
2-n 1,F~
2)-SQRes/(n
SQReg
F
p
Dados:
 = nível de significância
SQReg = Soma dos Quadrados da Regressão
SQRes = Soma dos Quadrados dos Resíduos
n = número de observações 
2-SQRes/n
SQReg
F 
Conclusão:
Rejeito H0 se valor p  .
Análise de Variância
Tabela ANOVA (Analysis Of Variance)
Regressão
Resíduos
Total
Fonte
Soma dos 
Quadrados
GL
1
2-n
1-n
Quadrados 
Médios
1
SQReg
2-n
SQRes
F
2)-SQRes/(n
SQReg/1
F 
Rejeito H0 quando valor p – prob (F > F1, n-2) - for menorque 
nível de significância esperado ().
 

n
1i
2
i )Y(YSTQ
 

n
1i
2
i )YY(SQReg
ˆ


n
1i
2
ii )Y-(YSQRes
ˆ