Revisao1_Marta

•

PUC-RIO

Daniel Scott Camargo

26.06.2013

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 81 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 81 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 81 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria

6.228 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Econometria
Aula de Revisão
Marta AreosaMarta Areosa
marta@econ.puc-rio.br
Regressão Linear na População
Modelo: Yi = β0 + β1Xi + ui, i = 1,…, n 
 
• X é a variável independente ou regressor 
• Y é a variável dependente 
• β0 = intercepto 
2
• β0 = intercepto 
• β1 = inclinação 
• ui = o termo de erro da regressão 
• O termo de erro consiste em fatores omitidos (que 
influenciam Y, além de X) na regressão, ou em erros de 
medida em Y. 
Estimador de Mínimos Quadrados
Ordinários (MQO)
Como estimamos β0 e β1 usando dados? 
 
Mínimos Quadrados Ordinários (MQO): 
( )[ ]∑ +−n xy 2ˆˆmin ββ
3
 
{ } ( )[ ]∑
=
+−
i
ii xy
1
2
10
ˆ
,
ˆ
ˆˆmin
10
ββ
ββ
 
 
 Definindo: (valor predito) 
 (resíduo)
 
 
 Podemos reescrever como:
 



−≡
+≡
iii
ii
yyu
xy
ˆˆ
ˆˆ
ˆ 10 ββ
{ }∑
=
n
i
iu
1
2
ˆ
,
ˆ
ˆmin
10 ββ
Estimador de Mínimos Quadrados
Ordinários (MQO): CPOs
( )[ ]
( )[ ]






=+−
=+−
∑
∑
=
=
0ˆˆ
0ˆˆ
1
10
1
10
n
i
iii
n
i
ii
xyx
xy
ββ
ββ






=+
=+
⇒
∑∑∑
∑∑∑
===
===
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
i
n
i
yxxx
yx
11
2
1
1
0
11
1
1
0
ˆˆ
ˆˆ
ββ
ββ
4

∑
=1i 
∑∑∑
=== iii 111
∑∑∑
∑∑
===
==
=





+





=





+
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
i
yxxx
yxn
11
2
1
1
0
1
1
1
0
ˆˆ
ˆˆ
ββ
ββ






⇒
Estimador de Mínimos Quadrados
Ordinários (MQO): Interpretação das CPOs
Primeira CPO: 
 
 
 
YXy
n
x
n
yxn
n
i
i
n
i
i
n
i
i
n
i
i =+⇒





=





+⇒=





+ ∑∑∑∑
====
10
1
1
1
0
1
1
1
0
ˆˆ
1
ˆ
1
ˆˆˆ ββββββ
5
 
 
 
Interpretação: está sobre a reta de MQO 
 
nn iiii  ==== 1111
( )YX ,
Segunda Equação: 
 
 
 
 
Estimador de Mínimos Quadrados
Ordinários (MQO): Interpretação das CPOs
[ ] ( ) ( )
( )( ) ( )( )−+−=−+−⇒
−=





−⇒





=





+





−
∑∑
∑∑∑∑∑
=====
n
ii
n
ii
n
i
ii
n
i
ii
n
i
ii
n
i
i
n
i
i
YyXXxXxXXx
YyxXxxyxxxXY
1
11
1
11
2
1
1
1
ˆ
ˆˆˆ
β
βββ
 
 
 
 
 
 
 
 
Interpretação: 6
( )( ) ( )( )
( ) ( ) ( )( ) ( )
( ) ( )( )⇒−−=−⇒
−+−−=





−+−⇒
−+−=−+−⇒
∑∑
∑∑∑∑
∑∑
==
====
==
n
i
ii
n
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
i
ii
i
ii
YyXxXx
YyXYyXxXxXXx
YyXXxXxXXx
11
2
1
1111
2
1
11
1
ˆ
ˆ
β
β
β
( )( )
( ) ( ) 0,
ˆ
1
2
1
2
1
1 ≠−
−
−−
= ∑
∑
∑
=
=
=
n
i
in
i
i
n
i
ii
Xxse
Xx
YyXx
β
0,ˆ 221 ≠= x
x
xy sse
s
sβ
Resultado 1: 
 
 
 
Interpretação: A soma dos resíduos é zero. 
Estimador de Mínimos Quadrados
Ordinários (MQO): Consequências da CPOs
( )[ ] ( ) 0ˆ0ˆ0ˆˆ
111
10 =⇒=−⇒=+− ∑∑∑
===
n
i
i
n
i
ii
n
i
ii uyyxy ββ
Interpretação: A soma dos resíduos é zero. 
Resultado 2: 
 
 
 
Interpretação: a covariância amostral entre o regressor e o 
resíduo é zero ( ). 
 
7
( )[ ] 0ˆ0ˆˆ
11
10 =⇒=+− ∑∑
==
n
i
ii
n
i
iii uxxyx ββ
0=xys
Medidas de Ajuste
Uma pergunta natural seria quão bom é o ajuste da linha de 
regressão aos dados. Há duas estatísticas que provém esta 
resposta (medem a qualidade do ajuste): 
 
8
• O R2 da regressão mede a proporção da variência de Y que é 
explicada por X; não tem unidades e varia entre zero (nenhum 
ajuste) e um (ajuste perfeito). 
 
• O erro padrão da regressão (EPR) que mede a magnitude do 
resíduo típico da regressão em unidades de Y. 
 
Soma de Quadrados
Podemos definir três conceitos: 
 
 
 
∑
∑
=
−=
n
n
i
i yySTQ
1
2)(
9
 
 
 
 
 
Temos que SQT = SQE +SQR 
 
∑∑
∑
==
=
=−=
−=
n
i
i
n
i
ii
n
i
i
uyySQR
yySQE
1
2
1
2
1
2
ˆ)ˆ(
)ˆ(
R-quadrado
O R2 da regressão mede a fração da variância amostral de Yi 
“explicada” pela regressão. 
 
 
 
−==
nn
STQSQRSTQSQER2 /1/
10
 
 
 
 
• R2 = 0 significa SQE = 0 
• R2 = 1 significa SQE = STQ 
• 0 ≤ R2 ≤ 1 
∑∑
==
−−=
n
i
i
n
i
i yyyy
1
2
1
2 )(/)ˆ(
Os Pressupostos de MQO
 Yi = β0 + β1Xi + ui, i = 1,…, n 
 
1. A distribuição condicional de u dado X tem média zero, isso 
é, E(u|X = x) = 0. 
 
2. (X ,Y ), i =1,…,n, são i.i.d. 
11
2. (Xi,Yi), i =1,…,n, são i.i.d. 
• Verdadeiro se X, Y foram coletados por uma amostra 
aleatória simples 
 
3. Grandes outliers em X e/ou Y são raros. 
• Tecnicamente, X e Y têm quarto momento finito 
• Outliers podem resultar em estimações de 1ˆβ que não 
fazem sentido 
 
• Condições de momento: 
 
 
 
 
 
• Forma amostral das condições de momento 
Pressuposto No. 1: E(u|X = x) = 0 
[ ] [ ] [ ][ ] [ ] 00|
,
==== xxxxuu ExuEEuEuE
[ ] [ ][ ] [ ][ ] [ ] 00.||
,
==== xExuxEExuxEEuxE xuxuxxu
• Forma amostral das condições de momento 
12
( ) ( ) ∑∑∑∑∑∑
======
+=⇒+=⇒=−⇒=
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
n
i
i xnyxyyyu
n 1
10
11
10
111
ˆˆˆˆ0ˆ0ˆ1 ββββ
( )
( ) ∑∑∑∑∑
∑∑
=====
==
+=⇒+=⇒
=−⇒=
n
i
i
n
i
i
n
i
ii
n
i
ii
n
i
ii
n
i
iii
n
i
ii
xxyxxxyx
yyxux
n
1
2
1
1
0
11
10
1
11
ˆˆˆˆ
0ˆ0ˆ1
ββββ
Distribuição Amostral de 
• O que é E( 1ˆβ )? 
• Se E( 1ˆβ ) = β1, então MQO é não viesado 
• O que é var( 1ˆβ )? (medida da incerteza amostral) 
• Qual é a distribuição de ˆβ em amostras pequenas? 
1
ˆβ
13
• Qual é a distribuição de 1ˆβ em amostras pequenas? 
• Pode ser complicada em geral 
• Qual é a distribuição de 1ˆβ em amostras grandes? 
• Relativamente simples – 1ˆβ é distribuído como uma 
Normal. 
 
Média e Variância de
Algebra preliminar: 
Yi = β0 + β1Xi + ui 
Y
 = β0 + β1X + u 
 
então Yi – Y = β1(Xi – X ) + (ui – u ) 
 
1
ˆβ
14
 
Sabemos que 
 
1
ˆβ = 1
2
1
( )( )
( )
n
i i
i
n
i
i
X X Y Y
X X
=
=
− −
−
∑
∑
 
 
Média e Variância de
Podemos usar Yi – Y = β1(Xi – X ) + (ui – u ) em 
 
1
ˆβ = 1
2
( )( )
( )
n
i i
i
n
i
X X Y Y
X X
=
− −
−
∑
∑
 = 
1
1
2
( )[ ( ) ( )]
( )
n
i i i
i
n
i
X X X X u u
X X
β
=
− − + −
−
∑
∑
 
1
ˆβ
15
1
( )i
i
X X
=
−∑
1
( )i
i
X X
=
−∑
então 
 
1
ˆβ – β1 = 1
2
1
( )
( )
n
i i
i
n
i
i
X X u
X X
=
=
−
−
∑
∑
 
Agora podemos calcular E( ) e var( ):
1
ˆβ
 
1
ˆβ – β1 = 1
2
1
1
n
i
i
X
v
n
n
s
n
=
− 
 
 
∑
 , onde vi = (Xi – X )ui 
 
1
ˆβ
16
 
E( 1ˆβ – β1) = 2
1
1 1n
i X
i
nE v s
n n
=
−  
    
∑ = 2
1
1
1
n
i
i X
vn E
n n s
=
  
   
−   
∑ 
 = 2
1
1
1
n
i
i X
vn E
n n s
=
  
   
−   
∑ 
 
Agora podemos calcular E( ) e var( ):
1
ˆβ
 
Agora E(vi/ 2Xs ) = E[(Xi – X )ui/ 2Xs ] = 0 
 
Já que E(ui|Xi=x) = 0 (pressuposto MQO) 
 
v 
1
ˆβ
17
Logo, E( 1ˆβ – β1) = 2
1
1
1
n
i
i X
vn E
n n s
=
  
   
−   
∑ = 0 
então 
 E( 1ˆβ ) = β1 
 
Isso é, 1ˆβ é um estimador não-viesado de ββββ1. 
 
Agora a var( ):1
ˆβ
Podemos escrever 
1
ˆβ – β1 = 1
2
1
( )
( )
n
i i
i
n
i
i
X X u
X X
=
=
−
−
∑
∑
 = 
1
2
1
1
n
i
i
X
v
n
n
s
n
=
− 
 
 
∑
 
 
18
onde vi = (Xi – X )ui. Se assumimos que n é grande, 
simplificamos o cálculo, 2Xs ≈ 
2
Xσ e 
1n
n
−
 ≈ 1, então 
1
ˆβ – β1 ≈ 12
1 n
i
i
X
v
n
σ
=
∑
, 
 
1
ˆβ – β1 ≈ 12
1 n
i
i
X
v
n
σ
=
∑
 
então var( 1ˆβ – β1) = var( 1ˆβ ) 
= 2 2
var( ) /
( )X
v n
σ
 
assim 
19
 var( 1ˆβ – β1) = 4var[( ) ]1 i x i
X
X u
n
µ
σ
−
× . 
 
Resumo até agora 
• 1
ˆβ é não-viesado unbiased: E( 1ˆβ ) = β1 
• var( 1ˆβ ) é inversamente proporcional a n 
 
Qual é a Distribuição Amostral de ?1
ˆβ
 
Lembremos o TLC: 
 
suponha {vi}, i = 1,…, n é i.i.d. com E(v) = 0 e var(v) = σ2. 
Então, quando n é grande, 1
n
v∑ é aproximadamente distribuido 
20
Então, quando n é grande, 
1
i
i
v
n
=
∑ é aproximadamente distribuido 
como N(0, 2 /v nσ ). 
 
Qual é a Distribuição Amostral de ?
• Então, para n grande, 1ˆβ
 
é aproximadamente distribuido: 
 
 
1
ˆβ ~ 
2
1 4,
vX
N
n
σβ
σ
 
 
 
, onde vi = (Xi – µX)ui 
 
1
ˆβ
21
 
Resumo: Inferência Estatística sobre
β0 e β1
 
Testes: 
 
• H0: β1 = β1,0 v. β1 ≠ β1,0 (β1,0 é o valor de β1 na H0) 
 
• t = ( ˆβ – β )/EP( ˆβ ) 
22
• t = ( 1ˆβ – β1,0)/EP( 1ˆβ ) 
 
• p-valor = área abaixo da normal padrão fora do tact (n grande) 
 
Resumo: Inferência Estatística sobre
β0 e β1
 
Intervalos de Confiança: 
 
• Intervalo de confiança de 95% para β1 é { 1ˆβ ± 1.96×EP( 1ˆβ )} 
 
23
 
• Conjunto de β1 que não é rejeitado ao nível de 5%. 
 
• O IC de 95% contém o valor verdadeiro de β1 em 95% do 
todas as amostras. 
 
Resumo: regressões quando Xi é 
binário
Yi = β0 + β1Xi + ui 
• β0 = média de Y quando X = 0 
• β0 + β1 = media de Y quando X = 1 
• β1 = diferença na media dos grupos, X =1 menos X = 0 
24
• β1 = diferença na media dos grupos, X =1 menos X = 0 
• EP( 1ˆβ ), estatística t, e intervalos de confiança construídos da 
forma usual. 
• Outra maneira de fazer a análise de diferenças em média 
(fácil porque o EP da diferença de médias já sai direto da 
regressão). 
• Útil quando temos regressores adicionais 
 
Unidades de Medida
Salário_CEOi = β0 + β1 Retornoi + ui 
 
Salário_CEOi = 963.19 + 18.5 Retorno 
 
25
Salário CEO está medido em $1000 e o Retorno está medido em 
X% (ou seja Retorno=10 significa 10%). 
 
Como interpretamos β1? 
Unidades de Medida: Variando Y
Salário_CEOi = β0 + β1 Retornoi + ui 
 
Suponha agora o salário está medido em $ e não mais em $1000. 
O que acontece com os valores estimados? 
26
 
 
Unidades de Medida: Variando Y
Salário_CEOi = β0 + β1 Retornoi + ui 
 
Suponha agora o salário está medido em $ e não mais em $1000. 
O que acontece com os valores estimados? 
27
 
Salário_CEOi = 963.191 + 18.501 Retornoi + ui 
 
Ou seja, simplesmente temos que multiplicar β0 e β1 por 1000! 
Sempre que multiplicarmos a valor da variável dependente por c, 
o valor de β0 e β1 será multiplicado por c. 
Unidades de Medida: Variando X
Salário_CEOi = β0 + β1 Retornoi + ui 
 
O que acontece quando mudamos as unidades de medida de X? 
 
28
 
Suponha agora que o Retorno está medido em decimais, ou seja, 
um retorno de10% agora está medido como 0,10. O que acontece 
com os valores estimados? 
Unidades de Medida: Variando X
Salário_CEOi = 963,19 + 1850,1 Retornoi + ui 
 
Ou seja, coeficiente de β1 é 100 maior que o original! 
 
29
 
Unidades de Medida: Variando X
Salário_CEOi = 963,19 + 1850,1 Retornoi + ui 
 
Ou seja, coeficiente de β1 é 100 maior que o original! 
 
30
Mudar Retorno em 1 ponto percentual é o equivalente a mudar o 
novo Retorno em 0,01. Então o efeito sobre salário é de 
1850,1*0,01=18,501 
 
Unidades de Medida: Variando X
Salário_CEOi = 963,19 + 1850,1 Retornoi 
 
Ou seja, coeficiente de β1 é 100 maior que o original! 
 
31
Mudar Retorno em 1 ponto percentual é o equivalente a mudar o 
novo Retorno em 0,01. Então o efeito sobre salário é de 
1850,1*0,01=18,501 
 
Quando a variável independente é dividida ou multiplicada por 
uma constante c, o coeficiente β1 será multiplicado ou dividido 
por c (respectivamente). 
Funções Logarítmicas de Y e X
• Tranformações logarítmicas nos permitem modelar 
relações em termos “percentuais” (como elasticidades). 
 
Propriedade: ln(x+∆x) – ln(x) = ln 1 x
x
∆ 
+ 
 
 ≅ 
x
x
∆
 
32
x  x
 
(cálculo: ln( ) 1d x
dx x
= ) 
 
Especificações de Regressões com Logs
 
Caso Função de regressão 
populacional 
I. linear-log Yi = β0 + β1ln(Xi) + ui 
33
II. log-linear ln(Yi) = β0 + β1Xi + ui 
III. log-log ln(Yi) = β0 + β1ln(Xi) + ui 
 
• A interpretação do coeficiente da inclinação difere para cada 
caso. 
I. Linear-log
Y = β0 + β1ln(X) (b) 
 
Variando X: Y + ∆Y = β0 + β1ln(X + ∆X) (a) 
 
Subtraindo (a) – (b): ∆Y = β1[ln(X + ∆X) – ln(X)] 
34
Subtraindo (a) – (b): ∆Y = β1[ln(X + ∆X) – ln(X)] 
 
Agora ln(X +
 
∆X) – ln(X) ≅ X
X
∆
, 
então ∆Y ≅ β1 XX
∆
 
ou β1 ≅ /
Y
X X
∆
∆
 (∆X pequeno) 
 
I. Linear-log
Yi = β0 + β1ln(Xi) + ui 
para pequenas ∆X, 
β1 ≅ /
Y
X X
∆
∆
 
 
35
 
Agora 100× X
X
∆
 = variação percentual em X, então: 
um aumento de 1% em X (multiplicar X por 1.01) está 
associado com uma variação de 0,01ββββ1 em Y. 
(1% de aumento em X ⇒ 0,01β1 aumento em Y) 
 
II. Log-linear
ln(Y) = β0 + β1X (b) 
 
Variamos X: ln(Y + ∆Y) = β0 + β1(X + ∆X) (a) 
 
36
 
Subtraímos (a) – (b): ln(Y + ∆Y) – ln(Y) = β1∆X 
 
então Y
Y
∆
 ≅ β1∆X 
ou β1 ≅ /Y YX
∆
∆
 (∆X pequeno) 
 
II. Log-linear
ln(Yi) = β0 + β1Xi + ui 
 
Para ∆X pequeno, β1 ≅ /Y Y
X
∆
∆
 
• Então 100× Y
Y
∆
 = variação percentual em Y, assim a variação 
37
Y
em X de uma unidade (∆∆∆∆X = 1) está associada com uma 
variação em Y de 100ββββ1%. 
 
• Aumento de 1 unidade de X ⇒ 100β1% aumento em Y 
 
III. Log-log
ln(Yi) = β0 + β1ln(Xi) + ui (b) 
 
Variamos X: ln(Y + ∆Y) = β0 + β1ln(X + ∆X) (a) 
 
38
Subtraímos: ln(Y + ∆Y) – ln(Y) = β1[ln(X + ∆X) – ln(X)] 
 
então Y
Y
∆
 ≅ β1 XX
∆
 
ou β1 ≅ //
Y Y
X X
∆
∆
 (∆X pequeno) 
 
III. Log-log
ln(Yi) = β0 + β1ln(Xi) + ui 
 
para ∆X pequena, 
β1 ≅ //
Y Y
X X
∆
∆
 
39
/X X∆
agora 100× Y
Y
∆
 = variação percentual em Y, e 100× X
X
∆
 = 
variação percentual em X, então uma variação de 1% em X está 
associada com ββββ1% de variação em Y. 
• Na especificação log-log ββββ1 tem a interpretação de uma 
elasticidade. 
 
Heterocedasticidade e Homocedasticidade
• O que significa? 
• Consequências de homocedasticidade 
• Implicação para o cálculo de erros padrão 
 
40
 
O que significa? 
Se var(u|X=x) é constante – ou seja, se a variância da 
distribuição condicional de u dado X não depende de X –
dizemos que u é homocedástico. Caso contrário, u é 
heterocedástico. 
 
E se o erro for homocedástico? 
 
• A fórmula da variância de 1ˆβ e do erro padrão de MQO fica 
mais simples: se var(ui|Xi=x) = 2uσ , então 
var( 1ˆβ ) = 2 2var[( ) ]( )
i x i
X
X u
n
µ
σ
−
 = 
2 2
2 2
[( ) ]
( )
i x i
X
E X u
n
µ
σ
−
 
2σ
41
= 
2
2
u
Xn
σ
σ
 
Nota: var( 1ˆβ ) é inversamente proporcional a var(X), como 
discutimos anteriormente. 
 
• Modelo Verdadeiro:
onde
• Modelo estimado:
Viés de Variável Omitida
iiii uXXY +++= ,22,110 βββ [ ] 0,| ,2,1 =iii XXuE
iii vXY ++= ,110 ββ
• Parâmetro estimado:
42
iii vXY ++= ,110 ββ
( )
( )
( )( )
( )∑
∑
∑
∑
−
+++−
=
−
−
= 2
1
,1
,22,1101,1
2
1
,1
1
,1
1
~
XX
uXXXX
XX
YXX
i
iiii
i
ii ββββ
Viés de Variável Omitida
Podemos calcular o viés para grandes amostras…
[ ] ( )( )( )
( )
( )21
,1
1
,1
2
1
,1
2
,21,1
211
~
i
ii
i
ii
XX
uXX
E
XX
XXXX
EE βββ








−
−
+








−
−−
+=
∑
∑
∑
∑
43
[ ] 2,211
1
21~
X
XXEviés
σ
σβββ ≈−=
( ) ( )
2
,
21
1
,11,1
1
21
X
XX
ii XXXX
σ
σββ +≈



 −



 − ∑∑
Resumo da Direção do Viés
Corr(x1, x2) > 0 Corr(x1, x2) < 0
β > 0 Viés positivo Viés Negativo
44
β2 > 0 Viés positivo Viés Negativo
β2 < 0 Viés Negativo Viés positivo
Modelo de Regressão Multipla
Considere o caso de dois regressores: 
Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n 
 
• Y é a variável dependente 
45
• X1, X2 são as duas variáveis independentes (regressores) 
• β0 = intercepto populacional desconhecido 
• β1 = efeito em Y de uma variação em X1, dado X2 constante 
• β2 = efeito em Y de uma variação em X2, dado X1 constante 
• ui = o erro da regressão (variáveis omitidas) 
 
Interpretando os coeficientes em
regressões múltiplas
Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n 
 
Considere a variação em X1 de ∆X1 mantendo X2 constante: 
A linha de regressão populacional antes da variação: 
46
A linha de regressão populacional antes da variação: 
 
Y = β0 + β1X1 + β2X2 
 
A linha de regressão populacional depois da variação: 
 
Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2 
 
Antes: Y = β0 + β1 X1 + β2X2 
 
Depois: Y + ∆Y = β0 + β1(X1+ ∆X1) + β2X2 
 
Diferença: ∆Y = β1∆X1 
Então: 
 β = Y∆ , mantendo X constante 
47
 β1 = 
1
Y
X
∆
∆
, mantendo X2 constante 
 
 β2 = 
2
Y
X
∆
∆
, mantendo X1 constante 
 
 β0 = valor predito de Y quando X1 = X2 = 0. 
 
{ }
( )∑∑
==
−−−−=
n
i
kikii
n
i
i XXYu
k 1
2
110
1
2
,,,
minmin
10
βββ
ββββ
L
K
Regressão Múltipla
• O problema de MQO:
( )
( ) { }kjXXXY
XXY
ji
n
i
kikii
n
i
kikii
,,1,02
02
1
110
1
110
KL
L
∈∀=−−−−−
=−−−−−
∑
∑
=
=
βββ
βββ
• CPOs
{ }
[ ] [ ] [ ]
[ ][ ] [ ]ββββββ
ββ
ββ
βββββ
XXXYYXYYXYXY
XYXY
u
u
uuu
TTTTTTTTT
T
n
n
n
i
i
k
+−−=−−=
−−=










=∑
=
minmin
minminmin
1
1
1
2
,,, 10
ML
K
Regressão Múltipla: forma matricial
• O problema de MQO:
49
( ) YXYX TTT =
∂
∂ ββ ( ) ( ) YXXYXY T
TTT
==
∂
∂ ββ
( ) ( ) ( ) ( ) ( ) ( )ββββββββ XXXXXXXXXXXX TTT
TTTTT 2=+=+=
∂
∂
( ) ( ) ( ) YXXXYXXXXXYX TTTTTT 1022 −=⇒=⇒=+− βββ
• Derivações
• CP0
Pressupostos de MQO em Regressões
Múltiplas
Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n 
 
1. A distribuição condicional de u dado os X’s tem média zero, 
ou seja, E(u|X1 = x1,…, Xk = xk) = 0. 
50
2. (X1i,…,Xki,Yi), i =1,…,n, são i.i.d. 
3. Outliers são raros: X1,…, Xk, e Y tem quarto momento 
finito: E( 41iX ) < ∞,…, E( 4kiX ) < ∞, E( 4iY ) < ∞. 
4. Não há multicolinearidade perfeita. 
 
Pressuposto 4: Não há multicolinearidade perfeita 
 
multicolinearidade perfeita acontece quando um regressor é 
exatamente uma função linear de outro(s) regressor(es). 
 
Com estes pressupostos, podemos agora derivar a distribuição 
amostral de 1ˆβ , 2ˆβ ,…, ˆkβ . 
51
amostral de 1ˆβ , 2ˆβ ,…, ˆkβ . 
 
 
Armadilha da variável dummy
 
Suponha que temos uma série de variáveis binárias (dummy), que 
são mutuamente exclusivas e exaustivas 
 
Ou seja, há categorias múltiplas e toda observação cai em uma 
e somente uma categoria (analfabeto, primário completo, 
52
e somente uma categoria (analfabeto, primário completo, 
secundário completo, universitário ou mais). 
Se incluímos todas estas dummies e a constante teremos 
multicolinearitdade perfeita– as vezes este problema é chamado 
de armadilha das dummies. 
Armadilha da variável dummy
Se incluímos todas estas dummies e a constante teremos 
multicolinearitdade perfeita– as vezes este problema é chamado 
de armadilha das dummies. 
 
• Por que teríamos multicolinearidade neste exemplo? 
 
53
 
 
 
A Distribuição Amostral do Estimador
de MQO
Já vimos que... 
 
 
onde é aproximadamente constante 
(para grandes amostras) e 
( ) VXXT
n
11ˆ −+=ββ
( ) [ ]XXEXX TT
n
≈
1
54
(para grandes amostras) e 
 
 
 
 e [ ]TV VVE=Σ( ) ( )Vnd
TCL
n
i iikn
n
i iin
n
i in
T
n
N
uX
uX
u
uXV Σ














== →
∑
∑
∑
=
=
=
1
1 ,
1
1 ,1
1
1
1
1
,0
M
A Distribuição Amostral do Estimador
de MQO
Ou seja: 
 
 onde 
 
 
( )βββ ΣnN 1,~ˆ
[ ] ( )XXQXXEQ T
nXestimado
T
X
1ˆ
= →=
( ) ( ) 111 −− Σ=Σ XVXn QQβ
55
sendo 
 
 
 
Conceitualmente, não há nada de novo! 
 
Queremos, agora, testar hipóteses... 
[ ] ( )XXQXXEQ
nXestimadoX
ˆ
= →=
[ ] ( )( )
1
ˆˆ
ˆˆ
1
1
ˆ
−−
=
−−
=Σ →=Σ
kn
XuuX
uXuX
kn
VVE
TT
TTT
Vestimado
T
V
Homocedasticidade
E como fica a matriz de variâncias? 
 
 
Portanto, 
 
( )( )[ ] [ ] [ ][ ] ( )[ ] [ ]XXEXIXEXXuuEXEXuuXEuXuXE TuuTTTTTTTTV 22| σσ =====Σ
56
 
 
 
Estimamos 
 
 e 
( ) ( ) [ ]( ) [ ]( ) [ ]( ) [ ]( ) ( ) 121212111 −−−−−− ===Σ=Σ XuTuTTuTxVx QXXEXXEXXEXXEQQ σσσβ
( )XXQ T
nX
1ˆ
= ( )∑
=−−
==
n
i iknuu
us
11
122
ˆσˆ
Homocedasticidade
• O que muda se acrescentamos a hipótese de homocedasticidade? 
 
• Uma única coisa: o cálculo da variância de fica mais simples! 
 
• Relembrando: no caso de um único regressor, essa hipótese era escrita 
como 
 
[ ]βˆVar
57
 
 
 
• No caso de k regressores, temos 
 
 
 
onde u é um vetor nx1, X é uma matriz nx(k+1) e I é a matriz 
identidade de dimensão k+1 
 
[ ] 2| uii xXuVar σ==
[ ] IXuVar u2| σ=
Inferência: resumo
• Quando temos mais de um regressor, a variância dos 
estimadores de MQO ( ) é expressa como uma matriz 
(matriz de variâncias e covariâncias) 
 
• Para calcular esta matriz, utiliza-se o mesmo procedimento 
βˆ
58
• Para calcular esta matriz, utiliza-se o mesmo procedimento 
usado na regressão simples: expressar uma parte como uma 
constante e utilizar o TCL (Teorema Central do Limite). 
 
• Para fazer teste de hipótese sobre um único coeficiente: 
procedimento padrão 
Inferência: resumo
• Para fazer teste de hipótese sobre uma combinação linear 
dos coeficientes: procedimento padrão, utilizando também 
as covariâncias. Alternativamente, pode-se redefinir o 
regressores. 
 
• Para fazer teste sobre um conjunto de hipóteses: utilizar a 
59
• Para fazer teste sobre um conjunto de hipóteses: utilizar a 
estatística F 
 
• Sob a hipótese de homocedasticidade: variância mais 
simples. Cuidado: se a hipótese não é válida, a inferência 
não é válida. Solução: utilize a matriz robusta. 
 
Estimando β1 regressão residual
• Apesar de vocês não terem que decorar a fórmula de MQO, 
ela serve para algumas coisas importantes. 
 
• Uma aplicação importante é a regressão residual-- uma forma 
alternativa de obter o coeficiente β1. 
60
alternativa de obter o coeficiente β1. 
 
• Considere a seguinte regressão: 
 
Yi = β0 + β1X1i + β2X2i + ui 
Estimando β1 regressão residual
• Dissemos que β1 corresponde ao efeito de X1 em Y, depois que 
controlamos ou limpamos X2. Outra maneira de ver que isto é 
usando uma regressão residual. 
 
 
61
 
 
 
Estimando β1 regressão residual
• Dissemos que β1 corresponde ao efeito de X1 em Y, depois que 
controlamos ou limpamos X2. Outra maneira de ver que isto é 
usando uma regressão residual. 
 
• Podemos fazer uma regressão de X1 em X2 e obter os resíduos, 
62
• Podemos fazer uma regressão de X1 em X2 e obter os resíduos, 
ou seja: 
X1i = γ1X2i + ri 
 
 
 
 
Estimando β1 regressão residual
• Dissemos que β1 corresponde ao efeito de X1 em Y, depois que 
controlamos ou limpamos X2. Outra maneira de ver que isto é 
usando uma regressão residual. 
 
• Podemos fazer uma regressão de X1 em X2 e obter os resíduos, 
63
• Podemos fazer uma regressão de X1 em X2 e obter os resíduos, 
ou seja: 
X1i = γ1X2i + ri 
 
• O resíduo desta regressão (r) é a parte de X1 que não é 
correlacionada com X2 ou dito de outra forma r é X1 depois 
que os efeitos de X2 foram levados em consideração. 
 
Estimando β1 regressão residual
 
• Podemos recuperar o estimador de β1 fazendo uma regressão 
de Y no resíduo (r) da regressão de X1 em X2: 
 
 ∑
=
1ˆˆ ii
yrβ
64
 
 ( )∑
∑
= 2
1
1
1
ˆ
ˆ
ˆ
i
ii
r
yrβ
( ) ( ),21
2
ˆ
ˆ
jRjSTQ
jep
−
=
σβ
Acrescentando uma hipótese
A distribuição foi obtida para grandes amostras. O que fazer se 
este pressuposto não for válido? 
 
A distribuição para pequenas amostras fica MUITO 
complicada. Para simplificar, devemos fazer outra hipótese: 
 
65
 
 
 
Esta hipótese é mais forte que a hipótese de hocedasticidade. 
Agora, impomos uma forma funcional para a distribuição dos 
erros. 
 
Esta hipótese define o Modelo Linear Clássico. 
( )INu u2,0~ σ
Acrescentando uma hipótese
Como explicar esta hipótese? O termo de erro, u, é a soma de muitos 
fatores diferentes não observados que afetam Y. Portanto, pelo TCL, 
ele deveria estar próximo de uma normal. 
 
Esta hipótese é realista? Para muitos casos, NÃO. 
Exemplo: suponha que Y só assuma valores inteiros (1, 2, 3,...) ou 
66
Exemplo: suponha que Y só assuma valores inteiros (1, 2, 3,...) ou 
que Y esteja limitado a um intervalo. 
 
Nesses casos, não é factível supor que a parte não explicada de Y 
tenha distribuição normal. 
 
Mas como fica a inferênciasob a hipótese de normalidade dos erros? 
.
Distribuição Normal Homocedástica
y
f(y|x)
67
.
.
x1 x2
E(y|x) = β0 + β1x
Distribuição
Normal
Normalidade dos Estimadores
 
• A normalidade de u implica que a distribuição amostral dos 
estimadores de MQO também será normal: 
 
 )]ˆ(,ˆ[~ˆ jjj VarN βββ
68
 
 
• Que pode ser padronizado, como mostramos antes, para: 
 
 
 
 
 
 
)](,[~ jjj VarN βββ
)1,0(~)ˆ(dp/)ˆ( Njjj βββ −
Variância
Continua valendo que 
 
Agora, não faz sentido supor que 
 
Porém, já vimos que sob homocedasticidade a variância é 
( ) [ ]XXEXX TT
n
≈
1
( ) 12 −=Σ σ
( ) ( )uXXX T
n
T
n
111ˆ −+=ββ
[ ]=
69
dada por onde 
 
Portanto, 
( ) 1211 −=Σ Xunn Qσβ
( ) ( ) 11111211
1
ˆ1
1
ˆ1
ˆ
ˆ
ˆ
−
=
−
=
−








−−
=













−−
==Σ ∑∑ XX
kn
u
XX
nkn
u
n
Q T
n
i iT
n
i i
Xunn σβ
[ ]XXEQ TX =
Testando Hipóteses para um único
coeficiente
• H0: 
• H1: 
• Que estatística utilizar? 
 
Esta é a estatística mostrada quando se roda uma regressão 
( )j
jj
SE
t β
ββ
ˆ
ˆ
0,−
=
0,
0,
ˆ
ˆ
jj
jj
ββ
ββ
≠
=
70
Esta é a estatística mostrada quando se roda uma regressão 
(calculada pelo software) 
 
• De onde está vindo? 
Da diagonal principal da matriz 
( )jSE βˆ
βΣˆ1n
Testando Hipóteses para um único
coeficiente
• Porém t ~ tn-k-1 (distribuição t de Student com n-k-1 graus de 
liberdade). 
 
 
 
( )
p
pp
t
W
Z
W
NZ
~
~
1,0~
1
⇒



χ
71
 
• Por que isso ocorre? Intuição: 
 
 e 
 
Lembrar: A distribuição t se parece muito com uma normal, mas 
tem caudas mais pesadas. 
( ) 12
2
~1
−−
−− kn
u
uskn χ
σ
( )INu
u
,0~
2σ
Testando Combinações Lineares de 
Parâmetros
 
• Muitas vezes queremos testar hipóteses sobre UMA relação que 
envolva mais de um parâmetro. 
• Exemplo: queremos testar H0: β1=β2 contra H1: β1<β2 
 
72
 
• O que devemos fazer? Como na aula passada, devemos reescrever esta 
relação como uma variável interesse (no exemplo acima, testar H0: β1-
β2=0) e calcular o desvio-padrão desta variável (levando em 
consideração as covariâncias). 
• Alternativamente, podemos redefinir nossa regressão. 
 
• O que muda? A distribuição utilizada: tn-k-1. 
 
Testando Combinações Lineares de 
Parâmetros: Exemplo
• Queremos saber se o retorno salarial de quem se forma na 
graduação é menor de quem faz um mestrado. 
 
Log(salário) = β0 + β1Grad + β2Mest + β3Exper + u 
73
 
• Estatística: 
 
( ) 1~2ˆ1ˆ
2
ˆ
1
ˆ
−−
−
−
= kntEP
t ββ
ββ
( ) 122221 2)]ˆ(EP[)]ˆ(EP[2ˆ1ˆEP s−+=− ββββ
Alternativamente…
• Definimos um novo parâmetro: 
 
θ1 = β1 - β2 
 
• Queremos, então, testar: H0: θ1=0 contra H1: θ1<0 
74
Podemos re-escrever β1 = θ1 + β2 
 
Substituindo na equação original temos que: 
 
Log(salário) = β0 + (θ1 + β2)Grad + β2Mest + β3Exper + u 
 
Log(salário) = β0 + θ1 Grad + β2 (Mest+Grad) + β3Exper + u 
Testando hipóteses conjuntas em
Amostras Finitas
 
• Na aula passada demos um exemplo do teste F em amostras 
grandes. Agora iremos derivar o teste F em amostras finitas. 
 
• Que distribuição utilizar? A distribuição Fq,n-k-1. 
75
q,n-k-1
 
• Como calcular a estatística? 
Teste F com erros homocedásticos
• Quando os erros são homocedásticos, temos uma fórmula 
simples para calcular a estatística F (somente válida para erros 
homocedásticos): 
 
• Estimamos duas regressões, uma sob a hipótese nula (a 
76
regressão “restrita”) e outra sob a hipótese alternativa (a 
regressão “irrestrita”). 
 
• Comparamos o ajuste das regressões, se o modelo “irrestrito” 
tem um ajuste suficientemente melhor, rejeitamos a hipótese 
nula. Como medimos suficientemente melhor? 
 
 
 
Regressões “restritas” e “irrestritas” 
Examplo: coeficientes de educação e desigualdade são zero? 
 
Regressão populacional irrestrita (sob H1): 
 
Crime_pc= β0 + β1 Policiais_pc + β2 Renda_pc + β3 Educ 
77
Crime_pc= β0 + β1 Policiais_pc + β2 Renda_pc + β3 Educ 
+ β4 Desig + u 
 
Regressão populacional restrita (sob H0): 
 
Crime_pc= β0 + β1 Policiais_pc + β2 Renda_pc + u 
 
Teste F com erros homocedásticos
 
 
 
 
 
)1/(
/)(
1,
−−
−
=
−− knirSQR
qirSQRrSQRF knq
78
• Onde SQRr é a soma dos quadrados dos resíduos no modelo 
restrito e SQRir é a quadrados dos resíduos no modelo irrestrito. 
• q é o número de restrições 
• k é o número de regressores no modelo irrestrito. 
• Estatística mede o aumento relativo em SRQ quando passamos 
do modelo irrestrito para o modelo restrito. 
 
 
Testando a Hipótese com Teste F
• Vamos comparar o valor calculado da estatística F com o valor 
crítico c, levando em consideração os graus de liberdade (q, n-k-
1). 
 
• Para valores grandes de F, rejeitamos a hipótese nula. 
79
• Para valores grandes de F, rejeitamos a hipótese nula. 
 
 
• Ou seja, concluímos que os coeficientes são conjuntamente 
significativos ao nível de 5% (por exemplo). 
 
 
 
 
 
Fórmula com R2
 
 
 
 
• Por que podemos fazer a tranformação e usar esta fórmula? 
)1/()1(
/)(
2
22
1,
−−−
−
=
−− knR
qrRirRF
ir
knq
80
Lembremos que STQ=SRQ+SQE (Soma resíduos total=soma 
resíduos quadráticos + soma quadrática explicada) 
 
• A fórmula homocedástica de F rejeita quando adicionamos 
variáveis e o R2 aumenta o “suficiente”– ou seja, quando 
adicionamos variáveis e o ajuste da regressão aumenta o 
“suficiente”. 
 
 
81