Buscar

Econometria Aula - 10

Prévia do material em texto

Econometria
Aula 10
Marta AreosaMarta Areosa
marta@econ.puc-rio.br
Modelo de Regressão Multipla
Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n 
 Matricialmente: Y=Xββββ + u 
 
1. A distribuição condicional de u dado os X’s tem média zero, 
22
ou seja, E(u|X1 = x1,…, Xk = xk) = 0. (ou E(u|X) = 0) 
2. (X1i,…,Xki,Yi), i =1,…,n, são i.i.d. 
3. Outliers são raros: X1,…, Xk, e Y tem quarto momento finito: 
E( 41iX ) < ∞,…, E( 4kiX ) < ∞, E( 4iY ) < ∞. 
4. Não há multicolinearidade perfeita. (ou (XTX)-1 existe) 
 
Multicolinearidade Perfeita
• Multicolinearidade perfeita geralmente reflete algum erro na 
definição dos regressores, ou algo esquisito nos dados. 
 
• Nesse caso, o software estatístico deixará claro o problema – 
3
não conseguirá estimar o modelo ou dará uma mensagem 
“dropando” uma das variáveis arbitrariamente. 
 
• A solução neste caso é modificar os regressores. 
Incluindo variáveis irrelevantes
• Já falamos sobre o viés de variáveis omitidas—o viés causado 
pela ausência de uma variável X2, determinante de Y e 
correlacionada com X1. 
 
• Mas o que acontece se incluímos no modelo uma variável 
4
• Mas o que acontece se incluímos no modelo uma variável 
irrelevante (que não deveria determinar Y)? Isto é chamado, as 
vezes, de sobre-especificação do modelo. 
 
Incluindo variáveis irrelevantes
• Suponha que especificamos o seguinte modelo: 
 
Y = β0 + β1X1 + β2X2 + β3X3 +u 
Na regressão populacional (desconhecida), a variável X3 não 
determina Y depois de controlarmos por X e X . 
5
determina Y depois de controlarmos por X1 e X2. 
 
 
 
Incluindo variáveis irrelevantes
• Suponha que especificamos o seguinte modelo: 
 
Y = β0 + β1X1 + β2X2 + β3X3 +u 
Na regressão populacional (desconhecida), a variável X3 não 
determina Y depois de controlarmos por X e X . Ou seja, 
6
determina Y depois de controlarmos por X1 e X2. Ou seja, 
 
E(Y|X1, X2, X3)= E(Y|X1, X2)= β0 + β1X1 + β2X2 
 
 
 
 
Incluindo variáveis irrelevantes
• Suponha que especificamos o seguinte modelo: 
 
Y = β0 + β1X1 + β2X2 + β3X3 +u 
Na regressão populacional (desconhecida), a variável X3 não 
determina Y depois de controlarmos por X e X . Ou seja, 
7
determina Y depois de controlarmos por X1 e X2. Ou seja, 
 
E(Y|X1, X2, X3)= E(Y|X1, X2)= β0 + β1X1 + β2X2 
 
• O que acontece com os coeficientes β1 e β2 quando incluímos 
uma variável irrelevante (X3) na regressão (sem saber)? 
 
 
Incluindo variáveis irrelevantes
• Nada ! 
 
 
 
 
8
 
Incluindo variáveis irrelevantes
• Nada ! 
 
• Então podemos incluir tudo o que quisermos sempre numa 
regressão? 
 
9
 
 
 
 
Incluindo variáveis irrelevantes
• Nada ! 
 
• Então podemos incluir tudo o que quisermos sempre numa 
regressão? 
 
10
 
• Não. Vamos ver mais adiante que a inclusão de variáveis 
irrelevantes afeta a precisão de β1 e β2 (o erro padrão). 
 
 
 
Incluindo variáveis irrelevantes
• Nada ! 
 
• Então podemos incluir tudo o que quisermos sempre numa 
regressão? 
 
11
 
• Não. Vamos ver mais adiante que a inclusão de variáveis 
irrelevantes afeta a precisão de β1 e β2 (o erro padrão). 
 
 
 
Estimando β1 regressão residual
• Apesar de vocês não terem que decorar a fórmula de MQO, 
ela serve para algumas coisas importantes. 
 
• Uma aplicação importante é a regressão residual-- uma forma 
alternativa de obter o coeficiente β1. 
12
alternativa de obter o coeficiente β1. 
 
• Considere a seguinte regressão: 
 
Yi = β0 + β1X1i + β2X2i + ui 
Estimando β1 regressão residual
• Dissemos que β1 corresponde ao efeito de X1 em Y, depois que 
controlamos ou limpamos X2. Outra maneira de ver que isto é 
usando uma regressão residual. 
 
 
13
 
 
 
Estimando β1 regressão residual
• Dissemos que β1 corresponde ao efeito de X1 em Y, depois que 
controlamos ou limpamos X2. Outra maneira de ver que isto é 
usando uma regressão residual. 
 
• Podemos fazer uma regressão de X1 em X2 e obter os resíduos, 
14
• Podemos fazer uma regressão de X1 em X2 e obter os resíduos, 
ou seja: 
X1i = γ1X2i + ri 
 
 
 
 
Estimando β1 regressão residual
• Dissemos que β1 corresponde ao efeito de X1 em Y, depois que 
controlamos ou limpamos X2. Outra maneira de ver que isto é 
usando uma regressão residual. 
 
• Podemos fazer uma regressão de X1 em X2 e obter os resíduos, 
15
• Podemos fazer uma regressão de X1 em X2 e obter os resíduos, 
ou seja: 
X1i = γ1X2i + ri 
 
• O resíduo desta regressão (r) é a parte de X1 que não é 
correlacionada com X2 ou dito de outra forma r é X1 depois 
que os efeitos de X2 foram levados em consideração. 
 
Estimando β1 regressão residual
 
• Podemos recuperar o estimador de β1 fazendo uma regressão 
de Y no resíduo (r) da regressão de X1 em X2: 
 
 
∑
n
ˆ
16
 
 
∑
∑
=
=
=
n
i i
n
i ii
r
yr
1
2
1
1
ˆ
ˆ
ˆβ
é viesado?
Sabemos que: 
 = (XTX)-1XTY = (XTX)-1XT(Xββββ +u)= ββββ +(XTX)-1XTu 
 
Mas, por hipótese, E(u|X) = 0. Portanto: 
βˆ
βˆ
1717
 
 = E[ββββ +(XTX)-1XTu] = ββββ + E[(XTX)-1XTE[u|X]] = ββββ 
 
Ou seja, não é viesado! ( ) 
[ ]βˆE
βˆ [ ] ββ =ˆE
Consequências das CPOs…
Resultado 1: 
 
 
Interpretação: A soma dos resíduos é zero. 
Resultado 2: 
( )[ ] ( ) 0ˆ0ˆ0ˆˆˆ
111
,,110 =⇒=−⇒=+++− ∑∑∑
===
n
i
i
n
i
ii
n
i
ikkii uyyxxy βββ L
1818
Resultado 2: 
 
 
Interpretação: a covariância amostral entre cada regressor e 
o resíduo é zero ( ). 
Matricialmente, podemos escrever estas condições como: 
( )[ ] ( ) 0ˆ0ˆ0ˆˆˆ
1
,
1
,
1
,,110, =−⇒=⇒=+++− ∑∑∑
===
n
i
ijij
n
i
iij
n
i
ikkiiij uxxuxxxyx βββ L
0=xys
0ˆ =uX T
é proximo de uma constante…
( )














=
∑∑∑∑
∑∑∑∑
∑∑∑
====
====
===
1 ,,21
2
,21 ,2,11 ,2
1 ,,11 ,2,11
2
,11 ,1
1 ,1 ,21 ,1
1111
1111
1111
1
n
i iki
n
i i
n
i ii
n
i i
n
i iki
n
i ii
n
i i
n
i i
n
i ik
n
i i
n
i i
T
XX
n
X
n
XX
n
X
n
XX
n
XX
n
X
n
X
n
X
n
X
n
X
n
XX
n L
L
L
• Para grandes amostras…
( )XX T
n
1
[ ] [ ] [ ]
[ ] [ ] [ ] [ ]
[ ] [ ] [ ]
[ ] [ ] [ ] [ ] 














≈










∑
∑∑∑∑
∑∑∑∑
=
====
====
2
121
1 ,,2
2
2212
121
2
11
21
1
2
,1 ,,21 ,,11 ,
1 ,,21 ,21 ,2,11 ,2
1
1111
kkkk
n
i iki
K
k
n
i ik
n
i iki
n
i iki
n
i ik
i ikii ii iii i
XEXXEXXEXE
XXXEXXEXE
XXEXXEXEXE
XEXEXE
X
n
XX
n
XX
n
X
n
XX
n
X
n
XX
n
X
n
n
L
MOMMM
L
L
L
L
MOMMM
L
A Distribuição Amostral do Estimador
de MQO
Com estes quatro pressupostos , 
• A distribuição exata (amostra finita) de 1ˆβ tem média β1, 
var( 1ˆβ ) que é inversamente proporcional a n; também para 2ˆβ . 
• Além da média e variância, a distribuição finita de 1ˆβ é 
bastante complicada; mas para n grande… 
20
bastante complicada; mas para n grande… 
 
A Distribuição Amostral do Estimador
de MQO
Já vimos que... 
 
 
onde é aproximadamente constante 
(para grandes amostras) , 
( ) VXXT
n
11ˆ −+=ββ
( ) [ ]XXEQXX TXTn =≈1
21
 
 
 
 
 
 
sendo [ ]TiiV VVE=Σ
( ) ( )Vnd
TCL
n
i
V
iik
ii
i
n
n
i iikn
n
i iin
n
i in
T
n
N
uX
uX
u
uX
uX
u
uXV
i
Σ












=














== →∑
∑
∑
∑
=
=
=
=
1
1
,
,11
1 ,
1
1 ,1
1
1
1
1
,0
43421
MM
A Distribuição Amostral do Estimador
de MQO
Ou seja: 
 
 onde 
 
 
( )βββ ΣnN 1,~ˆ
[ ] ( )XXQXXEQ T
nXestimado
T
X
1ˆ
= →=
( ) ( ) 111 −− Σ=Σ XVXn QQβ
22
sendo 
 
 
 
Conceitualmente, não há nada de novo! 
 
Queremos, agora, testar hipóteses... 
[ ] ( )XXQXXEQ
nXestimadoX
ˆ
= →=
[ ] ( )( )
1
ˆˆ
ˆˆ
1
1
ˆ
−−
=
−−
=Σ →=Σ
kn
XuuX
uXuX
kn
VVE
TT
TTT
Vestimado
T
iiV
Testes de Hipóteses Conjuntas
Considere o seguinte modelo de regressão populacional: 
 
Notai = β0 + β1Tamanhoi + β2Gastopai + β3EscProfi +ui 
 
23
A hipótese nula que “recursos na escola não importam,” e a 
hipótese alternativa que importam, correspondem a: 
 
H0: β1 = 0 e β2 = 0 
vs. H1: β1 ≠ 0 ou β2 ≠ 0 ou ambos 
 
Testes de Hipóteses Conjuntas
H0: β1 = 0 e β2 = 0 
vs. H1: β1 ≠ 0 ou β2 ≠ 0 ou ambos 
 
• Uma hipótese conjunta especifica o valor para dois ou mais 
coeficientes, ou seja, impõe restrições em dois ou mais 
24
coeficientes, ou seja, impõe restrições em dois ou mais 
coeficientes. 
 
• Em geral, a hipótese conjunta envolve q restrições. No 
exemplo acima, q = 2, e as duas restrições são β1 = 0 e β2 = 0. 
 
Testes de Hipóteses Conjuntas
H0: β1 = 0 e β2 = 0 
vs. H1: β1 ≠ 0 ou β2 ≠ 0 ou ambos 
 
• Intuição do “bom senso” seria de rejeitar se alguma das 
estatísticas-t fosse maior que 1.96 em valor absoluto. 
25
estatísticas-t fosse maior que 1.96 em valor absoluto. 
 
• Mas este tipo de teste, feito com um coeficiente de cada vez, 
rejeitaria nossa hipótese com mais freqüência do que 
gostaríamos (mais de 5%, assumindo hip. Nula verdadeira)! 
 
Por que não podemos testar um 
coeficiente da cada vez? 
 
Calculemos a probabilidade de rejeitar a hipótese nula 
incorretamente usando o “bom senso” com estatísticas-t 
individuais. 
 
Suponhamos que ˆβ e ˆβ são independentemente distribuídos. 
26
Suponhamos que 1ˆβ e 2ˆβ são independentemente distribuídos. 
Sejam t1 e t2 as estatísticas-t: 
 
 
Por que não podemos testar um 
coeficiente da cada vez? 
 
Calculemos a probabilidade de rejeitar a hipótese nula 
incorretamente usando o “bom senso” com estatísticas-t 
individuais. 
 
Suponhamos que ˆβ e ˆβ são independentemente distribuídos. 
27
Suponhamos que 1ˆβ e 2ˆβ são independentemente distribuídos. 
Sejam t1 e t2 as estatísticas-t: 
t1 = 1
1
ˆ 0
ˆ( )SE
β
β
−
 and t2 = 2
2
ˆ 0
ˆ( )SE
β
β
−
 
 
Por que não podemos testar um 
coeficiente da cada vez? 
 
O teste seqüencial implica: 
 
 rejeitar H0: β1 = β2 = 0 se |t1| > 1.96 e/ou |t2| > 1.96 
 
28
 
Qual é a probabilidade que este teste “sequencial” rejeite H0, 
quando H0 é de fato verdadeira? (deveria ser 5%.) 
 
Suponha que t1 e t2 fossem independentes
A probabilidade de rejeitar a hipótese nula incorretamente usando 
o teste seqüencial é: 
 
= 
0
PrH [|t1| > 1.96 e/ou |t2| > 1.96] 
 
29
 
= 
0
PrH [|t1| > 1.96, |t2| > 1.96] + 0PrH [|t1| > 1.96, |t2| ≤ 1.96] 
 + 
0
PrH [|t1| ≤ 1.96, |t2| > 1.96] 
 
Suponha que t1 e t2 fossem independentes
A probabilidade de rejeitar a hipótese nula incorretamente usando 
o teste seqüencial é: 
= 
0
PrH [|t1| > 1.96 e/ou |t2| > 1.96] 
 
= 
0
PrH [|t1| > 1.96, |t2| > 1.96] + 0PrH [|t1| > 1.96, |t2| ≤ 1.96] 
30
= 
0
PrH [| 1| > 1.96, | 2| > 1.96] + 0PrH [| 1| > 1.96, | 2| ≤ 1.96] 
 + 
0
PrH [|t1| ≤ 1.96, |t2| > 1.96] 
 
= 
0
PrH [|t1| > 1.96] × 0PrH [|t2| > 1.96] 
 + 
0
PrH [|t1| > 1.96] × 0PrH [|t2| ≤ 1.96] 
 + 
0
PrH [|t1| ≤ 1.96] × 0PrH [|t2| > 1.96] 
(assumindo t1, t2 independentes) 
 
Suponha que t1 e t2 fossem independentes
= 
0
PrH [|t1| > 1.96] × 0PrH [|t2| > 1.96] 
 + 
0
PrH [|t1| > 1.96] × 0PrH [|t2| ≤ 1.96] 
 + 
0
PrH [|t1| ≤ 1.96] × 0PrH [|t2| > 1.96] 
 
 = .05×.05 + .05×.95 + .95×.05 
31
 = .05×.05 + .05×.95 + .95×.05 
 
 = .0975 = 9.75% 
 
 
Suponha que t1 e t2 fossem independentes
= 
0
PrH [|t1| > 1.96] × 0PrH [|t2| > 1.96] 
 + 
0
PrH [|t1| > 1.96] × 0PrH [|t2| ≤ 1.96] 
 + 
0
PrH [|t1| ≤ 1.96] × 0PrH [|t2| > 1.96] 
 
 = .05×.05 + .05×.95 + .95×.05 
32
 = .05×.05 + .05×.95 + .95×.05 
 
 = .0975 = 9.75% 
 
Que não é 5% !!! 
 
Teste sequencial não é o correto: 
o que fazer?
A probabilidade de rejeitar uma hipótese nula incorretamente 
depende da correlação entre t1 e t2 (e conseqüentemente na 
correlação entre 1ˆβ e 2ˆβ ). 
 
33
Solução: 
 
Temos que usar uma estatística que teste β1 e β2 
simultaneamente: a estatística F. 
 
A Estatística F
A estatística F testa todas as partes de uma hipótese 
simultaneamente. 
 
A fórmula para o caso especial da hipótese conjunta β1 = β1,0 e β2 
= β numa regressão com dois regressores é: 
34
= β2,0 numa regressão com dois regressores é: 
 
F = 1 2
1 2
2 2
1 2 , 1 2
2
,
ˆ21
ˆ2 1
t t
t t
t t t tρ
ρ
 + −
  
− 
 
 
onde 
1 2,
ˆt tρ estima a correlação entre t1 e t2. 
 
Testando β1 e β2 com F
F = 1 2
1 2
2 2
1 2 , 1 2
2
,
ˆ21
ˆ2 1
t t
t t
t t t tρ
ρ
 + −
  
− 
 
 
• A estatística F é grande quando t1 e/ou t2 é grande 
35
• A estatística F é grande quando t1 e/ou t2 é grande 
• A estatística F corrige pela correlação entre t1 e t2. 
• A fórmula para mais de dois β’s é horrível sem usar matrizes 
(algebra linear). 
 
Testando β1 e β2 com F
F = 1 2
1 2
2 2
1 2 , 1 2
2
,
ˆ21
ˆ2 1
t t
t t
t t t tρ
ρ
 + −
  
− 
 
 
• A estatística F é grande quando t1 e/ou t2 é grande 
36
• A estatística F é grande quando t1 e/ou t2 é grande 
• A estatística F corrige pela correlação entre t1 e t2. 
• A fórmula para mais de dois β’s é horrível sem usar matrizes 
(algebra linear). 
• Tudo isso faz com que a estatística F tenha uma aproximação 
para amostras grandes dada por… 
 
Distribuição da Estatística-F em
Amostras Grandes
Considere o caso especial em que t1 e t2 são independentes, assim 
1 2,
ˆt tρ 
p
→ 0; em amostras grandes a fórmula seria: 
 
F = 1 2
2 2
1 2 , 1 2
2
ˆ21
ˆ
t tt t t tρ
ρ
 + −
  
−
 ≅ 2 21 2
1 ( )t t+ 
37
F = 
1 2
2
,
ˆ2 1 t tρ
  
− 
 ≅ 1 2( )2 t t+ 
 
 
Distribuição da Estatística-F em
Amostras Grandes
 
F = 1 2
1 2
2 2
1 2 , 1 2
2
,
ˆ21
ˆ2 1
t t
t t
t t t tρ
ρ
 + −
  
− 
 ≅ 2 21 2
1 ( )
2
t t+ 
 
38
• Na hipótese nula, t1 e t2 tem distribuições normal padrão que 
neste caso especial seriam independentes 
 
Distribuição da Estatística-F em
Amostras Grandes
 
F = 1 2
1 2
2 2
1 2 , 1 2
2
,
ˆ21
ˆ2 1
t t
t t
t t t tρ
ρ
 + −
  
− 
 ≅ 2 21 2
1 ( )
2
t t+ 
 
39
• Na hipótese nula, t1 e t2 tem distribuições normal padrão que 
neste caso especial seriam independentes 
 
• A distribuição em amostras grande da estatística F é a 
distribuição da média de duas variáveis aleatórias que estão 
dadas pelo quadrado da normal padronizada. 
A distribuição chi-quadrado com q graus de liberdade ( 2qχ ) é 
definida como a distribuição da soma de q normais padronizadas 
independentes ao quadrado. 
 
 
 
40
A distribuição chi-quadrado com q graus de liberdade ( 2qχ ) é 
definida como a distribuição da soma de q normais padronizadas 
independentes ao quadrado. 
 
Em amostras grandes (n grande), F está distribuída como 
2
qχ /q. 
 
41
 
Alguns valores de 2qχ /q 
q valor critico 5% 
1 3.84 
2 3.00 
3 2.60 
4 2.37

Continue navegando

Outros materiais