Econometria I: Mínimos Quadrados Ordinários e Intervalos de Confiança

•

USP-SP

Estudante de Econo

26/11/2012

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria

6.242 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Mı´nimos Quadrados Ordina´rios, Intervalos de
Confianc¸a, Testes de Hipo´tese e Previsa˜o
Comenta´rios gene´ricos
x = (x1, ..., xn) : amostra de dados, realizac¸a˜o de um vetor aleato´rio X =
(X1, ...,Xn) com distribuic¸a˜o conjunta Pθ, membro de uma famı´lia parame´trica
P = {Pθ : θ ∈ Θ} .
No problema de estimac¸a˜o pontual, no´s derivamos um estimador pontual
δ (X) de um paraˆmetro θ. O estimador pontual era uma varia´vel aleato´ria. No´s
consideramos maneiras de comparar os estimadores usando o conceito de func¸a˜o
risco para medir quais estimadores estavam “pro´ximos” do valor verdadeiro “em
me´dia”.
Suponha que θ seja um escalar. No problema de estimac¸a˜o por intervalo,
no´s derivamos um intervalo de confianc¸a£
θ (X) , θ¯ (X)
¤
O estimador e´ aleato´rio, pois os extremos sa˜o varia´veis aleato´rias. Uma
probabilidade de cobertura, definida como
Pθ
£
θ (X) ≤ θ ≤ θ¯ (X)
¤
esta´ associada a cada intervalo.
Se
Pθ
£
θ (X) ≤ θ ≤ θ¯ (X)
¤
= 1− α
no´s nos referimos a
£
θ (X) , θ¯ (X)
¤
como um intervalo de confianc¸a de 100(1− α)
porcento. A probabilidade de cobertura nos da´ a probabilidade, antes da
amostra ser observada, de que a estimativa do intervalo que sera´ constru´ıda
a partir da amostra contera´ o valor desconhecido de θ. Para um dado n´ıvel de
confianc¸a, um bom estimador produz um intervalo
£
θ (X) , θ¯ (X)
¤
estreito.
Se θ for um vetor, no´s achamos uma regia˜o R (X) para a qual
Pθ [θ ∈ R (X)] = 1− α
Essa regia˜o e´ denominada regia˜o de confianc¸a de 100(1− α) porcento. Uma
maneira simples de construir essa regia˜o e´ atrave´s da desigualdade de Bonferroni
Pθ
£
θ1 ∈
£
θ1 (X) , θ¯1 (X)
¤
, ..., θK ∈
£
θK (X) , θ¯K (X)
¤¤
≥ 1−
KP
j=1
Pθ
£
θj /∈
£
θj (X) , θ¯j (X)
¤¤
1
Prova: Considere dois eventos A e B. Enta˜o
1− P (A ∪B) = P ((A ∪B)c) = P (Ac ∩Bc)
e
1− P (A ∪B) = 1− P (A)− P (B)− P (A ∩B)
Logo,
P (Ac ∩Bc) = 1− P (A)− P (B)− P (A ∩B) ≥ 1− P (A)− P (B)
Portanto, o problema se reduz a encontrar intervalos
£
θj (X) , θ¯j (X)
¤
tais
que
Pθ
£
θj /∈
£
θj (X) , θ¯j (X)
¤¤
≤ α
K
Enta˜o, a probabilidade de cobertura da regia˜o sera´ de no mı´nimo 1 − α.
Regio˜es de confianc¸a de Bonferroni sa˜o retaˆngulos para K = 2, cubos para
K = 3, etc
Def: Func¸a˜o pivotal: func¸a˜o de θ e dos dados, v (X, θ) , cuja distribuic¸a˜o de
probabilidade na˜o depende de θ.
A construc¸a˜o de intervalos de confianc¸a baseia-se em func¸o˜es pivotais.
Definic¸o˜es
Seja θ o valor verdadeiro do paraˆmetro e θ∗ um outro valor.
a) Considere duas regio˜es de confianc¸a R e R0 para θ ao n´ıvel de 1 − α.
Enta˜o, R e´ dito preferido a` R0, ou mais preciso do que R0, se ∀θ, θ∗,
P (θ∗ ∈ R (X)) ≤ P (θ∗ ∈ R0 (X))
b) Uma regia˜o de confianc¸a ao n´ıvel de 1 − α para θ e´ dita uniformemente
mais poderosa (UMP) ao n´ıvel de 1 − α se ela e´ mais precisa do que qualquer
outra regia˜o de confianc¸a ao n´ıvel de 1− α para θ.
c) Uma regia˜o de confianc¸a ao n´ıvel de 1− α para θ e´ dita na˜o viesada se
∀θ, θ∗, P (θ ∈ R (X)) ≥ P (θ∗ ∈ R (X))
d) Uma regia˜o de confianc¸a ao n´ıvel de 1 − α para θ e´ dita uniformemente
mais precisa e na˜o viesada (UMPU) se ela e´ na˜o viesada e mais precisa do que
qualquer outra regia˜o de confianc¸a ao n´ıvel de 1− α.
Nem sempre uma regia˜o de confianc¸a uniformemente mais poderosa ex-
iste. Quando ela na˜o existe, no´s introduzimos crite´rios adicionais e procuramos
regio˜es de confianc¸a uniformemente mais precisas dentro dessa classe.
2
Intervalos de confianc¸a para βj , j = 1, ...,K
Sob (OLS0,s)-(OLS4,s):
βˆ|X ∼ N
³
β, σ2 (X 0X)−1
´
Em particular,
βˆj |X ∼ N
³
βj , σ
2 (X 0X)−1jj
´
e
βˆj − βjq
σ2 (X 0X)−1jj
|X ∼ N (0, 1)
σ2 conhecido
βˆj−βjt
σ2(X0X)−1jj
¯¯¯¯
¯X ∼ N (0, 1) e´ uma func¸a˜o pivotal para θ que no´s podemos
utilizar para construir o intervalo de confianc¸a da seguinte maneira. Comece
com
P

Φα/2 ≤
βˆj − βjq
σ2 (X 0X)−1jj
≤ Φ1−α/2

 = 1− α
onde Φα/2 e Φ1−α/2 sa˜o os percentis α/2 e 1 − α/2 da distribuic¸a˜o normal
padra˜o.
Isso implica que
P
·
βˆj − Φ1−α/2
q
σ2 (X 0X)−1jj ≤ βj ≤ βˆj − Φα/2
q
σ2 (X 0X)−1jj
¸
= 1− α
e, portanto, usando −Φα/2 = Φ1−α/2,·
βˆj − Φ1−α/2
q
σ2 (X 0X)−1jj , βˆj +Φ1−α/2
q
σ2 (X 0X)−1jj
¸
constitui um intervalo de confianc¸a de 100(1− α) para βj se σ2 e´ conhecido.
σ2 desconhecido
A distribuic¸a˜o t e´ definida da seguinte forma: se Z ∼ N (0, 1) e W ∼ χ2n e´
independente de Z, enta˜o a raza˜o Z√
W/n
e´ distribu´ıda como t com n graus de
liberdade. Sob (OLS0,s)-(OLS4,s),
(n−K) s2/σ2|X ∼ χ2n−K
e s2 e βˆ sa˜o independentes, dado X. Portanto,
t ≡
βˆj − βjr
\
V
h
βˆj
i = βˆj − βjq
s2 (X 0X)−1jj
=
βˆj−βjt
σ2(X0X)−1jj
∼ N (0, 1)q
(n−K)s2/σ2
n−K ∼
q
χ2n−K
n−K
∼ tn−K
3
o que implica que
P
£
tα/2,n−K ≤ t ≤ t1−α/2,n−K
¤
= 1− α
onde tα/2,n−K e t1−α/2,n−K sa˜o os percentis α/2 e 1−α/2 da distribuic¸a˜o t com
n−K graus de liberdade.
Portanto,
P
·
βˆj − t1−α/2,n−K
q
s2 (X 0X)−1jj ≤ βj ≤ βˆj + t1−α/2,n−K
q
s2 (X 0X)−1jj
¸
= 1−α
o que implica que·
βˆj − t1−α/2,n−K
q
σ2 (X 0X)−1jj , βˆj + t1−α/2,n−K
q
σ2 (X 0X)−1jj
¸
constitui um intervalo de confianc¸a de 100(1− α) para βj
Regio˜es de confianc¸a para Rβ, R e´ 1×K
Rβ e´ uma combinac¸a˜o linear dos paraˆmetros β e e´ 1× 1.
Exemplo:
Como βˆ|X ∼ N
³
β, σ2 (X 0X)−1
´
, sob (OLS0,s)-(OLS4,s), no´s sabemos que
Rβˆ|X ∼ N
³
Rβ, σ2R (X 0X)−1R0
´
e, portanto,
Rβˆ −Rβq
σ2R (X 0X)−1R0
|X ∼ N (0, 1)
σ2 conhecido
Repetindo o procedimento anterior, temos que·
Rβˆ − Φ1−α/2
q
σ2R (X 0X)−1R0, Rβˆ +Φ1−α/2
q
σ2R (X 0X)−1R0
¸
constitui um intervalo de confianc¸a de 100(1− α) para Rβ se σ2 e´ conhecido.
σ2 desconhecido
Rβˆ−Rβ√
σ2R(X0X)−1R0
|X ∼ N (0, 1) , (n−K) s2/σ2|X ∼ χ2n−K e s2 e βˆ indepen-
dentes, dado X, implicam que
t ≡ Rβˆ −Rβr
\
V
h
Rβˆ
i = Rβˆ −Rβq
s2R (X 0X)−1R0
=
Rβˆ−Rβ√
σ2R(X0X)−1R0
∼ N (0, 1)q
(n−K)s2/σ2
n−K ∼
q
χ2n−K
n−K
∼ tn−K
4
Portanto·
Rβˆ − t1−α/2,n−K
q
s2R (X 0X)−1R0, Rβˆ + t1−α/2,n−K
q
s2R (X 0X)−1R0
¸
constitui um intervalo de confianc¸a de 100(1− α) para Rβ
Regio˜es de confianc¸a para Rβ, R e´ p×K
Rβ sa˜o p combinac¸o˜es lineares dos paraˆmetros β e e´ p× 1.
Como βˆ|X ∼ N
³
β, σ2 (X 0X)−1
´
, sob (OLS0,s)-(OLS4,s), no´s sabemos que
Rβˆ|X ∼ N
³
Rβ, σ2R (X 0X)−1R0
´
. Seja Σ = σ2R (X 0X)−1R0. Enta˜o,³
Rβˆ −Rβ
´0
Σ−1
³
Rβˆ −Rβ
´
∼ χ2p
Prova:
Decomposic¸a˜o spectral de uma matriz sime´trica
Se A e´ sime´trica, enta˜o
AC = CΛ
C: autovetores de A como colunas
Λ: matriz diagonal com os autovalores de A na diagonal
C 0C = I
pois os autovetores de matrizes sime´tricas sa˜o ortogonais.
Portanto, C 0 = C−1 e
A = ACC−1 = CΛC−1 = CΛC0
Se A e´ positiva definida, enta˜o todos seus autovalores sa˜o positivos e Λ−1
existe. Logo,
A−1 = (CΛC 0)−1 = (C 0)−1 Λ−1C−1 =
¡
C−1
¢−1
Λ−1C−1 = CΛ−1C0
ou, alternativamente,
A−1 = CΛ−1/2Λ−1/2C 0 = Q0Q
para Q = Λ−1/2C0 e Λ−1/2 = diag
³
λ
−1/2
i
´
.
Consequ¨entemente,
A = Q−1 (Q0)−1 e QAQ0 = I
No presente caso:
5
- Σ e´ sime´trica
Σ0 = σ2R
h
(X 0X)0
i−1
R0 = σ2R (X 0X)−1R0 = Σ
- Σ e´ positiva definida
a0R (X 0X)−1R0a = q0 (X 0X)−1 q > 0
pois q0 = a0R 6= 0 para todo a 6= 0 pelo posto completo de R e (X 0X)−1 e´
positiva definida pois (X 0X) e´ positiva definida pelo posto completo de X.
Enta˜o,
QΣQ0 = I para Q = Λ−1/2C0
Portanto,
Q
³
Rβˆ −Rβ
´
∼ N (0, Ip)
pois E
µ
Q
³
Rβˆ −Rβ
´³
Rβˆ −Rβ
´0
Q0
¶
= QΣQ0 = Ip
Logo,h
Q
³
Rβˆ −Rβ
´i0 h
Q
³
Rβˆ −Rβ
´i
=
³
Rβˆ −Rβ
´0
Q0Q
³
Rβˆ −Rβ
´
=
³
Rβˆ −Rβ
´0
Σ−1
³
Rβˆ −Rβ
´
∼ N (0, Ip)0N (0, Ip) ∼ χ2p
σ2 conhecido
Uma regia˜o de confianc¸a conjunta ao n´ıvel de 100(1− α) porcento para Rβ
e´ dada pelos valores que satisfazem³
Rβˆ −Rβ
´0 h
σ2R (X 0X)−1R0
i−1 ³
Rβˆ −Rβ
´
≤ χ21−α,p
Essa regia˜o sera´ um elipso´ide em Rp.
σ2 desconhecido
A distribuic¸a˜o F e´ definida da seguinte forma: se x1 e x2 sa˜o duas varia´veis
aleato´rias independentes com distribuic¸a˜o de qui-quadrado com n1 e n2 graus
de liberdade, respectivamente, a raza˜o Fn1,n2 =
x1/n1
x2/n2tem distribuic¸a˜o F com
n1 e n2 graus de liberdade.
A distribuic¸a˜o derivada acima para
³
Rβˆ −Rβ
´0
Σ−1
³
Rβˆ −Rβ
´
, conjun-
tamente com (n−K) s2/σ2|X ∼ χ2n−K e o fato de que, condicional em X, s2 e
βˆ sa˜o independentes, implica que
F ≡
³
Rβˆ −Rβ
´0 h
σ2R (X 0X)−1R0
i−1 ³
Rβˆ −Rβ
´
/p
(n−K)s2/σ2
n−K
=
³
Rβˆ −Rβ
´0 h
s2R (X 0X)−1R0
i−1 ³
Rβˆ −Rβ
´
/p ∼ Fp,n−K
6
Portanto, uma regia˜o de confianc¸a conjunta de 100(1− α) para Rβ e´ dada
por aqueles valores que satisfazem³
Rβˆ −Rβ
´0 h
s2R (X 0X)−1R0
i−1 ³
Rβˆ −Rβ
´
/p ≤ F1−α,p,n−K
Essa regia˜o e´ tambe´m um elipso´ide em Rp.
Testes de hipo´tese
No´s agora desejamos testar uma hipo´tese particular
Hipo´tese nula: H0 : θ ∈ Θ0 ⊂ Θ
Hipo´tese alternativa: H1 : θ ∈ Θ1 ⊂ Θ, Θ1 = (Θ0)c
Dado um modelo, um teste δ e´ uma regra de decisa˜o que especifica como o
espac¸o amostral de X e´ dividido em dois subconjuntos, um para o qual na˜o se
rejeita H0 e outro para o qual H0 e´ rejeitada.
Regia˜o cr´ıtica C: regia˜o do espac¸o amostral para o qual H0 e´ rejeitada.
Rejeitamos H0 se x ∈ C. Caso contra´rio, na˜o rejeitamos H0.
Quatro possibilidades
H0 verdadeira H1 verdadeira
Na˜o rejeita H0 Nenhum erro Erro tipo II
Rejeita H0 Erro tipo I Nenhum erro
Idealmente, gostar´ıamos que a probabilidade de ambos os tipos de erros
fossem pequenas.
Definic¸o˜es:
1) A func¸a˜o poder do teste e´ definida como
π (θ|δ) = P (X ∈ C|θ) para θ ∈ Θ
isto e´, a probabilidade de se rejeitar H0 quando o valor verdadeiro do paraˆmetro
e´ θ.
A func¸a˜o poder do teste ideal seria
π (θ|δ) =
½
0 para θ ∈ Θ0
1 para θ ∈ Θ1
Nesse caso, no´s tomar´ıamos a decisa˜o correta com probabilidade 1. Para
θ ∈ Θ0, a func¸a˜o poder do teste da´ a probabilidade do erro tipo I.
2) O tamanho de um teste, denotado por α, e´ o menor limite superior da
probabilidade de se cometer um erro do tipo I.
α = sup
θ∈Θ0
π (θ|δ)
7
3) Frequ¨entemente, no´s especificamos um limite superior α0, 0 < α0 < 1,
e consideramos somente os testes para os quais π (θ|δ) ≤ α0 ∀θ ∈ Θ0, isto e´,
consideramos apenas testes com tamanho α ≤ α0. Nos referimos a α0 como o
n´ıvel de significaˆncia desses testes.
4) Um teste δ∗ e´ dito uniformemente mais poderoso (UMP) ao n´ıvel de
significaˆncia α0 se α (δ
∗) ≤ α0 e para qualquer outro teste δ para o qual α (δ) ≤
α0,
π (θ|δ∗) ≥ π (θ|δ) ∀θ ∈ Θ1
5) Um teste δ e´ na˜o viesado se
π
¡
θ0|δ¢ ≥ π (θ|δ) ∀θ0 ∈ Θ1,∀θ ∈ Θ0
isto e´, se a func¸a˜o poder do teste ao longo de Θ1 e´ pelo menos ta˜o grande quanto
ao longo de Θ0.
6) Um teste δ∗ e´ uniformemente mais poderoso e na˜o viesado (UMPU) se
ele e´ na˜o viesado e uniformemente mais poderoso.
Teste de um u´nico coeficiente
Teste de H0 : βj = βj0 contra H1 : βj 6= βj0 ao n´ıvel de significaˆncia de
100α porcento, para σ2 desconhecido. Sob H0 : t =
βˆj−βj0t
s2(X0X)−1jj
∼ tn−K
Portanto, rejeite H0 se
|t| =
¯¯¯¯
¯¯ βˆj − βj0q
s2 (X 0X)−1jj
¯¯¯¯
¯¯ ≥ t1−α/2,n−K
Teste de H0 : βj ≤ βj0 contra H1 : βj > βj0 ao n´ıvel de significaˆncia de
100α porcento, para σ2 desconhecido (teste unicaudal).
Rejeite H0 se
t =
βˆj − βj0q
s2 (X 0X)−1jj
≥ t1−α,n−K
Se σ2 e´ conhecido, substitua s2 por σ2 e t por Φ.
Teste de uma combinac¸a˜o linear de coeficientes
Teste de H0 : Rβ = q0 contra H1 : Rβ 6= q0 ao n´ıvel de significaˆncia
de 100α porcento, para σ2 desconhecido. R tem dimensa˜o 1×K. Sob H0,
Rβˆ−q0√
s2R(X0X)−1R0
∼ tn−K
8
Portanto, rejeite H0 se
|t| =
¯¯¯¯
¯¯ Rβˆ − q0q
s2R (X 0X)−1R0
¯¯¯¯
¯¯ ≥ t1−α/2,n−K
Se σ2 e´ conhecido, substitua s2 por σ2 e t por Φ.
Teste de mu´ltiplas restric¸o˜es lineares
Teste de H0 : Rβ = q0 contra H1 : Rβ 6= q0 ao n´ıvel de significaˆncia de 100α
porcento, para σ2 desconhecido e posto(R) = p. Sob H0,³
Rβˆ − q0
´0 h
s2R (X 0X)−1R0
i−1 ³
Rβˆ − q0
´
/p ∼ Fp,n−K
Portanto, rejeite H0 se
F =
³
Rβˆ − q0
´0 h
s2R (X 0X)−1R0
i−1 ³
Rβˆ − q0
´
/p ≥ F1−α,p,n−K
Se σ2 e´ conhecido, substitua s2 por σ2, remova a divisa˜o por p e use χ21−α,p
ao inve´s de F1−α,p,n−K .
Uma formulac¸a˜o alternativa do teste F
Defina β˜ como a soluc¸a˜o do seguinte problema:
Min
β
(y −Xβ)0 (y −Xβ) sujeito a Rβ = q0
β˜ : estimador de mı´nimos quadrados restrito.
ε˜ = y −Xβ˜ : res´ıduos da regressa˜o de mı´nimos quadrados restrito.
βˆ = (X 0X)−1X 0y e εˆ = y − yˆ ainda se referem ao estimador de mı´nimos
quadrados irrestrito.
Resultado
F =
³
Rβˆ − q0
´0 h
s2R (X 0X)−1R0
i−1 ³
Rβˆ − q0
´
/p
=
¡
ε˜0ε˜− εˆ0εˆ
¢
/p
εˆ0εˆ/ (n−K)
ε˜0ε˜ : soma dos quadrados dos res´ıduos do modelo restrito
εˆ0εˆ : soma dos quadrados dos res´ıduos do modelo irrestrito
p : nu´mero de restric¸o˜es
n−K : nu´mero de observac¸o˜es menos nu´mero de paraˆmetros estimados no
modelo irrestrito
9
Prova: Considere a soma dos quadrados dos res´ıduos do modelo restrito.
ε˜0ε˜ =
³
y −Xβ˜
´0 ³
y −Xβ˜
´
=
³
y −Xβˆ −X
³
β˜ − βˆ
´´0 ³
y −Xβˆ −X
³
β˜ − βˆ
´´
=
³
εˆ−X
³
β˜ − βˆ
´´0 ³
εˆ−X
³
β˜ − βˆ
´´
= εˆ0εˆ+
³
β˜ − βˆ
´0
X 0X
³
β˜ − βˆ
´
− εˆ0X
=0
³
β˜ − βˆ
´
−
³
β˜ − βˆ
´0
X 0εˆ
=0
Em seguida, derive uma expressa˜o para
³
β˜ − βˆ
´
da seguinte forma. O la-
grangiano e´
L = min
β
(y −Xβ)0 (y −Xβ) + λ0 (Rβ − q0)
λ : vetor px1 de multiplicadores de Lagrange
As condic¸o˜es de primeira ordem sa˜o:
∂L
∂β
= −2X 0
³
y −Xβ˜
´
+R0λ = 0
∂L
∂λ
= Rβ˜ − q0 = 0
Consequ¨entemente,
X 0y −X 0Xβ˜ − 1
2
R0λ = 0⇒ β˜ = (X 0X)−1
µ
X 0y − 1
2
R0λ
¶
⇒ β˜ = βˆ − 1
2
(X 0X)−1R0λ
o que implica que
Rβ˜ = Rβˆ − 1
2
R (X 0X)−1R0λ = q0
Portanto,
λ = 2
h
R (X 0X)−1R0
i−1 ³
Rβˆ − q0
´
Logo,
β˜ = βˆ − (X 0X)−1R0
h
R (X 0X)−1R0
i−1 ³
Rβˆ − q0
´
Substituindo β˜ − βˆ em ε˜0ε˜, no´s obtemos
ε˜0ε˜ = εˆ0εˆ+
³
Rβˆ − q0
´0 h
R (X 0X)−1R0
i−1
×R (X 0X)−1X 0X (X 0X)−1R0
h
R (X 0X)−1R0
i−1 ³
Rβˆ − q0
´
= εˆ0εˆ+
³
Rβˆ − q0
´0 h
R (X 0X)−1R0
i−1 ³
Rβˆ − q0
´
10
Portanto,
¡
ε˜0ε˜− εˆ0εˆ
¢
/p
εˆ0εˆ/ (n−K)
=
³
Rβˆ − q0
´0 h
R (X 0X)−1R0
i−1 ³
Rβˆ − q0
´
/p
s2
=
³
Rβˆ − q0
´0 h
s2R (X 0X)−1R0
i−1 ³
Rβˆ − q0
´
/p
Resultado: Se tanto a regressa˜o restrita quanto a regressa˜o irrestrita con-
tiverem uma constante, denotando por R e R˜ os coeficientes de determinac¸a˜o,
temos
F =
R2 − R˜2
1−R2
n−K
p
Prova:
F =
¡
ε˜0ε˜− εˆ0εˆ
¢
/p
εˆ0εˆ/ (n−K)
=
£
εˆ0εˆ− ε˜0ε˜
¤
/
£
(y − y¯ι)0 (y − y¯ι)
¤
εˆ0εˆ/
£
(y − y¯ι)0 (y − y¯ι)
¤ n−K
p
=
³
1− R˜2
´
−
¡
1−R2
¢
1−R2
n−K
p
=
R2 − R˜2
1−R2
n−K
p
Aplicac¸o˜es do teste F
Testando se todos os β
0
s, com excec¸a˜o do intercepto, sa˜o iguais a zero
Modelo irrestrito: y = Xβ + ε
H0 : Rβ = q0, com R
(K−1)×K
=
·
0
(K−1)×1
: IK−1
¸
e q0
(K−1)×1
= [0, ..., 0]
0
H1 : Rβ 6= q0
Modelo restrito: y = ιβ1 + ε, ι e´ um vetor de 1’s de dimensa˜o nx1
A estimativa de MQO de β1 no modelo restrito e´ (ι
0ι)−1 ι0y = 1
n
Pn
i=1 yi = y¯.
Portanto, ε˜0ε˜ =
Pn
i=1 (yi − y¯)
2 e
F =
¡
ε˜0ε˜− εˆ0εˆ
¢
/p
εˆ0εˆ/ (n−K)
=
R2
1−R2
n−K
p
pois R˜2 = 0.
Teste para mudanc¸a estrutural em β (Teste de Chow)
Modelo irrestrito: yj
nj×1
= Xj
nj×K
βj
K×1
+ εj
nj×1
, j = 1, 2
11
No´s podemos estimar β1 e β2 atrave´s de apenas uma regressa˜o, utilizando o
seguinte modelo·
y1
y2
¸
(n1+n2)×1
=
·
X1 0
0 X2
¸
(n1+n2)×K
·
β1
β2
¸
2K×1
+
·
ε1
ε2
¸
(n1+n2)×1
⇒ εˆ =
·
εˆ1
εˆ2
¸
(n1+n2)×1
H0 : β1 = β2, isto e´, Rβ = q0, com R
K×2K
= [IK : −IK ] e q0
K×1
= [0, ..., 0]0
H0 : β1 6= β2, isto e´, Rβ 6= q0
Modelo restrito y
(n1+n2)×1
= X
(n1+n2)×K
β
K×1
+ ε
(n1+n2)×1
, isto e´,
·
y1
y2
¸
=
·
X1
X2
¸
β +
·
ε1
ε2
¸
⇒ ε˜ =
·
ε˜1
ε˜2
¸
Portanto, no´s temos toda a informac¸a˜o necessa´ria para calcular
F =
¡
ε˜0ε˜− εˆ0εˆ
¢
/K
εˆ0εˆ/ (n1 + n2 − 2K)
- Uma condic¸a˜o suficiente para derivar o resultado da distribuic¸a˜o F e´ que
(OLS1,s)-(OLS4,s) sejam va´lidas para o modelo. Isso requer que os erros na˜o
sejam correlacionados entre e dentro das duas subamostras e que tenham a
mesma variaˆncia, ou seja, V (εj) = σ
2Inj , j = 1, 2.
- OLS no modelo irrestrito e´ equivalente a rodar duas regresso˜es de MQO
separadas, pois
min
β1,β2
(y −X1β1 − 0β2)
0
(y −X1β1 − 0β2)+(y − 0β1 −X2β2)
0
(y − 0β1 −X2β2)
= min
β1
(y −X1β1)
0 (y −X1β1) +min
β2
(y−X2β2)
0 (y −X2β2)
Teste para mudanc¸a estrutural em β com variaˆncias diferentes
Se a hipo´tese de variaˆncias iguais dos erros para as duas subamostras na˜o
for plaus´ıvel, enta˜o (OLS3,s) e´ violada para os modelos restrito e irrestrito e a
derivac¸a˜o da distribuic¸a˜o do teste F na˜o e´ va´lida.
Ao inve´s do teste F, no´s podemos empregar o seguinte teste de Wald:
W =
³
βˆ1 − βˆ2
´0 ·\
V
h
βˆ1
i
+
\
V
h
βˆ2
i¸−1 ³
βˆ1 − βˆ2
´
cuja distribuic¸a˜o aproxima-se de uma χ2K para n grande. Esse teste de Wald
e´ apenas va´lido assintoticamente, ao contra´rio dos outros resultados derivados
ate´ o momento.
12
Poder dos testes
No´s definimos o poder de um teste δ como π (θ|δ) = P (X ∈ C|θ) para
θ ∈ Θ, isto e´, como a probabilidade de se rejeitar H0 quando o valor verdadeiro
do paraˆmetro e´ θ. As regio˜es cr´ıticas nos exemplos considerados eram os valores
de X nos quais a estat´ıstica t assumia valores pequenos ou grandes ou nos quais
estat´ısticas F ou qui-quadrado assumiam valores grandes.
Exemplo 1: O poder do teste H0 : βj = βj0 versus H0 : βj 6= βj0 ao n´ıvel
de significaˆncia 100α, para σ2 conhecido.
Sob H0, isto e´, quando o valor verdadeiro e´ βj0, t =
βˆj−βj0t
σ2(X0X)−1jj
∼ N (0, 1) ,
e no´s rejeitamos H0 se |t| > Φ1−α/2, onde Φ1−α/2 e´ o percentil 1 − α/2 da
distribic¸a˜o normal padra˜o. Para derivar a func¸a˜o poder do teste, no´s precisamos
considerar a distribuic¸a˜o de
βˆj−βj0t
σ2(X0X)−1jj
para cada poss´ıvel valor de βj . Denote
Φ1−α/2 por k para na˜o confundir a notac¸a˜o.
π
¡
βj |δ
¢
= P
¡|t| ≥ Φ1−α/2|βj¢ = P


¯¯¯¯
¯¯ βˆj − βj0q
σ2 (X 0X)−1jj
¯¯¯¯
¯¯ ≥ k|βj


= P

 βˆj − βjq
σ2 (X 0X)−1jj
+
βj − βj0q
σ2 (X 0X)−1jj
≥ k|βj


+P

 βˆj − βjq
σ2 (X 0X)−1jj
+
βj − βj0q
σ2 (X 0X)−1jj
≤ −k|βj


Condicional em X, no´s sabemos que
βˆj−βjt
σ2(X0X)−1jj
∼ N (0, 1) e βj−βj0t
σ2(X0X)−1jj
e´ uma constante. Portanto, a soma tem distribuic¸a˜o N
Ã
βj−βj0t
σ2(X0X)−1jj
, 1
!
e,
consequ¨entemente,
π
¡
βj |δ
¢
= 1− Φ

k − βj − βj0q
σ2 (X 0X)−1jj

+Φ

−k − βj − βj0q
σ2 (X 0X)−1jj


Exemplo 2: O poder do teste Rβ = q0 versus H0 : Rβ 6= q0 ao n´ıvel de
significaˆncia 100α, para σ2 conhecido e posto(R) = p.
Sob H0, isto e´, quando o valor verdadeiro de Rβ e´ q0 (correspondendo ao
valor verdadeiro de β igual a β0, digamos),³
Rβˆ − q0
´0 h
σ2R (X 0X)−1R0
i−1 ³
Rβˆ − q0
´
∼ χ2p
13
Portanto, no´s rejeitamos H0 se³
Rβˆ − q0
´0 h
σ2R (X 0X)−1R0
i−1 ³
Rβˆ − q0
´
≥ χ21−α,p
Denote χ21−α,p por k para na˜o confundir a notac¸a˜o. O poder do teste e´
π (q|δ) = P
µ³
Rβˆ − q0
´0 h
σ2R (X 0X)−1R0
i−1 ³
Rβˆ − q0
´
≥ k|q
¶
= 1− χ2p,λ (k)
onde χ2p,λ (k) e´ a func¸a˜o de distribuic¸a˜o da distribuic¸a˜o de qui-quadrado na˜o
centrada com p graus de liberdade e paraˆmetro λ = (q − q0)0Σ−1 (q − q0) .
Prova: Para Rβ = q, no´s sabemos que Rβˆ ∼ N
³
q, σ2R (X 0X)−1R0
´
. A
matriz Σ = σ2R (X 0X)−1R0 tem dimensa˜o pxp, e´ sime´trica e positiva definida.
Para qualquer matriz Σ sime´trica positiva definida, existe uma matriz sime´trica
na˜o singular B tal que BB = Σ . B e´ denotada por Σ−1/2 e satisfaz I =
B−1ΣB−1 ou I = Σ−1/2ΣΣ−1/2.
Portanto,
Σ−1/2
³
Rβˆ − q
´
∼ N (0, Ip)
e, consequ¨entemente,
Σ−1/2
³
Rβˆ − q0
´
= Σ−1/2
³
Rβˆ − q + (q − q0)
´
∼ N
³
Σ−1/2 (q − q0) , Ip
´
Como ³
Rβˆ − q0
´0 h
σ2R (X 0X)−1R0
i−1 ³
Rβˆ − q0
´
=
³
Σ−1/2
³
Rβˆ − q0
´´0 ³
Σ−1/2
³
Rβˆ − q0
´´
O resultado e´ consequ¨eˆncia da definic¸a˜o da distribuic¸a˜o de qui-quadrado na˜o
centrada.
A func¸a˜o poder do teste associada aos dois testes, com σ2 desconhecido,
podem ser calculadas de maneira similar. As distribuic¸o˜es relevantes sera˜o a t
e a F na˜o centradas.
Previsa˜o
Considere o modelo de regressa˜o linear
y = Xβ + ε
14
para o qual (OLS1,s)-(OLS4,s) sa˜o satisfeitas. Suponha que no´s desejemos pr-
ever o valor de y, y0, para valores dados dos regressores, x0. Se β e σ
2 fossem
conhecidos, nossa previsa˜o seria
E [y0|x0] = x00β
com o erro de previsa˜o satisfazendo
E [ε0] = 0, V [ε0] = σ
2
O erro de previsa˜o seria constru´ıdo da seguinte forma:
- E [y0|x0] = x00β : constante
- x00β − y0 = −ε0 ∼ N
¡
0, σ2
¢
Portanto, a estat´ıstica pivotal seria
x00β−y0√
σ2
∼ N (0, 1) , o que implicaria que
um intervalo de previsa˜o de 100(1− α) para y0 seria dado por£
x00β − Φ1−α/2σ, x00β +Φ1−α/2σ
¤
Na pra´tica, no´s na˜o sabemos o valor de β. Entretanto, pelo Teorema de Gauss
Markov, no´s sabemos que x00βˆ e´ o melhor estimador linear na˜o viesado para x
0
0β.
Portanto, x00βˆ minimiza o erro quadra´tico me´dio de previsa˜o
1
n
h
(y0 − yˆ0)2
i
entre
todos os previsores lineares em y.
Sob (OLS1,s)-(OLS4,s)
-
−x00βˆ ∼ N
³
x00β, σ
2x00 (X
0X)−1 x0
´
o que implica que
x00βˆ − y0 ∼ N
³
0, σ2x00 (X
0X)−1 x0 + σ2
´
pois βˆ e´ baseado numa amostra que na˜o inclui a observac¸a˜o que estamos ten-
tando prever.
-
(n−K) s2
σ2
∼ χ2n−K
Portanto,
x00βˆ − y0r
s2
³
1 + x00 (X 0X)
−1
x0
´ ∼ tn−K
15
o que implica que um intervalo de previsa˜o de 100(1− α) porcento para y0 e´
dado por"
x00βˆ − t1−α/2,n−K
r
s2
³
1 + x00 (X 0X)
−1
x0
´
, x00βˆ + t1−α/2,n−K
r
s2
³
1 + x00 (X 0X)
−1
x0
´#
Intuic¸a˜o
O erro de previsa˜o εˆ0 = y0 − yˆ0, condicional em x0, satisfaz
E [εˆ0] = E [y0 − yˆ0] = E
h
x00β + ε0 − x00βˆ
i
= x00β + 0− x00E
h
βˆ
i
= 0
V [εˆ0] = V [y0] + V [yˆ0]− 2Cov (y0, yˆ0) = σ2 + V
³
x00βˆ
´
− 0
= σ2 + x00V
³
βˆ
´
x0 = σ
2 + σ2x00 (X
0X)−1 x0 > σ2
porque no´s tivemos que estimar β.
Se X incluir uma constante,
V [εˆ0] = σ
2 +
σ2
n
+ σ2 (x0 − x¯)0 (X 0X)−1 (x0 − x¯)
Enta˜o, quanto mais longe x0 estiver da me´dia da amostra, mais incerta sera´
a previsa˜o.
16