Buscar

1 Curso de Estatística - Tópico 5


Continue navegando


Prévia do material em texto

Tópico 5:
Análise de Regressão
Universidade Federal de Pernambuco, Recife, PE
Principais referências:
Gujarati e Porter, Seções 1-6, 9-12, 17-20, C
Wooldridge, Seções 2-6, 8-9, 15
1 Introdução
A análise de regressão diz respeito ao estudo da dependência de uma variável
Y , a variável dependente, em relação a uma ou mais variáveis Xk, as k-ésimas
variáveis explanatórias, visando estimar e/ou prever o valor médio (da popula-
ção) da primeira em termos dos valores conhecidos ou fixados (em amostragens
repetidas) das segundas.
Observação. Os termos “variável dependente” e “variável” explanatória” são
descritos de varios modos na literatura, como mostra a lista representativa a
seguir.
Variável dependente Variável explicativa
Variável explicada Variável independente
Variável prevista Previsor
Regressando Regressor
Resposta Estímulo
Variável endógena Variável exógena
Saída Entrada
Variável controlada Variável de controle
Embora a análise de regressão lide com a dependência entre variáveis, esta re-
lação não implica logicamente uma causação. Para atribuir causação, devemos
recorrer a considerações a priori ou teóricas. Também estreitamente associada
à análise de regressão, porém conceitualmente diferente desta, é a análise de
correlação, cujo objetivo é medir a força ou grau de associação linear entre duas
variáveis.
1
Curso de Estatística Tópico 5
Para a análise empírica, existem três formas em que os dados podem estar
disponíveis:
1. Em séries temporais∗, quando há um conjunto de observações dos valores
que uma variável assume em diferentes momentos do tempo;
2. em corte tranversal, quando há um conjunto de observações dos valores
que uma ou mais variáveis assumem no mesmo ponto do tempo; ou
3. combinados, quando as observações guardam elementos tanto de séries
temporais quanto de corte tranversal. Um tipo especial de dados com-
binados são os dados em painel (ou longitudinais), quando as mesmas
unidade em corte tranversal são observadas ao longo do tempo.
Observação. As variáveis em análise de regressão enquadram-se, geralmente,
em quatro categorias amplas de escalas: escalas de razão (quando a razão, a
distância e a ordenação entre variáves fazem sentido), de intervalo (quando a
distância e a ordenação entre variáves fazem sentido), ordinal (quando a orde-
nação entre variáves faz sentido) e nominal (quando a variável não se encaixa
em nenhuma das categorias anteriores).
2 Regressão Linear Simples
Nesta seção, apresentaremos a teoria que fundamenta a análise de regressão bi-
variada, ou simples, na qual a variável dependente Y se relaciona a uma única
variável explanatória X. Todos os resultados vistos aqui podem ser generaliza-
dos para modelos com duas ou mais variáveis explanatórias. Alguns conceitos
envolvendo tais modelos serão introduzidos, porém aprofundados na próxima
seção.
2.1 Idéias Básicas
Da definição para a análise de regressão simples, cada média condicional E(Y ∣Xi)
é uma função de Xi, chamada função de esperança condicional (FEC) ou fun-
ção de regressão populacional (FRP), em que Xi é um dado valor de X. Por
hipótese, assumimos que esta função é linear, ou seja,
E(Y ∣Xi) = f(Xi) = β1 + β2Xi,
em que β1 e β2, respectivamente o intercepto e o coeficiente angular (ou incli-
nação) da regressão, são parâmetros fixos, mas desconhecidos.
∗A análise de séries temporais e seus problemas especiais será abordada com detalhes no
Tópico 6: Introdução às Séries Temporais
2
Curso de Estatística Tópico 5
Figura 1: Linha de regressão populacional E(Y ∣Xi) da distribuição condicional de
Y para vários niveis de X.
Observação. A linearidade da FRP em análise de regressão linear diz respeito
estritamente à linearidade de seus parâmetros, mas é flexível quanto à lineari-
dade das variáves explanatórias.
O desvio ou erro estocástico individual de Yi em torno de seu valor esperado é
dado por
ui = Yi −E(Y ∣Xi),
em que ui é uma variável aleatória não-observável que assume valores positivos
ou negativos. Logo,
Yi = E(Y ∣Xi) + ui = β1 + β2Xi + ui.
Tomando o valor esperado desta última expressão, temos E(Yi∣Xi) = E[E(Y ∣Xi)]+
E(ui∣Xi) = E(Y ∣Xi) +E(ui∣Xi), uma vez que E(Y ∣Xi) é uma constante. Como
E(Yi∣Xi) = E(Y ∣Xi), temos, por construção, que
E(ui∣Xi) = 0.
Considere, agora, que a população seja desconhecida e o que tenhamos seja uma
amostra selecionada aleatoriamente de valores Y para osX fixados. Temos assim
Yi = Yˆi + uˆi = βˆ1 + βˆ2Xi + uˆi,
3
Curso de Estatística Tópico 5
em que Yˆi, βˆ1 e βˆ2 são estimadores de E(Y ∣Xi), β1 e β2, respectivamente, uˆi
denota o termo residual na amostra e Yˆi = βˆ1 + βˆ2Xi é a função de regressão
amostral (FRA), diferente para cada amostra.
Figura 1: Linhas de regressão para uma amostra e para a população.
2.2 Estimação por Mínimos Quadrados Ordinários (MQO)
Nosso objetivo é estimar a FRP com base na FRA da forma mais precisa possíel.
O método mais utilizado para a análise de regressão é o dos mínimos quadrados
ordinários (MQO), segundo o qual escolhemos os valores para βˆ1 e βˆ2 de tal
maneira que a soma do quadrado dos resíduos (SQR),
∑ uˆ2i =∑(Yi − Yˆi)2 =∑(Yi − βˆ1 − βˆ2Xi)2
seja a menor possível. Derivando as condições de primeira ordem,
∂ (∑ uˆ2i )
∂βˆ1
= −2∑(Yi − βˆ1 − βˆ2Xi)
∂ (∑ uˆ2i )
∂βˆ2
= −2∑(Yi − βˆ1 − βˆ2Xi)Xi Ô⇒ {
∑ uˆi = 0∑ uˆiXi = 0 ,
temos que
βˆ2 = ∑(Xi − X¯)∑(Yi − Y¯ )∑(Xi − X¯)2 e βˆ1 = Y¯ − βˆ2X¯.
4
Curso de Estatística Tópico 5
Os estimadores βˆ1 e βˆ2, assim obtidos, são os estimadores de MQO. As seguintes
propriedades são imediatas:
• A linha de regressão obtida passa pelas médias amostrais Y¯ e X¯:
βˆ1 = Y¯ − βˆ2X¯⇔ Y¯ = βˆ1 + βˆ2X¯.
• O valor médio estimado ¯ˆY é igual ao valor médio observado Y¯ :
Yˆi = βˆ1 + βˆ2Xi = (Y¯ − βˆ2X¯) + βˆ2Xi = Y¯ + βˆ2(Xi − X¯) ⇔ ∑ Yˆin = nY¯n +
βˆ2
∑(Xi−X¯)
n
⇔ ¯ˆY = Y¯ .
Note que este resultado só é valido quando há o intercepto βˆ1.
• O valor médio dos resíduos ¯ˆui é igual a zero:∑ uˆi = 0⇔ ∑ uˆin = 0⇔ ¯ˆui = 0.
Este resultado também só é valido quando há o intercepto βˆ1.
• Os resíduos uˆi não estão correlacionados ao Yˆi previsto:
Yˆi − Y¯ = βˆ2(Xi − X¯) ⇔ ∑(Yˆi − Y¯ )uˆi = βˆ2∑(Xi − X¯)uˆi = βˆ2∑(Xi −
X¯) [(Yi − Y¯ ) − βˆ2(Xi − X¯)] = βˆ2∑(Xi − X¯)(Yi − Y¯ ) − βˆ22 ∑(Xi − X¯)2 =
βˆ22 ∑(Xi − X¯)2 − βˆ22 ∑(Xi − X¯)2 = 0⇔ ∑(Yˆi − Y¯ )uˆi = 0.
• Os resíduos uˆi não estão correlacionados ao Xi:∑ uˆiXi = 0.
Suponha, agora, que os termos de erro possuem variância constante (Var(ui) =
σ2) e não são serialmente correlacionados (Cov(ui, uj) = 0). Assim,
Var(βˆ2) = σ2∑(Xi − X¯)2 e Var(βˆ1) = ∑X2in σ2∑(Xi − X¯)2 .
No entanto, como o verdadeiro σ2 é desconhecido, utilizamos o estimador σˆ2,
também calculado por MQO:
S2 = ∑ uˆ2i
n − 2 .
Observação. A expressão n−2 é conhecida como número de graus de liberdade
e representa o número total de observações da amostra (n) menos o número de
restrições lineares impostas à esta quantidade para se calcular uma estatística
(2, neste caso, pois para calcular a SQR é preciso obter os parâmetros βˆ1 e βˆ2).
Assim, para um modelo com k parâmetros, teríamos n − k graus de liberdade.
5
Curso de Estatística Tópico 5
2.3 Modelo Clássico de Regressão Linear (MCRL)
O modelo clássico de regressão linear, gaussiano ou padrão (MCRL), referencial
da teoria econométrica, parte das dez hipóteses descritas a seguir.
1. O modelo de regressão é linear nos parâmetros.
2. Os valores de X são fixos (se X é estocástico, seus valores são indepen-
dentes do termo de erro: Cov(Xi, ui) = 0).
3. Para os X dados, o valor médio do termo de erro é zero: E(ui∣Xi) = 0 (se
X é estocástico: E(ui) = 0).
4. (Homoscedasticidade) Para os X dados, a variância do termo de erro é
constante ou homoscedástica: Var(ui) = E [ui −E(ui∣Xi)]2 = E(u2i ∣Xi) =
σ2 (se X é estocástico: Var(ui) = E(u2i ) = σ2).
5. (Não-Autocorrelação) Paraos X dados, não há autocorrelação nem corre-
lação serial entre os termos de erro: Cov(ui, uj ∣Xi,Xj) = E(uiuj ∣Xi,Xj) =
0, i ≠ j (se X é estocástico: Cov(ui, uj) = E(uiuj) = 0, i ≠ j).
6. O número de observações n deve ser maior que o número de parâmetros
estimados.
7. Deve haver variação suficiente nos valores de X.
8. (Não-Multicolinearidade) Em modelos com dois ou mais regressores, não
há colinearidade exata entre as variáveis X.
9. O modelo está especificado corretamente.
10. (Normalidade dos erros)∗ O termo de erro é distribuído normalmente:
ui ∼ N(0, σ2).
Dadas as hipóteses do MCRL, as estimativas de MQO possuem algumas pro-
priedades ideais, decritas no teorema a seguir.
Observação. Um estimador θˆ é considerado o melhor estimador linear não vie-
sado (MELNV) de um parâmetro θ se este estimador for: (a) linear, isto é, uma
função linear de uma variável aleatória; (b) não viesado, isto é, E(θˆ) = θ; e (c)
eficiente, isto é, tiver variância mínima na classe dos estimadores lineares não
viesados.
∗A hipótese da normalidade dos erros é opcional e suas consequências serão tratadas na
subseção seguinte.
6
Curso de Estatística Tópico 5
Teorema 1: (Teorema de Gauss-Markov) Dadas as premissas do MCRL, os
estimadores de MQO da classe dos estimadores lineares não viesados têm vari-
ância mínima, isto é, são o melhor estimador linear não viesado (MELNV).
Agora, consideraremos a qualidade do ajustamento da linha de regressão à um
conjunto de dados através do cálculo do coeficiente de determinação R2, que
mede a proporção ou percentual da variação total de Y explicada pelo modelo
de regressão. Sabemos que Yi = Yˆi + uˆi⇔ (Yi − Y¯ ) = (Yˆi − Y¯ ) + uˆi, logo,
∑(Yi − Y¯ )2 =∑(Yˆi − Y¯ )2 +∑ uˆ2 +∑(Yˆi − Y¯ )uˆ=∑(Yˆi − Y¯ )2 +∑ uˆ2= βˆ22∑(Xi − X¯)2 +∑ uˆ2 ,
em que ∑(Yi − Y¯ )2 é a soma total de quadrados (STQ) e ∑ uˆ2 é a soma de
quadrados explicados (SQE). Portanto,
SQT = SQE + SQR.
Como 1 = SQE
STQ
+ SQR
STQ
, definimos:
R2 = SQE
STQ
= ∑(Yˆi − Y¯ )2∑(Yi − Y¯ )2 ou R2 = 1 − SQRSTQ = 1 − ∑ uˆ2∑(Yi − Y¯ )2 .
Observação. O R2 é uma função não decrescente do número de regressores
presentes no modelo. Portanto, para comparar dois termos R2 é preciso levar
em conta o número de regressores, o que pode ser feito utilizando-se o coeficiente
de determinação ajustado R¯2:
R¯2 = 1 − SQR/(n − k)
SQT /(n − 1) = 1 − ∑ uˆ2/(n − k)∑(Yi − Y¯ )2/(n − 1) ,
em que k é o número de parâmetros do modelo.
2.4 Modelo Clássico de Regressão Linear Normal (MCRLN)
O modelo clássico de regressão linear normal (MCRLN) é uma extensão do
MCRL, para o qual é válida a hipótese de normalidade dos erros. Ou seja, o
MCRLN supõe que cada ui seja iid com ui ∼ N(0, σ2) e logo, para cada ui,
E(ui) = 0,
Var(ui) = E[ui −E(ui)]2 = E(u2i ) = σ2,
Cov(ui, uj) = E{[ui −E(ui)][uj −E(uj)]} = E(uiuj) = 0.
7
Curso de Estatística Tópico 5
Observação. Uma vez que ui representa a influência combinada (sobre a va-
riável dependente) de todas as variáveis omitidas no modelo, à medida que o
número destas aumenta indefinidamente, o teorema do limite central (TLC) per-
mite demonstrar que a distribuição de suas somas tende à distribuição normal.
Sob a hipótese da normalidade, as seguintes propriedades para os estimadores
de MQO (βˆ1 e βˆ2) são imediatas:
• βˆ1 e βˆ2 são não-viesados, consistentes e possuem variância mínima dentro
da classe dos estimadores não viesados, sejam lineares ou não. Logo, os
estimadores de MQO são os melhores estimadores não viesados (MENV).
• βˆ1 e βˆ2 (que são funções lineares de ui) têm distribuição normal, ou βˆ1 ∼
N(β1, σ2βˆ1) e βˆ2 ∼ N(β2, σ2βˆ2) tal que β1 = E(βˆ1), β2 = E(βˆ2), σ2βˆ1 = Var(βˆ1)
e σ2
βˆ2
= Var(βˆ2).
• (n− 2)S2
σ2
tem distribuição qui-quadrado com n− 2 graus de liberdade, ou(n − 2)S2
σ2
∼ X 2(n−2)
• Os estimadores de máxima verossimilhança (MV) são idênticos aos de
MQO.
Observação. Dado que ui ∼ N(0, σ2), Yi (sendo uma função linear de ui) tam-
bém está distribuído normalmente com E(Yi) = β1 + β2Xi e Var(Yi) = σ2, ou
Yi ∼ N(β1 + β2Xi, σ2).
Uma vez que podemos derivar a distribuição de probabilidade dos estimadores
de MQO, sob a hipótese da normalidade, podemos utilizar as distribuições t, F
e X 2 para construir intervalos de confiança e realizar testes de hipóteses para
os modelos de regressão. Alguns exemplos:
• Testar a significância estatística do valor estimado do parâmetro βˆ2, ou
seja, testar H0 ∶ β2 = βˆ2 contra H1 ∶ β2 ≠ βˆ2. Para isso, calcula-se t = βˆ2−β2σβˆ2
e rejeita-se H0 para um nível de significância α se ∣t∣ > tα/2,(n−2).
• Testar a significância estatística do valor estimado da variância dos erros
S2, ou seja, testar H0 ∶ S2 = σ2 contra H1 ∶ S2 ≠ σ2. Para isso, calcula-
se X 2 = (n − 2)S2
σ2
e rejeita-se H0 para um nível de significância α seX 2 > X 2α/2;(n−2) ou X 2 < X 2(1−α)/2;(n−2).
• (Análise de Variância - ANOVA) Testar a significância estatística da SQE
do modelo. Note que SQE = βˆ22 ∑(Xi − X¯)2 e E(βˆ2) = β2, então, se β2 for
de fato zero, X não tem nenhuma influência linear sobre Y e toda variação
de Y é explicada pelos erros ui. Em um modelo com k parâmetros, testa-
se H0 ∶ β2 = β3 = ... = βk = 0 contra H1 ∶ βi ≠ 0 para algum i = 2, ..., k. Para
isso, calcula-se F = SQE/(k−1)
SQR/(n−k) e rejeita-seH0 para um nível de significância
α se F > Fα;(k−1),(n−k).
8
Curso de Estatística Tópico 5
Observação. A estatística F pode ser calculada a partir do R2 do modelo:
F = SQE
SQR
⋅ n−k
k−1 = SQESQT−SQE ⋅ n−kk−1 = SQE/SQT(SQT−SQE)/SQT ⋅ n−kk−1 = R21−R2 n−kk−1 =
R2/(k−1)(1−R2)/(n−k) .
• (Teste Jarque-Bera - JB) Testar a hipótese da normalidade dos resíduos
uˆi. O teste JB é um teste assintótico (ou de amostra gande) e analisa
o quão próximo a assimetria A e a curtose C dos resíduos de MQO se
aproximam das de uma distribuição normal (0 e 3, respectivamente). Para
isso, calcula-se a estatística JB = n [A2
6
+ (C−3)2
24
] e rejeita-se a hipótese
de normalidade para um nível de significância α se JB > X 2α/2;(n−2) ou
JB < X 2(1−α)/2;(n−2).
2.5 Algumas Extensões
Mudanças de Escala Suponha que, dada uma regressão simples Yi = βˆ1 +
βˆ2Xi + uˆi, queiramos representar Yi e Xi em uma outra escala ou unidade de
medida. Ou seja, dadas duas constantes (ou fatores de escala) w1 e w2, buscamos
Y ∗i = βˆ∗1 + βˆ∗2X∗i + uˆ∗i ,
em que Y ∗i = w1Yi e X∗i = w2Xi (e daí uˆ∗i = Y ∗i − Yˆi∗ = w1(Yi − Yˆi) = w1uˆi). As
seguintes relações com os componentes do MCRLN original são imediatas:
βˆ∗1 = w1βˆ1
βˆ∗2 = (w1w2 ) βˆ2
σˆ∗2 = w21σˆ2
Var(βˆ∗1 ) = w21 Var(βˆ1)
Var(βˆ∗2 ) = (w1w2 )2 Var(βˆ2)
Formas Funcionais Envolvendo Logarítmos O modelo de regressão loga-
rítmico, ou log-log, é aquele que pode ser expresso como
ln(Yi) = β1 + β2 ln(Xi) + ui.
Em modelos deste tipo, β2 mede a elasticidade de Y em relação a X, isto é, a
variação percentual de Y correspondente a uma dada variação percentual (pe-
quena) de X.
O modelo de regressão semilogarítmico é aquele que assume uma das seguintes
formas:
9
Curso de Estatística Tópico 5
lin-log:
log-lin:
Yi = β1 + β2 ln(Xi) + ui;
ln(Yi) = β1 + β2Xi + ui.
As interpretações de β2 para os modelos lineares, logarítimos e semilogarítimos
são resumidas na tabela a seguir.
Modelo Variável Variável Interpretação
Dependente Independente de β2
y x ∆Y = β2∆X
lin-log y ln(x) ∆Y = (β2/100)%∆X
log-lin ln(y) x %∆Y = (100β2)∆X
log-log ln(y) ln(x) %∆Y = β2%∆X
Observação. As interpretações mostradas acima dos modelos envolvendo loga-
rítmos são válidas apenas para variações pequenas, ou infinitesimais, de X (ou
Y ), pois neste caso ∆ ln(X) = lnXt − lnXt−1 ≈ (Xt −Xt−1)/Xt−1 = (∆X)/X.
Variações deste tipo são comuns de se analisar em modelos que tratam com va-
riáveis contínuas. Em um modelo log-lin, por exemplo, a relação real entre X e
Y (independente da magnitude da variação) é dada por: %∆X = 100(eβ2∆X−1).
Modeloscom Variáveis Binárias (Dummies) Suponha que queiramos,
em um determinado modelo de regressão, inserir variáveis de escala nominal,
ou de natureza qualitativa. Tais variáveis em geral indicam a presença ou au-
sência de uma qualidade, ou atributo, e podemos “quantificar” tais atributos
formulando variáveis artificiais que assumem valores 1 ou 0 chamadas variáveis
binárias (ou dummies), em que 1 indica a presença (ou posse) daquele atributo
e 0, a ausência dele.
Observação. Se uma variável qualitativa tem m categorias, deve-se introduzir
apenas (m− 1) variáveis binárias representando estas categorias em um modelo
com intercepto, caso contrário haverá colinearidade perfeita entre estas variáveis
e o intercepto do modelo, o que viola uma das hipóteses do MCRL. Este fato
é conhecido como armadilha da variável binária. A categoria para a qual ne-
nhuma variável biária é atribuída é conhecida como categoria-base, de controle,
de comparação ou de referência.
Denotemos por D uma variável binária arbitrária. Para ilustrarmos os possí-
veis efeitos da inclusão desta variável em um modelo de regressão, considere o
seguinte modelo com uma uma variável binária Dt e uma variável contínua Xt:
Yt = α1 + α2Dt + β1Xt + β2(DtXt) + ut
As seguintes propriedades são imediatas:
10
Curso de Estatística Tópico 5
• SejaDt = 0. Podemos observar que o coeficiente de intercepto (α1) informa
o valor médio do efeito diferencial da categoria de referência em Yt, dado
Xt. Ou seja,
E(Yt∣Dt = 0,Xt) = α1 + β1Xt.
• Seja, agora, Dt = 1. Podemos observar dois possíveis efeitos. O coeficiente
ligado à variável binária isolada (α2), quando diferente de zero, informa o
valor médio do efeito diferencial da categoria que recebe o valor 1 sobre o
coeficiente de intercepto. Por sua vez, o coeficiente ligado à interação entre
as variáveis contínua e binária (β2), quando diferente de zero, informa o
valor médio do efeito diferencial da categoria que recebe o valor 1 sobre o
coeficiente angular (β1). Ou seja,
E(Yt∣Dt = 1,Xt) = (α1 + α2) + (β1 + β2)Xt.
Figura 3: Exemplos dos diferentes efeitos de Dt sobre E(Yt∣Dt,Xt). Em (a),
Dt = 0; em (b), Dt = 1, α ≠ 0 e β2 = 0; em (c), Dt = 1, α = 0 e β2 ≠ 0; e em (d), Dt = 1,
α ≠ 0 e β2 ≠ 0.
11
Curso de Estatística Tópico 5
3 Regressão Linear Múltipla
Nesta seção, apresentamos o modelo clássico de regressão linear envolvendo k
variáveis (Y e X2,X3, ...,Xk) na notação de álgebra matricial.
3.1 Idéias Básicas
Em um modelo de regressão linear com k variáveis explanatórias, a FRP nos
fornece a média ou o valor esperado de Y condicionado aos valores fixos (em
amostras repetidas) de X2,X3, ...,Xk. Por hipótese, assumimos que esta função
é linear, ou seja,
Yi =E(Y ∣X2i,X3i, ...,Xki) + ui = β1 + β2X2i + β3X3i + ... + βkXki + ui,
i = 1,2, ..., n.
em que β1 =intercepto, β2 até βk =coeficientes angulares parciais, ui = pertuba-
ção estocástica da i-ésima observação e n é o tamanho da população. Esten-
dendo o modelo em um sistema de n equações,⎡⎢⎢⎢⎢⎢⎢⎢⎣
Y1
Y2⋮
Yn
⎤⎥⎥⎥⎥⎥⎥⎥⎦
=
⎡⎢⎢⎢⎢⎢⎢⎢⎣
1 X21 X31 ⋯ Xk1
1 X22 X32 ⋯ Xk2⋮ ⋮ ⋮ ⋱ ⋮
1 X2n X3n ⋯ Xkn
⎤⎥⎥⎥⎥⎥⎥⎥⎦
⎡⎢⎢⎢⎢⎢⎢⎢⎣
β1
β2⋮
βn
⎤⎥⎥⎥⎥⎥⎥⎥⎦
+
⎡⎢⎢⎢⎢⎢⎢⎢⎣
u1
u2⋮
un
⎤⎥⎥⎥⎥⎥⎥⎥⎦
y = X β + u
n × 1 n × k k × 1 n × 1
em que
y = vetor coluna n × 1 de observações da variável independente Y
X = matriz n × k de observações das k − 1 variáveis independentes X2 a Xk
(a primeira coluna representa o termo de intercepto)
β = vetor coluna k × 1 de parâmetros desconhecidos β1, β2, ..., βk
u = vetor coluna k × 1 de n termos de erro ui
Este sistema é conhecido como a representação matricical do modelo geral de
regressão linear com k variáveis. Abreviadamente,
y =Xβ +u
Nosso objetivo é estimar os parâmetros deste modelo de regressão múltipla e
extrair inferências sobre elas com base nos dados disponíveis. Na notação matri-
cial, buscamos estimar β e extrair inferências sobre o mesmo. Para o propósito
da estimação, podemos utilizar o método MQO ou MV.
12
Curso de Estatística Tópico 5
Notação escalar Notação matricial
1. E(ui) = 0, para cada i 1. E(u) = 0 em que 0 é um vetor nulo
n × 1
2. E(uiuj) = 0, para cada i ≠ j
E(uiuj) = σ2, para cada i ≠ j 2. E(uu′) = σ2I em que I é uma ma-triz identidade n × n
3. X2,X3, ...,Xk são não estocásticos
ou fixos
3. A matriz X é não estocástica ou
fixa
4. Não há relação linear exata entre
as variáveis X
4. O posto de X é p(X) = k, em que
k < n
5. Para testes de hipóteses, ui ∼
N(0, σ2) 5. Para testes de hipóteses, u ∼N(0, σ2I)
As hipóteses subjacentes ao MCRL e suas representações equivalentes na nota-
ção matricial estão dispostas na tabela a seguir.
Dispomos, a seguir, o desenvolvimento das hipóteses 1 e 2 na notação matricial.
E(u) = E
⎡⎢⎢⎢⎢⎢⎢⎢⎣
u1
u2⋮
un
⎤⎥⎥⎥⎥⎥⎥⎥⎦
=
⎡⎢⎢⎢⎢⎢⎢⎢⎣
E(u1)
E(u2)⋮
E(un)
⎤⎥⎥⎥⎥⎥⎥⎥⎦
=
⎡⎢⎢⎢⎢⎢⎢⎢⎣
0
0⋮
0
⎤⎥⎥⎥⎥⎥⎥⎥⎦
= 0
E(uu′) = E
⎡⎢⎢⎢⎢⎢⎢⎢⎣
u1
u2⋮
un
⎤⎥⎥⎥⎥⎥⎥⎥⎦
[u1 u2 ⋯ un] = E
⎡⎢⎢⎢⎢⎢⎢⎢⎣
u21 u1u2 ⋯ u1un
u2u1 u
2
2 ⋯ u2un⋮ ⋮ ⋱ ⋮
unu1 unu2 ⋯ u2n
⎤⎥⎥⎥⎥⎥⎥⎥⎦
=
⎡⎢⎢⎢⎢⎢⎢⎢⎣
E(u21) E(u1u2) ⋯ E(u1un)
E(u2u1) E(u22) ⋯ E(u2un)⋮ ⋮ ⋱ ⋮
E(unu1) E(unu2) ⋯ E(u2n)
⎤⎥⎥⎥⎥⎥⎥⎥⎦
=
⎡⎢⎢⎢⎢⎢⎢⎢⎣
σ2 0 ⋯ 0
0 σ2 ⋯ 0⋮ ⋮ ⋱ ⋮
0 0 ⋯ σ2
⎤⎥⎥⎥⎥⎥⎥⎥⎦
= σ2
⎡⎢⎢⎢⎢⎢⎢⎢⎣
1 0 ⋯ 0
0 1 ⋯ 0⋮ ⋮ ⋱ ⋮
0 0 ⋯ 1
⎤⎥⎥⎥⎥⎥⎥⎥⎦
= σ2I
3.2 Estimação por Mínimos Quadrados Ordinários (MQO)
Para obter uma estimativa de MQO de β, devemos minimizar a SQR. Na no-
tação matricial, isso corresponde a minimizar
13
Curso de Estatística Tópico 5
uˆ′uˆ = [uˆ1 uˆ2 ⋯ uˆn]
⎡⎢⎢⎢⎢⎢⎢⎢⎣
uˆ1
uˆ2⋮ˆ
un
⎤⎥⎥⎥⎥⎥⎥⎥⎦
= uˆ21 + uˆ22 +⋯ + uˆ2n =∑ uˆ2i
A FRA pode também ser escrita na notação matricial como y =Xβˆ + uˆ. Desta
forma, uˆ = y −Xβˆ e portanto
uˆ′uˆ = (y −Xβˆ)′(y −Xβˆ)= (y′ − βˆ′X′)(y −Xβˆ)= y′y − y′Xβˆdcurly
escalar
− βˆ′X′y´udcurlymodudcurlymodudcurlymodudcurlymodudcurlymodudcurlymod¸udcurlymodudcurlymodudcurlymodudcurlymodudcurlymodudcurlymod¶
escalar
+βˆ′X′Xβˆ
= y′y − 2βˆ′X′y + βˆ′X′Xβˆ.
Derivando a condição de primeira ordem,
∂ (uˆ′uˆ)
∂βˆ
= −2X′y + 2X′Xβˆ = 0
Da hipótese de não-multicolinearidade, a matriz X′X é inversível. Assim che-
gamos ao resultado fundamental da estimação por MQO na notação matricial:
βˆ = (X′X)−1X′y
O vetor βˆ estimado por MQO é não-viesado, pois βˆ = (X′X)−1X′(Xβ + u) =(X′X)−1X′Xβ+(X′X)−1X′u = β+(X′X)−1X′u e E(βˆ) = E(β)+(X′X)−1X′ E(u) =
β. Ainda, pelo Teorema de Gauss-Markov, temos que o vetor βˆ estimado
por MQO possui a propriedade de ser o melhor estimador linear não viesado
(MELNV).
A matriz de variância-covariância de βˆ é dada pela seguinte expressão:
Var-Cov(βˆ) = E{[βˆ −E(βˆ)] [βˆ −E(βˆ)]′}
=
⎡⎢⎢⎢⎢⎢⎢⎢⎣
Var(βˆ1) Cov(βˆ1, βˆ2) ⋯ Cov(βˆ1, βˆk)
Cov(βˆ2, βˆ1) Var(βˆ22) ⋯ Cov(βˆ2, βˆk)⋮ ⋮ ⋱ ⋮
Cov(βˆk, βˆ1) Cov(βˆk, βˆ2) ⋯ Var(βˆk)
⎤⎥⎥⎥⎥⎥⎥⎥⎦
Sabemos que E(βˆ) = β. Assumindo ainda a hipótese de homoscedasticidade e
não-autocorrelação entre os termos de erro, temos E(uu′) = σ2I e, portanto,
14
Curso de Estatística Tópico 5
Var-Cov(βˆ) = E{[βˆ −E(βˆ)] [βˆ −E(βˆ)]′}
≡ E [(βˆ −β) (βˆ −β)′]
= E{[(X′X)−1X′u] [(X′X)−1X′u]′}
= E [(X′X)−1X′uu′X (X′X)−1]= (X′X)−1X′ E(uu′)X (X′X)−1≡ (X′X)−1X′σ2IX (X′X)−1= σ2 (X′X)−1
Como, a princípio, nõo conhecemos σ2, devemos utilizar o estimador σˆ2, também
calculado por MQO:
σˆ2 = uˆ′uˆ
n − k
3.3 Estimação por Mínimos Quadrados Generalizados (MQG)
Estimadores de MQO são um caso especial de estimadores de Mínimos Quadra-
dos Generalizados (MQG). Neste, assumimos que possa haver heteroscedastici-
dade e autocorrrelação entre os termos de erro, ou seja,
E(uu′) = σ2V
em que V é uma matriz conhecida n × n. Assim, temos o modelo y = Xβ + u
em que E(u) = 0 e Var-Cov(u) = σ2V. É possível então demonstrar que
βmqg = (X′V−1X)−1X′V−1y
em que βmqg é o estimador de MQG de β. Pode-se também mostrar que
Var-Cov(βmqg) = σ2 (X′V−1X)−1
e que βmqg é o MELNV de β.
Como, na prática, não conhecemos σ2nem as verdadeiras variâncias e covari-
âncias que formam a matriz V, utilizamos as estimativas σˆ2 e Vˆ.
4 Violação das Hipóteses do Modelo Clássico
Nesta seção, apresentamos algumas das principais violações às hipóteses do
MCRL que podem ser observadas na prática, suas consequências e algumass
formas de detecção.
15
Curso de Estatística Tópico 5
4.1 Multicolinearidade
Multicolinearidade refere-se à existência de uma relação linear entre algumas ou
todas as variáveis explanatórias do modelo de regressão. Seja x o vetor k × 1 de
variáveis explanatórias do modelo. Dizemos que há multicolinearidade exata se
existe um vetor λ ≠ 0, k × 1, tal que
λ′x = λ1X1 + λ2X2 + ... + λkXk = 0
para toda observação i. ou seja, as colunas de X são linearmente dependentes
e o posto de X é p(X) < k. Por consequência, a matriz X′X é singular e não-
inversível, e logo os estimadores de MQO, βˆ, são indeterminados.
Dizemos que há multicolinearidade quase-exata quando as variáveis X estão
intercorrelacionadas, mas não perfeitamente. Ou seja, existe um termo de erro
estocástico vi tal que λ1X1 +λ2X2 + ...+λkXk +vi = 0. Neste caso, podemos nos
deparar com as seguintes consequências:
• A matriz X′X se aproxima da singularidade, portanto os elementos em(X′X)−1 tornam-se grandes.
• Embora sejam ainda MELNVs, os estimadores de MQO, βˆ, têm gran-
des variâncias e covariâncias (uma vez que Var-Cov(βˆ) = σ2 (X′X)−1),
tornando difícil uma estimação precisa.
• Os intervalos e confiança tendem a ser muito amplos e a razão t de um ou
mais coeficientes tende a ser estatisticamente insignificante.
• O R2 pode ser muito alto e o valor F pode ser significativo, rejeitando a
hipótese de que β2 = β3 = ... = βk = 0.
• Os estimadores de MQO e seus erros padrão podem ser sensíveis a peque-
nas alterações nos dados.
4.2 Heterocedasticidade
Dizemos que há heterocedasticidade quando, em um modelo de regressão, as
variâncias condicionais de cada termo de erro ui (ou seja, as variâncias de Yi
condicionais a X) não são constantes. Isto é,
E(u2i ) = σ2i ,
para cada observação i. Neste caso, os estimadores de MQO são ainda lineares,
não-viesados e consistentes, porêm não os mais eficientes dentre esta classe de
estimadores (ou seja, não são MELNV). Os estimadores de MQG, por sua vez,
são MELNV.
Seguem, abaixo, alguns métodos formais para detecção de heterocedasticidade.
16
Curso de Estatística Tópico 5
• (Teste de Goldfeld-Quandt) Suponha que σ2i relaciona-se positivamente
com uma das variáveis explanatórias no modelo de regressão: σ2i = f(Xi).
Siga os passos:
1. Ordene Xi de modo ascendente;
2. Omita c observações centrais;
3. Estime separadamente 2 regressões por MQO para as primeiras e
últimas (n−c)
2
observações restantes e calcule as respectivas SQRs,
SQR1 e SQR2;
4. Calcule a razão λ = SQR2/gl
SQR2/gl , em que gl são os respectivos graus de
liberdade de cada regressão. É possível demonstrar que λ ∼ Fgl,gl;
5. Rejeite a hipótese de homocedasticidade se λ cair na região crítica
do teste F usual.
• (Teste de Breusch-Pagan-Godfrey) Suponha que σ2i seja descrita como
σ2i = f(α1 +α2Z2i + ...+αmZmi), em que Z são variáveis não estocásticas.
Suponha ainda que ui ∼ N(0, σ2). Siga os passos:
1. Estime o modelo de regressão por MQO e obtenha os resíduos, uˆi;
2. Obtenha σ˜2 = ∑ uˆ2in , o estimador de MV de σ2;
3. Construa variáveis pi definidas como pi = uˆ2iσ˜2 ;
4. Estime a regressão de pi sobre os Z’s como pi = α1 + α2Z2i + ... +
αmZmi + vi, em que vi é o termo residual desta regressão;
5. Obtenha a SQE da regressão anterior e defina Θ = 1
2
SQE. Supondo
ui ∼ N(0, σ2), é possível demonstrar que Θ ∼
ass
X 2(m−1);
6. Rejeite a hipótese de homocedasticidade (H0 ∶ α2 = ... = αm = 0 ) se
Θ cair na região crítica do teste X 2 usual.
• (Teste de White) Siga os passos:
1. Estime o modelo de regressão por MQO e obtenha os resíduos, uˆi;
2. Estime uma regressão linear auxiliar uˆ2i = f(X1, ...,Xk), com parâme-
tros α1, ..., αm, que contenha os regressores originais X, seus valores
elevados ao quadrado X2 e todos os produtos cruzados entre eles;
3. Obtenha o R2 da regressão anterior. Supondo homocedasticidade
(H0 ∶ α2 = ... = αm = 0), é possível demonstrar que n ⋅R2 ∼
ass
X 2gl;
4. Rejeite a hipótese de homocedasticidade se n⋅R2 cair na região crítica
do teste X 2 usual.
• (Teste de Koenker-Basset) Siga os passos:
1. Estime o modelo de regressão por MQO e obtenha os resíduos, uˆi;
2. Estime uma regressão auxiliar uˆ2i = α1 + α2(Yˆi)2 + v1;
3. Rejeite, ou não, a hipótese de homocedasticidade (H0 ∶ α2 = 0) atra-
vés do teste t usual.
17
Curso de Estatística Tópico 5
4.3 Autocorrelação
A autocorrelação pode ser definida como a correlação entre integrantes de séries
de observações ordenadas no tempo (como as séries temporais) ou no espaço
(como os dados de corte transversal). Simbolicamente,
E(uiuj) ≠ 0, i ≠ j.
(ou E(utut+s) ≠ 0, s ≠ 0, utilizando-se a notação temporal).
Suponha que a autocorrelação entre os termos de erro seja gerada pelo seguinte
mecanismo (também chamado de processo autoregressivo de primeira ordem):
ut = ρut−1 + εt − 1 < ρ < 1
em que ρ é o coeficiente de autocovariância e εt é o termo de erro estocástico,
tal que atenda às hipóteses do MCRL:
E(εt) = 0
Var(εt) = σ2ε
E(εt, εt+s) = 0
Pode-se então demonstrar que:
• E(ut) = ρE(ut−1) +E(εt)⇒ E(ut) = 0,
pois E(ut) = E(ut−1) e E(εt) = 0;
• Var(ut) = ρ2 Var(ut−1) +Var(εt)⇒ Var(ut) = σ2ε1−ρ2 ,
pois Var(ut) = Var(ut−1) e Var(εt) = σ2ε ;
• Cov(ut, ut−1) = E(utut−1) = E[(ρut−1 + εt)ut−1] = ρE(u2t−1) = ρ σ2ε1−ρ2 ,
pois E(u2t−1) = Var(ut−1) = σ2ε1−ρ2 e Cov(ut−1, εt) = 0.
Segue, ainda, que Cor(ut, ut−1) = Cov(ut,ut−1)V ar(ut) = ρ. De modo geral, temos
Cov(ut, ut−j) = ρj σ2ε1−ρ2 e Cor(ut, ut−j) = ρj , ou:
E(uu′) = E
⎡⎢⎢⎢⎢⎢⎢⎢⎣
u21 u1u2 ⋯ u1ut
u2u1 u
2
2 ⋯ u2ut⋮ ⋮ ⋱ ⋮
utu1 utu2 ⋯ u2t
⎤⎥⎥⎥⎥⎥⎥⎥⎦
= σ2ε
1 − ρ2
⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
1 ρ ρ2 ⋯ ρn−1
ρ 1 ρ ⋯ ρn−2
ρ2 ρ 1 ⋮ ρn−3⋮ ⋮ ⋮ ⋱ ⋮
ρn−1 ρn−2 ρn−3 ⋯ 1
⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦
ρ =
⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
1 ρ ρ2 ⋯ ρn−1
ρ 1 ρ ⋯ ρn−2
ρ2 ρ 1 ⋮ ρn−3⋮ ⋮ ⋮ ⋱ ⋮
ρn−1 ρn−2 ρn−3 ⋯ 1
⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦
18
Curso de Estatística Tópico 5
Assim como no caso de heteroscedasticidade, na presença de autocorrelação os
estimadores de MQO, embora lineares, não-viesados e assintoticamente distri-
buídos de modo normal, não mais apresentam variância mínima dentre esta
classe de estimadores (ou seja, não são MELNV). Os estimadores de MQG, por
sua vez, são MELNV.
Seguem, abaixo, alguns métodos formais para detecção de autocorrelação.
• (Teste de Durbin-Watson) Considere as seguintes hipóteses:
1. O modelo de regressão inclui o intercepto;
2. As variáveis explanatórias, os X, são não estocásticas, ou fixas;
3. O termo de erro ut segue um processo autoregressivo de primeira
ordem;
4. O termo de erro ut é distribuído normalmente;
5. O modelo de regressão não inclui valores defasados da variável de-
pendente (Yt−1, Yt−2, ...) como uma das variáveis explanatórias.
Partimos do cálculo da seguinte estatística:
d = ∑t=nt=2 (uˆt − uˆt−1)2∑t=nt=1 uˆ2t = ∑ uˆ
2
t −∑ uˆtuˆt−1 +∑ uˆ2t−1∑ uˆ2t ≈ 2(1 − ∑ uˆ
2
t uˆ
2
t−1∑ uˆ2t ) ,
(pois ∑ uˆ2t−1 ≈ ∑ uˆ2t ). Definindo ρˆ = ∑ uˆ2t uˆ2t−1∑ uˆ2t , temos
d ≈ 2 (1 − ρˆ) .
Uma vez que −1 < ρ < 1, 0 < d < 4. Siga os passos:
1. Estime a regressão por MQO, obtenha os resíduos;
2. Calcule o d da equação;
3. Para um dado tamanho amostral e número de variáveis explanatórias,
determine os valores críticos dL e e DU .
4. Decida de acordo com a seguinte regra:
5. Caso d pertença a uma das zonas de indecisão, use o teste d modifi-
cado: dado o nível de significância α,
19
Curso de Estatística Tópico 5
a) H0 ∶ ρ = 0 contraH1 ∶ ρ > 0. RejeitarH0 ao nível α se d < dU . Isto
é, há evidência estatisticamente significativa de autocorrelação
positiva.
b) H0 ∶ ρ = 0 contra H1 ∶ ρ < 0.Rejeitar H0 ao nível α se (4 −
d) < dU . Isto é, há evidência estatisticamente significativa de
autocorrelação negativa.
c) H0 ∶ ρ = 0 contra H1 ∶ ρ ≠ 0. Rejeitar H0 ao nível 2α se d < dU ou(4 − d) < dU . Isto é, há evidência estatisticamente significativa
de autocorrelação, positiva ou negativa.
• (Teste de Breusch-Godfrey - LM) É um teste mais genérico no sentido de
que permite: (1) regressores não estocásticos; (2) estruturas autoregressi-
vas; e (3) estruturas de médias móveis. Suponha que o termo de erro ut
siga um esquema autoregressivo de ordem p, ou seja: ut = ρ1ut−1+ρ2ut−2+
... + ρput−p − εt. A hipótese nula a ser testada é H0 ∶ ρ1 = ρ2 = ... = ρp = 0,
ou seja, que não há correlação serial de qualquer ordem. Siga os passos:
1. Estime a regressão por MQO, obtenha os resíduos uˆt;
2. Estime a regressão auxiliar uˆt = α1 + α2Xt + ρˆ1uˆt−1 + ρˆ2uˆt−2 + ... +
ρˆpuˆt−p+εt, obtenha o R2 desta regressão. É possível demonstrar que(n − p)R2 ∼
ass
X 2p ;
3. Rejeite a hipótese de autocorrelação se (n−p)R2 cair na região crítica
do teste X 2 usual.
5 Modelos de Equações Simultâneas
Os modelos de equações simultâneas descrevem relações de causa e efeito de
mão dupla ou simultânea entre duas ou mais variáveis endógenas, resumidas
em um sitema com um número de equações igual ao número de variáveis endó-
genas envolvidas. Nesta seção, desenvolveremos alguns conceitos-chave desses
modelos.
5.1 Idéias Básicas
Considere o seguinte modelo:
Y1i = β10 + β12Y2i + γ11X1i + u1i
Y2i = β20 + β21Y1i + γ21X1i + u2i
em que Y1 e Y2 são variáveis mutuamente dependentes ou endógenas, X1 é uma
variável exógena e u1 e u2 são os termos de erro estocásticos. Ambas Y1 e Y2 são
estocásticas, e caso haja o problema da endogeneidade, tal que Cov(Y2, u1) ≠ 0
ou Cov(Y1, u2) ≠ 0, a aplicação do método MQO a essas equações individual-
mente conduzirá a estimativas inconsistentes.
20
Curso de Estatística Tópico 5
O modelo geral de M equações com M variáveis endógenas pode ser escrito
como segue
⎡⎢⎢⎢⎢⎢⎢⎢⎣
Y1t
Y2t⋮
YMt
⎤⎥⎥⎥⎥⎥⎥⎥⎦
=
⎡⎢⎢⎢⎢⎢⎢⎢⎣
β10
β20⋮
βM0
⎤⎥⎥⎥⎥⎥⎥⎥⎦
+
⎡⎢⎢⎢⎢⎢⎢⎢⎣
0 β12 ⋯ β1M
β21 0 ⋯ β2M⋮ ⋮ ⋱ ⋮
βM1 βM2 ⋯ 0
⎤⎥⎥⎥⎥⎥⎥⎥⎦
⎡⎢⎢⎢⎢⎢⎢⎢⎣
Y1t
Y2t⋮
YMt
⎤⎥⎥⎥⎥⎥⎥⎥⎦
+
⎡⎢⎢⎢⎢⎢⎢⎢⎣
γ11 γ12 ⋯ γ1K
γ21 γ22 ⋯ γ2K⋮ ⋮ ⋱ ⋮
γK1 γK2 ⋯ γKK
⎤⎥⎥⎥⎥⎥⎥⎥⎦
⎡⎢⎢⎢⎢⎢⎢⎢⎣
X1t
X2t⋮
XKt
⎤⎥⎥⎥⎥⎥⎥⎥⎦
+
⎡⎢⎢⎢⎢⎢⎢⎢⎣
u1t
u2t⋮
uMt
⎤⎥⎥⎥⎥⎥⎥⎥⎦
em que
Y1, Y2, ..., YM = M variáveis endógenas
X1,X2, ...,XK = K variáveis predeterminadas
(podem representar tanto variáveis exógenas, X, quanto variáveis
endógenas defasadas, Yt−j , j = 1,2, ...)
u1, u2, ..., uM = M distúrbios estocásticos
t = 1,2, ..., T = número total de observações
β = coeficientes das variáveis endógenas
γ = coeficientes das variáveis predeterminadas
Neste modelo, as equações e seus parâmetros estão representados na forma estru-
tural. A partir delas é possivel derivar equações e parâmetros na forma reduzida,
nas quais expressamos as variáveis endógenas apenas em termos das variáveis
predeterminadas e dos distúrbios estocásticos.
5.2 Identificação
O problema da identificação consiste na possibilidade de obter os parâmetros
de uma equação estrutural por meio dos coeficientes estimados na forma redu-
zida. Se isto for possível, dizemos que a equação é identificada. Caso contrário,
dizemos que a equação é subidentificada.
Uma equação identificada pode ser exatamente identificada ou sobreidentificada.
Diz-se que é exatamente identificada se valores numérico exatos dos parâmetros
estruturais podem ser obtidos. Diz-se ser sobreidentificada se mais do que um
valor numérico pode ser obtido por alguns dos parâmetros das equações estru-
turais.
Para determinar a identificação de uma equação em um sistema de equações
simultâneas, podemos nos guiar pelas condições de ordem e de posto de identi-
ficação. Considere a seguinte notação:
M = número de variáveis endógenas no modelo
m = número de variáveis endógenas em uma dada equação
K = número de variáveis predeterminadas no modelo, incluindo o intercepto
k = número de variáveis predeterminadas em uma dada equação
O seguinte teorema define uma condição necessária, mas não suficiente, para
identificação.
21
Curso de Estatística Tópico 5
Teorema 2: (Condição de Ordem de Identificação) Em um modelo deM equa-
ções simultâneas, para que uma equação seja identificada, o número de variáveis
predeterminadas excluídas da equação não deve ser menor do que o número de
variáveis endógenas incluídas naquela equação menos 1, isto é,
K − k ≥m − 1.
Se K − k = m − 1, a equação é identificada, mas se K − k > m − 1, ela é superi-
dentificada.
O seguinte teorema define uma condição necessária e suficiente para identifica-
ção.
Teorema 3: (Condição de Posto de Identificação) Em um modelo que conte-
nha M equações em M variáveis endógenas, uma equação é identificada se, e
somente se, um determinante diferente de zero de ordem (M −1)×(M −1) puder
ser construído por meio dos coeficientes das variáveis (tanto endógenas quanto
predeterminadas) excluídas da equação especificada, mas incluídas em outras
equações do modelo.
Em resumo, temos os seguintes princípios gerais de identificação de uma equação
estrutural em um sistema de M equações simultâneas:
1. Se K − k >m − 1 e o posto da matriz A é M − 1, a equação é superidenti-
ficada.
2. Se K − k =m − 1 e o posto da matriz A é M − 1, a equação é exatamente
identificada.
3. Se K − k ≥m − 1 e o posto da matriz A é menor do que M − 1, a equação
é subidentificada.
4. Se K − k <m − 1, a equação não é identificada.
5.3 Estimação
Modelos Recursivos Considere o seguinte sistema de três equações:
⎡⎢⎢⎢⎢⎢⎣
Y1t
Y2t
Y3t
⎤⎥⎥⎥⎥⎥⎦ =
⎡⎢⎢⎢⎢⎢⎣
β10
β20
β30
⎤⎥⎥⎥⎥⎥⎦ +
⎡⎢⎢⎢⎢⎢⎣
0 0 0
β21 0 0
β31 β32 0
⎤⎥⎥⎥⎥⎥⎦
⎡⎢⎢⎢⎢⎢⎣
Y1t
Y2t
Y3t
⎤⎥⎥⎥⎥⎥⎦ + [γ11 γ21 γ31]
⎡⎢⎢⎢⎢⎢⎣
X1t
X2t
X3t
⎤⎥⎥⎥⎥⎥⎦ +
⎡⎢⎢⎢⎢⎢⎣
u1t
u2t
u3t
⎤⎥⎥⎥⎥⎥⎦
em que Y e X são, respectivamente, as variáveis endógenas e exógenas. Os dis-
túrbios são tais que Cov(u1t, u2t) = Cov(u1t, u3t) = Cov(u2t, u2t) = 0 (ou seja,
não possuem correlação contemporânea).
22
Curso de Estatística Tópico 5
A estrutura deste sistema é dita ser recursiva, triangular ou causal. Uma vez
que, por hipótese, Cov(Y1t, u2t) = Cov(Y1t, u3t) = Cov(Y2t, u3t) = 0, as equações
respeitam as hipóteses do MCRL e o método MQO pode ser aplicado a cada
equação individualmente.
Figura 4: Modelo recursivo.
Mínimos Quadrados Indiretos (MQI) Para modelos de equações identifi-
cadas ou exatamente identificadas, de forma geral, podemos realizar a estimação
por mínimos quadrados indiretos (MQI) através dos seguintes passos:
1. Obtenha as equações na forma reduzida;
2. Obtenha individualmente por MQO as estimativas dos coeficientes das
equações na forma reduzida;
3. Obtenha as estimativas dos coeficientes estruturais originais com base nos
coeficientes da forma reduzida estimados.
Mínimos Quadrados em Dois Estágios (MQ2E) Em modelos de equa-
ções subidentificadas e/ou superidentificadas, de forma geral, teremos o pro-
blema de endogeneidade (considere, aqui, o modelo de duas equações apre-
sentado anteriormente). Suponha, contudo, que descubramos uma “proxy” ou
variável instrumental Z para Y1 tal que
Cov(Y2, Z) ≠ 0
Cov(u1, Z) = 0
É então possível estimar os coeficientes da função Y1i = β10+β12Y2i+γ11X1i+u1i
através do método dos mínimos quadrados em dois estágios (MQ2E), descrito
pelos seguintes passos, ou estágios:
23
Curso de Estatística Tópico 5
1. Encontra-se a porção das variáveis endógenas e exógenas que podem ser
atribuídas aos instrumentos (uso das formas reduzidas);
2. Realiza-se a regressão da equação original, com todas as variáveis expli-
cativas endógenas substituídas pelos valores ajustados das regressões do
primeiro estágio.
∎
24
	Introdução
	Regressão Linear Simples
	Idéias Básicas
	Estimação por Mínimos QuadradosOrdinários (MQO)
	Modelo Clássico de Regressão Linear (MCRL)
	Modelo Clássico de Regressão Linear Normal (MCRLN)
	Algumas Extensões
	Regressão Linear Múltipla
	Idéias Básicas
	Estimação por Mínimos Quadrados Ordinários (MQO)
	Estimação por Mínimos Quadrados Generalizados (MQG)
	Violação das Hipóteses do Modelo Clássico
	Multicolinearidade
	Heterocedasticidade
	Autocorrelação
	Modelos de Equações Simultâneas
	Idéias Básicas
	Identificação
	Estimação