Buscar

Tópico 6

Prévia do material em texto

Tópico 6 – Problema de 
especificação de dados
Bibliografia:
WOOLDRIDGE, J.M. Introdução à Econometria: uma abordagem moderna. 4ª 
ed. São Paulo: Pioneira Thomson Learning, 22015. (capítulo 9).
Problema adicionais de especificação de dados
No capítulo 8 estudados uma violação das hipóteses de Gauss-
Markov. Enquanto a heteroscedasticidade nos erros pode ser
vista como uma má especificação do modelo, ela é um
problema relativamente de menor importância.
A presença de heteroscedasticidade não causa viés ou
inconsistência nos estimadores MQO.
 É ainda possível ajustar intervalos de confiança e estatísticas
𝑡e 𝐹 para obter inferência válida após a estimação MQO.
 Mínimos quadrados ponderados permitem obter estimadores
mais eficientes que aqueles do MQO.
Problema mais sério: correlação entre o erro (𝑢) e uma ou
mais variáveis explicativas.
Problema adicionais de especificação de dados
Se 𝑢 for, por qualquer razão, correlacionado com a variável
explicativa 𝑥𝑗 → 𝑥𝑗 é uma variável explicativa endógena.
A omissão de uma variável importante pode causar correlação
entre o erro e variáveis explicativas, o que pode gerar viés e
inconsistência em todos os estimadores MQO.
No caso especial em que a variável omitida é uma função de
uma variável explicativa no modelo → má-especificação da
forma funcional.
Problema de especificação de dados
Tópicos deste capítulo:
Consequências má especificação da forma funcional e como
testar sua existência.
Como o uso de variáveis proxy pode resolver ou aliviar o viés
de omissão.
Explicação do viés no método MQO que pode aparecer sob
certas formas de erros de medida.
Discussão de problemas adicionais: ausência de dados,
amostras não-aleatórias e observações extremas.
Má-especificação da forma funcional
Um modelo de regressão múltipla sofre de má-especificação da
forma funcional quando não explica de maneira apropriada a
relação entre variáveis explicativas e a dependente observadas.
Considere o seguinte modelo:
log 𝑠𝑎𝑙á𝑟𝑖𝑜ℎ = 𝛽0 + 𝛽1𝑒𝑑𝑢𝑐 + 𝛽2𝑒𝑥𝑝𝑒𝑟 + 𝛽3𝑒𝑥𝑝𝑒𝑟
2 + 𝑢 (1)
Se, por exemplo, omitimos o termo de experiência elevado ao
quadrado, 𝑒𝑥𝑝𝑒𝑟2 → estamos cometendo uma má-
especificação da forma funcional.
Geralmente conduz a 
estimadores viesados
𝛽0, 𝛽1, 𝛽2.
A magnitude do viés depende do 
tamanho de 𝛽3 e da correlação entre 
𝑒𝑑𝑢𝑐, 𝑒𝑥𝑝𝑒𝑟, 𝑒𝑥𝑝𝑒𝑟2. 
Má-especificação da forma funcional
Exemplo:
log 𝑠𝑎𝑙á𝑟𝑖𝑜ℎ = 𝛽0 + 𝛽1𝑒𝑑𝑢𝑐 + 𝛽2𝑒𝑥𝑝𝑒𝑟 + 𝛽3𝑒𝑥𝑝𝑒𝑟
2 +
𝛽4𝑓𝑒𝑚𝑖𝑛𝑖𝑛𝑜 + 𝛽5𝑓𝑒𝑚𝑖𝑛𝑖𝑛 ∗ 𝑒𝑑𝑢𝑐 + 𝑢 (2)
Se omitirmos o termo de interação (𝑓𝑒𝑚𝑖𝑛𝑖𝑛𝑜 ∗ 𝑒𝑑𝑢𝑐 ),
estaremos especificando mal a forma funcional.
Com essa omissão, obteremos estimadores viesados dos outros
parâmetros.
Como retorno de educação depende do sexo, não fica claro que
tipo de retorno estaríamos estimando quando omitimos o termo
de interação.
Má-especificação da forma funcional
A omissão de funções de variáveis independentes não é a única
maneira de um modelo sofrer o problema de má-especificação
da forma funcional.
Por exemplo, se a equação (2) for o modelo verdadeiro para
satisfazer as primeiras quatro hipóteses de Gauss-Markov, mas
utilizarmos 𝑠𝑎𝑙é𝑟𝑖𝑜ℎ , em lugar de log 𝑠𝑎𝑙á𝑟𝑖𝑜ℎ , como
variável dependente, não obteremos estimadores não viesados
ou consistentes dos efeitos parciais.
Há testes para detectar esse tipo de problema da forma
funcional.
Má-especificação da forma funcional
Uma ferramenta para detectar uma forma funcional mal
especificada é o teste F para restrições de exclusões conjuntas.
Muitas vezes faz sentido adicionar termos quadráticos de
variáveis significantes no modelo e executar um teste conjunto
de significância.
Se termos quadráticos adicionados forem significantes, eles
podem ser adicionados ao modelo, mas sua interpretação será
mais complicada.
Pode ser difícil localizar a razão exata pela qual uma forma
funcional está mal especificada.
Além da adição de termos quadráticos, o uso de logaritmos é
suficiente para detectar muitas relações não-lineares
importantes em ciências sociais aplicadas.
Má-especificação da forma funcional
Como sabemos a forma funcional correta?
1. Use a teoria econômica como guia;
2. Pense sobre a interpretação;
3. Faz sentido 𝑥 afetar 𝑦 em termos percentuais (logs) ou em 
termos absolutos?
4. Faz mais sentido a derivada de 𝑥1 variar com 𝑥1 (quadrático) 
ou com 𝑥2 (interações) ou ser fixo?
Teste RESET
O teste de erro de especificação da regressão (RESET) é útil para
detectar a má-especificação da forma funcional.
Suponha este modelo:
𝑦𝑖 = 𝛽𝑜 + 𝛽1𝑥𝑖 +⋯+ 𝛽𝑘𝑥𝑘 + 𝑢𝑖 (3)
Se ele satisfizer RLM.4 (termo de erro tem média condicional zero),
nenhuma função não linear das variáveis independentes deve ser
significante quando adicionada à equação.
Se testarmos todas possibilidades de termos quadráticos das variáveis
explicativas para testar problemas de forma funcional, teremos a
desvantagem de gastar muitos graus de liberdade se houver muitas
variáveis independentes.
Além disso, certos tipos de não linearidades (logaritmo, por
exemplo) não serão detectados por termos quadráticos.
Teste RESET
O teste RESET adiciona polinômios aos valores estimados MQO na
equação (3) para detectar tipos gerais de má-especificação de formas
funcionais.
Para implementar o teste, temos que decidir quantas funções dos
valores estimados devem ser incluídas na regressão expandida.
Não existe resposta certa para esta questão, mas os termos
quadráticos e cúbicos têm demonstrado utilidade nestas aplicações.
Primeiro estimamos a equação original (restrita).
Depois, salvamos os valores preditos e geramos seus termos
quadráticos e cúbicos.
Em seguida, estimamos esta equação (irrestrita) para testar se a
equação original têm não-linearidades importantes ausentes.
Teste RESET
Sejam ො𝑦 os valores estimados MQO ao estimar a equação (3).
Considere a equação expandida:
𝑦 = 𝛽0 + 𝛽1𝑥1 +⋯+ 𝛽𝑘𝑥𝑘 + 𝛿1 ො𝑦
2𝛿2 ො𝑦
3 + 𝑒𝑟𝑟𝑜 (4)
Obs: funções dos valores estimados na estimação inicial
aparecem como variáveis explicativas.
Não estamos interessados nos parâmetros estimados em (4),
apenas usamos esta equação para testar se (3) tem não
linearidades importantes ausentes.
Obs: Devemos lembrar que ො𝑦2 e ො𝑦3 são apenas funções não
lineares de 𝑥𝑗.
Por fim, geramos a estatística do teste RESET que é a
estatística F para testar: H0: δ1= 0, δ2=0 (a equação 3 está
corretamente especificada).
Teste RESET
Equação 5
. gen double r3=r2*r1
. gen double r2=r1*r1
. 
(option xb assumed; fitted values)
. predict double r1
 
 _cons -21.77031 29.47504 -0.74 0.462 -80.38466 36.84405
 bdrms 13.85252 9.010145 1.54 0.128 -4.065141 31.77018
 sqrft .1227782 .0132374 9.28 0.000 .0964541 .1491022
 lotsize .0020677 .0006421 3.22 0.002 .0007908 .0033446
 
 price Coef. Std. Err. t P>|t| [95% Conf. Interval]
 
 Total 917854.506 87 10550.0518 Root MSE = 59.833
 Adj R-squared = 0.6607
 Residual 300723.805 84 3580.0453 R-squared = 0.6724
 Model 617130.701 3 205710.234 Prob > F = 0.0000
 F( 3, 84) = 57.46
 Source SS df MS Numberof obs = 88
. reg price lotsize sqrft bdrms
Teste RESET
 Prob > F = 0.0120
 F( 2, 82) = 4.67
 ( 2) r3 = 0
 ( 1) r2 = 0
. test r2 r3
 
 _cons 166.0973 317.4325 0.52 0.602 -465.3772 797.5717
 r3 1.55e-06 6.55e-06 0.24 0.814 -.0000115 .0000146
 r2 .0003534 .0070989 0.05 0.960 -.0137686 .0144755
 bdrms 2.174905 33.88811 0.06 0.949 -65.23934 69.58915
 sqrft .0175989 .2992508 0.06 0.953 -.5777064 .6129041
 lotsize .0001537 .005203 0.03 0.977 -.0101968 .0105042
 
 price Coef. Std. Err. t P>|t| [95% Conf. Interval]
 
 Total 917854.506 87 10550.0518 Root MSE = 57.38
 Adj R-squared = 0.6879
 Residual 269983.807 82 3292.48546 R-squared = 0.7059
 Model 647870.698 5 129574.14 Prob > F = 0.0000
 F( 5, 82) = 39.35
 Source SS df MS Number of obs = 88
. reg price lotsize sqrft bdrms r2 r3
• Teste RESET é 4,67. Este é o valor de uma variável aleatória 𝐹2,88(𝑛 = 88, 𝑘 = 5) e o 
p-valor associado é 0,012 → evidência de má-especificação da forma funcional. 
Teste RESET
. gen lph3=lphat*lph2
. gen lph2=lphat*lphat
. 
(option xb assumed; fitted values)
. predict lphat
 
 _cons -1.297042 .6512836 -1.99 0.050 -2.592191 -.001893
 bdrms .0369584 .0275313 1.34 0.183 -.0177906 .0917074
 lsqrft .7002324 .0928652 7.54 0.000 .5155597 .8849051
 llotsize .1679667 .0382812 4.39 0.000 .0918404 .244093
 
 lprice Coef. Std. Err. t P>|t| [95% Conf. Interval]
 
 Total 8.01760352 87 .092156362 Root MSE = .1846
 Adj R-squared = 0.6302
 Residual 2.86256324 84 .034078134 R-squared = 0.6430
 Model 5.15504028 3 1.71834676 Prob > F = 0.0000
 F( 3, 84) = 50.42
 Source SS df MS Number of obs = 88
. reg lprice llotsize lsqrft bdrms
. *Variável em log
Teste RESET
• Teste RESET é 2,57. P-valor é 0,084 → não rejeitamos no nível de significância 5% 
(embora faríamos ao nível de 10%) → Com base no teste Reset, o modelo log-log é 
preferido.
 Prob > F = 0.0831
 F( 2, 82) = 2.57
 ( 2) lph3 = 0
 ( 1) lph2 = 0
. test lph2 lph3
 
 _cons 88.08799 240.9851 0.37 0.716 -391.3081 567.4841
 lph3 -.1933951 .7521095 -0.26 0.798 -1.68958 1.30279
 lph2 3.921189 13.01484 0.30 0.764 -21.96948 29.81186
 bdrms -.9276645 2.76988 -0.33 0.739 -6.437838 4.582509
 lsqrft -17.39336 52.49227 -0.33 0.741 -121.8172 87.0305
 llotsize -4.191584 12.59578 -0.33 0.740 -29.2486 20.86543
 
 lprice Coef. Std. Err. t P>|t| [95% Conf. Interval]
 
 Total 8.01760352 87 .092156362 Root MSE = .18126
 Adj R-squared = 0.6435
 Residual 2.69400226 82 .032853686 R-squared = 0.6640
 Model 5.32360126 5 1.06472025 Prob > F = 0.0000
 F( 5, 82) = 32.41
 Source SS df MS Number of obs = 88
. reg lprice llotsize lsqrft bdrms lph2 lph3
Teste RESET
Uma desvantagem do teste RESET é que ele não fornece
orientação prática de como proceder se modelo for rejeitado.
A rejeição de 5, pelo uso do teste RESET não sugere
diretamente que 6 seja o passo seguinte.
A equação irrestrita pode conter termos quadráticos e cúbicos,
mas também pode conter logaritmos.
Modelos com logaritmos das variáveis independentes (modelos
de elasticidades constantes) e dependente são fáceis de serem
interpretados e podem apresentar boas propriedades
estatísticas.
O teste RESET é um teste da forma funcional, e não um teste
de heteroscedasticidade.
Exercício
1. No Exercício 4.11 (Wooldridge, 2015) o R-quadrado da
estimativa do modelo
log 𝑠𝑎𝑙á𝑟𝑖𝑜
= 𝛽0 + 𝛽1 log 𝑣𝑎𝑙𝑚𝑒𝑟𝑐 + 𝛽3𝑙𝑢𝑐𝑟𝑚𝑎𝑟𝑔 + 𝛽4𝑝𝑒𝑟𝑐𝑒𝑜
+ 𝛽5𝑝𝑒𝑟𝑐𝑜𝑚𝑝 + 𝑢
era 𝑅2 = 0,353 n (=177). Quando 𝑝𝑒𝑟𝑐𝑒𝑜2 e 𝑝𝑒𝑟𝑐𝑜𝑚𝑝2 são
adicionados, 𝑅2 = 0,375. Existe evidência de má-especificação
da forma funcional neste modelo?

Continue navegando