Baixe o app para aproveitar ainda mais
Prévia do material em texto
Tópico 6 – Problema de especificação de dados Bibliografia: WOOLDRIDGE, J.M. Introdução à Econometria: uma abordagem moderna. 4ª ed. São Paulo: Pioneira Thomson Learning, 22015. (capítulo 9). Problema adicionais de especificação de dados No capítulo 8 estudados uma violação das hipóteses de Gauss- Markov. Enquanto a heteroscedasticidade nos erros pode ser vista como uma má especificação do modelo, ela é um problema relativamente de menor importância. A presença de heteroscedasticidade não causa viés ou inconsistência nos estimadores MQO. É ainda possível ajustar intervalos de confiança e estatísticas 𝑡e 𝐹 para obter inferência válida após a estimação MQO. Mínimos quadrados ponderados permitem obter estimadores mais eficientes que aqueles do MQO. Problema mais sério: correlação entre o erro (𝑢) e uma ou mais variáveis explicativas. Problema adicionais de especificação de dados Se 𝑢 for, por qualquer razão, correlacionado com a variável explicativa 𝑥𝑗 → 𝑥𝑗 é uma variável explicativa endógena. A omissão de uma variável importante pode causar correlação entre o erro e variáveis explicativas, o que pode gerar viés e inconsistência em todos os estimadores MQO. No caso especial em que a variável omitida é uma função de uma variável explicativa no modelo → má-especificação da forma funcional. Problema de especificação de dados Tópicos deste capítulo: Consequências má especificação da forma funcional e como testar sua existência. Como o uso de variáveis proxy pode resolver ou aliviar o viés de omissão. Explicação do viés no método MQO que pode aparecer sob certas formas de erros de medida. Discussão de problemas adicionais: ausência de dados, amostras não-aleatórias e observações extremas. Má-especificação da forma funcional Um modelo de regressão múltipla sofre de má-especificação da forma funcional quando não explica de maneira apropriada a relação entre variáveis explicativas e a dependente observadas. Considere o seguinte modelo: log 𝑠𝑎𝑙á𝑟𝑖𝑜ℎ = 𝛽0 + 𝛽1𝑒𝑑𝑢𝑐 + 𝛽2𝑒𝑥𝑝𝑒𝑟 + 𝛽3𝑒𝑥𝑝𝑒𝑟 2 + 𝑢 (1) Se, por exemplo, omitimos o termo de experiência elevado ao quadrado, 𝑒𝑥𝑝𝑒𝑟2 → estamos cometendo uma má- especificação da forma funcional. Geralmente conduz a estimadores viesados 𝛽0, 𝛽1, 𝛽2. A magnitude do viés depende do tamanho de 𝛽3 e da correlação entre 𝑒𝑑𝑢𝑐, 𝑒𝑥𝑝𝑒𝑟, 𝑒𝑥𝑝𝑒𝑟2. Má-especificação da forma funcional Exemplo: log 𝑠𝑎𝑙á𝑟𝑖𝑜ℎ = 𝛽0 + 𝛽1𝑒𝑑𝑢𝑐 + 𝛽2𝑒𝑥𝑝𝑒𝑟 + 𝛽3𝑒𝑥𝑝𝑒𝑟 2 + 𝛽4𝑓𝑒𝑚𝑖𝑛𝑖𝑛𝑜 + 𝛽5𝑓𝑒𝑚𝑖𝑛𝑖𝑛 ∗ 𝑒𝑑𝑢𝑐 + 𝑢 (2) Se omitirmos o termo de interação (𝑓𝑒𝑚𝑖𝑛𝑖𝑛𝑜 ∗ 𝑒𝑑𝑢𝑐 ), estaremos especificando mal a forma funcional. Com essa omissão, obteremos estimadores viesados dos outros parâmetros. Como retorno de educação depende do sexo, não fica claro que tipo de retorno estaríamos estimando quando omitimos o termo de interação. Má-especificação da forma funcional A omissão de funções de variáveis independentes não é a única maneira de um modelo sofrer o problema de má-especificação da forma funcional. Por exemplo, se a equação (2) for o modelo verdadeiro para satisfazer as primeiras quatro hipóteses de Gauss-Markov, mas utilizarmos 𝑠𝑎𝑙é𝑟𝑖𝑜ℎ , em lugar de log 𝑠𝑎𝑙á𝑟𝑖𝑜ℎ , como variável dependente, não obteremos estimadores não viesados ou consistentes dos efeitos parciais. Há testes para detectar esse tipo de problema da forma funcional. Má-especificação da forma funcional Uma ferramenta para detectar uma forma funcional mal especificada é o teste F para restrições de exclusões conjuntas. Muitas vezes faz sentido adicionar termos quadráticos de variáveis significantes no modelo e executar um teste conjunto de significância. Se termos quadráticos adicionados forem significantes, eles podem ser adicionados ao modelo, mas sua interpretação será mais complicada. Pode ser difícil localizar a razão exata pela qual uma forma funcional está mal especificada. Além da adição de termos quadráticos, o uso de logaritmos é suficiente para detectar muitas relações não-lineares importantes em ciências sociais aplicadas. Má-especificação da forma funcional Como sabemos a forma funcional correta? 1. Use a teoria econômica como guia; 2. Pense sobre a interpretação; 3. Faz sentido 𝑥 afetar 𝑦 em termos percentuais (logs) ou em termos absolutos? 4. Faz mais sentido a derivada de 𝑥1 variar com 𝑥1 (quadrático) ou com 𝑥2 (interações) ou ser fixo? Teste RESET O teste de erro de especificação da regressão (RESET) é útil para detectar a má-especificação da forma funcional. Suponha este modelo: 𝑦𝑖 = 𝛽𝑜 + 𝛽1𝑥𝑖 +⋯+ 𝛽𝑘𝑥𝑘 + 𝑢𝑖 (3) Se ele satisfizer RLM.4 (termo de erro tem média condicional zero), nenhuma função não linear das variáveis independentes deve ser significante quando adicionada à equação. Se testarmos todas possibilidades de termos quadráticos das variáveis explicativas para testar problemas de forma funcional, teremos a desvantagem de gastar muitos graus de liberdade se houver muitas variáveis independentes. Além disso, certos tipos de não linearidades (logaritmo, por exemplo) não serão detectados por termos quadráticos. Teste RESET O teste RESET adiciona polinômios aos valores estimados MQO na equação (3) para detectar tipos gerais de má-especificação de formas funcionais. Para implementar o teste, temos que decidir quantas funções dos valores estimados devem ser incluídas na regressão expandida. Não existe resposta certa para esta questão, mas os termos quadráticos e cúbicos têm demonstrado utilidade nestas aplicações. Primeiro estimamos a equação original (restrita). Depois, salvamos os valores preditos e geramos seus termos quadráticos e cúbicos. Em seguida, estimamos esta equação (irrestrita) para testar se a equação original têm não-linearidades importantes ausentes. Teste RESET Sejam ො𝑦 os valores estimados MQO ao estimar a equação (3). Considere a equação expandida: 𝑦 = 𝛽0 + 𝛽1𝑥1 +⋯+ 𝛽𝑘𝑥𝑘 + 𝛿1 ො𝑦 2𝛿2 ො𝑦 3 + 𝑒𝑟𝑟𝑜 (4) Obs: funções dos valores estimados na estimação inicial aparecem como variáveis explicativas. Não estamos interessados nos parâmetros estimados em (4), apenas usamos esta equação para testar se (3) tem não linearidades importantes ausentes. Obs: Devemos lembrar que ො𝑦2 e ො𝑦3 são apenas funções não lineares de 𝑥𝑗. Por fim, geramos a estatística do teste RESET que é a estatística F para testar: H0: δ1= 0, δ2=0 (a equação 3 está corretamente especificada). Teste RESET Equação 5 . gen double r3=r2*r1 . gen double r2=r1*r1 . (option xb assumed; fitted values) . predict double r1 _cons -21.77031 29.47504 -0.74 0.462 -80.38466 36.84405 bdrms 13.85252 9.010145 1.54 0.128 -4.065141 31.77018 sqrft .1227782 .0132374 9.28 0.000 .0964541 .1491022 lotsize .0020677 .0006421 3.22 0.002 .0007908 .0033446 price Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 917854.506 87 10550.0518 Root MSE = 59.833 Adj R-squared = 0.6607 Residual 300723.805 84 3580.0453 R-squared = 0.6724 Model 617130.701 3 205710.234 Prob > F = 0.0000 F( 3, 84) = 57.46 Source SS df MS Numberof obs = 88 . reg price lotsize sqrft bdrms Teste RESET Prob > F = 0.0120 F( 2, 82) = 4.67 ( 2) r3 = 0 ( 1) r2 = 0 . test r2 r3 _cons 166.0973 317.4325 0.52 0.602 -465.3772 797.5717 r3 1.55e-06 6.55e-06 0.24 0.814 -.0000115 .0000146 r2 .0003534 .0070989 0.05 0.960 -.0137686 .0144755 bdrms 2.174905 33.88811 0.06 0.949 -65.23934 69.58915 sqrft .0175989 .2992508 0.06 0.953 -.5777064 .6129041 lotsize .0001537 .005203 0.03 0.977 -.0101968 .0105042 price Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 917854.506 87 10550.0518 Root MSE = 57.38 Adj R-squared = 0.6879 Residual 269983.807 82 3292.48546 R-squared = 0.7059 Model 647870.698 5 129574.14 Prob > F = 0.0000 F( 5, 82) = 39.35 Source SS df MS Number of obs = 88 . reg price lotsize sqrft bdrms r2 r3 • Teste RESET é 4,67. Este é o valor de uma variável aleatória 𝐹2,88(𝑛 = 88, 𝑘 = 5) e o p-valor associado é 0,012 → evidência de má-especificação da forma funcional. Teste RESET . gen lph3=lphat*lph2 . gen lph2=lphat*lphat . (option xb assumed; fitted values) . predict lphat _cons -1.297042 .6512836 -1.99 0.050 -2.592191 -.001893 bdrms .0369584 .0275313 1.34 0.183 -.0177906 .0917074 lsqrft .7002324 .0928652 7.54 0.000 .5155597 .8849051 llotsize .1679667 .0382812 4.39 0.000 .0918404 .244093 lprice Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 8.01760352 87 .092156362 Root MSE = .1846 Adj R-squared = 0.6302 Residual 2.86256324 84 .034078134 R-squared = 0.6430 Model 5.15504028 3 1.71834676 Prob > F = 0.0000 F( 3, 84) = 50.42 Source SS df MS Number of obs = 88 . reg lprice llotsize lsqrft bdrms . *Variável em log Teste RESET • Teste RESET é 2,57. P-valor é 0,084 → não rejeitamos no nível de significância 5% (embora faríamos ao nível de 10%) → Com base no teste Reset, o modelo log-log é preferido. Prob > F = 0.0831 F( 2, 82) = 2.57 ( 2) lph3 = 0 ( 1) lph2 = 0 . test lph2 lph3 _cons 88.08799 240.9851 0.37 0.716 -391.3081 567.4841 lph3 -.1933951 .7521095 -0.26 0.798 -1.68958 1.30279 lph2 3.921189 13.01484 0.30 0.764 -21.96948 29.81186 bdrms -.9276645 2.76988 -0.33 0.739 -6.437838 4.582509 lsqrft -17.39336 52.49227 -0.33 0.741 -121.8172 87.0305 llotsize -4.191584 12.59578 -0.33 0.740 -29.2486 20.86543 lprice Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 8.01760352 87 .092156362 Root MSE = .18126 Adj R-squared = 0.6435 Residual 2.69400226 82 .032853686 R-squared = 0.6640 Model 5.32360126 5 1.06472025 Prob > F = 0.0000 F( 5, 82) = 32.41 Source SS df MS Number of obs = 88 . reg lprice llotsize lsqrft bdrms lph2 lph3 Teste RESET Uma desvantagem do teste RESET é que ele não fornece orientação prática de como proceder se modelo for rejeitado. A rejeição de 5, pelo uso do teste RESET não sugere diretamente que 6 seja o passo seguinte. A equação irrestrita pode conter termos quadráticos e cúbicos, mas também pode conter logaritmos. Modelos com logaritmos das variáveis independentes (modelos de elasticidades constantes) e dependente são fáceis de serem interpretados e podem apresentar boas propriedades estatísticas. O teste RESET é um teste da forma funcional, e não um teste de heteroscedasticidade. Exercício 1. No Exercício 4.11 (Wooldridge, 2015) o R-quadrado da estimativa do modelo log 𝑠𝑎𝑙á𝑟𝑖𝑜 = 𝛽0 + 𝛽1 log 𝑣𝑎𝑙𝑚𝑒𝑟𝑐 + 𝛽3𝑙𝑢𝑐𝑟𝑚𝑎𝑟𝑔 + 𝛽4𝑝𝑒𝑟𝑐𝑒𝑜 + 𝛽5𝑝𝑒𝑟𝑐𝑜𝑚𝑝 + 𝑢 era 𝑅2 = 0,353 n (=177). Quando 𝑝𝑒𝑟𝑐𝑒𝑜2 e 𝑝𝑒𝑟𝑐𝑜𝑚𝑝2 são adicionados, 𝑅2 = 0,375. Existe evidência de má-especificação da forma funcional neste modelo?
Compartilhar