Baixe o app para aproveitar ainda mais
Prévia do material em texto
Unidade II ECONOMETRIA Prof. Rubens Arakaki Econometria (análise de regressão) Pressupostos básicos para garantir a qualidade do resultado dos modelos de regressão linear: I. E() = 0 (a esperança matemática dos resíduos é nula, ou seja, a média dos resíduos é nula). II. Erros são normalmente distribuídos. III. Os Xi são fixos (não estocásticos, não aleatórios). IV. E(2) = 2 (variância constante, homocedasticidade dos resíduos). V. Os resíduos são independentes entre si: não são autocorrelacionados. VI. As variáveis Xi não podem ser combinações lineares entre si (multicolinearidade). Econometria (análise de regressão) A multicolinearidade (hipótese VI): correlações entre duas ou mais variáveis explicativas. Consequências: a variância dos coeficientes estimados das variáveis explicativas aumenta (é muito grande); os testes t apresentam baixa significância, porém, não significando que sejam inválidos, podendo nos levar, do ponto de vista econômico, a conclusões erradas; as propriedades dos estimadores não se alteram, continuam não viesados, por decorrência, as previsões elaboradas são eficientes e consistentes. Econometria (análise de regressão) A multicolinearidade (hipótese VI): correlações entre duas ou mais variáveis explicativas. Identificação Obter um teste F bastante significante, um R2 alto acompanhado de estatísticas teste (t de Student) insignificante ou sinais de coeficientes diferentes do esperado. É através de correlação entre as variáveis, duas a duas. Econometria (análise de regressão) A multicolinearidade (hipótese VI): correlações entre duas ou mais variáveis explicativas. Como corrigir Retirar variáveis correlacionadas do modelo, sendo que a escolha das variáveis é pela permanência da(s) que possui(em) alta significância, apresentada pelo seu(s) coeficiente(s). Econometria (análise de regressão) Outra opção é aumentando a amostra, pois, se a amostra é pequena, a variância dos estimadores será grande, ou mesmo ter que reformular o modelo. Dependendo do objetivo proposto para o modelo, por exemplo, previsões, a retirada tende a reduzir a eficiência das previsões, portanto, não há necessidade de retirar, as propriedades dos estimadores estão preservadas (não viés, eficiência, consistência). Econometria (análise de regressão) A autocorrelação (hipótese V): a correlação de uma variável com valores defasados (diferença no tempo) dela mesma. Mas a hipótese fala de autocorrelação residual (do erro). É importante observar que a omissão de uma variável relevante transfere sua influência sistemática para o erro, podendo acarretar a autocorrelação residual. Econometria (análise de regressão) A autocorrelação (hipótese V): a correlação de uma variável com valores defasados (diferença no tempo) dela mesma. Mas a hipótese fala de autocorrelação residual (do erro). Um outro erro que se pode cometer na existência de autocorrelação é a especificação errada na forma funcional do modelo. No entanto, a autocorrelação pode ocorrer pela própria natureza do processo, casos em que a autocorrelação é parte integrante do comportamento das variáveis distribuídas no tempo. Por exemplo, na produção agrícola a decisão de quanto vai se produzir não é simultânea à formação de preço (o preço que influencia a quantidade produzida é o do período anterior, não o atual). Econometria (análise de regressão) A autocorrelação (hipótese V): a correlação de uma variável com valores defasados (diferença no tempo) dela mesma. Mas a hipótese fala de autocorrelação residual (do erro). Consequências O estimador de Mínimos Quadrados Ordinários (MQO) deixa de apresenta a menor variância possível entre todos os estimadores (não é o mais preciso). Com este problema, os estimadores ainda sustentam a hipótese de que são não viesados e consistentes (que é a de que os regressores, os Xs, não sejam correlacionados com o erro), portanto, a hipótese não é violada mesmo na presença de autocorrelação. Econometria (análise de regressão) As exceções advêm dos modelos que incluem, entre as variáveis explicativas, defasagens da variável dependente em modelos do tipo: 𝒀𝒕 = 𝜶 + 𝜷𝟏𝒀𝒕 + 𝜷𝟐𝒀𝒕−𝟏 + 𝒖𝒕 Econometria (análise de regressão) A autocorrelação (hipótese V): a correlação de uma variável com valores defasados (diferença no tempo) dela mesma. Mas a hipótese fala de autocorrelação residual (do erro). Identificação Pela aplicação do teste de Durbin-Watson, que é a forma mais comum para identificar a existência de autocorrelação. Como corrigir Se o problema da autocorrelação for de especificação do modelo, a correção é feita pela inclusão de mais variáveis ou com a alteração da forma funcional do modelo. Caso contrário, em que a autocorrelação é parte integrante do modelo estimado, é necessário um conhecimento prévio de como é a estrutura da autocorrelação. Econometria (análise de regressão) A heterocedasticidade (hipótese IV): estabelece que a variância dos resíduos deve ser constante (homocedesticidade). Consequências Podemos dizer que são as mesmas que acontecem na autocorrelação, os estimadores de MQO continuam não viesados, porém, não mais com a de menor variância. Identificação Através de um teste comum de comparação de variâncias, por exemplo, teste F que consiste em separar o modelo de regressão em duas partes: uma com valores menores de X e outra com valores maiores, fazendo o teste para comparar a variância em cada um dos modelos estimados. Econometria (análise de regressão) A heterocedasticidade (hipótese IV): estabelece que a variância dos resíduos deve ser constante (homocedasticidade). Como corrigir Primeiro tentar definir o padrão associado a heterocedasticidade. Partimos de um modelo de regressão que é dado a seguir e suponhamos que exista heterocedasticidade: Econometria (análise de regressão) 𝒀𝒊 = 𝜶𝒊 + 𝜷𝟏𝑿𝟏𝒕 + 𝜷𝟐𝑿𝟐𝒕+𝜷𝟑𝑿𝟑𝒕 + 𝒆𝒕 Se conhecemos que a variância dos erros é dada por: 𝒗𝒂𝒓 𝒆𝒕 = 𝒁𝒊𝝈 𝟐 isto é, que a variância não é constante, é uma variável 𝒁𝒊 multiplicada por uma constante. Porém, se conseguirmos eliminar esta variável da variância, encontraríamos uma variância constante, portanto, livre da heterocedasticidade. Econometria (análise de regressão) A simultaneidade (hipótese III): estabelece que as variáveis independentes (X), num modelo de regressão devem ser fixos (não estocásticos, não aleatórios). Se uma (ou mais) variável independente for aleatória, é preciso que pelo menos ela não tenha correlação com o resíduo. Se tiver, significa que há uma determinação mútua, em que se discute a relação de causa e efeito. Exemplo clássico é entre as duas variáveis: preços e quantidades (vende mais porque o preço está baixo ou está com o preço baixo porque vende mais?). Quantidade afeta o preço que afeta a quantidade. Em economia esse tipo de situação ocorre com frequência. Econometria (análise de regressão) A simultaneidade (hipótese III): estabelece que as variáveis independentes (X) um modelo de regressão devem ser fixos (não estocásticos, não aleatórios). Pelo lado da oferta (lei da oferta), a quantidade a ser produzida ou ofertada, seja dada como função única do preço (𝑷): 𝑸𝒐𝒇𝒆𝒓𝒕𝒂𝒅𝒂_𝒊 = 𝜶𝟎 + 𝜶𝟏𝑷𝒊 + 𝒖𝒊 sendo 𝜶𝟏 > 𝟎 Pelo lado da demanda (lei da procura), a quantidade a ser consumida ou demandada. Além do preço (P), é levado em conta a renda (R), conforme a função: 𝑸𝒅𝒆𝒎𝒂𝒏𝒅𝒂𝒅𝒂_𝒊 = 𝜷𝟎 + 𝜷𝟏𝑷𝒊 + 𝜷𝟐𝑹𝒊+ 𝒗𝒊 sendo 𝜷𝟏 < 𝟎 Econometria (análise de regressão) O que se observa é a busca do equilíbrio de mercado, a quantidade que é consumida é a que é vendida: 𝑸𝒐𝒇𝒆𝒓𝒕𝒂𝒅𝒂_𝒊 = 𝑸𝒅𝒆𝒎𝒂𝒏𝒅𝒂𝒅𝒂_𝒊 Nota-se que P e Q se determinam mutuamente nesse modelo, por esse motivo são consideradas variáveis endógenas, interagem internamente dentro de um mesmo sistema. A renda (R) já é uma variável independente no modelo, fora do sistema, seu valor já é predeterminado, considerada uma variável exógena. A regressão por MQO dessas equações acima nos levará a estimadores viesados e inconsistentes, visto que uma das variáveis explicativas, um dos regressores, é uma variável endógena, determinada pelo próprio modelo representado acima, portanto, está correlacionada com os resíduos, levando a estimadores viesados e inconsistentes. Econometria (análise de regressão) A simultaneidade (hipótese III) Identificação Partindo do sistema de equações visto, vamos isolar as variáveis endógenas (P e Q). Igualando a variável Q das equações Oferta e Demanda encontraremos uma equação que coloca o preço em função apenas das variáveis exógenas (R, no caso, uma só). Substituindo a equação do preço que acabamos de encontrar na equação de oferta (𝑸𝒐𝒇𝒆𝒓𝒕𝒂𝒅𝒂_𝒊) chegando a isolar Q em função de R (Renda). Passamos a ter um novo sistema de equações, que isola as variáveis endógenas em cada equação, chamadas de equações na forma reduzida, sendo que o sistema original de equações recebe o nome de forma estrutural do modelo. Econometria (análise de regressão) A simultaneidade (hipótese III) Identificação O sistema de equações na forma reduzida deixa de ter os problemas de que um ou mais regressores são correlacionados com os resíduos, o que permite ser estimado pelo MQO. Ao estimarmos as equações na forma reduzida, os parâmetros estimados não se encontram na forma normal, é preciso encontrar os da forma estrutural (original). Econometria (análise de regressão) A simultaneidade (hipótese III) Como corrigir ou estimar um modelo de equações simultâneas. Pelo fato de aparecer um dos regressores como sendo uma variável endógena que está correlacionada com os resíduos, levando a estimadores viesados e inconsistentes. Vamos destacar o método dos mínimos quadrados de dois estágios, um método aplicado a equações superidentificadas (em que o número de variáveis endógenas incluídas – 1 é menor que o número de variáveis exógenas excluídas). O que consiste em estimar as equações da forma reduzida e encontrar os valores estimados para as variáveis endógenas. Interatividade (Petrobrás – Economista Júnior, 2005). Heterocedasticidade refere-se à situação em que a variância dos erros é: a) constante e igual a 1. b) constante. c) variável. d) variável entre 0 e 1. e) infinita sempre. Econometria (análise de regressão) O teste de Chow envolve a igualdade de coeficientes de diferentes regressões ou teste de equivalência de duas regressões. Para testar, iniciaremos pela hipótese nula de que as regressões do primeiro e segundo período são idênticas e ver se podemos rejeitar essa hipótese. 0 20 40 60 80 100 120 140 160 180 200 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 Im p o rt aç õ e s (U S$ m ilh õ e s) Ano Importações – Brasil (Período 1995 - 2010) Econometria (análise de regressão) 𝑺𝑸𝑹 𝑰𝑹 = 𝟏𝟎𝟑 + 𝟏. 𝟎𝟔𝟗 = 𝟏. 𝟏𝟕𝟐 𝑺𝑸𝑹 𝑹 = 𝟏. 𝟒𝟐𝟑 𝑭𝒌, 𝒏𝟏+ 𝒏𝟐−𝟐𝒌 = (𝑺𝑸𝑹𝑹−𝑺𝑸𝑹𝑰𝑹)/𝒌 (𝑺𝑸𝑹𝑰𝑹)/(𝒏𝟏+ 𝒏𝟐−𝟐𝒌) 𝑭𝟎,𝟎𝟓; 𝟐;𝟏𝟐 = (𝟏.𝟒𝟐𝟑−𝟏.𝟏𝟕𝟐)/𝟐 𝟏.𝟏𝟕𝟐/𝟏𝟐 = 𝟏, 𝟐𝟖 Finalizando, temos que se a estatística F=1,28 é menor do que o valor crítico da distribuição F com 𝒌 𝒆 𝒏𝟏 + 𝒏𝟐 − 𝟐𝒌 graus de liberdade (𝑭𝟎,𝟎𝟓;𝟐;𝟏𝟐= 𝟑, 𝟖𝟗), não rejeita-se a hipótese nula. Implica dizer que não é preciso estimar duas regressões separadas: não existe “quebra de estrutura”, os dados podem ser usados em conjunto. Econometria (análise de regressão) O método dos mínimos quadrados pode modelar curvatura, transformando as variáveis (funções linearizáveis). É necessário especificar a forma funcional correta para modelar qualquer curva. A função indicada a ser linearizável é a logarítmica na sua forma original: 𝒀 = 𝒂𝑿𝒃 e na sua forma linearizada (por transformação) 𝒍𝒏𝒀 = 𝒍𝒏𝒂 + 𝒃. 𝒍𝒏𝑿. Portanto, aplicando à função de demanda por importações a transformação logarítmica, propõe-se um melhor ajuste, assumindo o seguinte formato: 𝒍𝒏(𝒀𝒊) = 𝜷𝟏 + 𝜷𝟐𝒍𝒏(𝑿𝟐𝒊) + ⋯+ 𝜷𝒌𝒍𝒏(𝑿𝒌𝒊) + 𝒆𝒊 Econometria (análise de regressão) Assim, temos o resultado de um modelo linearizável (por transformação logarítmica) e a comparação com o modelo anterior: ln(IMi) = −3,013 + 1,044. ln(PIBi) + 0,333. ln(Tax. Câmbioi) (-8,15) (19,74) (5,43) (estatística t entre parênteses) R2 = 0,9679 R2 (ajustado) = 0,9630 n = 16 k=2 F = 196,00 𝐼𝑀𝑖 = − 28,866 + 0,090. 𝑃𝐼𝐵𝑖 + 10,686. 𝑇𝑥. 𝐶â𝑚𝑏𝑖𝑜𝒊 (-2,65) (16,18) (2,64) (estatística t entre parênteses) R2 = 0,9528 R2 (ajustado) = 0,9456 n = 16 k=2 F = 131,34 Notamos uma melhora no modelo transformado ou linearizável. Sabemos que o modelo de regressão só fornece as melhores estimativas quando todas as pressuposições são atendidas. É muito importante testá-las. Econometria (análise de regressão) A introdução das variáveis dummies na análise de regressão amplia de certa forma o poder de análise dos modelos, pois permite incorporar nos modelos variáveis importantes que se pretende analisar e que não podem ser medidas quantitativamente. Assim, uma variável dummy, D, pode ser descrita da seguinte maneira: 𝑫 = 𝟎, 𝒔𝒆 𝒂 𝒄𝒂𝒓𝒂𝒄𝒕𝒆𝒓í𝒔𝒕𝒊𝒄𝒂 𝒏ã𝒐 𝒆𝒔𝒕𝒊𝒗𝒆𝒓 𝒑𝒓𝒆𝒔𝒆𝒏𝒕𝒆 𝟏, 𝒔𝒆 𝒂 𝒄𝒂𝒓𝒂𝒄𝒕𝒆𝒓í𝒔𝒕𝒊𝒄𝒂 𝒆𝒔𝒕𝒊𝒗𝒆𝒓 𝒑𝒓𝒆𝒔𝒆𝒏𝒕𝒆 A variável dummy recebe este nome por ser uma variável explicativa (X) que assume apenas dois valores: 0 e 1 (variável indicadora) ao longo de toda a amostra. Indica a presença (1) ou ausência (0) de um atributo. 𝒀𝒊 = 𝜶 + 𝜷𝑿𝒊 + 𝜹𝑫 + 𝒆𝒊 Econometria (análise de regressão) Três formas de inserção das variáveis binárias em um modelo de regressão linear: Aditiva 𝒀 = 𝜶 + 𝜷𝟏𝑿𝟏 + 𝜷𝟐𝑫 + 𝒖 Multiplicativa 𝒀 = 𝜶 + 𝜷𝟏𝑿𝟏 + 𝜷𝟐𝑿𝟏𝑫 + 𝒖 Mista 𝒀 = 𝜶 + 𝜷𝟏𝑿𝟏 + 𝜷𝟐𝑿𝟏𝑫𝟏 + 𝜷𝟑𝑫𝟐 + 𝒖 Econometria (análise de regressão) O modelo se propõe a explicar as variações dos rendimentos familiares per capita (variável dependente Y) através da média de anos de estudos (variável independente X) de 62 municípios que compõem as três regiões metropolitanas: de Campinas (19), Ribeirão Preto (25) e Sorocaba (18). Para representar as três regiões metropolitanas utilizaremos duas variáveis dummies, conforme tabela a seguir: Regiões metropolitanas Variáveis dummies DR DS Campinas 0 0 Ribeirão Preto 1 0 Sorocaba 0 1 Econometria (análise de regressão) As variáveis binárias não apresentaram nenhum diferencial significativo quanto às diferenças de intercepto (Stat-t). 𝒀𝑹𝑴 = −𝟖𝟕𝟓, 𝟎𝟎 + 𝟑𝟐𝟖, 𝟑𝟓𝑿 − 𝟏𝟑𝟐, 𝟖𝟐𝑫𝑹 − 𝟏𝟑𝟒, 𝟕𝟑𝑫𝑺 Portanto, os resultados da estimação com média dos anos de estudos (X), Regiões metropolitanas e Interações são: 𝒀𝑹𝑴𝑪𝒂𝒎𝒑𝒊𝒏𝒂𝒔 = −𝟖𝟕𝟓, 𝟎𝟎 + 𝟑𝟐𝟖, 𝟑𝟓𝑿 𝒀𝑹𝑴𝑹𝒊𝒃𝒆𝒊𝒓ã𝒐 𝑷𝒓𝒆𝒕𝒐 = −𝟏. 𝟎𝟎𝟕, 𝟖𝟐 + 𝟑𝟐𝟖, 𝟑𝟓𝑿 𝒀𝑹𝑴𝑺𝒐𝒓𝒐𝒄𝒂𝒃𝒂 = −𝟏. 𝟎𝟎𝟗,𝟕𝟑 + 𝟑𝟐𝟖, 𝟑𝟓𝑿 Coeficientes Erro padrão Stat t valor-P Interseção -875,00 282,24 -3,10 0,00298 MÉDIA DE ANOS DE ESTUDOS (X) 328,35 39,26 8,36 0,00000 DR -132,82 68,48 -1,94 0,05731 DS -134,73 72,04 -1,87 0,06649 Econometria (análise de regressão) As variáveis binárias apresentaram diferenciais significativos quanto às diferenças de inclinação (Stat-t). 𝒀𝑹𝑴 = −𝟗𝟓𝟑, 𝟐𝟖 + 𝟑𝟒𝟎, 𝟒𝟖𝑿 − 𝟐𝟏, 𝟎𝟐𝑫𝑹𝑿 − 𝟐𝟏, 𝟑𝟔𝑫𝑺𝑿 Portanto, os resultados da estimação com Média dos anos de estudos (X), Regiões metropolitanas e Interações são: 𝒀𝑹𝑴𝑪𝒂𝒎𝒑𝒊𝒏𝒂𝒔 = −𝟗𝟓𝟑, 𝟐𝟖 + 𝟑𝟒𝟎, 𝟒𝟖𝑿 𝒀𝑹𝑴𝑹𝒊𝒃𝒆𝒊𝒓ã𝒐 𝑷𝒓𝒆𝒕𝒐 = −𝟗𝟓𝟑, 𝟐𝟖 + 𝟑𝟏𝟗, 𝟒𝟔𝑿 𝒀𝑹𝑴𝑺𝒐𝒓𝒐𝒄𝒂𝒃𝒂 = −𝟓𝟕𝟒, 𝟑𝟐 + 𝟑𝟏𝟗, 𝟏𝟐𝑿 Coeficientes Erro padrão Stat t valor-P Interseção -953,28 260,71 -3,66 0,00055 MÉDIA DE ANOS DE ESTUDOS (X) 340,48 37,11 9,18 0,00000 DRX -21,02 9,90 -2,12 0,03803 DSX -21,36 10,40 -2,05 0,04442 Econometria (análise de regressão) Frequentemente, em análise de uma série temporal, é comum adotar modelos em que aparecem variáveis defasadas, isto é, o valor de 𝒀𝒕 referente ao t-ésimo período, aparece como função de 𝑿𝒕, 𝑿𝒕−𝟏, 𝑿𝒕−𝟐,. e/ou 𝒀𝒕−𝟏, etc. Isso é útil para a análise de políticas públicas. Variáveis defasadas são valores que estão fortemente correlacionados aos valores que os antecedem e àqueles que os sucedem. Esse tipo de correlação é conhecido como autocorrelação. Econometria (análise de regressão) Na modelagem autorregressiva incluímos como variável independente uma componente defasada da variável dependente, é uma técnica de previsão bastante utilizada para prever séries temporais que apresentam autocorrelação. 𝒀𝒕 = 𝜶 + 𝜷𝟏𝒀𝒕−𝟏 + 𝒖𝒕 (primeira ordem) 𝒀𝒕 = 𝜶 + 𝜷𝟏𝒀𝒕−𝟏 + 𝜷𝟐𝒀𝒕−𝟐 + 𝒖𝒕 (segunda ordem) 𝒀𝒕 = 𝜶 + 𝜷𝟏𝒀𝒕−𝟏 + 𝜷𝟐𝒀𝒕−𝟐 +⋯+ 𝜷𝒌𝒀𝒕−𝒌 + 𝒖𝒕 (k-ésima ordem) Econometria (análise de regressão) ANO Consumo (Yt) Yt-1 Yt-2 Yt-3 1996 116.080 1997 119.601 116.080 1998 118.739 119.601 116.080 1999 119.189 118.739 119.601 116.080 2000 123.995 119.189 118.739 119.601 2001 124.951 123.995 119.189 118.739 2002 126.599 124.951 123.995 119.189 2003 125.908 126.599 124.951 123.995 2004 130.848 125.908 126.599 124.951 2005 136.634 130.848 125.908 126.599 2006 143.855 136.634 130.848 125.908 2007 153.027 143.855 136.634 130.848 2008 162.919 153.027 143.855 136.634 2009 170.180 162.919 153.027 143.855 2010 180.781 170.180 162.919 153.027 Econometria (análise de regressão) Partimos da ideia de que não temos experiência para estabelecer o modelo de imediato. Assim, a seleção do modelo autorregressivo que melhor se ajuste a séries temporais anuais deve ser iniciada com o modelo autorregressivo de terceira ordem. Conforme apresentado no quadro a seguir, a equação autorregressiva ajustada é: 𝑌𝑖 = −20.640,67 + 1,3312𝑌𝑖−1 − 0,3556𝑌𝑖−2 + 0,2155𝑌𝑖−3 Nota-se que o primeiro ano da série é 1999. Na sequência vamos testar a significância de 𝛽3= 0,2155 (parâmetro de ordem mais elevada). O valor de stat-t (estatística t calculada) é de 0,47 e se encontra na região de aceitação, pois o valor em módulo do stat-t é menor do que o valor t crítico = 0,47 = 0,47 < 2,31). Econometria (análise de regressão) Não sendo significativo o parâmetro de maior ordem, foi descartado prosseguirmos no ajuste do modelo autorregressivo de segunda ordem, tabela a seguir: 𝑌𝑖 = −20.085,56 + 1,2312𝑌𝑖−1 − 0,0492𝑌𝑖−2 Nota-se que o primeiro ano da série é 1998. Na sequência vamos testar a significância de 𝛽2= -0,0492 (parâmetro de ordem mais elevada), com um erro padrão de 0,3673. Econometria (análise de regressão) O valor de stat-t (estatística t calculada) é de - 0,13 e se encontra na região de aceitação, pois o valor em módulo do stat-t é menor do que o valor t crítico = −0,13 = 0,13 < 2,23). Assim concluímos que devemos aceitar a hipótese nula 𝐻0, indica que o parâmetro de maior ordem do modelo autorregressivo é igual a zero, não sendo significativo, portanto, pode ser excluído. Econometria (análise de regressão) Não sendo significativo o parâmetro de maior ordem, foi descartado prosseguirmos no ajuste do modelo autorregressivo de primeira ordem, tabela a seguir: 𝒀𝒊 = −𝟏𝟗. 𝟑𝟗𝟒, 𝟒𝟑 + 𝟏, 𝟏𝟕𝟗𝟔𝒀𝒊−𝟏 (Nota-se que o primeiro ano da série é 1997). Na sequência vamos testar a significância de 𝜷𝟏= 1,1796 (parâmetro de ordem mais elevada), com um erro padrão de 0,0394. Econometria (análise de regressão) O valor de stat-t (estatística t calculada) é de 29,92 e se encontra na região de rejeição, pois o valor em módulo do stat-t é maior do que o valor t crítico = 𝟐𝟗, 𝟗𝟐 = 𝟐𝟗, 𝟗𝟐 > 2,18). Assim, concluímos que devemos rejeitar a hipótese nula 𝑯𝟎, indica que o parâmetro de primeira ordem do modelo autorregressivo é diferente de zero, sendo significativo, portanto, deve permanecer no modelo. Econometria (análise de regressão) Esta técnica de construção de modelo autorregressivo de primeira ordem foi selecionado como o mais apropriado. 𝑌𝑛+𝑗 = −19.394,43 + 1,1796𝑌𝑛+𝑗 −1 Valores projetados para 2011 e 2012: 2011 (um ano à frente de 𝑌15 ): 𝑌16 = −19.394,43 + 1,1796𝑌15= −19.394,43 + 1,1796 × 180.781 = 193.854,84 Interatividade (INEA – Economista, 2008) O gráfico ao lado mostra os pares de observações de duas variáveis X e Y relacionadas pela regressão linear simples Y = a + bX + u, (em que a e b são coeficientes a serem estimados e u os erros aleatórios). O exame do gráfico sugere que: a) Y e X não se relacionam. b) a relação é não linear. c) o número de observações é insuficiente para a estimação dos coeficientes. d) pode haver problemas de heterocedasticidade na estimação. e) há autorrelação dos resíduos. Econometria (análise de regressão) A utilização das variáveis instrumentais nos auxilia na busca de estimadores consistentes quando tivermos regressores endógenos presentes no modelo de regressão (regressores endógenos são variáveis independentes X cujos valores são determinados dentro do sistema). Numa regressão com mais variáveis, mesmo que a estatística R2 seja elevada, se uma única variável é endógena, todos os coeficientes estimados (inclusive os das variáveis exógenas) podem se tornar enviesados. Econometria (análise de regressão) Considere a equação: Y = α + βX + u Em que: E u = 0 Cov X, u ≠ 0 Mesmo não conhecendo o motivo para a existência de correlação entre X e u, o método de variáveis instrumentais (VI) fornece um estimador consistente dos parâmetros de interesse. Econometria (análise de regressão) O método se baseia na utilização de uma variável adicional Z, não incluída na fórmula anterior, que satisfaça tais condições: Cov Z, u = 0 Cov Z, X ≠ 0 O método de regressão por variáveis instrumentais (VI) é uma solução possível que fornece estimadores consistentes dos parâmetros de interesse quando o erro (e) e uma variável regressora (X) são correlacionados. Sob essa condição, o método de mínimos quadrados ordinários (MMQO) produz estimadores viesados e inconsistentes. Econometria (análise de regressão) A razão mais comum para a existência de correlação entre o erro (e) e alguma variável explicativa (x) ou regressora é determinada por três motivos: omissão de variáveis relevantes para o modelo; erros de mensuração nas variáveis; simultaneidade. O viés de omissão de variáveis surge quando uma variável (independente) que determina a variável resposta (dependente) é omitidada regressão e quando pelo menos uma das variáveis explicativas é correlacionada com a variável omitida. Neste caso, o estimador de MMQO é inconsistente, mesmo para grandes amostras. Econometria (análise de regressão) O viés de erros de mensuração nas variáveis é originado quando uma variável explicativa (X) é medida de forma imprecisa (resposta equivocada, digitação errada etc.). Neste caso, o estimador de MMQO é viesado e inconsistente. O viés de simultaneidade surge quando existe simultaneidade na relação causal entre a variável dependente (Y) e uma variável explicativa (X), isto é, de um lado, a variável explicativa (X) determina a variável dependente (Y); do outro lado, a variável dependente (Y) determina uma variável explicativa (X). Vimos então que: sob a hipótese 𝑪𝒐𝒗(𝒆, 𝒙) = 𝟎, (I) MMQO é consistente; sob a hipótese 𝑬(𝒆|𝒙) = 𝟎, (II) MMQO é não viesado. Econometria (análise de regressão) O método de regressão por variáveis instrumentais (VI) é uma solução possível que fornece estimadores consistentes dos parâmetros de interesse. Baseia se na utilização de uma variável adicional, Z, denominada variável instrumental, que satisfaça as duas condições, a seguir: relevância: a variável Z deve ser correlacionada com a variável explicativa (X); exogeneidade: a variável Z não pode ser correlacionada com o erro (e). Econometria (análise de regressão) Para obtermos as estimativas dos parâmetros da regressão pelo método das variáveis instrumentais (VI), multiplica-se a equação que corresponde à variável X, a qual contém os erros, pela respectiva variável instrumental Z conforme a seguir: 𝐘 = 𝛂𝐧 + 𝛃 𝐗 𝐘𝐙 = 𝛂 𝐙 + 𝛃 𝐗𝐙 Resolvendo o sistema, os estimadores 𝛂 𝐞 𝛃 podem se expressar como: 𝛃 = 𝐘𝐙− 𝐘 𝐙 𝐧 𝐗𝐙− 𝐗 𝐙 𝐧 = 𝐂 𝐨𝐯(𝐙,𝐘) 𝐂 𝐨𝐯 (𝐙,𝐗) Econometria (análise de regressão) β → Cov(Z,Y) Cov (Z,X) = β portanto, α = Y − β X Assim, se Cov Z, e = 0 e Cov (Z, X) ≠ 0, então o estimador de variável instrumental de β é consistente. Na ideia de tornar a variável instrumental comparável à variável X, é indicado expressá-la na mesma unidade, cuja média seja igual à de X. Para tal, vamos substituir Z por: W = Z × média de X média de Z = Z × X Z sem, portanto, alterar a correlação entre Z e X e entre Z e os resíduos (e). A partir dos dados da tabela a seguir, vamos estimar a regressão pelo método dos mínimos quadrados ordinários (MMQO) e comparar os resultados com a mesma função pelo método da variável instrumental (VI), usando a variável X2 (consumo de energia elétrica industrial – TWh) como instrumento: Econometria (análise de regressão) Y X Z YZ XZ Seq. Ano Consumo Renda E. E. Ind. W YW XW 1 1996 116 180 117 177,29 20583,61 31983,50 2 1997 120 187 122 184,24 22035,00 34360,60 3 1998 119 187 122 184,64 21916,26 34563,81 4 1999 119 188 124 187,53 22353,82 35256,03 5 2000 124 196 131 198,71 24640,21 39007,04 6 2001 125 199 123 185,48 23185,36 36911,10 7 2002 127 205 131 198,18 25089,63 40646,78 8 2003 126 207 136 206,19 25959,65 42764,34 9 2004 131 219 154 233,35 30522,35 51197,27 10 2005 137 226 159 240,08 32795,27 54354,68 Média 124,25 199,57 131,85 199,57 1.242,50 1.995,70 1.318,45 1.995,70 249.081,16 401.045,15 Econometria (análise de regressão) Vamos obter as estimativas dos parâmetros da regressão pelo método das variáveis instrumentais (VI), conforme cálculos a seguir: Para compatibilizar as unidades entre as variáveis renda (X) e instrumental Z, usa-se a transformação Z × Xmédio Zmédio , obtendo-se: W = Z × X/ Z β = YZ− Y Z n XZ− X Z n = 𝟐𝟒𝟗.𝟎𝟖𝟏,𝟏𝟔− 𝟏.𝟐𝟒𝟐,𝟓𝟎×𝟏.𝟗𝟗𝟓,𝟕𝟎 𝟏𝟎 𝟒𝟎𝟏.𝟎𝟒𝟓,𝟏𝟓− 𝟏.𝟗𝟗𝟓,𝟕𝟎×𝟏.𝟗𝟗𝟓,𝟕𝟎 𝟏𝟎 = 1.115,4350 2.763,3010 = 0,4037 Econometria (análise de regressão) Outra maneira de proceder aos cálculos é por meio da matriz de covariância apresentada a seguir: 𝛃 = 𝐂 𝐨𝐯(𝐙,𝐘) 𝐂 𝐨𝐯 (𝐙,𝐗) = 𝟏𝟏𝟏,𝟓𝟒𝟑𝟕𝟔 𝟐𝟕𝟔,𝟑𝟐𝟗𝟕𝟑𝟖 = 𝟎, 𝟒𝟎𝟑𝟕 Calculamos a estimativa de β de duas maneiras, utilizando 𝒁𝒊 (consumo de energia elétrica industrial) como variável instrumental. 𝛂 = 𝐘 − 𝛃 𝐗 = 𝟏𝟐𝟒, 𝟐𝟓 − 𝟎, 𝟒𝟎𝟑𝟕 × 𝟏𝟗𝟗, 𝟓𝟕 = 𝟒𝟑, 𝟔𝟖𝟑𝟔 𝐘𝐢 = 𝟒𝟑, 𝟔𝟖𝟑𝟔 + 𝟎, 𝟒𝟎𝟑𝟕𝐗𝐢 DW = 1,7132 (ausência de autocorrelação) Consumo Renda E. E. Ind. Consumo 34,8645 Renda 83,1635 204,1181 E.E. Ind. 111,54376 276,329738 412,6694 Econometria (análise de regressão) Nem sempre dispomos de uma variável instrumental obtida dos dados observados. Com base no modelo de regressão linear simples (Yj = α + βXj + uj), define-se uma forma de obtê-la que parte inicialmente de que as observações estão ordenadas de acordo com os valores de Xj, em ordem crescente. Y X Seq. Ano Consumo Renda Z XY X2 1 1996 116 180 -1 20944,44 32544,16 2 1997 120 187 -1 22305,40 34782,25 3 1998 119 187 -1 22220,64 35043,84 4 1999 119 188 -1 22409,60 35344,00 5 2000 124 196 -1 24341,20 38533,69 6 2001 125 199 1 24875,00 39601,00 7 2002 127 205 1 25965,66 42066,01 8 2003 126 207 1 26111,66 43014,76 9 2004 131 219 1 28697,52 48136,36 10 2005 137 226 1 30926,24 51256,96 Média 124,25 199,57 1.242,50 1.995,70 248.797,36 400.323,03 Y X Média 1 119,52 187,68 Média 2 128,98 211,46 Média (1+2) 124,25 199,57 Econometria (análise de regressão) Temos que o estimador de β é, neste caso: β = Y2− Y1 X2− X1 = 128,98−119,52 211,46−187,68 = 9,46 23,78 = 0,3978 α = Y − β X = 124,25 − 0,3978 × 199,57 ≅ 44,8584 Yi = 44,8584 + 0,3978Xi DW = 1,722 (ausência de autocorrelação) Econometria (análise de regressão) Nos tópicos anteriores abordamos mais intensamente os métodos causais de previsão, aqueles que envolvem a determinação de fatores que se relacionam à variável que tentamos prever, em especial a regressão linear múltipla. A seguir, vamos abordar os métodos de previsão de séries temporais. Os métodos quantitativos de previsão de séries temporais utilizam dados históricos, do passado e do presente de uma determinada variável para prever valores futuros. Interatividade (MPU – Estatístico, 2004) O ajuste da regressão linear múltipla 𝑬 𝒚 = 𝜷𝟎 + 𝜷𝟏𝑿𝟏 + 𝜷𝟐𝑿𝟐 com erros normais produziu o plano de regressão: 𝒀 = 𝟏𝟕, 𝟔 + 𝟒, 𝟐𝟒𝑿𝟏 + 𝟏, 𝟐𝟏𝑿𝟐 𝟑, 𝟖 (𝟏, 𝟐𝟏) Em que os valores entre parênteses representam desvios padrão. Assinale a opção correta. Interatividade a) A variável 𝑿𝟏 é a mais importante como preditora de Y, uma vez que tem o coeficiente maior. b) O teste de hipótese 𝜷𝟏 = 𝟎 com nível de significância de 5% indica que 𝑿𝟏 e Y não são associadas. c) O teste de hipótese 𝜷𝟏 = 𝟎 com nível de significância de 5% indica que 𝑿𝟏 pode ser retirada do modelo linear contendo o intercepto 𝑿𝟏 e 𝑿𝟐. d) A resposta esperada de Y quando 𝑿𝟏 = 𝟒 𝒆 𝑿𝟐 = 𝟏 é 35,77. e) O teste de hipótese 𝜷𝟏 = 𝟎 com nível de significância indica que 𝑿𝟏 não pode ser retirada do modelo linear. Econometria (análise de regressão) Uma série temporal é um conjunto de observações ordenadas no tempo. Para elaborar as previsões é preciso identificar e isolar os fatores que compõem o modelo em estudo, podendo ser decompostos em três séries temporais, a seguir: Tendência (𝐓𝐭); Sazonalidade (𝐒𝐭); Componente aleatória (𝐚𝐭). Tendência (𝐓𝐭); Sazonalidade (𝐒𝐭); Componente aleatória (𝐚𝐭). Seja {Z𝑡 t = 1, . . . , N} as observações de uma série temporal. Podemos decompor Ztem duas formas, dois modelos: aditivo: Zt = Tt + St + at multiplicativo: Zt = Tt × St × at Econometria (análise de regressão) Econometria (análise de regressão) A partir do modelo livre da sazonalidade, estimamos a componente 𝐓𝐭 através dos métodos mais utilizados, como: ajuste da linha de tendência em função do tempo, usando um modelo linear polinomial ou exponencial; suavização ao redor de um ponto, para estimar a tendência naquele ponto através de sucessivos ajustes de mínimos quadrados ponderados. Alguns dos métodos mais utilizados nas análises de séries temporais: Média móvel Suavização: - exponencial simples - exponencial dupla Método de Winters. Econometria (análise de regressão) Média móvel: os dados a seguir representam a despesa de consumo das famílias brasileiras (em R$ bilhões) do primeiro trimestre de 2013 ao terceiro trimestre de 2015: MM1 5 = Y1 + Y2 + Y3 + Y4 + Y5 5 = 776 + 804 + 829 + 866 + 854 5 = 4.129 5 = 825,8 MM2 5 = Y2 + Y3 + Y4 + Y5 + Y6 5 = 804 + 829 + 866 + 854 + 866 5 = 4.219 5 = 843,8 ..... MM7 5 = Y7 + Y8 + Y9 + Y10 + Y11 5 = 888 + 940 + 912 + 916 + 937 5 = 4.593 5 = 918,6 Econometria (análise de regressão) 2013/ T1 2013/ T2 2013/ T3 2013/ T4 2014/ T1 2014/ T2 2014/ T3 2014/ T4 2015/ T1 2015/ T2 2015/ T3 776 804 829 866 854 866 888 940 912 916 937 Econometria (análise de regressão) O ajuste exponencial em uma série temporal consiste em uma série de médias móveis exponencialmente ponderadas, baseado na equação definida a seguir: E1 = Y1 Ei = WYi + 1 −W Ei−1 i = 2,3,4,5, …… onde: Yi: valor corrente na série temporal; Ei : valor da série exponencialmente ajustada, calculado no período de tempo i; Ei−1: valor exponencialmente ajustado, já calculado no período de tempo i − 1; W: coeficiente de ajuste, peso atribuído subjetivamente 0 < W < 1 , porém em todas as aplicações de natureza econômica (W ≤ 0,5). Econometria (análise de regressão) O ajuste exponencial em uma série temporal consiste em uma série de médias móveis exponencialmente ponderadas. 120 170 220 270 320 1996/T1 1997/T1 1998/T1 1999/T1 2000/T1 2001/T1 2002/T1 2003/T1 2004/T1 R $ b ilh õ e s Ano/trimestre Médias móveis para despesas de consumo das famílias brasileiras CONSUMO AJ_EX (W=0,50) AJ_EX (W=0,25) Econometria (análise de regressão) y = 4,7246x + 120,21 R² = 0,9467 0 50 100 150 200 250 300 350 0 5 10 15 20 25 30 35 40 R $ b ilh õ e s Ano codificado Tendência linear para o consumo CONSUMO (Y) Linear (CONSUMO (Y)) Econometria (análise de regressão) y = 0,1024x2 + 1,1401x + 140,52 R² = 0,985 0 50 100 150 200 250 300 350 0 5 10 15 20 25 30 35 40 R $ b ilh õ es Ano codificado Tendência quadrática para o consumo CONSUMO (Y) Polinômio (CONSUMO (Y)) Econometria (análise de regressão) y = 131,37e0,0231x R² = 0,9753 0 50 100 150 200 250 300 350 0 5 10 15 20 25 30 35 40 R $ b ilh õ e s Ano codificado Tendência exponencial para o consumo CONSUMO (Y) Exponencial (CONSUMO (Y)) Interatividade (Analista Tributário da Receita Federal, 2009). O modelo de regressão linear múltipla 𝑌 = 𝛼 + 𝛽𝑋 + 𝛾𝑍 + 𝜀 é ajustado às observações 𝑌𝑖 , 𝑋𝑖 e 𝑍𝑖, que constituem uma amostra aleatória simples de tamanho 23. Considerando que o coeficiente de determinação calculado foi de 𝑅2 = 0,80, obtenha o valor mais próximo da estatística F para testar a hipótese nula de não existência da regressão. a) 84 b) 44 c) 40 d) 42 e) 80 ATÉ A PRÓXIMA!
Compartilhar