Baixe o app para aproveitar ainda mais
Prévia do material em texto
109 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Unidade II 5 QUEBRAS ESTRUTURAIS E VARIÁVEIS DUMMIES É importante, ao escolher as variáveis que irão compor a base de dados para a elaboração de um modelo, saber o nível de confiabilidade e o período que formará a base de estudo (conhecimento a priori de uma teoria e métodos estatísticos). Essa fase inicial permite conhecer como se dá a distribuição desses dados e também se a série testada é normal (teste de Kolmogorov-Smirnov para amostra maior que 30 elementos). Além disso, possibilita selecionar os principais indicadores para mostrar as principais medidas estatísticas dessa amostra, a qual podemos considerar como uma fase exploratória, que são: amplitude, valor mínimo, valor máximo, média e desvio-padrão. Além de analisar esses dados, deve-se elaborar um box plot, gráfico que permite a visualização de como esses dados estão distribuídos na amostra. Isso torna possível perceber se há a presença de outliers, o que gera uma maior segurança para a construção dos modelos de regressão. Segundo Gujarati (2000), dependendo da amostra utilizada, é necessário tratar os outliers para que não distorçam os resultados encontrados pela regressão. O método mais comum para esse tratamento é a eliminação desses elementos da amostra. A seguir, vamos nos lembrar dos pressupostos básicos que precisam ser seguidos para garantir a qualidade do resultado dos modelos de regressão linear: I – E(ε) = 0 (a esperança matemática dos resíduos é nula, ou seja, a média dos resíduos é nula). II – Erros são normalmente distribuídos (os resíduos têm distribuição normal). III – Os Xi são fixos (não estocásticos, não aleatórios). IV – E(ε2) = σ2 (variância constante e igual a σ2, condição de homocedasticidade dos resíduos). V – Os resíduos são independentes entre si: E(εi εj) = 0, i ≠ j (erros não são autocorrelacionados). VI – As variáveis Xi não podem ser combinações lineares entre si. Na maioria dos casos, quando o objeto de estudo envolve relações sociais, como as relações econômicas, essas hipóteses são violadas, especialmente as quatro últimas. A multicolinearidade (hipótese VI) traz correlações entre duas ou mais variáveis explicativas (independentes) onde há correlação bem próxima ou igual a 1 (ou menos um), isto é, a variação de uma delas é decorrente da variação de outra. 110 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II • Consequências: a variância dos coeficientes estimados das variáveis explicativas aumenta (é muito grande) quando ocorre multicolinearidade (os testes t apresentam baixa significância, mas isso não significa que sejam inválidos), podendo nos levar, do ponto de vista econômico, a conclusões erradas, visto que seus valores ficam muito sensíveis quando se acrescenta ou se retira uma variável do modelo ou quando há pequenas alterações no tamanho da amostra. Nesse contexto, as propriedades dos estimadores não se alteram, continuam não viesados, eficientes e consistentes, bem como as previsões elaboradas. • Identificação: obter um teste F bastante significante, um R2 alto acompanhado de estatísticas de teste (t de Student) insignificantes, ou sinais de coeficientes diferentes do esperado é um indício de multicolinearidade em um modelo. Outra forma de identificar a presença de multicolinearidade é através de correlação entre as variáveis, duas a duas. • Como corrigir: retirando variáveis correlacionadas do modelo; a escolha das variáveis é pela permanência da(s) que possui(em) alta significância apresentada pelo(s) seu(s) coeficiente(s). Outra opção é aumentando a amostra, pois se a amostra é pequena, a variância dos estimadores será grande ou mesmo terá de reformular o modelo. Dependendo do objetivo proposto para o modelo – por exemplo, previsões –, a retirada tende a reduzir a eficiência das previsões. Portanto, não há necessidade de retirar, pois diante da multicolinearidade as propriedades dos estimadores estão preservadas (não viés, eficiência, consistência). Já a autocorrelação (hipótese V) é a correlação de uma variável com valores defasados (diferença no tempo) dela mesma. Mas a hipótese fala de autocorrelação residual (do erro). É importante destacar que o erro não é uma variável especificamente, mas um conjunto de diversas influências que são difíceis de serem medidas e das quais se espera que não exerçam influência umas sobre as outras. É importante observar que a omissão de uma variável relevante transfere sua influência sistemática para o erro, podendo acarretar a autocorrelação residual. Um outro erro que se pode cometer na existência de autocorrelação é a especificação errada na forma funcional do modelo. No entanto, a autocorrelação pode ocorrer pela própria natureza do processo, casos em que a autocorrelação é parte integrante do comportamento das variáveis distribuídas no tempo. Por exemplo, na produção agrícola, a decisão de quanto se vai produzir não é simultânea à formação de preço (o preço que influencia a quantidade produzida é o do período anterior, não o atual). • Consequências: o estimador de mínimos quadrados ordinários (MQO) deixa de apresentar a menor variância possível entre todos os estimadores (não é o mais preciso). Com esse problema, os estimadores ainda sustentam a hipótese de que são não viesados e consistentes – que é a de que os regressores (os X) não sejam correlacionados com o erro –; portanto, a hipótese não é violada mesmo na presença de autocorrelação. As exceções advêm dos modelos que incluem, entre as variáveis explicativas, defasagens da variável dependente, em modelos do tipo: Y t = α + β1Yt + β2Yt - 1 + ut 111 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA • Identificação: pela aplicação do teste de Durbin-Watson, que é a forma mais comum para identificar a existência de autocorrelação. • Como corrigir: se o problema da autocorrelação for de especificação do modelo, a correção será feita pela inclusão de mais variáveis ou com a alteração da forma funcional do modelo. Caso contrário, em que a autocorrelação é parte integrante do modelo estimado, será necessário um conhecimento prévio de como é a estrutura da autocorrelação: Yt = α + βXt + ut Reduziremos a um modelo sem autocorrelação, que pode ser estimado pelo MQO e apresenta o mesmo coeficiente β do modelo original, representado a seguir: Yt* = α* + βXt* + ut Onde: DW = Durbin-Watson Yt* = Yt - DW . Yt-1 Xt* = Xt - DW . Xt-1 Por sua vez, a heterocedasticidade (hipótese IV) estabelece que a variância dos resíduos deve ser constante (homocedasticidade). Um exemplo é a poupança das famílias em relação à renda: as famílias de baixa renda pouparão valores próximos entre si, enquanto entre as famílias de alta renda, mais ricas, a amplitude de variação se torna maior, pois encontram-se famílias que tendem a gastar mais, e outras, a poupar mais. • Consequências: podemos dizer que são as mesmas que acontecem na autocorrelação, pois os estimadores de MQO continuam não viesados, porém não são mais os de menor variância. • Identificação: através de um teste comum de comparação de variâncias (por exemplo, teste F), que consiste em separar o modelo de regressão em duas partes – uma com valores menores de X e outra com valores maiores –, faz-se o teste para comparar a variância em cada um dos modelos estimados. Estima-se o modelo com o total das observações e, pelo comportamento dos resíduos num gráfico nota-se que eles são mais espalhados quando os valores de X são maiores, por exemplo. Ao proceder a divisão em dois grupos (valores dos extremos de X), é indicado, para obtermaior eficiência, omitir os dados do meio. Existem outros testes, tais como de White e o de Goldfeld-Quandt. • Como corrigir: primeiro, é necessário tentar definir o padrão associado à heterocedasticidade. Partimos de um modelo de regressão que é dado a seguir. Suponhamos que exista heterocedasticidade: 112 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Yi = αi + β1Y1t + β2Y2t + β3Y3t + et Se conhecermos que a variância dos erros é dada por: var(et) = Ziσ 2 isto é, que a variância não é constante, notaremos ser uma variável Zi multiplicada por uma constante. Porém, se conseguirmos eliminar essa variável da variância, encontraremos uma variância constante, portanto livre da heterocedasticidade. A simultaneidade (hipótese III) estabelece que as variáveis independentes (X) num modelo de regressão devem ser fixos (não estocásticos, não aleatórios). Se uma (ou mais) variável independente for aleatória, será preciso que, pelo menos, ela não tenha correlação com o resíduo. Se tiver, significa que há uma determinação mútua, onde se discute a relação de causa e efeito. Um exemplo clássico é entre as duas variáveis preços e quantidades (vende mais porque o preço está baixo ou está com o preço baixo porque vende mais?). A quantidade afeta o preço, que afeta a quantidade. Em economia, esse tipo de situação ocorre com frequência. Pelo lado da oferta (lei da oferta), a quantidade a ser produzida ou ofertada é dada como função única do preço (P): Qofertada_i = α0 + α1Pi + ui sendo α1 > 0. Pelo lado da demanda (lei da procura), na quantidade a ser consumida ou demandada, além do preço (P), é levada em conta a renda (R), conforme a função: Qdemandada_i = β0 + β1Pi + β2Ri + vi Sendo β1 < 0. O que se observa é a busca do equilíbrio de mercado, a quantidade que é consumida é a que é vendida: Qofertada_i = Qdemandada_i Qi = α0 + α1Pi + ui Qi = β0 + β1Pi + β2Ri + vi Nota-se que P e Q se determinam mutuamente nesse modelo. Por esse motivo, são consideradas variáveis endógenas, interagindo internamente dentro de um mesmo sistema. A renda (R) já é uma 113 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA variável independente no modelo; fora do sistema, seu valor já é predeterminado, sendo considerada uma variável exógena. • Consequências: a regressão por MQO dessas equações anteriormente apresentadas nos levará a estimadores viesados e inconsistentes, visto que uma das variáveis explicativas, um dos regressores, é uma variável endógena, determinada pelo próprio modelo representado aqui, e, portanto, está correlacionada com os resíduos, levando a estimadores viesados e inconsistentes. • Identificação: partindo do sistema de equações que apresentamos, vamos isolar as variáveis endógenas (P e Q). Igualando a variável Q das equações Oferta e Demanda, encontraremos uma equação que coloca o preço em função apenas das variáveis exógenas (R, no caso, uma só). Substitui-se a equação do preço que acabamos de encontrar na equação de oferta (Qofertada_i), chegando a isolar Q em função de R. Passamos a ter um novo sistema de equações, que isola as variáveis endógenas em cada equação, chamadas de equações na forma reduzida; o sistema original de equações recebe o nome de forma estrutural do modelo. O sistema de equações na forma reduzida deixa de ter os problemas de que um ou mais regressores são correlacionados com os resíduos, o que permite serem estimados pelo MQO. Ao estimarmos as equações na forma reduzida, os parâmetros estimados não se encontram na forma normal, sendo preciso encontrar os da forma estrutural (original). • Como corrigir: para estimar um modelo de equações simultâneas, estimam-se os parâmetros da forma reduzida. A partir da identificação da relação entre os parâmetros da forma reduzida e da forma estrutural, podemos encontrar os parâmetros na sua forma original. Existem critérios a seguir ao aplicar os métodos para corrigir pelo fato de aparecer um dos regressores como uma variável endógena que está correlacionada com os resíduos, levando a estimadores viesados e inconsistentes. Para atender o nosso objetivo, vamos destacar o método dos mínimos quadrados de dois estágios, um método aplicado a equações superidentificadas (onde o número de variáveis endógenas incluídas – 1 é menor que o número de variáveis exógenas excluídas), que consiste em estimar as equações da forma reduzida e encontrar os valores estimados para as variáveis endógenas. Saiba mais Sobre o problema da simultaneidade, leia as páginas 321-329 da obra a seguir: SARTORIS, A. Estatística e introdução à Econometria. São Paulo: Saraiva, 2003. 114 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Observando os aspectos já trabalhados até aqui, fica claro que o objetivo de qualquer modelo de regressão é estimar os parâmetros de modo a alcançar o melhor valor de Y, isto é, minimizar os erros. A introdução das variáveis dummies na análise de regressão amplia, de certa forma, o poder de análise dos modelos, pois permite incorporar nos modelos variáveis importantes que se pretende analisar e que não podem ser medidas quantitativamente. Porém, algumas vezes queremos incluir no modelo de regressão variáveis qualitativas (ou categóricas, binárias, ou dummies). Isso ocorre em fenômenos pouco usuais que poderão determinar viés nas estimativas se não forem controlados. Esse tipo de fenômeno é conhecido na literatura como quebra estrutural, e para controlá-lo são utilizadas as variáveis qualitativas dummies ou binárias. A seguir, apresentamos um exemplo para análise desse fenômeno: a demanda por importações no Brasil entre 1995 e 2010, a partir de dados extraídos do IBGE (<http://brasilemsintese.ibge.gov.br/>): 200.000 180.000 160.000 140.000 120.000 100.000 80.000 60.000 40.000 20.000 0 19 95 19 96 19 97 19 98 19 99 20 00 20 01 20 02 20 03 20 04 20 05 20 06 20 07 20 08 20 09 20 10 Ano US $ m ilh õe s Figura 46 – Teste de hipótese de uma quebra estrutural na demanda por importações no Brasil (1995-2010). Dois períodos em destaque: governo FHC (1996-2002) e governo Lula (2003-2010) Nota-se na figura, aparentemente, um padrão sazonal, além de uma possível quebra estrutural localizada no início do ano de 2003 indicada pela mudança de tendência a partir de 2004 na demanda de importação. Um dos motivos para considerar isso como uma quebra estrutural foi que o fluxo de capitais externos, o real, entrou em recuperação em movimento de valorização, enquanto a inflação se encontrava em níveis reduzidos, e a indústria brasileira vinha apresentando dificuldade para aumentar a participação dos produtos de conteúdo tecnológico mais elevados. Em consequência, a pauta de exportações vinha sendo dominada por produtos de média e baixa intensidade tecnológica. Associado a esse contexto, havia o crescimento da renda social, que contribuiu para aumentar a demanda por importações (compras no exterior e/ou de produtos importados). Portanto, faz-se necessário testar a hipótese da existência de uma quebra estrutural ou não no período em análise; caso aceita a hipótese, justifica-se uma correção no modelo. De acordo com Greene (2003), quando empregamos um modelo de regressão que envolve o uso de séries temporais, pode acontecer que se verifique uma mudança estrutural na relação entre a variável dependente, o regressando (a explicada), e as independentes, os regressores e os Xs (as explicativas). 115 Re vi sã o: L uc as - D ia gr am aç ão : J ef fers on - 3 1/ 03 /1 7 ECONOMETRIA Por mudança estrutural entendemos que os valores dos parâmetros do modelo não se mantêm iguais durante todo o período considerado. As possíveis diferenças, isto é, as mudanças estruturais, podem ser provocadas por diferenças no intercepto ou no coeficiente angular, ou em ambos. Para identificar essas alterações, utiliza-se o teste de Chow, muito útil nesse tipo de análise. O teste de Chow envolve a igualdade de coeficientes de diferentes regressões ou teste de equivalência de duas regressões. Às vezes não sabemos ao certo se um dado modelo se aplica a dois conjuntos diferentes de dados (1994-2003 e 2004-2008). Para testar, iniciaremos pela hipótese nula de que a as regressões, respectivamente do primeiro e do segundo período, são idênticas, e veremos se podemos rejeitar essa hipótese. Para aplicarmos o teste de Chow, devemos considerar os dois modelos de regressão a seguir. O modelo para que se verifique a existência ou não de quebra estrutural nas importações brasileiras no período 1996-2010 envolve três variáveis, sendo a variável importações (US$ milhões) a ser explicada por duas outras variáveis PIB (US$ milhões), conforme dados do IBGE (<http://brasilemsintese.ibge.gov.br/>): Tabela 36 – Análise de quebra estrutural na demanda por importação no Brasil (1995-2010) Ano Importação PIB Taxa de câmbio LN (IM) LN (PIB) LN (câmbio) 1995 49.971,9 771 117,48 10,8192 6,6480 4,7662 1996 53.345,8 849 113,73 10,8845 6,7445 4,7338 1997 59.747,2 885 112,67 10,9979 6,7852 4,7244 1998 57.714,4 867 112,66 10,9633 6,7653 4,7243 1999 49.210,3 600 166,18 10,8039 6,3972 5,1131 2000 55.783,3 657 153,98 10,9292 6,4877 5,0368 2001 55.572,2 560 182,36 10,9254 6,3282 5,2060 2002 47.240,5 509 189,93 10,7630 6,2323 5,2467 2003 48.290,2 560 186,27 10,7850 6,3284 5,2272 2004 62.834,7 669 177,29 11,0483 6,5050 5,1778 2005 73.605,5 894 146,05 11,2065 6,7954 4,9839 2006 91.350,8 1.105 131,51 11,4225 7,0080 4,8791 2007 120.617,4 1.394 121,25 11,7004 7,2398 4,7979 2008 173.106,7 1.689 115,23 12,0617 7,4318 4,7469 2009 127.704,9 1.664 114,95 11,7575 7,4170 4,7445 2010 181.648,7 2.208 100,00 12,1098 7,7000 4,6052 Período 1: (1994-2003) Yi = β1 + β2X2i + ... + βkXki + ei 116 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II IM1 = - 13.009,78 + 88,36.PIB + 76,38. Tx. câmbio R1 2 = 0,6792 n1 = 10 k = 2 SQR1 = 43.721.998,42 Período 2: (2004-2008) Yi = δ1 + δ2X2i + ... + δkXki + ei IM2 = - 77.311,91 + 104,30.PIB + 394,01. Tx. câmbio R2 2 = 0,9348 n2 = 10 k = 2 SQR2 = 1.124.264.737,77 Tendo estimado o modelo em estudo representado pelas duas equações, aplicando a cada uma, individualmente, o MMQO, e por não ter estabelecido nenhuma restrição aos parâmetros do modelo, podemos calcular a soma dos quadrados irrestrita como a soma dos quadrados dos resíduos das equações individuais (SQRIR = SQR1 + SQR2). O número de graus de liberdade é a soma do número de graus de liberdade em cada regressão individual, isto é, (n1 –k) + (n2 –k) = n1 + n2 – 2k. Supondo que a hipótese nula seja verdadeira, temos que: H0 = β1 = δ1, β2 = δ2 , … , βk = δk e Var(ei) = Var(ej). Então, o modelo de regressão pode ser reescrito como uma única equação: Yi = β1 + β2X2i + ... + βkXki + ei em que o i passa a ser de i = 1 a n1 + n2. 117 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Portanto, a equação do modelo (1996-2010): IM1+2 = - 72.381.43 + 103,64.PIB + 365,73. Tx. câmbio R2 = 0,9588 n2 = 16 k = 2 SQRR = 1.240.348.131,26 Nessa equação, estimada pelo método dos mínimos quadrados ordinários (MMQO), calculamos a soma dos quadrados dos resíduos restrita SQRR. Se a hipótese nula for verdadeira, as restrições não prejudicarão o poder explanatório do modelo, e SQRR não será muito maior que SQRIR. Portanto, podemos aplicar um teste F (Fisher-Snedecor) para verificar se a diferença entre os dois valores para a soma dos quadrados dos resíduos é significativa ao nível de 5%. Como o número dos graus de liberdade é n1 + n2 - 2k na regressão irrestrita e existem k restrições, a estatística F adequada é a definida a seguir. Temos: SQR IR = 43.721.998,42 + 1.124.264.737,77 =1.167.986.736,19 SQR R = 1.240.348.131,26 R IR k, n n 2k 1 2 IR 1 2 (SQR SQR ) / k F (SQR ) / (n n 2k)+ − − = + − k, n n 2k 1 2 (1.240.348.131,26 1.167.986.736,19) / 2 F 0,37 1.167.986.736,19 /12+ − − = = 250.000 200.000 150.000 100.000 50.000 0 19 95 19 96 19 97 19 98 19 99 20 00 20 01 20 02 20 03 20 04 20 05 20 06 20 07 20 08 20 09 20 10 Ano US $ m ilh õe s Real Previsto Figura 47 – Importações brasileiras (1995-2010) Finalizando, temos que se a estatística F = 0,37 for menor do que o valor crítico da distribuição F com k e n1 + n2 - 2k graus de liberdade F(0,05; 2,12) = 3,89, não se rejeitará a hipótese nula. Isso implica dizer que não é preciso estimar duas regressões separadas: não existe quebra de estrutura, e os dados podem ser usados em conjunto, conforme visualizado na figura anterior. 118 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Lembrete A estatística tem uma distribuição F porque cada soma de desvios quadrados tem uma distribuição qui-quadrado, tendo o numerador k graus de liberdade e o denominador n1 + n2 - 2k graus de liberdade. Como as duas distribuições são independentes, a razão segue uma distribuição F (Fisher-Snedecor). O método dos mínimos quadrados pode modelar curvatura transformando as variáveis (funções linearizáveis). É necessário especificar a forma funcional correta para modelar qualquer curva. Conforme a curvatura apresentada na figura anterior, a função indicada a ser linearizável é a logaritma na sua forma original Y = aXb e na sua forma linearizada (por transformação) lnY = lna + b . lnX. Portanto, aplicando à função de demanda por importações a transformação logarítmica, propõe-se um melhor ajuste assumindo o seguinte formato: ln(Yi) = β1 + β2ln(X2i) + ... + βkln(Xki) + ei Todas as variáveis se encontram transformadas para o seu logaritmo natural enquanto expressão de taxa média de crescimento. ln(IMi) = β1 + β2ln(PIBi) + βkln(Tax. Câmbioi) + ei Assim, temos o resultado de um modelo linearizável (por transformação logarítmica) e a comparação com o modelo anterior: ln(IMi) = - 3,4572 + 1,3987 . ln(PIBi) + 1,0456 . ln(Tax. Câmbioi) + ei (-3,14) (20,35) (7,47) (estatística t entre parênteses) R2 = 0,9802 R2 (ajustado)= 0,9771 n2 = 16 k = 2 F = 321,62 IM = - 72.381 . 43 + 103,64 . PIB + 365,73. Tx. Câmbio (-3,28) (14,21) (3,17) (estatística t entre parênteses) R2 = 0,9588 R2 (ajustado) = 0,9524 n2 = 16 k = 2 F = 151,09 Notamos uma melhora no modelo transformado ou linearizável. Sabemos que o modelo de regressão só fornece as melhores estimativas quando todas as pressuposições são atendidas, e é muito importante testá-las. 119 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Observação A variável dummy representa estados ou níveis de fatores, ou seja, representa algo que não possui valores numéricos ou, caso possua, esses valores não têm realmente um significado numérico. Assim, uma variável dummy (D), pode ser descrita da seguinte maneira: 0, se a característica não estiver presente D 1, se a característica estiver presente = A variável dummy recebe este nome porser uma variável explicativa (X) que assume apenas dois valores, 0 e 1 (variável indicadora), ao longo de toda a amostra. Indica a presença (1) ou a ausência (0) de um atributo. O funcionamento da variável é o seguinte: Período sem a quebra: D = 0. Yi = α + βXi + δD + ei Portanto: Yi = α + βXi + ei Período da quebra: D = 1. Yi = (α + δ) + βXi + ei Outro formato possível que a variável dummy pode assumir refere-se a mudanças na inclinação. A variável, assim, assume o valor zero para o período sem a mudança e o valor igual ao da variável cuja inclinação mudou para o período com mudança. O modelo passa a funcionar da seguinte forma: Período sem a quebra: D = 0. Yi = α + βXi + δD + ei Portanto: Yi = α + βXi + ei 120 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Período da quebra: D = Xi Yi = α + (β + δ)Xi + ei Na análise de regressões múltiplas, os coeficientes de cada variável dummy (binária) medem o impacto diferencial entre a categoria que recebe o valor 1 e a categoria que foi excluída da regressão (que recebe o valor zero). Através do teste t-Student é que se avalia a hipótese nula de que a participação nas categorias incluídas e excluídas terá o mesmo impacto. Quando se utilizam dois ou mais conjuntos de variáveis dummies, os resultados da regressão se tornam mais difíceis de serem interpretados. Três formas de inserção das variáveis binárias em um modelo de regressão linear: • Forma aditiva: Y = α + β1X1 + β2D + u • Forma multiplicativa: Y = α + β1X1 + β2X1D + u • Forma mista: Y = α + β1X1 + β2X1D1 + β3D2 + u Na forma aditiva, a variável dummy (D) altera o termo constante (intercepto) do modelo de regressão linear: Yi = α + βXi + δD + ei Onde: Yi = consumo do indivíduo i; Xi = renda do indivíduo i; D = variável dummy: 1 para indivíduo do sexo masculino e 0 para indivíduo do sexo feminimo. Por hipótese E(ei) = 0, portanto, temos: Yi = (α + δ) + βXi Consumo previsto, em função da renda, para indivíduos do sexo masculino (D = 1). Yi = α + βXi + ei Consumo previsto, em função da renda, para indivíduos do sexo feminino (D = 0). Sendo δ o diferencial entre as rendas médias de homens e mulheres. 121 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Yi = (α + δ) + βXi (α + δ) β Yi = α + βXi Renda X Consumo Y Figura 48 Variáveis binárias, que são incorporadas num modelo de regressão para dar conta de um deslocamento do intercepto como resultado de algum fator qualitativo, são chamadas de variáveis binárias de intercepto ou, simplesmente, variáveis dummies de intercepto. Observação Interpretação dos coeficientes ligados às variáveis dummies correspondem à diferença em relação ao valor do intercepto e, portanto, à categoria que ele representa (ou categoria de referência). Na forma multiplicativa (ou de inclinação), a variável dummy (D) altera o coeficiente de uma variável explicativa do modelo de regressão linear: Yi = α + βX1 + δDiX1 + ei (DiX1: representa a interação de renda e sexo) Onde: Yi = consumo do indivíduo i; Xi = renda do indivíduo i; D = variável dummy: 1 para indivíduo do sexo masculino e 0 para indivíduo do sexo feminimo. Por hipótese E(ei) = 0, portanto, temos: Yi = α + βX1 + δDiX1 (DiX1: representa a interação de renda e sexo) Consumo previsto, em função da renda, para indivíduos do sexo masculino (D = 1). 122 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Yi = α + (β + δ)Xi Consumo previsto, em função da renda, para indivíduos do sexo feminino (D = 0). Para as mulheres, cada aumento adicional de 100 reais acrescenta β reais ao consumo médio. Para os homens, cada aumento adicional de 100 reais acrescenta β + δ reais ao consumo médio. (α + δ) β Renda X Consumo Y Yi = α + (β + δ)Xi Yi = α + βXi Figura 49 Portanto, apresenta o efeito de interação de variáveis explicativas. Na forma mista, a variável dummy (D) altera o intercepto e o coeficiente de uma variável explicativa do modelo de regressão linear: Yi = α + βX1 + δDi + γDiX1 + ei Onde: Yi = consumo do indivíduo i; Xi = renda do indivíduo i; D = variável dummy: 1 para indivíduo do sexo masculino e 0 para indivíduo do sexo feminimo. Por hipótese E(ei) = 0, portanto, temos: Yi = (α + δ) + (β + y)Xi Consumo previsto, em função da renda, para indivíduos do sexo masculino (D = 1). Yi = α + βXi Consumo previsto, em função da renda, para indivíduos do sexo feminino (D = 0). Para as mulheres, cada aumento adicional de 100 reais acrescenta β reais ao consumo médio. Para os homens, cada aumento adicional de 100 reais acrescenta β + δ reais ao consumo médio. 123 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Yi = (α + δ) + (β + y)Xi (α + δ) β Yi = α + βXi Renda X Consumo Y Figura 50 Agora estendemos a noção de variável binária em que algumas das variáveis independentes são contínuas, enquanto outras são binárias. Vamos utilizar o exemplo da função consumo e verificar se o comportamento de consumo da economia no período do governo FHC comparado com o do governo Lula se tornou diferente. Casos diferentes podem ser analisados a partir de uma função simples de consumo agregado determinado pela renda agregada sem defasagem. Veja os dados a seguir, de acordo com o IBGE (<http://brasilemsintese.ibge.gov.br/>): Tabela 37 – Abrangência: Brasil (unidade: R$ 1.000.000,00 – valores constantes de 1995) Y X Ano Consumo Renda D DX 1996 116.080 180.397 0 0 1997 119.601 186.521 0 0 1998 118.739 187.151 0 0 1999 119.189 188.027 0 0 2000 123.995 196.278 0 0 2001 124.951 199.006 0 0 2002 126.599 205.082 0 0 2003 125.908 207.422 1 207.422 2004 130.848 219.369 1 219.369 2005 136.634 226.394 1 226.394 2006 143.855 235.364 1 235.364 2007 153.027 249.650 1 249.650 2008 162.919 262.367 1 262.367 2009 170.180 262.037 1 262.037 2010 180.781 281.764 1 281.764 Caso I: Yy = α + β1X1 + ei 124 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Yy = - 491,70 + 0,6270X1 Este modelo apresenta um comportamento de consumo idêntico, em todos os aspectos, para os dois períodos de governo. Caso II: Yy = α + β1X1 + δ1Di + ei Yy = - 20.943,25 + 0,7417Xi - 8,814,35D A variável dummy D será igual a 0 se referente ao governo FHC e 1 se vinculada ao governo Lula. Este caso corresponde à pressuposição de que o intercepto da função consumo mude no período do governo Lula, mas que o parâmetro de inclinação permaneça o mesmo. Um modo de certificar se de fato tal mudança é estatisticamente significativa é oferecido pelo teste da hipótese nula de que δ1 = 0. Aplicando o teste t de Student, temos que o valor calculado de t-teste (stat-t = -3,50) em módulo é maior que o t-crítico = 2,18 (tabela, com 5% de significância e gl II = 12). Portanto, o coeficiente da variável dummy D é diferente de zero, isto é, a mudança de comportamento de consumo é significativa estatisticamente entre os dois períodos de governo. Caso III: Yy = α + β1X1 + δ1(DiX1) + ei Yy = 26.827,24 + 0,7719Xi - 0,418(DiXi) Este caso corresponde à suposição de que o intercepto permaneceu constante, mas a inclinação mudou. Um teste para certificar se de fato tal mudança é estatisticamente significativa é oferecido pelo teste da hipótese nula de que o coeficiente de DiXi = 0. Aplicando o teste t de Student, temos que o valor calculado de t-teste (stat-t= -3,1) em módulo é maior que o t-crítico = 2,18 (tabela, com 5% de significância e gl II = 12). Portanto, o coeficiente da variável dummy DX é diferente de zero, isto é, a mudança de comportamento de consumo é significativa estatisticamente entre os dois períodos de governo. Caso IV: Yy = α + β1Xi + γDi + δ(DiXi) + ei Yy = 35.799,03 + 0,4459Xi + 72.713,26XDi + 0,3253(DiXi) Neste caso é permitido mudar tanto a inclinação como o intercepto. Nota-se que o modelo continua sendo expresso por uma única equação em que se supõe que a variância do termo de erro seja igual nos dois períodos analisados. 125 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Aplicando o teste t de Student, temos que o valor calculado de t-teste (stat-t para a variável dummy D = -3,4 e para a dummy DX = 3,0) em módulo é maior que o t-crítico =2,20 (tabela, com 5% de significância e gl II = 11). Portanto, o coeficiente das variáveis dummies D e DX é diferente de zero, isto é, a mudança de comportamento de consumo é significativa estatisticamente, tanto para o intercepto quanto para a inclinação, entre os dois períodos de governo. A estimação através do método dos mínimos quadrados (MMQ) produz estimativas únicas do erro-padrão da regressão e das distribuições dos parâmetros da regressão estimados. Caso V: YyFHC = αFHC + β1FHCXiFHC + eiFHC YyLULA = αLULA + βiLULAXiLULA + eiLULA Neste caso, a proposta é elaborar duas regressões, uma para cada período de governo, o que permite acompanhar a variância dos erros dos parâmetros em cada um dos períodos e obter as estimativas separadas dos erros-padrão das duas regressões em análise. O que se pretende é verificar se os parâmetros estimados de regressão no caso IV (período 1996-2010) e no caso V (equação período FHC, de 1996 a 2002, e equação período Lula, de 2003 a 2010) são equivalentes. No entanto, a escolha entre o modelo único para o período (Caso IV) e o modelo desmembrado nos dois períodos (Caso V) vai depender de o comportamento da variância do erro ser constante ao longo de todo o período considerado (1996-2010). Saiba mais Leia a obra a seguir: SILVEIRA, F. G. et al. (Org.). Gasto e consumo das famílias brasileiras contemporâneas. v. 2. Brasília: Ipea, 2007. Disponível em: <http://ipea.gov. br/portal/images/stories/PDFs/livros/Livro_completo2.pdf>. Acesso em: 5 abr. 2017. Veremos agora como podemos ajustar um modelo mais geral, no qual, por exemplo, também as inclinações possam ser distintas. O modelo se propõe a explicar as variações dos rendimentos familiares per capita (variável dependente Y) através da média de anos de estudos (variável independente X) de 62 municípios que compõem as três regiões metropolitanas: de Campinas (19), Ribeirão Preto (25) e Sorocaba (18). Para representar as três regiões metropolitanas, utilizaremos duas variáveis dummies, conforme tabela a seguir: 126 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Tabela 38 – Valores das variáveis dummies Regiões metropolitanas Variáveis dummies DR DS Campinas 0 0 Ribeirão Preto 1 0 Sorocaba 0 1 Tabela 39 Seq. Região Cidade Taxa de analfabetismo % de pessoas em domicílios pobres Rendimento familiar per capita (Y) Média de anos de estudos (X) D>1.300 Média de anos de estudos (X) D_ pobres DR 6 1 Holambra 8,1 3,7 1.820,91 6,57 1 6,57 0 0 1 1 Americana 6,0 5,1 1.634,62 7,92 1 7,92 0 0 18 1 Valinhos 7,4 5,4 2.016,13 7,89 1 7,89 0 0 19 1 Vinhedo 7,9 5,8 2.283,26 7,93 1 7,93 0 0 14 1 Pedreira 9,2 6,1 1.317,20 6,61 1 6,61 0 0 9 1 Itatiba 8,6 7,0 1.561,63 7,23 1 7,23 0 0 61 3 Tietê 6,4 7,5 1.526,03 7,14 1 7,14 0 0 12 1 Nova Odessa 7,7 7,6 1.212,54 7,40 0 7,40 0 0 32 2 Monte Alto 10,8 8,1 1.209,61 7,03 0 7,03 0 1 36 2 Ribeirão Preto 5,6 8,1 1.859,94 8,48 1 8,48 0 1 15 1 Santa Barbara D’Oeste 8,1 8,2 1.171,30 6,98 0 6,98 0 0 10 1 Jaguariúna 10,4 8,2 1.474,52 7,39 1 7,39 0 0 13 1 Paulínia 8,0 8,3 1.861,36 7,46 1 7,46 0 0 22 2 Brodowski 9,8 8,4 1.138,65 6,66 0 6,66 0 1 8 1 Indaiatuba 8,4 8,7 1.611,46 7,44 1 7,44 0 0 43 2 Sertãozinho 10,1 9,1 1.452,87 6,96 1 6,96 0 1 51 3 Jumirim 8,1 9,3 941,86 6,46 0 6,46 0 0 3 1 Campinas 6,3 9,7 2.073,56 8,50 1 8,50 0 0 59 3 Sorocaba 6,0 9,9 1.619,19 7,96 1 7,96 0 0 26 2 Dumont 12,2 10,1 1.368,76 6,87 1 6,87 0 1 29 2 Jaboticabal 9,3 10,2 1.371,27 7,41 1 7,41 0 1 25 2 Cravinhos 11,2 10,7 1.319,22 6,72 1 6,72 0 1 56 3 Salto 8,1 10,8 1.247,73 7,15 0 7,15 0 0 55 3 Porto Feliz 9,5 11,1 1.068,90 6,44 0 6,44 0 0 50 3 Itu 9,4 11,6 1.554,78 7,20 1 7,20 0 0 30 2 Jardinópolis 10,1 11,9 1.203,78 6,71 0 6,71 0 1 35 2 Pradópolis 13,6 12,3 1.070,09 6,48 0 6,48 0 1 62 3 Votorantim 7,0 12,5 1.144,38 7,12 0 7,12 0 0 5 1 Engenheiro Coelho 12,1 12,8 1.101,26 6,44 0 6,44 0 0 17 1 Sumaré 10,3 13,0 1.064,13 6,69 0 6,69 0 0 127 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA 47 3 Araçoiaba da Serra 11,6 13,2 1.108,24 6,66 0 6,66 0 0 2 1 Artur Nogueira 11,9 13,5 1.157,86 6,68 0 6,68 0 0 20 2 Altinópolis 10,8 13,6 1.415,15 6,37 1 6,37 0 1 44 2 Taquaral 14,3 14,4 787,06 5,12 0 5,12 0 1 40 2 São Simão 8,3 14,6 1.112,82 7,17 0 7,17 0 1 45 3 Alumínio 7,1 14,8 1.117,28 7,47 0 7,47 0 0 31 2 Luis Antônio 9,5 14,8 1.143,59 6,66 0 6,66 0 1 23 2 Cajuru 11,9 14,9 1.043,53 6,44 0 6,44 0 1 42 2 Serrana 11,5 14,9 901,53 6,14 0 6,14 0 1 34 2 Pontal 15,2 15,2 1.312,52 5,47 1 5,47 1 1 16 1 Santo Antonio de Posse 13,5 15,5 1.172,74 5,94 0 5,94 1 0 58 3 São Roque 9,4 15,7 1.532,15 6,99 1 6,99 1 0 7 1 Hortolândia 7,6 15,9 971,65 6,62 0 6,62 1 0 38 2 Santa Rosa de Viterbo 8,9 15,9 1.072,56 6,86 0 6,86 1 1 4 1 Cosmópolis 9,5 16,5 1.081,74 6,76 0 6,76 1 0 52 3 Mairinque 9,8 16,6 1.073,18 6,77 0 6,77 1 0 46 3 Araçariguama 10,0 16,8 1.040,25 5,79 0 5,79 1 0 39 2 Santo Antônio da Alegria 11,3 17,1 945,09 6,01 0 6,01 1 1 33 2 Pitangueiras 15,7 18,4 894,45 6,17 0 6,17 1 1 57 3 Salto de Pirapora 15,1 18,4 895,03 6,03 0 6,03 1 0 11 1 Monte Mor 13,3 18,9 969,25 6,11 0 6,11 1 0 27 2 Guariba 18,0 19,5 912,52 5,64 0 5,64 1 1 21 2 Barrinha 15,3 19,6 808,74 5,65 0 5,65 1 1 49 3 Iperó 10,2 21,1 863,76 6,45 0 6,45 1 0 37 2 Santa Cruz da Esperança 9,9 22,2 987,82 6,18 0 6,18 1 1 48 3 Ibiúna 17,0 22,3 872,65 5,38 0 5,38 1 0 41 2 Serra Azul 15,9 23,0 830,35 5,94 0 5,94 1 1 28 2 Guatapará 12,5 23,2 872,98 5,97 0 5,97 1 1 24 2 Cássia dos Coqueiros 14,4 23,5 830,18 6,49 0 6,49 1 1 53 3 Piedade 14,9 24,0 1.043,40 5,79 0 5,79 1 0 54 3 Pilar do Sul 15,9 24,2 1.204,80 5,89 0 5,89 1 0 60 3 Tapiraí 18,0 29,6 817,74 5,62 0 5,62 1 0 Fonte: IBGE (2000). Sejam DR e DS as variáveis dummies dos municípios da região metropolitana de Ribeirão Preto e de Sorocaba, respectivamente. Considere, ainda, o seguinte modelo: y = β1 + β2 testud + DR (δ0 + δ1testud) + DS (δ2 + δ3testud) + ε 128 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Assim, para cada uma das regiões metropolitanas, teríamos os seguintes modelos de regressão: Y_cps = β1 + β2testud + ε Y_rib = (β1 + δ0) + (β2 + δ1)testud + ε Y_sor = (β1 + δ2) + (β2 + δ3)testud + ε A variável dummy de inclinação, ou seja, o modelo de regressão linear y = β1 + β2 testud + DR (δ0 + δ1testud) + + DS (δ2 + δ3testud) + ε faz com que sejam ajustadas três retas com interceptos e inclinações diferentes. Observe que o modelo anterior pode ser reescrito como: y = β1 + β2testud + δ0DR + δ2DS + + δ1testudDR+ δ3testudDS + ε Os parâmetros associados às variáveis dummies DR e DS, isoladamente, serão responsáveis pela alteração dos interceptos. Ainda, os parâmetros associados aos produtos de DR e DS por testud serão responsáveis pela alteração dos coeficientes angulares. Finalmente, as variáveis testudDR e testudDS são chamadas de variáveis de interação, pois são responsáveis por capturar o efeito de interação envolvendo tempo médio de estudo (anos) e rendimento per capita. Traduzindo, trata-se do impacto na variação do rendimento per capita esperado de municípios de regiões diferentes, dada a variação de um ano no tempo médio de estudo desses municípios, que podem ser diferentes. Tabela 40 Coeficientes Erro-padrão Stat-t valor-P Interseção -1.837,25 503,68 -3,65 0,00058 Média de anos de estudos (X) 464,22 70,81 6,56 0,00000 DR 1.140,47 636,57 1,79 0,07861 DS 1.262,93 682,06 1,85 0,06935 DRX -183,99 92,74 -1,98 0,05217 DSX -202,11 99,28 -2,04 0,04651 (t-crítico = 2,00) Assim: Y^RM = - 1.837,25 + 464,22X + 1.140,47DR + 1.262,93DS - 183,99DRX - 202,11DSX 129 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Esse é o modelo mais geral, no qual também as inclinações podem ser distintas. Portanto, os resultados da estimação com média dos anos de estudos (X), regiões metropolitanas e interações são: Y^RMCampinas = - 1.837,25 + 464,22X Y^RMRibeirão Preto = - 696,78 + 280,23X Y^RMSorocaba = - 574,32 + 262,11X As três retas ajustadas simultaneamente (Y^RM), neste exemplo, são equivalentes às retas que obteríamos se ajustássemos separadamente um modelo para cada região metropolitana (Y^RMCampinas, Y^RMRibeirão Preto e Y^RMSorocaba). No entanto, este procedimento tem a vantagem de facilitar a construção dos testes de hipóteses envolvendo simultaneamente parâmetros das três retas. Poderíamos elaborar modelos envolvendo apenas as diferenças de intercepto entre os municípios das três regiões metropolitanas: Tabela 41 Coeficientes Erro-padrão Stat-t valor-P Interseção -875,00 282,24 -3,10 0,00298 Média de anos de estudos (X) 328,35 39,26 8,36 0,00000 DR -132,82 68,48 -1,94 0,05731 DS -134,73 72,04 -1,87 0,06649 (t-crítico = 2,00) Assim: Y^RM = - 875,00 + 328,35X - 132,82DR - 134,73DS As variáveis binárias não apresentaram nenhum diferencial significativo quanto às diferenças de intercepto (stat-t). Portanto, os resultados da estimação com média dos anos de estudos (X), regiões metropolitanas e interações são: Y^RMCampinas = - 953,28 + 328,35X Y^RMRibeirão Preto = - 1.007,82 + 328,35X Y^RMSorocaba = - 1.009,73 + 328,35X 130 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Poderíamos elaborar modelos envolvendo apenas as diferenças de inclinação entre os municípios das três regiões metropolitanas: Tabela 42 Coeficientes Erro-padrão Stat-t valor-P Interseção -953,28 260,71 -3,66 0,00055 Média de anos de estudos (X) 340,48 37,11 9,18 0,00000 DRX -21,02 9,90 -2,12 0,03803 DSX -21,36 10,40 -2,05 0,04442 (t-crítico = 2,00) Assim: Y^RM = - 953,28 + 340,48X - 21,02DRX - 21,36DSX As variáveis binárias apresentaram diferenciais significativos quanto às diferenças de inclinação (stat-t). Portanto, os resultados da estimação com média dos anos de estudos (X), regiões metropolitanas e interações são: Y^RMCampinas = - 953,28 + 340,48X Y^RMRibeirão Preto =-953,28 + 319,46X Y^RMSorocaba = - 574,32 + 319,12X Poderíamos utilizar apenas uma variável dummy D (D_pobres =1) indicando municípios com porcentagem de pessoas em domicílios pobres igual a ou acima de 15% e D (D_pobres = 0) indicando municípios com porcentagem de pessoas em domicílios pobres abaixo de 15%. Tabela 43 Coeficientes Erro-padrão Stat-t valor-P Interseção 1.361,23 46,93 29,01 5,27358E-37 D_pobres -360,99 77,05 -4,69 1,64955E-05 (t-crítico = 2,00) Assim: Y^RM = 1.361,23 - 360,99D 131 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA A variável binária que representa os municípios com porcentagem de pessoas em domicílios pobres acima de 15% foi significativa no nível de 5%. Como a renda familiar per capita média do grupo todo dos municípios (62 municípios) representa R$ 1.227,32, a variável dummy nos informa que a renda familiar per capita dos municípios com porcentagem de pessoas em domicílios pobres acima de 15% é mais baixa em R$ 361,00 reais, o que representa uma queda em relação à média aproximada de 30%. Esse diferencial significativo confirmado pelo teste t-Student da renda familiar desaparece quando o modelo de regressão é expandido levando em conta a média de anos de estudos: Tabela 44 Coeficientes Erro-padrão Stat-t valor-P Interseção -1.013,15 332,20 -3,05 0,003426683 Média de anos de estudos (X) 338,02 47,04 7,19 1,3078E-09 D_pobres -51,77 71,21 -0,73 0,47007873 (t-crítico = 2,00) Assim: Y^RM = - 1.013,15 + 338,02X - 51,77D_pobres A variável binária não apresenta diferencial significativo quanto às diferenças de intercepto (stat-t). Portanto, os resultados da estimação com média dos anos de estudos (X) e regiões metropolitanas são: Y^RM % pessoas em domicilios pobres menores que 15% = - 1.013,15 + 338,02X Y^RM % pessoas em domicilios pobres maiores que 15% = - 1.064,92 + 338,02X No modelo expandido, a variável binária que representa os municípios com porcentagem de pessoas em domicílios pobres acima de 15% não foi significativa no nível de 5%. Como a renda familiar per capita média do grupo todo dos municípios (62 municípios) representa R$ 1.227,32, a variável dummy nos informa que a renda familiar per capita dos municípios com porcentagem de pessoas em domicílios pobres acima de 15%, que isoladamente era mais baixa em R$ 361,00 reais, passou a ser de R$ 52,00, o que representa uma queda em relação à média aproximada de 4%. O uso das variáveis dummies também permite distinguir o comportamento de um fenômeno em períodos de tempo com características de sazonalidade, períodos anterior e posterior a uma medida econômica etc. Por exemplo: para sazonalidade nas vendas representadas pelas quatro estações do ano, podemos: usar três variáveis dummies (número de possibilidades menos 1), em que para uma das estações todas as dummies assumem o valor zero; realizar dois processos de produção em uma empresa para avaliar as diferenças na qualidade de fabricação dos produtos; distinguir aspectos econômicos de diversas regiões; fazer a avaliação de políticas (grupo-controle e grupo de tratamento); e notar diferenças de salários por sexo para avaliar se ocorre discriminação contra as mulheres. 132 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Lembrete Qualquer variável expressa em categorias pode ser transformada em uma variável dummy: por exemplo, variáveis envolvendo os três setores da economia (primário, secundário e terciário). 6 VARIÁVEIS DEFASADAS Frequentemente, em análise de uma série temporal, é comum adotar modelos em que aparecem variáveis defasadas, isto é, o valor de Yt referente ao t-ésimo período aparece como função de Xt 1, Xt, Xt-1, Xt-2 e/ou Yt-1 etc. Isso é útil para a análise de políticas públicas. Variáveis defasadas são valores que estão fortemente correlacionados aos valores que os antecedem e àqueles que os sucedem. Esse tipo de correlação é conhecido como autocorrelação. Na modelagem autorregressiva, incluímos como variável independente uma componente defasada da variável dependente – essa é uma técnica de previsão bastante utilizada para prever sériestemporais que apresentam autocorrelação. A ideia da autocorrelação serial é que os resíduos contêm mais informação sobre a variável dependente do que aquilo que foi “filtrado” pelas variáveis explicativas. Em termos técnicos, o resíduo ainda pode ser sistematizado: • O modelo autorregressivo de primeira ordem é semelhante, no formato, ao modelo de regressão linear simples: Yt = α + β1Yt-1 + ut • O modelo autorregressivo de segunda ordem é semelhante ao modelo de regressão múltipla, com duas variáveis independentes: Yt = α + β1Yt-1 + β2Yt-2 + ut • O modelo autorregressivo de k-ésima ordem é semelhante ao modelo de regressão múltipla, com k variáveis independentes: Yt = α + β1Yt-1 + β2Yt-2 + ... + βkYt-k + ut Em que: Yt = o valor observado da série no período t; Yt-1 = o valor observado da série no período t - 1; Yt-2 = o valor observado da série no período t - 2; 133 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Yt-k = o valor observado da série no período t-k; α, β1, β2, … βk = parâmetros autorregressivos a serem estimados pelo MMQ; ut = erro aleatório não autocorrelacionado (média zero e variância constante). Ao utilizarmos variáveis defasadas em um modelo, precisamos ponderar as vantagens, que de um lado representam a simplicidade; e, de outro, a preocupação de deixar de levar em conta uma autocorrelação importante nos dados. Outro aspecto se refere à preocupação com a seleção de um modelo de ordem elevada, com a proposta de inúmeras variáveis explicativas desnecessárias, especialmente se o número de observações da série for pequeno. Sabendo que não existe nenhum valor registrado antes de Yt no caso de um modelo autorregressivo de segunda ordem, dois valores são perdidos para efeito de análise de regressão. Por exemplo, se o número de observações for igual a oito (n = 8), o modelo autorregressivo de segunda ordem terá seis pares de valores (n = 8 – 2). Depois de selecionado o modelo, devemos, através do MMQ, calcular as estimativas dos parâmetros e validá-los. Para selecionar o modelo nos baseamos em experiências anteriores ou escolhemos um modelo com diversos parâmetros e, em seguida, por meio do teste t (t0,05; n-2k-1), passo a passo, vamos eliminando os parâmetros de ordem mais elevada que não contribuam significativamente para o modelo (quando a hipótese nula é aceita, indicando que o parâmetro de maior ordem é igual a zero) e vamos ajustando o modelo até que a hipótese nula (H0) seja rejeitada. Quando isso ocorrer, concluiremos que esse modelo pode ser utilizado para fins de previsão. Para demonstrar esse procedimento de escolha do modelo autorregressivo mais eficaz, retomemos a série temporal do exemplo que trata da renda (X) explicando o consumo (Y) ao longo do período de 1996 a 2010. Construímos a planilha conforme tabela a seguir, que apresenta os dados do IBGE (<http://brasilemsintese.ibge.gov.br/>) para os modelos autorregressivos de primeira a terceira ordem. Considere a série a seguir, com n = 15 valores anuais consecutivos: Tabela 45 – Consumo (defasados) Ano Consumo (Yt) Yt-1 Yt-2 Yt-3 1996 116.080 1997 119.601 116.080 1998 118.739 119.601 116.080 1999 119.189 118.739 119.601 116.080 2000 123.995 119.189 118.739 119.601 2001 124.951 123.995 119.189 118.739 2002 126.599 124.951 123.995 119.189 2003 125.908 126.599 124.951 123.995 2004 130.848 125.908 126.599 124.951 2005 136.634 130.848 125.908 126.599 134 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II 2006 143.855 136.634 130.848 125.908 2007 153.027 143.855 136.634 130.848 2008 162.919 153.027 143.855 136.634 2009 170.180 162.919 153.027 143.855 2010 180.781 170.180 162.919 153.027 Tabela 46 Resumo dos resultados Estatística de regressão R múltiplo 0,9939 R-quadrado 0,9878 R-quadrado ajustado 0,9833 Erro-padrão 2.656 Observações 12 Anova gl SQ MQ F F de significação Regressão 3 4.586.569.794 1.528.856.598 216,65 0,00000005 Resíduo 8 56.455.153 7.056.894 Total 11 4.643.024.946 Coeficientes Erro-padrão Stat-t valor-P 95% inferiores 95% superiores Interseção -20.640,67 16.119,84 -1,28 0,2363 -57.813,09 16.531,75 Yt-1 1,3312 0,3256 4,09 0,0035 0,58 2,08 Yt-2 -0,3556 0,5207 -0,68 0,5139 -1,56 0,85 Yt-3 0,2155 0,4564 0,47 0,6494 -0,84 1,27 Partimos da ideia que não temos experiência para estabelecer o modelo de imediato. Assim, a seleção do modelo autorregressivo que melhor se ajuste a séries temporais anuais deve ser iniciada com o modelo autorregressivo de terceira ordem. A equação autorregressiva ajustada é: Y^i = -20.640,67 + 1,3312Yi-1 - 0,3556Yi-2 + 0,2155Yi-3 Nota-se que o primeiro ano da série é 1999. Na sequência, vamos testar a significância de β3 = 0,2155 (parâmetro de ordem mais elevada), com um erro-padrão de 0,4564. Para testar a hipótese nula: H0 : β3 = 0 H1 : β3 ≠ 0 135 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Utilizando o nível de significância de 5% (α = 0,05), o teste t bicaudal com 8 graus de liberdade apresenta valores críticos de ± 2,31 – veja a tabela da distribuição t-Student (bilateral) no AVA. -2,31 0 Região de não rejeição ou aceitação Região de rejeição α 2 α 2 Valor crítico Valor crítico Região de rejeição +2,31 t Figura 51 – Região crítica para o teste t O valor de stat-t (estatística t calculada) é de 0,47 e se encontra na região de aceitação (veja a figura anterior), pois o valor em módulo do stat-t é menor do que o valor t crítico = |0,47| = 0,47 < 2,31. Assim, concluímos que devemos aceitar a hipótese nula H0, indicando que o parâmetro de maior ordem do modelo autorregressivo é igual a zero, não sendo significativo, e, portanto, pode ser excluído. Não sendo significativo o parâmetro de maior ordem (terceira), foi descartado. Prosseguimos no ajuste do modelo autorregressivo de segunda ordem, conforme a tabela a seguir: Tabela 47 Anova gl SQ MQ F F de significação Regressão 3 5.101.411.991 1.700.470.664 667,8 0,0000000001 Resíduo 9 22.918.546 2.546.505 Total 12 5.124.330.537 Coeficientes Erro-padrão Stat-t valor-P 95% inferiores 95% superiores Interseção -17.545,42 5.748,60 -3,05 0,01 -30.549,67 -4.541,17 Renda (Xt) 0,2418 0,0577 4,1889 0,0023 0,1112 0,3725 Yt-1 0,7873 0,2156 3,6523 0,0053 0,2997 1,2750 Yt-2 -0,0255 0,2255 -0,1130 0,9125 -0,5356 0,4846 136 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Assim: Y^i = - 20.085,56 + 1,2312Yi-1 - 0,0492Yi-2 Nota-se que o primeiro ano da série é 1998. Na sequência, vamos testar a significância de β2 = - 0,0492 (parâmetro de ordem mais elevada), com um erro-padrão de 0,3673. Para testar a hipótese nula: H0 : β2 = 0 H1 : β2 ≠ 0 Utilizando o nível de significância de 5% (α = 0,05), o teste t bicaudal com 9 graus de liberdade apresenta valores críticos de ± 2,23 – veja a tabela da distribuição t-Student (bilateral) no AVA. -2,23 0 Região de não rejeição ou aceitação Região de rejeição α 2 α 2 Valor crítico Valor crítico Região de rejeição +2,23 t Figura 52 – Região crítica para o teste t O valor de stat-t (estatística t calculada) é de -0,13 e se encontra na região de aceitação (veja a figura anterior), pois o valor em módulo do stat-t é menor do que o valor t crítico = |- 0,13| = 0,13 < 2,23. Assim, concluímos que devemos aceitar a hipótese nula H0, o que indica que o parâmetro de maior ordem do modelo autorregressivo é igual a zero, não sendo significativo,e, portanto, pode ser excluído. Não sendo significativo o parâmetro de maior ordem (segunda), foi descartado. Prosseguimos no ajuste do modelo autorregressivo de primeira ordem, conforme a tabela a seguir: 137 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Tabela 48 Resumo dos resultados Estatística de regressão R múltiplo 0,9934 R-quadrado 0,9868 R-quadrado ajustado 0,9857 Erro-padrão 2.463 Observações 14 Anova gl SQ MQ F F de significação Regressão 1 5.431.067.611 5.431.067.611 895,41 0,000000000001 Resíduo 12 72.785.837 6.065.486 Total 13 5.503.853.448 Coeficientes Erro-padrão Stat-t valor-P 95% inferiores 95% superiores Interseção -19.394,43 5.313,3246 -3,65 0,0033 -30.971,17 -7.817,69 Yt-1 1,1796 0,0394 29,92 0,0000 1,09 1,27 Assim: Y^i = - 19.394,43 + 1,1796Yi-1 Nota-se que o primeiro ano da série é 1997. Na sequência, vamos testar a significância de β1 = 1,1796 (parâmetro de ordem mais elevada), com um erro-padrão de 0,0394. Para testar a hipótese nula: H0 : β1 = 0 H1 : β1 ≠ 0 Utilizando o nível de significância de 5% (α = 0,05), o teste t bicaudal com 12 graus de liberdade apresenta valores críticos de ± 2,18 – veja a tabela da distribuição t-Student (bilateral) no AVA. 138 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II -2,18 0 Região de não rejeição ou aceitação Região de rejeição α 2 α 2 Valor crítico Valor crítico Região de rejeição +2,18 t Figura 53 – Região crítica para o teste t O valor de stat-t (estatística t calculada) é de 29,92 e se encontra na região de rejeição (veja a figura anterior), pois o valor em módulo do stat-t é maior do que o valor t crítico = |29,92| = 29,92 > 2,18. Assim, concluímos que devemos rejeitar a hipótese nula H0, indicando que o parâmetro de primeira ordem do modelo autorregressivo é diferente de zero, sendo significativo, e, portanto, deve permanecer no modelo. Por esta técnica de construção de modelo, o modelo autorregressivo de primeira ordem foi o selecionado como o mais apropriado: Y^n+j = - 19.394,43 + 1,1796Yn+j-1 Valores projetados para 2011 e 2012: • 2011 (um ano à frente de Y^15): Y^16 = - 19.394,43 + 1,1796Y15 = - 19.394,43 + 1,1796 × 180.781 = 193.854,84 • 2012 (um ano à frente de Y^16): Y^17 = - 19.394,43 + 1,1796Y16 = - 19.394,43 + 1,1796 × 193.854,84 = 209.276,74 Através do modelo autorregressivo de primeira ordem, a figura a seguir ilustra os valores reais e os previstos do consumo (Y): 139 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA 200.000,00 220.000,00 180.000,00 160.000,00 140.000,00 120.000,00 100.000,00 1997 2001 2005 20091999 2003 2007 20111998 2002 2006 20102000 2004 2008 2012 Previsto Consumo (Yt) Realizado Consumo (Yt) Figura 54 – Gráfico de consumo real e previsto, a partir de um modelo autorregressivo de primeira ordem Lembrete O modelo defasado com variáveis independentes (uso de valores defasados das variáveis exógenas) é ideal para analisar os impactos de uma variação de uma das variáveis independentes sobre a dependente. Modelos com variável dependente defasada têm sido muito usados em estudos da oferta de produtos agrícolas. Observação Os modelos de regressão dinâmica combinam a dinâmica de séries temporais e o efeito de variáveis explicativas. O termo regressão dinâmica não indica que os parâmetros do modelo evoluem no tempo, mas que a variável dependente é explicada por seus valores defasados e pelos valores atuais e passados de variáveis causais ou exógenas. Uma estratégia usual para construir modelo de regressão dinâmica é chamada de bottom-up, isto é, considera-se inicialmente um modelo simples para depois melhorá-lo incluindo novas variáveis, mas também as defasagens destas variáveis, até encontrar um modelo apropriado. 7 VARIÁVEIS INSTRUMENTAIS A utilização das variáveis instrumentais nos auxiliará na busca de estimadores consistentes quando tivermos regressores endógenos presentes no modelo de regressão (regressores endógenos são variáveis independentes X cujos valores são determinados dentro do sistema). Numa regressão com mais variáveis, 140 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II mesmo que a estatística R2 seja elevada, se uma única variável for endógena, todos os coeficientes estimados (inclusive os das variáveis exógenas) poderão se tornar enviesados. Considere a equação: Y = α + βX + u Onde: E(u) = 0 Cov(X, u) ≠ 0 Mesmo não conhecendo o motivo para a existência de correlação entre X e u, o método de variáveis instrumentais (VI) fornece um estimador consistente dos parâmetros de interesse. O método se baseia na utilização de uma variável adicional Z, não incluída na fórmula anterior, que satisfaça tais condições: Cov(Z, u) = 0 Cov(Z, X) ≠ 0 O método de regressão por variáveis instrumentais (VI) é uma solução possível que fornece estimadores consistentes dos parâmetros de interesse quando o erro (e) e uma variável regressora (X) são correlacionados. Sabe-se que surgem problemas para os mínimos quadrados quando X é aleatório e correlacionado com a perturbação aleatória E(xiei) ≠ 0. Sob essa condição, o método de mínimos quadrados ordinários (MMQO) produz estimadores viesados e inconsistentes. As razões mais comuns para a existência de correlação entre o erro (e) e alguma variável explicativa (x) ou regressora são: • omissão de variáveis relevantes para o modelo; • erros de mensuração nas variáveis; • simultaneidade. O viés de omissão de variáveis surge quando uma variável (independente) que determina a variável-resposta (dependente) é omitida da regressão e quando pelo menos uma das variáveis explicativas é correlacionada com a variável omitida. Neste caso, o estimador de MMQO é inconsistente, mesmo para grandes amostras. 141 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Já o viés de erros de mensuração nas variáveis é originado quando uma variável explicativa (X) é medida de forma imprecisa (resposta equivocada, digitação errada etc.). Neste caso, o estimador de MMQO é viesado e inconsistente. Por sua vez, o viés de simultaneidade surge quando existe simultaneidade na relação causal entre a variável dependente (Y) e uma variável explicativa (X), isto é, de um lado, a variável explicativa (X) determina a variável dependente (Y); do outro lado, a variável dependente (Y) determina uma variável explicativa (X). Vimos então que: • sob a hipótese Cov(e,x) = 0, (I) MMQO é consistente; • sob a hipótese E(e|x) = 0, (II) MMQO é não viesado. Se essas hipóteses forem violadas, MQO será inconsistente e viesado. O método de regressão por variáveis instrumentais (VI) é uma solução possível que fornece estimadores consistentes dos parâmetros de interesse. Portanto, esse método de um modelo com variáveis instrumentais se baseia na utilização de uma variável adicional, Z, denominada variável instrumental, que satisfaça as duas condições a seguir: • relevância: a variável Z deve ser correlacionada com a variável explicativa (X); • exogeneidade: a variável Z não pode ser correlacionada com o erro (e). Encontrar variáveis instrumentais adequadas (ou instrumentos válidos) para os nossos modelos nem sempre é fácil, porque não se pode ter certeza de que elas sejam independentes do erro (e). Uma das razões dessa dificuldade encontra-se nas duas condições a serem cumpridas,que na maioria das vezes são conflitantes. Por exemplo, ao estimarmos a equação de salários em função do nível educacional, uma variável omitida seria a própria habilidade da pessoa, o que iria viesar o coeficiente do nível educacional. Um possível instrumento a ser escolhido seria a variável nível educacional da mãe, a qual está correlacionada com o nível educacional da pessoa, mas, por sua vez, o nível educacional da mãe também deve estar correlacionado com a habilidade da pessoa que está presente nos resíduos. Portanto, por essa razão, o mais indicado é que devemos procurar um instrumento que tenha a mais alta correlação possível com a variável independente X. Observação A variável X defasada (Xt-1), a qual substitui a variável X, que contém os erros, é considerada a mais comum dentre as variáveis instrumentais. Visto que uma das principais características das séries temporais econômicas é registrar ciclos econômicos (parte da recessão à expansão) com 142 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II movimentos lentos de recuperação e impulsos que continuam e tendem a desacelerar no decorrer do tempo, são observações sucessivas que tendem a ser interdependentes. Esses novos estimadores são consistentes se E(ziei) = 0. Em grandes amostras, os estimadores da variável instrumental têm distribuições aproximadamente normais. A variância do erro é estimada usando o estimador: �( )2i i2 y x n 2 − α − β σ = − ∑ ^ ^ Para obtermos as estimativas dos parâmetros da regressão pelo método das variáveis instrumentais (VI), multiplica-se a equação que corresponde à variável X, a qual contém os erros, pela respectiva variável instrumental Z. Os procedimentos de cálculo, no modelo linear simples, de uma única variável independente X consistem em multiplicar a segunda equação do sistema pela variável instrumental Z, conforme a seguir: � � Y n X YZ Z XZ = α + β = α + β ∑ ∑ ∑ ∑ ∑^ ^ Resolvendo o sistema, os estimadores α^ e β^ podem se expressar como: � Y Z YZ Cov(Z,Y)n Cov (Z,X) X Z XZ n ˆ ˆ − β = = − ∑ ∑∑ ∑ ∑∑ Em grandes amostras, a covariância amostral converge para a verdadeira covariância (populacional): � Cov(Z,Y) Cov (Z,X) β → Para que a variável instrumental seja válida, deve ser não correlacionada com o erro (e), mas correlacionada com a variável explicativa X: � Cov(Z,Y) Cov(Z,e) Cov (Z,X) Cov (Z,X) β = − 143 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Cov(Z, e) = 0 é uma condição que foi imposta para a escolha da variável instrumental Z, então o estimador de variáveis instrumentais converge, em grandes amostras, para β: � Cov(Z,Y) Cov (Z,X) β → = β Assim, se Cov(Z, e) = 0 e Cov(Z, X) ≠ 0, então o estimador de variável instrumental de β é consistente, em uma situação na qual o estimador dos parâmetros no método dos mínimos quadrados (MMQ) não o é, em função da existência de correlação entre X e os resíduos. Assim temos, então, α^ = Y - β^X Na ideia de tornar a variável instrumental comparável à variável X, é indicado expressá-la na mesma unidade, cuja média seja igual à de X. Para tal, vamos substituir Z por: média de X X W Z Z média de Z Z = × = × sem, portanto, alterar a correlação entre Z e X e entre Z e os resíduos (e). Em geral, os erros são “não observáveis”. Desconhecemos o que está contido neles, são fatores não coletados e/ou impossíveis de coletar ou mensurar. O termo residual representa tudo o que afeta Yi além de Xi. Quaisquer que sejam os erros, devemos supor o que a teoria nos assegura: que eles não estejam associados à variável independente X. Um resultado dessa independência é não haver correlação ou covariância entre X e o erro (e). Isso implica que o valor esperado (a média) da multiplicação entre X e o erro (e) é zero. A ideia é isolar o vetor de coeficientes de regressão (os parâmetros), numa equação que não depende dos erros, isto é, precisamos de um meio de “cancelar” os erros da equação com a proposta de obter a relação com os “verdadeiros” parâmetros da equação (modelo). Através das variáveis instrumentais, isolamos a parte da variável explicativa que não está correlacionada com o erro, com o propósito de obtermos estimadores consistentes e não viesados dos parâmetros da regressão. A regressão linear que representa o modelo da regressão de variáveis instrumentais é definida de forma geral da seguinte maneira, sendo Y1, Y2 e Y3, as variáveis endógenas e X1 e X2 as variáveis exógenas: Y1 = α2Y2 + α3Y3 + β1Y1 + β2Y2 + e1 Em suma, o estimador de variáveis instrumentais EVI é um estimador consistente dos parâmetros de um modelo linear, quando a variável independente é estocástica e correlacionada com o termo aleatório. 144 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Lembrete Uma variável instrumental Z é aquela que é correlacionada com a variável explicativa, mas não com os termos de erro. A partir dos dados da tabela a seguir, vamos estimar a regressão pelo método dos mínimos quadrados ordinários (MMQO) e comparar os resultados com a mesma função pelo método da variável instrumental (VI), usando a variável X2 (consumo de energia elétrica industrial – TWh) como instrumento. Veja os dados do IBGE (<http://brasilemsintese.ibge.gov.br/>): Tabela 49 – Despesa de consumo, renda e consumo de energia elétrica industrial no Brasil (1996 a 2005) Seq. Ano Consumo Renda E. E. Ind. W 1 1996 116,1 180,4 117,13 177,2921 2 1997 119,6 186,5 121,72 184,2391 3 1998 118,7 187,2 121,98 184,6357 4 1999 119,2 188,0 123,89 187,5321 5 2000 124,0 196,3 131,28 198,7114 6 2001 125,0 199,0 122,54 185,4829 7 2002 126,6 205,1 130,93 198,1803 8 2003 125,9 207,4 136,22 206,1926 9 2004 130,8 219,4 154,16 233,3513 10 2005 136,6 226,4 158,61 240,0825 Média 124,25 199,57 131,85 199,5700 Total 1.242,50 1.995,70 1.318,45 1.995,70 Tabela 50 – Matriz de covariância Consumo Renda E. E. Ind Consumo 1 Renda 0,985826 1 E. E. Ind. 0,929935 0,95210693 1 Utilizando a variável consumo de energia elétrica industrial (E. E. Ind.) como instrumento no modelo de regressão que define a relação de despesa de consumo (Y), sendo explicado pela renda (X), verifica-se na matriz de correlação (veja as tabelas anteriores) que a variável instrumental a ser utilizada possui um grau de correlação de 95,21% com a variável independente. Veja os dados do IBGE (<http:// brasilemsintese.ibge.gov.br/>): 145 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Tabela 51 – Despesa de consumo (Y), renda (X) e consumo de energia elétrica industrial (Z) Y X Z YZ XZ Seq. Ano Consumo Renda E. E. Ind. W YW XW 1 1996 116,1 180,4 117,13 177,2921 20583,61 31983,50 2 1997 119,6 186,5 121,72 184,2391 22035,00 34360,60 3 1998 118,7 187,2 121,98 184,6357 21916,26 34563,81 4 1999 119,2 188,0 123,89 187,5321 22353,82 35256,03 5 2000 124,0 196,3 131,28 198,7114 24640,21 39007,04 6 2001 125,0 199,0 122,54 185,4829 23185,36 36911,10 7 2002 126,6 205,1 130,93 198,1803 25089,63 40646,78 8 2003 125,9 207,4 136,22 206,1926 25959,65 42764,34 9 2004 130,8 219,4 154,16 233,3513 30522,35 51197,27 10 2005 136,6 226,4 158,61 240,0825 32795,27 54354,68 Média 124,25 199,57 131,85 199,5700 ∑ 1.242,50 1.995,70 1.318,45 1.995,70 249.081,16 401.045,15 Modelo a ser estimado: Y1 = α + β1X1i + e1. Primeiramente, vamos calcular a estimativa dos parâmetros pelo método dos mínimos quadrados ordinários(MMQO). A estimativa por esse método é a seguinte: Tabela 52 Resumo dos resultados Estatística de regressão R múltiplo 0,9858 R-quadrado 0,9719 R-quadrado ajustado 0,9683 Erro-padrão 1,1075 Observações 10 Anova gl SQ MQ F F de significação Regressão 1 338,83 338,83 276,22 0,0000002 Resíduo 8 9,81 1,23 Total 9 348,65 Coeficientes Erro-padrão Stat-t valor-P 95% inferiores 95% superiores Interseção 42,9395 4,9049 8,7545 0,0000 31,6289 54,2502 146 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Renda 0,4074 0,0245 16,6199 0,0000 0,3509 0,4640 Assim: Yi = 42,9395 + 0,4074X1i Vamos obter as estimativas dos parâmetros da regressão pelo método das variáveis instrumentais (VI), conforme cálculos a seguir: Para compatibilizar as unidades entre as variáveis renda (X) e instrumental Z, usa-se a transformação médio médio X Z Z × , obtendo-se: W = Z x (X / Z) (vide valores na quinta coluna da tabela anterior). � Y Z 1.242,50 1.995,70 249.081,16YZ 1.115,435010n 0,4037 1.995,70 1.995,70 2.763,3010 X Z 401.045,15XZ 10n × −− β = = = = × − − ∑ ∑∑ ∑ ∑∑ Outra maneira de proceder aos cálculos é por meio da matriz de covariância, apresentada a seguir: Tabela 53 Consumo Renda E. E. Ind. Consumo 34,8645 Renda 83,1635 204,1181 E.E. Ind. 111,54376 276,329738 412,6694 � Cov(Z,Y) 111,54376 0,4037 Cov (Z,X) 276,329738 ˆ ˆ β = = = Portanto, calculamos a estimativa de β de duas maneiras, utilizando Zi (consumo de energia elétrica industrial) como variável instrumental. α^ = Y - β^X = 124,25 - 0,4037 × 199,57 = 43,6836 Yi = 43,6836 + 0,4037Xi DW = 1,7132 (ausência de autocorrelação) 147 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Nem sempre dispomos de uma variável instrumental, obtida dos dados observados. Com base no modelo de regressão linear simples (Yj = α + βXj + uj), define-se uma forma de obtê-la que parte inicialmente de que as observações estão ordenadas de acordo com os valores de Xj, em ordem crescente. Se o número de observações (n) for par, estabeleceremos Zj = - 1 para as primeiras n/2 observações e Zj = 1 para as n/2 últimas observações. Sendo n ímpar, estabelecemos Zj = - 1 para j = 1,2,..., (n-1)/2, Zj = 0 para j = (n+1)/2 e Zj = 1 para j=(n+3)/2,...,n. Temos que o estimador de β é, neste caso, � 2 1 2 1 Y Y X X −β = − Onde: • X1 e Y1 são as médias dos valores de Xj e Yj, respectivamente, para as primeiras n/2 ou (n - 1)/2 observações; • X2 e Y2 são as médias dos valores de Xj e Yj, respectivamente, para as últimas n/2 ou (n - 1)/2 observações. O estimador (fórmula descrita anteriormente) foi proposto por Wald (1940). É denominado por método do agrupamento das observações, obtido a partir das médias de X e Y para dois conjuntos de observações. Vamos elaborar o cálculo para o estimador proposto por Wald em relação ao modelo consumo (Y) e renda (X), a seguir: Tabela 54 – Consumo e renda (estimativa β por Wald) Y X Seq. Ano Consumo Renda Z XY X2 1 1996 116,1 180,4 -1 20944,44 32544,16 2 1997 119,6 186,5 -1 22305,40 34782,25 3 1998 118,7 187,2 -1 22220,64 35043,84 4 1999 119,2 188,0 -1 22409,60 35344,00 5 2000 124,0 196,3 -1 24341,20 38533,69 6 2001 125,0 199,0 1 24875,00 39601,00 7 2002 126,6 205,1 1 25965,66 42066,01 8 2003 125,9 207,4 1 26111,66 43014,76 9 2004 130,8 219,4 1 28697,52 48136,36 10 2005 136,6 226,4 1 30926,24 51256,96 Média 124,25 199,57 ∑ 1.242,50 1.995,70 248.797,36 400.323,03 148 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II Tabela 55 Y X Média 1 119,52 187,68 Média 2 128,98 211,46 Média (1+2) 124,25 199,57 Temos que o estimador de β é, neste caso, � 2 1 2 1 Y Y 128,98 119,52 9,46 0,3978 X X 211,46 187,68 23,78 − −β = = = = − − α^ = Y - β^X = 124,25 - 0,3978 × 199,57 ≅ 44,8584 Yi = 44,8584 + 0,3978Xi DW =1,722 (ausência de autocorrelação) Nessa mesma lógica de obter uma variável instrumental, Bartlett (1949) mostrou que a eficiência do estimador aumentará se fizermos uma divisão em três grupos, de maneira equilibrada, com aproximadamente o mesmo número de observações em cada um dos grupos. Lembrando que as observações devem estar ordenadas de acordo com os valores crescentes de Xj, estabelecemos Zj = - 1 para as observações do primeiro grupo, Zj = 0 para as observações do segundo grupo e Zj = 1 para as observações do terceiro grupo. Assim, obtemos: � 3 1 3 1 Y Y X X −β = − Onde X1 e Y1, X3 e Y3 são as médias dos valores de Xj e Yj, respectivamente, para as observações do primeiro e do terceiro grupo. Apresentamos outro método de obter uma variável instrumental que pode ser estendido para o caso de regressões múltiplas, como consta em Johnston (1972, p. 289-290). Conforme o modelo de regressão linear simples Yj = α + βXj + uj, a estimativa de β, de acordo com o MMQO, é: j j 2 j 1 x y nb 1 x n = ∑ ∑ 149 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 ECONOMETRIA Segue-se que o estimador de β � j j 2 2 j u 1 x y n 1 x n β = − σ ∑ ∑ converge em probabilidade para β. É necessário conhecer a variância (σ2u) do erro de medida da variável independente. Esse método foi utilizado por Perez (1973) em um estudo da elasticidade-renda do consumo de alimentos em Piracicaba, SP, no qual se admitiu que os dados sobre a renda mensal per capita apresentavam erros de medida e que esses erros eram, em 95% dos casos, menores que 20% do valor dessa renda. Conclui-se que: 2 2 u 1 ln1,2 2 σ = Calculando: 2 2 u 1 ln1,2 0,0083 2 σ = = Temos que o estimador de β é, neste caso: � j j 2 2 j u 11 248.797,36x y 24.879,736010n 0,6215 1 1 40.032,2947x 400.323,03 0,0083 n 10 × β = = = = − σ × − ∑ ∑ α^ = Y - β^X = 124,25 - 0,6215 × 199,57 ≅ 0,2189 Yi = 0,2189 + 0,6215Xi Observação Podemos determinar a estimativa consistente de β admitindo, por exemplo, que a variância do erro de medida de X seja de σ2u = 1,5. Se compararmos os resultados baseados nas estatísticas de avaliação, em termos de confiabilidade, as estimativas obtidas com a utilização de variável instrumental foram as mais satisfatórias, especialmente 150 Re vi sã o: L uc as - D ia gr am aç ão : J ef fe rs on - 3 1/ 03 /1 7 Unidade II no modelo Yi = 43,6836 + 0,4037Xi, em que o valor do teste de Durbin-Watson é DW = 1,7132 (ausência de autocorrelação). Observação O uso de valores defasados das variáveis exógenas (Xt-h, h = 1, 2, 3, ...) não altera as propriedades teóricas dos estimadores. No entanto, a utilização de valores defasados da variável endógena (Yt-h, h = 1, 2, 3, ...) no segundo membro da equação, entre as variáveis independentes, exige uma análise especial. Saiba mais Sobre erros nas variáveis independentes e variáveis defasadas, leia as páginas 229-247 da obra a seguir: HOFFMANN, R. Análise de regressão: uma introdução à Econometria. São Paulo: Hucitec, 1977. 8 O BÁSICO DA ANÁLISE DE REGRESSÃO COM DADOS DE SÉRIES TEMPORAIS OU PREVISÃO DE SÉRIES TEMPORAIS Nos tópicos anteriores, abordamos mais intensamente os métodos causais de previsão, aqueles que envolvem a determinação de fatores que se relacionam à variável que tentamos prever, em especial a regressão linear múltipla. A seguir, vamos abordar os métodos de previsão de séries
Compartilhar