Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Notas de aula para o curso de Econometria I Nota 4: Estruturas de dados e regressão simples: motivação, FRP, FRA, estimação e propriedades algébricas Thiago Fonseca Morello fonseca.morello@ufabc.edu.br sala 301, Bloco Delta, SBC 1 A natureza dos dados econômicos1 1.1 Abrangência espacial e temporal A pesquisa empírica em economia emprega um amplo espectro de dados. Em termos gerais, por “dados” se entende um conjunto de valores observados para algumas variáveis, em um determinado horizonte espaço-temporal e em uma determinada escala observacional. A abrangência ou horizonte espaço-temporal diz respeito ao período de tempo em que os dados foram coletados e à região que a informação neles contida representa. Por exemplo, o Censo Demográfico 2010, produzido pelo IBGE, se refere ao ano de 2010 e abrange todo o Brasil. As pesquisas de intenção de voto, das empresas IBOPE e Datafolha captam períodos específicos (de três dias, geralmente) e uma amostra do eleitorado brasileiro, mas, o que talvez não seja tão óbvio, representam todos os eleitores do País, tendo, pois, abrangência nacional. A Pesquisa de Orçamentos Familiares (POF), realizada pela Fundação Instituto de Pesquisa Econômicas, bem como a Pesquisa Origem-Destino (POD) do Metrô de São Paulo, têm como região de cobertura, respectivamente, a cidade de São Paulo e a região metropolitana do Estado de São Paulo. 1.2 Escala A escala ou nível observacional diz respeito à perspectiva captada pelos dados, ou, mais precisamente, à entidade portadora das características medidas pelas variáveis. No Censo de 2010, há pelo menos duas escalas observacionais ou entidades, pessoas e domicílios. Deste modo, pois, foram coletadas informações acerca de características individuais, tais como idade, nível educacional, renda mensal, etc., e também informações que correspondem a características de domicílios, como o número de cômodos, o acesso a saneamento básico, o material empregado na construção da habitação, etc. Estas duas entidades também aparecem na POF do IBGE, além de uma unidade adicional, denominada por “Unidade de Consumo”, a qual consiste em um conjunto de moradores de uma mesma residência que compartilham alimentos. Geralmente, mas nem sempre, trata-se de uma família. 1 É recomendada a leitura do capítulo 1 de Wooldridge. 2 Nas pesquisas de intenção de votos e na POD a escala observacional de coleta de dados é a pessoa, uma vez que intenção de voto e trajetos percorridos diariamente via transporte público são características de pessoas. Porém, os dados não são divulgados neste nível observacional, estando disponíveis para exame apenas indicadores no nível nacional e da região metropolitana, respectivamente. Há conjuntos de dados na escala de setores censitários, municípios, unidades da federação e países. Por exemplo, o Censo Agropecuário, do IBGE2, é oriundo de um levantamento junto a estabelecimentos agropecuários (fazendas), sendo, porém, divulgado no nível municipal. Uma base de dados muito popular entre macroeconomistas é a Penn World Table3, da Universidade da Pensilvânia, com informações referentes a Países, como, por exemplo, PIB, contagem da população, gasto público, formação bruta de capital fixo, taxa de câmbio, etc. Levando em conta os parágrafos anteriores, é possível classificar os dados econômicos em três categorias de acordo com a escala observacional em que estão disponíveis: 1. Microdados se referem à escala em que os dados foram efetivamente coletados, a partir de entrevistas. Geralmente se trata da escala dos tomadores de decisão da teoria microeconômica, por exemplo, pessoas, famílias, domicílios, empresas, etc; 2. Dados regionais compreendem informações na escala de setores censitários, bairros, distritos, municípios, microrregiões, macrorregiões, unidades mínimas comparáveis e unidades da federação; 3. Macrodados correspondem aos agregados macroeconômicos, e, portanto, à escala de Países. 1.3 Estruturas de dados Há três principais estruturas em que os dados econômicos podem estar disponíveis. A estrutura de dados denotada por “dados transversais” ou “cross-section” capta um conjunto amplo de unidades em um único período de tempo, conforme ilustrado nas duas figuras a seguir. 2 http://www.ibge.gov.br/home/estatistica/economia/agropecuaria/censoagro/ 3 https://pwt.sas.upenn.edu/ 3 Figura 1 Macrodados transversais, América Latina, ano de 2010 Figura 2 Microdados transversais, POF IBGE, escala de pessoas, 2009 A estrutura de dados conhecida como séries temporais é descrita por uma tabela tal como a que segue. U ni da de s Variáveis País pib_pc pop câmbio %_cons %_gov %_inv Argentina 14512,1 41343,2 3,8963 0,68056 0,05377 0,23312 Bolivia 4432,78 9947,42 7,02 0,74673 0,07075 0,11734 Brazil 9754,69 201103 1,75923 0,68999 0,10269 0,21732 Chile 15960,8 16746,5 510,249 0,6031 0,03781 0,28748 Colombia 8975,41 44205,3 1898,57 0,71892 0,0658 0,2372 Ecuador 7345,69 14790,6 1 0,74147 0,06011 0,2597 Guyana 5067,81 748,486 200,5 0,82108 0,17259 0,27278 Paraguay 4851,18 6375,83 4743,08 0,84822 0,05515 0,13546 Peru 9009,56 28948 2,82513 0,6343 0,04728 0,28402 Suriname 12044,1 486,618 2,74542 0,18632 0,07322 0,67069 Uruguay 13671,2 3301,08 20,0593 0,71805 0,04517 0,22865 Venezuela 11778 27223,2 2,58563 0,62252 0,04853 0,21344 Código Altura Peso Idade Anos de estudo 2.11.1.9.1.1.1 173 85,7 53 5 2.11.1.9.1.1.2 157 60,7 49 8 2.11.1.9.1.1.3 175,3 75,6 22 11 2.11.1.9.1.1.4 165,7 47,6 19 11 2.11.1.9.1.1.5 127 21,6 6 0 2.11.1.9.10.1.1 167,5 69,4 27 6 2.11.1.9.10.1.2 142 30,7 10 1 2.11.1.9.10.1.3 108 19,1 4 0 2.11.1.9.11.1.1 158 68 33 6 2.11.1.9.11.1.2 155,5 63,3 30 11 2.11.1.9.11.1.3 143 33,7 11 2 2.11.1.9.11.1.4 130,5 30,3 9 2 2.11.1.9.12.1.1 147,2 58,9 66 4 2.11.1.9.12.1.2 161,4 89,8 34 15 2.11.1.9.12.1.3 151,1 56,8 28 15 2.11.1.9.12.1.4 146,2 50,9 62 3 2.11.1.9.3.1.1 171,3 78 55 15 2.11.1.9.3.1.2 155 46,3 56 15 2.11.1.9.3.1.3 165,2 53 30 15 2.11.1.9.4.1.1 164 77,6 52 4 U ni da de s Variáveis 4 Figura 3 Macrodados em séries temporais, Brasil, 1990 a 2010 Têm-se, portanto, a mesma unidade (no caso, um País, o Brasil) observada em diferentes momentos de tempo, de maneira a que as observações coincidam com períodos de tempo e, para cada um deles, estejam registrados os valores assumidos por cada uma das variáveis. É possível expandir um conjunto de dados transversais repetindo a coleta de informação para as mesmas variáveis em períodos subsequentes. Com isso obtém-se uma estrutura de dados híbrida, a qual combina elementos de cross-section e de séries temporais. A estrutura de dados em painel, ou longitudinal, é um exemplo de estrutura híbrida. Ela captura o mesmo conjunto de unidades em mais de um período de tempo, conforme ilustrado na figura abaixo. Instantes de tempo Variáveis Ordem Ano População (em mil pessoas) Taxa de câmbio nominal PIB per capita (PPP) % consumo no PIB % governo no PIB % investimento bruto no PIB 1 1990 151.170,06 0,0000 4.531,3341 0,6720 0,1133 0,1968 2 1991 153.583,96 0,0002 4.664,0342 0,6681 0,1172 0,2064 3 1992 156.032,06 0,0020 4.709,1480 0,6687 0,1170 0,1898 4 1993 158.512,05 0,0383 4.884,5276 0,6704 0,1176 0,1974 5 1994 161.017,06 0,6647 5.196,4431 0,6750 0,1119 0,2085 6 1995 163.544,28 0,9177 5.581,1692 0,6787 0,1046 0,2318 7 1996 166.085,86 1,0051 5.727,64740,6787 0,0999 0,2392 8 1997 168.638,74 1,0780 5.929,1672 0,6752 0,1002 0,2464 9 1998 171.201,16 1,1605 5.843,1274 0,6805 0,1033 0,2360 10 1999 173.763,87 1,8139 5.737,1928 0,6949 0,1077 0,2114 11 2000 176.319,62 1,8294 6.025,1128 0,6893 0,1020 0,2263 12 2001 178.869,66 2,3496 6.122,0764 0,6931 0,1037 0,2164 13 2002 181.417,59 2,9204 6.294,4270 0,6894 0,1069 0,1884 14 2003 183.959,92 3,0775 6.408,5833 0,6847 0,1077 0,1783 15 2004 186.488,60 2,9251 6.910,6665 0,6659 0,1049 0,1902 16 2005 188.993,08 2,4344 7.234,0497 0,6766 0,1055 0,1815 17 2006 191.469,01 2,1753 7.736,6177 0,6740 0,1038 0,1930 18 2007 193.918,58 1,9471 8.397,1364 0,6703 0,1041 0,2103 19 2008 196.342,59 1,8338 9.112,7871 0,6680 0,1009 0,2291 20 2009 198.739,27 1,9994 9.028,8484 0,7005 0,1075 0,1926 21 2010 201.103,33 1,7592 9.754,6919 0,6900 0,1027 0,2173 5 Figura 4 Macrodados em painel, América Latina, 2008 e 2010 Este curso de Econometria I focará na estrutura de dados transversais ou cross-section. As séries temporais são objeto do curso de econometria III, enquanto os dados em painel são tratados no curso de econometria II. 2 Regressão simples 2.1 Motivação A busca dos determinantes de uma característica de interesse é um exercício recorrente na prática científica. Particularmente, em economia, parte-se da teoria para identificar as variáveis de fundo, ou seja, aquelas em função das quais é possível explicar o comportamento de uma determinada característica socioeconômica tal como situação do indivíduo perante o mercado de trabalho (estar ou não empregado), investimento de uma empresa em inovação tecnológica e taxa de crescimento do PIB de uma nação, etc. Em outras palavras, seja Y a variável cujo comportamento deseja-se explicar, a teoria postula que existe pelo menos uma variável, X, a qual, a depender do valor por ela assumido, exerce influência sobre o valor assumido por Y. Um exemplo de particular interesse para o Brasil e para os países não desenvolvidos em geral é o a da relação entre desnutrição infantil e renda familiar. Economistas como Ana Lúcia Kassouf, Rodolfo Hoffman e Antônio Carlos Campino, se dedicaram à investigação desta relação tomando por base, para isso, dados coletados a partir de entrevistas a domicílios brasileiros. O pesquisador Mark Agee, dos Estados Unidos, fez o mesmo, mas, porém, para o caso da Nigéria4. 4 Seguem as referências para os estudos originais dos autores mencionados. Kassouf, A. L. A demanda de saúde infantil no Brasil por região e setor. Pesquisa e Planejamento Econômico, v. 24, n. 2, p. 235-260, ago. Disponível em http://www.memoria.nemesis.org.br/index.php/ppe/article/view/806/745. Hoffman, pop câmbio pib_pc %_cons %_gov %_inv pop câmbio pib_pc %_cons %_gov %_inv Argentina 40482 3,14417 13270,1 0,678 0,04924 0,23507 41343,2 3,8963 14512,1 0,68056 0,05377 0,23312 Bolivia 9601,26 7,23832 4160,3 0,75028 0,07021 0,11432 9947,42 7,02 4432,78 0,74673 0,07075 0,11734 Brazil 196343 1,83377 9112,79 0,66804 0,1009 0,22915 201103 1,75923 9754,69 0,68999 0,10269 0,21732 Chile 16454,1 522,461 14082,9 0,61593 0,03736 0,31055 16746,5 510,249 15960,8 0,6031 0,03781 0,28748 Colombia 43141,1 1967,71 8486,3 0,726 0,06212 0,23456 44205,3 1898,57 8975,41 0,71892 0,0658 0,2372 Ecuador 14354,5 1 7063,65 0,67072 0,05349 0,27507 14790,6 1 7345,69 0,74147 0,06011 0,2597 Guyana 758,059 203,633 4556,04 0,88689 0,17143 0,2554 748,486 200,5 5067,81 0,82108 0,17259 0,27278 Paraguay 6203,2 4363,24 4356,41 0,84113 0,04516 0,16524 6375,83 4743,08 4851,18 0,84822 0,05515 0,13546 Peru 28347,9 2,92441 7970,65 0,6571 0,04178 0,29033 28948 2,82513 9009,56 0,6343 0,04728 0,28402 Suriname 475,996 2,745 12119,6 0,19308 0,07438 0,7241 486,618 2,74542 12044,1 0,18632 0,07322 0,67069 Uruguay 3286,37 20,9493 11690,8 0,73046 0,0481 0,26687 3301,08 20,0593 13671,2 0,71805 0,04517 0,22865 Venezuela 26414,8 2,147 12680,5 0,61121 0,04258 0,25048 27223,2 2,58563 11778 0,62252 0,04853 0,21344 País / Ano 2008 2010 Variáveis Períodos U ni da de s 6 A teoria5 postula, considerando uma sociedade cuja produção e distribuição de alimentos são geridas por mercados, uma relação negativa entre grau de desnutrição infantil, esta a variável a ser explicada, Y, e renda familiar, a qual assumirá a posição de X. A intuição está em que famílias com maior poder de compra têm mais acesso a alimentos e, pois, maior capacidade de manter suas crianças adequadamente nutridas. O objetivo da análise econométrica não é verificar a consistência lógica ou teórica da relação entre variável explicada, Y, e variável explicativa, X, mas sim sua consistência empírica, entendida esta como a adequação às evidências reveladas pelos dados disponíveis. Ou seja, a partir do momento em que o pesquisador decide qual é a relação relevante, cabe à análise econométrica procurar indícios de que tal relação se manifesta ou não nos dados. Um primeiro passo neste sentido pode ser dado com a elaboração de um gráfico de dispersão, a partir de um conjunto de dados que contenha informações para X e Y. Para o Brasil, a fonte de dados é a Pesquisa de Orçamentos Familiares de 2008/2009 (POF). O exame destes dados será postergado. Por enquanto é mais esclarecedor ocupar-se de algumas das possibilidades que os dados podem vir a revelar. O painel a seguir indica três possibilidades. Nenhuma delas contém dados verídicos, mas sim valores gerados artificialmente com uma planilha Excel ®. A medida de grau de desnutrição infantil considerada é a de prevalência, ou seja, porcentagem de crianças de zero a cinco anos com altura consideravelmente inferior ao nível saudável para a idade, de acordo com a Organização Mundial de Saúde (OMS)6. A unidade observacional dos gráficos é o setor censitário, uma região geográfica submunicipal definida pelo IBGE por fins estatísticos7. Desta maneira, são observadas, nos gráficos, a renda média dos setores censitários brasileiros e a prevalência de desnutrição em cada um deles. São considerados apenas 100 setores censitários. R. Pobreza, insegurança alimentar e desnutrição no Brasil. Estudos Avançados vol.9 no.24 São Paulo Maio/Agosto 1995. Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103- 40141995000200007.Campino, A. C. C., Aspectos sócio-econômicos da desnutrição no Brasil. Revista de Saúde Pública, São Paulo, 20(1):83-101, 1986. Disponível em http://www.scielo.br/pdf/rsp/v20n1/07.pdf. Agee, M. Reducing child malnutrition in Nigeria: Combined effects of income growth and provision of information about mothers’ access to health care services. Social Science & Medicine 71 (2010) 1973-1980. Disponível em http://www.sciencedirect.com/science/article/pii/S0277953610006696. 5 Esta afirmação encontra fundamentação mais clara na abordagem das dotações (entitlement approach) empregada por Amartya Sen em um dos principais estudos de fenômenos de inanição e fome em massa, a obra “Poverty and Famines: an essay on entitlement and deprivation”, tal como se pode comprovar na seção 10.1 do livro. 6 Esta medida foi detalhada na primeira aula de laboratório, consultar o arquivo “script_lab_1”. 7 A definição de setor censitário, conforme consta na metodologia do censo demográfico de 2000 é “(...)unidade de controle cadastral formada por área contínua, situada em um único quadro urbano ou rural, com dimensão e número de domicílios ou de estabelecimentos que permitam levantamento das informações por um único Agente Credenciado, segundo cronograma estabelecido (vide página 227 de http://www.ibge.gov.br/home/estatistica/populacao/censo2000/metodologia/metodologiacenso2000.pdf).” 7 Painel 1 Três possibilidades para o gráfico de dispersão (A) (B) (C) Caso o gráfico de dispersão gerado a partir dos dados coincida com (A), há razão para desconfiar da relação sugerida pela teoria. E isso pois não é possível reconhecer um padrão ou tendência clara. Na verdade, neste caso, os setores censitários se distribuem de maneira praticamente equitativa entre quatro grupos, quais sejam: 1. Grupo (AA): Níveis relativamente altos de renda familiar e níveis relativamente altos de prevalência de desnutrição infantil; 2. Grupo (AB): Níveis relativamente altos de renda familiar e níveis relativamente baixos de prevalência de desnutrição infantil; 3. Grupo (BA): Níveis relativamente baixos de renda familiar e níveis relativamente altos de prevalência de desnutrição infantil; 4. Grupo (BB): Níveis relativamente baixos de renda familiar e níveis relativamente baixos de prevalência de desnutrição infantil. Estes quatro grupos correspondem aos quatro quadrantes em que o gráfico de dispersão pode ser dividido, tomando-se como referência as médias amostrais das variáveis. A tabela abaixo apresenta a contagem dos setores censitários em cada um dos quatro grupos possíveis definidos acima para cada uma das três possibilidades de gráficos do painel 1. 0 5 10 15 20 25 30 35 40 45 50 0 1000 2000 3000 4000 5000 6000 7000 8000 Pr ev al ên ci a de d es nu tr iç ão Renda mensal per capita 0 5 10 15 20 25 30 35 40 0 1000 2000 3000 4000 5000 6000 7000 8000 Pr ev al ên ci a de d es nu tr iç ão Renda mensal per capita 0 10 20 30 40 50 60 0 1000 2000 3000 4000 5000 6000 7000 8000 Pr ev al ên ci a de d es nu tr iç ão Renda mensal per capita 8 Tabela 1 Número de setores censitários em cada grupo para cada uma das três possibilidade de diagramas de dispersão Grupo/ Gráfico A B C AA 26 9 47 AB 24 41 3 BA 24 44 11 BB 26 6 39 Efetivamente, os quatro grupos têm participação praticamente equivalente para o caso ilustrado pelo gráfico (A), i.e., nenhum grupo predomina. Porém, nos gráficos (B) e (C), tal como a observação deles sugere, há uma tendência à concentração da amostra de setores censitários em grupos específicos. No caso do gráfico (B), setores censitários do grupo AB e do grupo BA predominam (juntos, respondem por 85% da amostra), o que está de acordo com a tendência positiva revelada pelo gráfico (B). Já, no caso (C), são os setores censitários dos grupos AA e BB que se mostram mais recorrentes (88% da amostra): um nível de renda relativamente alto tende a vir acompanhado de uma prevalência relativamente baixa de desnutrição infantil. Tal como a tendência negativa observada no gráfico indica. As duas formas de evidência consideradas, o diagrama de dispersão e a classificação das unidades observacionais, os setores censitários, em grupos de acordo com os valores das duas variáveis, podem bastar para o pesquisador. I.e., ele pode acreditar que os padrões revelados por estas duas ferramentas são claros o bastante para concluir quanto à validade ou invalidade empírica da relação teórica. Há, contudo, pelo menos duas razões pelas quais uma abordagem mais precisa se mostra desejável: 1. Dados reais dificilmente seguem tendências claras, conforme o gráfico abaixo (figura 5) indica. O gráfico de dispersão e a classificação em grupos podem não revelar claramente uma tendência e nem a total falta de tendência. I.e., os dois instrumentos podem levar a evidências insuficientemente claras, inconclusivas; 2. O pesquisador pode estar interessado em medir a relação quantitativa entre as variáveis X e Y, i.e., determinar em qual magnitude o aumento da renda familiar, via, por exemplo, transferências governamentais de renda, se reverte em redução do grau de desnutrição infantil; 9 Figura 5 Gráfico de dispersão para a relação entre renda mensal per capita e prevalência de desnutrição, setores censitários brasileiros* *apenas setores censitários com coeficiente de variação (desvio padrão/média) para a renda mensal per capita inferior à unidade são considerados. A econometria procura assentar a relação empírica entre X e Y em uma base mais precisa. De fato, a disciplina tem por objetivo fundamental mensurar a relação quantitativa entre duas variáveis X e Y. Para que fique mais claro o termo “relação quantitativa”, cabe atentar para os exemplos de perguntas feitas por estudos econométricos recentes listados a seguir. 1. Em quanto o PIB per capita de um País seria aumentado caso fosse possível reduzir consideravelmente o nível de desigualdade de renda (Barro, 2008)8? 2. Qual é o aumento de salário que um trabalhador poderia obter caso seu nível de qualificação fosse ampliado em um ano adicional de estudo (Teixeira e Menezes- Filho, 2012)9? 3. Em quanto aumentaria a renda de uma família caso a oferta de microcrédito fosse ampliada (Banerjee et al, 201410)? 4. A área de floresta Amazônica desmatada por um produtor agropecuário seria consideravelmente maior caso ele tivesse acesso a mais crédito bancário (Assunção, 201311)? 8 Barro, R.J., Inequality and growth revisited. Working paper series on regional economic integration. Asian Development Bank. Disponível em http://aric.adb.org/pdf/workingpaper/WP11_%20Inequality_and_Growth_Revisited.pdf 9 Teixeira, W. M., Menezes-filho, N.A. "Estimando o retorno à educação do Brasil considerando a legislação educacional brasileira como um instrumento". Revista de Economia Política, vol. 32, nº 3 (128), pp. 479-496, julho-setembro/2012. Disponível em http://www.scielo.br/pdf/rep/v32n3/08.pdf 10 Banerjee, A., Duflo, E, Glennester, R., Kinnan, C. “The miracle of microfinance? Evidence from a randomized evaluation.” Working paper, http://economics.mit.edu/files/5993 11 ASSUNÇÃO, J., GANDOUR, C., ROCHA, R., ROCHA, R. 2013. Does credit affect deforestation? Evidence from a rural credit policy in the Brazilian Amazon. Climate Policy Initiative. Disponível em: 10 2.2 Função de expectativa condicional Como apreender a relação quantitativa entre duas variáveis? É possível avançar em tal sentido introduzindo uma pequena sofisticação no gráfico de dispersão. Agora com base nos dados reais da POF 2008/2009, pode-se calcular a média para a prevalência de desnutrição dentro de faixas para a renda familiar, como ilustrado pelos quadrados vermelhos do gráfico abaixo. Os pontos na direção vertical correspondem aos valores que a variável Y assume para as observações cuja renda familiar pertence a uma dada faixa. Figura 6 Média condicional para a prevalência de desnutrição (quadrados vermelhos) e níveis de prevalência observados na amostra (círculos pretos)*, SM = salário mínimo *apenas setores censitários com coeficiente de variação (desvio padrão/média) para a renda mensal per capita inferior à unidade são considerados. O gráfico indica que a média de Y, calculada “dentro” de grupos de observações definidos em função de valores de X, exibe uma tendência aparentemente negativa, ainda que isso não seja muito claro, o que é comum para dados reais. De qualquer maneira, neste estágiodo argumento, a atenção deve ser voltada à compreensão do significado das médias representadas pelos quadrados vermelhos. Para isso, é esclarecedor coletar algumas informações do gráfico, tal como segue. 1. Nos setores censitários em que a renda mensal per capita é inferior a ¼ do salário mínimo, a prevalência de desnutrição é superior a 10%; 2. Esta taxa é inferior a 10% nos setores censitários com renda mensal per capita entre dois e cinco salários mínimos. A leitura dos dados sugerida pelos “fatos” acima é um pouco mais clara do que o permitido por gráficos e tabelas. E isso pois, dado um determinado nível da variável X, http://climatepolicyinitiative.org/wp-content/uploads/2012/03/Deforestation-Prices-or-Policies-Working- Paper.pdf 11 renda familiar, pode-se identificar um único valor correspondente à variável Y, sua média, no caso. Clareza está que resulta do emprego da média para resumir a dispersão da variável Y para cada uma das faixas de X. De fato, a média amostral de Y para grupos definidos em função de X é análoga ao conceito populacional de expectativa condicional visto em estatística e representado por E[Y|X]. Este conceito propõe que a informação quanto ao valor de X é relevante para determinar qual valor de Y é mais provável, i.e., têm maior probabilidade de ocorrência. O que é o mesmo que dizer que a distribuição probabilística de Y, i.e., a relação que nos diz quais valores de Y são mais prováveis e quais são menos prováveis, varia em função de X. Desta maneira, ao invés de conceber a distribuição probabilística de Y como dada por uma única função de distribuição de probabilidades (FD), é possível pensar que, para cada valor de X, existe uma distribuição probabilística potencialmente distinta para Y. É isso que o gráfico abaixo sugere, tomando como Y o logaritmo do salário semanal e como X os anos de escolaridade, isso para um conjunto de dados referente a uma amostra de trabalhadores. Gráfico X Distribuição condicional de Y em relação a X (cinza) e Expectativa condicional de Y em relação a X (linha preta) Fonte: gráfico reproduzido de Angrist, J.D., Pischke, J-S., 2009. Mostly harmless econometrics, an empiricist’s companion. Princeton University Press, New Jersey, US. Da mesma maneira que existe, para cada valor de X, uma distribuição probabilística potencialmente distinta, existem parâmetros potencialmente distintos que regem tal distribuição. Por exemplo, as distribuições condicionais referentes a valores diferentes de X, podem diferir em função da média populacional, μ. É exatamente esta possibilidade que a notação E[Y|X] indica, uma vez que ela se refere à média populacional de Y para um dado valor de X. 2.3 Função de regressão populacional Qual é o formato exato de E[Y|X]? Ou seja, como a média populacional de Y varia em função de X? A priori, não é possível saber, uma vez que, como geralmente se parte de 12 dados amostrais, é impossível determinar os valores populacionais dos parâmetros. Porém, é sempre possível afirmar que existe uma relação funcional entre E[Y|X] e X, i.e., E[Y|X] = f(X). Esta relação funcional é denominada por função de expectativa condicional (FEC) ou por função de regressão populacional (FRP). A função f(X) não necessariamente é linear, ela pode ser quadrática ou exibir qualquer outro comportamento não linear. Porém, é sempre possível tomar uma aproximação linear à f(X), o que pode ser visto, seguindo Gujarati, como uma hipótese de partida, uma primeira aproximação do problema. Ou seja, E[Y|X] ≈ β0 + β1X (1). O segundo passo crucial para avançar na representação da relação entre X e Y está no fato, demonstrado pela teoria estatística, de que sempre é possível decompor uma variável aleatória em dois elementos12. O primeiro deles é a porção da informação contida na variável que é “explicada” por outra variável, o que pode ser representado a partir da expectativa condicional. Tomando Y como a variável “explicada” e X como variável “explicativa”, o primeiro elemento em que Y se decompõe é E[Y|X]. O segundo elemento corresponde à porção de Y não “explicada” por X, ou, de maneira mais precisa, não correlacionada com X, porção esta que será denotada por “u”. Desta maneira, pode-se escrever Y = E[Y|X] + u (2). Combinando os resultados (1) e (2) pode-se chegar à função linear abaixo. Y = E[Y|X] + u ≈ β0 + β1X + u Ou, de maneira sintética: Y ≈ β0 + β1X + u O símbolo indicando aproximação linear pode ser substituído, em nome da simplicidade notacional, pelo símbolo de igualdade desde que se tenha em mente que a reta acima é uma aproximação linear para a FRP. Ela também é denominada por reta de regressão linear populacional. É preciso assinalar a natureza populacional do modelo acima: os coeficientes β0 e β1 são parâmetros populacionais, desconhecidos a priori, assim como é o caso da média μ para uma variável aleatória normalmente distribuída. Outro detalhe fundamental diz respeito à natureza do termo “u”. Adotando a nomenclatura de Wooldridge, u será denominado por “termo de perturbação” ou “termo de erro”. Ele é equivalente a Y - β0 - β1X, tratando-se, portanto, da porção da variação de Y, ao longo das observações, que permanece não explicada mesmo após a incorporação da informação quanto ao comportamento de X. Gujarati apresenta algumas interpretações para o termo de perturbação. As mais relevantes são reproduzidas no que segue. 12 Este parágrafo segue a interpretação de Angrist & Pischke (2009, p.25-26) para a propriedade de decomposição da função de expectativa condicional. 13 1. O termo de perturbação capta variáveis que explicam Y, mas são omitidas do modelo pois: a. Não são mencionadas pela teoria; b. São mencionadas pela teoria, mas não há dados disponíveis para elas; 2. O termo de perturbação capta erros de medida decorrentes do emprego de variáveis proxy. É o que se tem quando as variáveis, tais como definidas pela teoria, não estão disponíveis nos dados, mas há outras variáveis disponíveis, correlacionadas com as primeiras, i.e, que se comportam de maneira parecida. Por exemplo, segundo a teoria do q de Tobin, uma das principais variáveis que explicam o investimento em capital fixo por parte de uma empresa é retorno marginal do capital fixo (medida esta que corresponde ao q de Tobin em si), porém, grandezas marginais dificilmente podem ser calculadas a partir de dados concretos. É praxe utilizar o retorno médio do capital fixo, dado pela razão entre o valor de mercado de uma empresa (retorno medido pelo mercado de ações) e o valor de seu estoque de capital. A diferença entre a medida proposta pela teoria e a medida factível é captada pelo termo de perturbação. Outro exemplo: no artigo “Desigualdade de renda nos Estados Unidos, 1913-1998”13, os economistas Thomas Piketty e Emmanuel Saez utilizaram declarações de impostos de renda como proxy para a renda individual. Se esta medida fosse utilizada como variável explicativa em uma FRP para a poupança individual, por exemplo, o termo de perturbação captaria a diferença entre a renda efetiva, esta a medida mencionada pela teoria, e a renda declarada no imposto de renda, esta a medida factível incorporada à FRP; 3. O termo de perturbação capta erros de especificação da relação entre X e Y. Muitas vezes a teoria não é precisa o bastante para estabelecer a forma funcional da relação em questão. A aproximação linear pode falhar em captar não-linearidades em tal relação, erro este o que acaba compondo o termo de perturbação. 2.4 Inferência e função de regressão amostral Os valores populacionais deparâmetros de interesse são geralmente desconhecidos, sendo preciso estimá-los a partir das amostras de dados disponíveis. Não é diferente para o caso da análise de regressão linear, i.e., para os parâmetros β0 e β1. Para atingir o objetivo da análise empírica em economia, o qual é sempre caracterizar a relação entre Y e X, geralmente dispõe-se apenas de uma amostra de valores para as duas variáveis. Por exemplo, para determinar em qual medida a renda familiar explica, no Brasil, o grau de desnutrição infantil, os dados disponíveis mais atualizados correspondem à POF 2008/2009, uma amostra de 55.412 famílias de um total de 57 milhões de famílias brasileiras (apenas 0,1% das famílias foram entrevistadas). O salto de inferência se mostra inevitável e com base nele se acaba por obter não a FRP, a qual nunca é observada, mas um elemento análogo, cujo conteúdo informacional se resume à amostra, a função de regressão amostral, FRA, representada como segue. 13 Disponível em http://piketty.pse.ens.fr/fichiers/public/PikettySaez2003.pdf. 14 Y = β + βଵX Em que β e βଵsão estimadores para β0 e β1. 2.5 Estimação A mera definição da FRA não sugere um caminho para obtê-la. Como é possível chegar a estimativas pontuais para o intercepto e o coeficiente da FRP? Há pelo menos três métodos de estimação que solucionam o problema, por hora basta se ocupar do mais famoso. Um estimador é, antes de tudo, uma estatística. Estatísticas são usadas com o objetivo de resumir os dados. A média e a variância, por exemplo, resumem a distribuição individual de uma variável. Os estimadores para os parâmetros da FPR também têm de resumir informação, mas, porém, não quanto à distribuição individual de X e Y, mas sim quanto à relação quantitativa entre X e Y. O formato da FRP sugere uma saída para resumir a relação entre X e Y: tomar uma aproximação linear do padrão descrito pelo gráfico de dispersão14. Mas, um detalhe crucial, muitas vezes perdido de vista, deve ser assinalado. O gráfico de dispersão em questão não é o construído a partir da amostra, mas sim a partir da população. A razão para isso é de grande importância: o objetivo da análise econométrica não é resumir a relação de X e Y tal como ela se manifesta na amostra, mas sim na população. Por exemplo, a formulação de uma política nacional de combate à desnutrição infantil deve ser alicerçada na relação que esta variável tem com a renda familiar considerando- se todas as famílias brasileiras. Se for tomado por base apenas um subgrupo de famílias, uma medida de política pública, tal como a transferência de renda, poderá não render o resultado esperado para famílias que não pertencem ao subgrupo considerado. Deve-se ressaltar, pois, que a imagem de um gráfico de dispersão para a população é puramente uma abstração, pois geralmente não está disponível toda a informação necessária para construí-lo para toda a população-alvo de um estudo econométrico. Colocada esta ressalva, tomemos, para fins de compreensão, o gráfico abaixo, o qual representa toda a população. 14 Infelizmente, calcular a média para Y dentro de faixas de X não permite obter uma função que descreva completamente o comportamento da relação entre as variáveis dentro da amostra. 15 As duas retas observadas no gráfico se mostram pouco adequadas para descrever a relação entre X e Y, dado que se afastam da tendência dominante. O erro cometido ao tentar-se reproduzir, com base nelas, o padrão descrito pelos pontos amostrais, é muito grande. Isso decorre do fato de que elas estão próximas de parte minoritária dos pontos amostrais. O ideal seria, portanto, que a reta estivesse suficientemente perto de todos os pontos. Com isso, os erros cometidos por toma-la como base seriam desprezíveis. Obviamente, não é possível traçar uma reta que atenda a esta condição. Mas é possível traçar uma reta que esteja próxima do maior número possível de pontos. O que é equivalente a procurar uma reta que cometa menos e menores erros de aproximação entre todas as retas possíveis. Para operacionalizar este desiderato é preciso tomar por base uma medida para o total de erros cometidos. Uma possibilidade é tomar a expectativa do valor absoluto do erro de aproximação linear. A intuição desta medida está em que a expectativa é uma média, e, portanto, contém a soma dos erros. Além disso, como a análise tem por objetivo inferir a distribuição populacional de Y (condicional à X), a atenção, pois, está voltada para a população. Daí porque se toma a expectativa15. A medida para os erros de aproximação, portanto, é: ܧൣหܻ − ෨ܻห൧ (1) Em que ෨ܻ é o valor de Y que a reta associa a i-ésima observação. Uma vez que o operador matemático valor absoluto (“| |”) não é de fácil manipulação algébrica, toma-se o quadrado dos erros de aproximação linear, ou seja: ܧ ቂ൫ ܻ − ෨ܻ൯ ଶ ቃ (1ᇱ) 15 Esta abordagem para obter os estimadores de MQO é uma adaptação da seção 3.1.1 e 3.1.2 de Angrist, J.D., Pischke, J-S., 2009. Mostly harmless econometrics, an empiricist’s companion. Princeton University Press, New Jersey, US. -20 -10 0 10 20 30 40 50 60 70 0 1000 2000 3000 4000 5000 6000 7000 8000 Pr ev al ên ci a de d es nu tr iç ão Renda mensal per capita 16 Ambos operadores, o valor absoluto e o quadrado desempenham a mesma função que é a de eliminar o sinal dos erros. O próximo passo consiste em retomar a definição da aproximação linear à FRP, Y෩ = β + βଵX e a incorporar a (1’). ܧ[( ܻ − β − βଵ ܺ)ଶ] A reta que corresponde à melhor aproximação linear à FRP é obtida escolhendo-se os valores de β0 e β1 que minimizam o quadrado dos erros de aproximação. É o que propõe o método de mínimos quadrados ordinários (MQO). Formalmente, o problema de minimização pode ser escrito como: ݉݅݊{ఉబ,ఉభ}ܧ[( ܻ − β − βଵ ܺ)ଶ] A resolução deste problema requer o emprego de cálculo diferencial. O que se resume a tomar as derivadas parciais da expressão entre colchetes e igualar as expressões resultantes a zero. Assim fazendo, são obtidas as duas condições de primeira ordem, quais sejam: ܧ[( ܻ − β − βଵ ܺ)] = 0 (1) ܧ[ ܺ( ܻ − β − βଵ ܺ)] = 0 (2) Ou, alternativamente ܧ[ ܻ − β − βଵ ܺ] = 0 (1) ܧൣܺ ܻ − ܺβ − βଵܺ ଶ൧ = 0 (2) Os estimadores para os parâmetros não podem ser obtidos diretamente destas equações, uma vez que elas contêm o operador expectativa, o qual apenas pode ser empregado na população. O passo final consiste em aplicar o assim-chamado “princípio da analogia”, que estabelece que os estimadores podem ser obtidos substituindo-se momentos populacionais por momentos amostrais análogos16. O operador análogo à expectativa, da população, é a média, na amostra. Substituindo expectativas por médias nas equações acima, chega-se a: 1ܰ ൫ݕ − ߚመ − ߚመଵݔ൯ = 0ே ୀଵ (1′) 1ܰ ݔ൫ݕ − ߚመ − ߚመଵݔ൯ = 0 (2′)ே ୀଵ 16 A palavra “momento” denota expectativas ou médias de potências de variáveis, o que abrange tanto a média aritmética como a média do quadrado de uma variável. 17 Este sistema de duas equações pode ser manipulado de maneira a obterem-se as soluções: ߚመ = ݕത − ߚመଵ̅ݔ (3) ߚመଵ = ∑ (ݕ − ݕത)(ݔ − ̅ݔ)ேୀଵ∑ (ݔ − ̅ݔ)ଶேୀଵ (4) Eis a fórmula dos estimadores de MQO para os parâmetros da FRP. Deve-se notar que o estimador para o coeficiente angular tem em seu numerador a covariância amostral entre Y e X, e, em seu denominador, a variância amostral de X, i.e.: ߚመଵ = ܥݒ(ݔ, ݕ)ܸ(ݔ) (4′) 2.6 Critério alternativo para obter o estimadorde MQO: método dos momentos (Woodridge, seção 2.2) O método de mínimos quadrados ordinários é apenas um dos métodos a partir do qual é possível obter os estimadores para os parâmetros da FRP. Há dois outros métodos que também permitem chegar a eles, o método de máxima verossimilhança e o método dos momentos. Por hora, será focado o último, uma vez que ele é a base da derivação apresentada por Wooldridge na seção 2.2 de seu livro17. O método dos momentos não parte de uma condição de otimização, mas sim de uma hipótese, denominada condição de ortogonalidade. Esta, tal como é o caso do critério de minimização do erro quadrático médio, consiste em uma afirmação que vale para a população. Trata-se de exigir que a covariância entre o termo de perturbação e a variável independente seja nula. Formalmente: cov[xi,ui] = 0 (MM1), i=1,...,N Além disso, assume-se que a expectativa do termo de perturbação é nula. E[ui] = 0 (MM2), i=1,...,N Da definição de covariância, tem-se cov[xi, ui] = E[(xi-E[xi]) (ui-E[ui])] = E[xi ui] + E[xi]E[ui] – E[xi]E[ui] + E[xi]E[ui] = E[xi ui] cov[xi, ui] = E[xi ui] (*); a última passagem decorre diretamente de MM2. Levando o resultado (*) a MM1, tem-se: E[xi ui] = 0 (MM1’), i=1,...,N As condições MM1’ e MM2 são equivalentes às condições de primeira ordem do problema de minimização do erro quadrático médio, este o critério de obtenção de 17 Segunda edição em inglês. 18 estimadores fornecido pelo método de mínimos quadrados. O primeiro passo para perceber isso consiste em reescrever MM1’ e MM2, explorando a definição do termo de perturbação, tal como segue. E[xi (yi - β0 - β1xi)] = 0 (MM1’), i=1,...,N E[yi - β0 - β1xi] = 0 (MM2), i=1,...,N Como segundo passo, recorre-se ao “princípio da analogia”, substituindo os momentos populacionais, E[xi(yi - β0 - β1xi)] e E[ui], por suas contrapartidas amostrais, ∑ ݔ൫ݕ − ߚመଵ − ߚመଵݔ൯ ே ୀଵ e ∑ ൫ݕ − ߚመଵ − ߚመଵݔ൯ேୀଵ , de modo a chegar em: ∑ ݔ൫ݕ − ߚመ − ߚመଵݔ൯ ே ୀଵ = 0 (MM1’’) ∑ ൫ݕ − ߚመ − ߚመଵݔ൯ ே ୀଵ = 0 (MM2’) Tem-se, pois, as equações equivalentes às que o método de MQO conduz. 2.7 Valores previstos e resíduos Uma vez obtidas as estimativas pontuais para os parâmetros, intercepto, ߚመ e coeficiente, ߚመଵ, é possível, com base neles, obter os valores previstos, pela regressão, para a variável dependente. Basta tomar ݕො = ߚመ − ߚመଵݔ, i=1,...,N. A diferença entre os valores previstos e os valores observados é uma medida para os equívocos cometidos pela regressão. Na maioria dos casos, a reta de regressão (FRA) erra para um número não desprezível de observações. Isso ocorre por dois motivos. Em primeiro lugar, há o erro de aproximação linear da FRP, uma vez que se toma uma forma linear para essa, mesmo sendo que isso não necessariamente é verdade. Em segundo lugar, há o erro de inferência, oriundo do emprego da informação disponível na amostra para inferir a FRP. Este segundo erro, portanto, diz respeito à discrepância entre a FRA e a FRP e à “qualidade” do salto de inferência. Uma medida para o tamanho dos erros pode ser calculada como segue: ݑො = ݕ − ݕො = ݕ − ߚመ − ߚመଵݔ (A) Trata-se do geralmente se denomina por resíduos da regressão. Um detalhe crucial está na diferença conceitual entre os termos de perturbação da FPR e os resíduos18. Os primeiros nunca são observados, exatamente porque representam todas 18 Gujarati comete um ato de imprecisão (ou de incorreção) ao afirmar, na p.49, que o termo de perturbação é conceitualmente análogo aos resíduos. Wooldridge, corretamente, assinala que se trata de elementos conceitualmente distintos em pelo menos três momentos do capítulo 2 de seu livro. Na p. 56 há uma explicação suficientemente clara, a qual é reproduzida no texto. 19 as variáveis explicativas que influenciam a variável dependente mas que não são observadas. Já os resíduos são sempre observados e é sempre possível os calcular a partir dos dados disponíveis. A razão apresentada no parágrafo anterior é plenamente suficiente para explicar a diferença conceitual entre erros e resíduos. Mas, para deixar mais claro que se trata de elementos distintos, pode-se recorrer à diferença algébrica, seguindo Wooldridge (p. 56). Aplicando a definição da FRP na equação (A) acima, chega-se a: ݑො = ߚ + ߚଵݔ + ݑ − ߚመ − ߚመଵݔ(ܣ′) Após a fatoração, tem-se: ݑො = ݑ + ൫ߚ − ߚመ൯ + ൫ߚଵ − ߚመଵ൯ݔ(ܣ′′) Ou, de maneira mais clara: ݑො − ݑ = ൫ߚ − ߚመ൯ + ൫ߚଵ − ߚመଵ൯ݔ(ܣ′′′) Como o termo do lado direito não é zero, pois os valores estimados para os parâmetros geralmente não são exatamente equivalentes aos valores populacionais19, fica demonstrando que erros e resíduos são algebricamente distintos. 2.8 Propriedades algébricas Há três propriedades algébricas essenciais do estimador de MQO. Tais propriedades dizem respeito à estrutura matemática do estimador, sendo, portanto, sempre válidas, sem que seja necessário assumir qualquer hipótese que as garanta. (A) A soma dos resíduos da regressão é nula. A primeira condição de primeira ordem a partir da qual se obtém o estimador de MQO é equivalente a ∑ ൫ݕ − ߚመଵ −ேୀଵ ߚመଶݔ൯ = 0, ou, alternativamente, ∑ (ݕ − ݕො)ேୀଵ = ∑ ݑොேୀଵ = 0; Há um corolário fundamental da propriedade (A) que é a de que, na média, o modelo de regressão acerta. Para ver isso, basta tomar a última passagem, em que se afirma que ∑ (ݕ − ݕො)ேୀଵ = 0, e, pois, ∑ ݕேୀଵ = ∑ ݕොேୀଵ . Este corolário é importante, pois ele nos diz que, obrigatoriamente, se a regressão superestima alguns valores, ela obrigatoriamente tem de subestimar os demais, pois apenas assim os erros podem se cancelar quando somados. (B) A covariância amostral entre a variável independente e o resíduo é nula. Esta propriedade também decorre das condições de primeira ordem, mas, neste caso, da segunda delas. Esta é tal que ∑ ݔ൫ݕ − ߚመଵ − ߚመଶݔ൯ ேୀଵ = 0. O que é igual a ∑ ݔݑො = 0 ேୀଵ . 19 Isso é verdade mesmo quando, em média, os valores estimados são equivalentes aos valores populacionais, i.e., quando os estimadores são não-viesados. 20 (C) O ponto do plano cartesiano que corresponde aos valores médios para Y e X, (̅ݔ, ݕത) é parte da reta de regressão. A demonstração é simples, basta notar que (i) ݕത = ܰିଵ ∑ ݕ ே ୀଵ ݁ (݅݅) ∑ ݕேୀଵ = ∑ ݕොேୀଵ . Do que decorre: ܰିଵ ∑ ൫ߚመଵ + ߚመଶݔ + ݑො൯ேୀଵ = ߚመଵ + ܰିଵߚመଶ ∑ ݔேୀଵ + ܰିଵ ∑ ݑොேୀଵ → ݕത = ߚመଵ + ߚመଶ̅ݔ.
Compartilhar