Baixe o app para aproveitar ainda mais
Prévia do material em texto
Lecture Notes - Econometria Prof. Rodrigo Moura rodrigoleandro@gmail:com EPGE/FGV Primeira Versão: 19/06/2009 Versão Atual: 15/06/2010 Sumário 1 Introdução 4 1.1 Tipos de Dados: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 Casualidade 6= Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Dados Experimentais x Dados Não-Experimentais . . . . . . . . . . . . . . 5 2 Regressão Linear Simples (RLS) 6 2.1 Método de Mínimos Quadrados (MQO ou Ordinary Least Squares - OLS) . 7 2.2 O Coe ciente de Determinação: RLS . . . . . . . . . . . . . . . . . . . . . . 11 3 Hipóteses do Modelo Clássico de Regressão Linear (MCRL) 13 4 Regressão Linear Múltipla (RLM) 28 4.1 Geometria do MQO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.2 Coe ciente de Determinação (R2): Regressão Múltipla . . . . . . . . . . . . 32 4.3 Propriedades dos EMQ: Regressão Múltipla . . . . . . . . . . . . . . . . . . 34 5 Inferência Estatística 37 5.1 O Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.2 Testes de Restrições Lineares Múltiplas: O Teste F . . . . . . . . . . . . . . 43 6 Teoria Assintótica do MQO 45 6.1 Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 6.2 Normalidade Assintótica e Inferência em Amostras Grandes . . . . . . . . . 48 6.3 Estatística do Multiplicador de Lagrange (LM) . . . . . . . . . . . . . . . . 51 6.4 E ciência Assintótica do MQO . . . . . . . . . . . . . . . . . . . . . . . . . 51 1 7 Formas Funcionais da Regressão 52 7.1 Formas Funcionais Logarítmicas . . . . . . . . . . . . . . . . . . . . . . . . 52 7.2 Formas Funcionais Quadráticas . . . . . . . . . . . . . . . . . . . . . . . . . 53 7.3 Formas Funcionais com Termos de Interação . . . . . . . . . . . . . . . . . . 54 7.4 Adicionando Regressores para Reduzir a Variância do Erro . . . . . . . . . 55 7.5 Variáveis Binárias (ou Dummy) como Variáveis Explicativas . . . . . . . . . 55 7.5.1 Testando para Diferenças em Funções de Regressões de Gru- pos diferentes (Teste de Quebra Estrutural ou Teste de Chow) 58 7.6 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 8 Máxima Verossimilhança 65 8.1 Testes baseados na verossimilhança . . . . . . . . . . . . . . . . . . . . . . . 71 8.1.1 Teste LR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 8.1.2 Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 8.1.3 Teste LM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 9 Multicolinearidade 73 10 Heterocedasticidade 78 11 Mais sobre Problemas nos Dados e na Especi cação 86 11.1 Má especi cação da Forma Funcional . . . . . . . . . . . . . . . . . . . . . . 86 11.2 Usando Variáveis Proxy para Variáveis Explicativas Não-Observadas . . . . 87 11.3 Propriedades de MQO sob Erro de Medida . . . . . . . . . . . . . . . 88 12 Endogeneidade 90 12.1 Estimação por Variáveis Instrumentais (VI ou IV) em RLS . . . . . . . . . 93 12.2 Estimação de VI em RLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 12.3 Mínimos Quadrados de 2 Estágios (2SLS ou MQ2E) . . . . . . . . . . . . . 97 12.4 Testes para Endogeneidade e Restrições de Sobreidenti cação . . . . . . . . 99 13 Equações Simultâneas 101 14 Análise de Regressão com Dados de Séries Temporais 111 14.1 Propriedades Amostrais Finitas do OLS sob Hipóteses Clássicas . . . . . . . 111 14.2 Tendências e Sazonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 15 Aspectos Adicionais no uso do OLS com Dados de Séries Temporais 115 15.1 Séries de Tempo Fracamente Dependentes e Estacionárias . . . . . . . . . . 115 15.2 Propriedades Assintóticas do OLS . . . . . . . . . . . . . . . . . . . . . . . 117 15.3 Usando Séries Temporais Altamente Persistentes (ou Fortemente Depen- dentes) em Análise de Regressão . . . . . . . . . . . . . . . . . . . . . . . . 119 2 15.4 Correlação Serial e Heterocedasticidade nas Regressões de Séries Temporais 121 15.4.1 Propriedades do OLS com Erros correlacionados serialmente . . . . . 121 15.5 Testando para Correlação Serial . . . . . . . . . . . . . . . . . . . . . . . . . 123 16 Tópicos Avançados em Séries Temporais 127 16.1 Testes para Raiz Unitária . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 16.2 Regressão Espúria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 17 Variável dependente binária 129 17.1 Modelo de Probabilidade Linear (MPL) . . . . . . . . . . . . . . . . . . . . 129 17.1.1 Modelos de Probabilidade Não-Linear: Probit e Logit . . . . . . . . 131 17.2 Estimação por Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . . 133 3 1 Introdução A Econometria tem a nalidade de responder questôes econômicas. Nosso interesse pode estar em identi car e mensurar uma relação de causalidade entre duas variáveis. Como exemplos, podemos citar: 1. Testes de validação de teorias econômicas 2. Avaliação de Políticas Públicas 3. Previsão (PIB, inação, retorno de ativos nanceiros etc) 4. Construção e interpretação de modelos estruturais 1.1 Tipos de Dados: Cross-Section (Corte Transversal) - Microeconometria Fixo uma unidade temporal e vari os dados no espaço Por exemplo, a PNAD (Pesquisa Nacional por Amostra e Domicílios) é uma base com dados em cross-section pois aplica um questionário para uma amostra de pessoas em um dado ano. Séries Temporais - Macroeconometria Fixo um espaço e vario os dados ao longo do tempo Por exemplo, o IPEAData é uma base que coleta o PIB a cada ano (ou trimestralmente). Painel = Cross-Section + Séries Temporais Os dados variam no espaço e ao longo do tempo. Por exemplo, a PME (Pesquisa Mensal do Emprego) é uma base a qual segue o mesmo domícilio por alguns meses coletando informações sobre mercado de trabalho. 1.2 Casualidade 6= Correlação Gr�afico PIB = f (temperatura m�edia do asfalto das rodovias) Podemos encontrar alguma correlação, mas é completamente desprovida de alguma casualidade. 4 Buscaremos modelar o comportamento médio. Então devemos tomar cuidado com as observações com valores muito altos ou muito baixos (denominadas outliers). Por exemplo, na PNAD existe a variável renda com valor 999.999.999 que se refere a valor ignorado e, portanto, deve ter seu valor alterado para missing. Ou ainda, indivíduos com renda muito alta (R$1.000.000) ou muito baixa (R$10) podem ser retirados da amostra pois podem viesar o resultado. Podemos restringir a amostra para, por exemplo, indivíduos que ganham entre 0.5*Salários Mínimos e 100*Salários Mínimos. Mas nem sempre os métodos econométricos geram estimativas providas de causalidade. Na seção seguinte veremos uma breve discussão sobre este ponto. 1.3 Dados Experimentais x Dados Não-Experimentais Suponha que desejamos inferir uma relação causal entre educação e salários: w = f(educ) Espera-se que um maior nível educacional gere um maior nível salarial. Assim, neces- sitamos coletar dados para inferir que educ causa w. Podemos ter dois tipos de dados: 1. Dados Experimentais: geralmente coletados em ambientes de laboratório nas ciências naturais. Nas ciências sociais (como por exemplo, na Economia) tal coleta é muito difícil. No exemplo acima, é como se aleatoriamente atribuíssemos um nível educacional para cada pessoa independemente de outras características da mesma. 2. Dados Não-Experimentais: geralmente coletados através de questionários aplicados aos agentes (indivíduos, rmas etc). Aqui, é importante isolar o efeito de educ de outros potenciais fatores que afetam salário. Por exemplo, pessoas podem ganhar um nível salarial maior pois têm uma maior idade (ou experiência) ou por serem do sexo masculino. Logo, a idéia é incluir fatores que afetam também o salário e assim medirisoladamente (ceteris paribus) o impacto de educ em w. No entanto, existem fatores não-observáveis que podem gerar dúvida se estamos realmente medindo um efeito causal de educ sobre w. Por exemplo, habilidade do indivíduo é um fator que varia com educ. Ou seja, indivíduos com maior nível de habilidade tendem a ter um maior nível educacional e consequentemente um maior w. Logo não seria (totalmente) educ que gera um maior w e sim (parcialmente) as habilidades intrínsecas do indivíduo. 5 2 Regressão Linear Simples (RLS) Seja o seguinte modelo: yi = �+ �xi + ui onde yi é salário, xi é educação. Este é um modelo de regressão linear simples. Mas podemos ter outra variáveis que afetam yi? Então vamos adicionar mais variáveis ao modelo: yi = �+ �1x1i + �2x2i + �3x3i + ui onde, x1i é educação, x2i é genêro e x3i é idade do indivíduo. Nesta seção trataremos do primeiro modelo e na seção seguinte do segundo. Então: yi = �+ �xi + ui onde, � = intercepto; � =coe ciente angular; y =variável dependente (ou explicada, regredida, de resposta, controlada) x =variável independente (ou explicativa, regressor, de controle) u =erro, medida da ignorância Suponha o seguinte modelo: y = �+ �x+ u onde � e � são os parâmetros (coe cientes) verdadeiros: Função de regressão Populacional (FRP): yi = �+ �xi + ui �; � são desconhecidos, mas supomos que existem. Assim a FRP é algo xo, mas desconhecido, na população de interesse. A partir de dados de uma amostra estimaremos � e �, sendo �^ é um estimador de � e �^ é um estimador de �. São estimadores não-viesados: E (�^) = �, E � �^ � = �. Entre os estimadores não-viesados, sobressaem-se os estimadores com menor variância. Gr�afico Função de Regressão Amostral (FRA): yi = �^+ �^xi + u^i Necessitamos de uma amostra da população para estimar � e �. Então �^ e �^ são os parâmetros estimados a partir de uma amostra. E u^i é o resíduo. Assim FRA é a versão estimada da FRP. Veremos o método mais tradicional para estimar tais parâmetros na subseção seguinte. 6 2.1 Método de Mínimos Quadrados (MQO ou Ordinary Least Squares - OLS) Seja o modelo: yi = �^+ �^xi| {z } y^i + u^i onde y^i é o yi predito, previsto ou porção explicada e u^i é o resíduo. Gr�afico Qual critério devo utilizar para obter os estimadores? Podemos minimizar: 1. Soma dos Erros: Não é um bom critério pois pode anular positivos e negativos. 2. Soma Absoluta dos Resíduos: Gera um estimador pouco utilizado denominado LAD (Least Absolute Deviations) 3. Soma do Quadrado dos Erros: Tem propriedades estatísticas (que veremos adiante) que o tornam bastante atrativo. Então, devemos resolver o seguinte problema de minimização: min f�;�g nX i=1 u2i = minf�^;�^g nX i=1 (yi � �� �xi)2 As CPOs serão: �^ : �2 X i � yi � �^� �^xi � = 0 =) X i u^i = 0 Esta CPO nos mostra que a escolha do intercepto ótimo implica que a soma dos resíduos será zero. Continuando com esta CPO: X i � yi � �^� �^xi � = 0X i yi � X i �^� X i �^xi = 0 n�y � n�^� �^n�x = 0 �^MQO = �y � �^�x (1) Este é o estimador de Mínimos Quadrados Ordinários do intercepto (�). 7 Exercício 1 Prove que, em um modelo com intercepto, a reta da regressão (y^) sempre passa pelo ponto médio (�x; �y). Obtendo a CPO para �^: �^ : �2 X i � yi � �^� �^xi � xi = 0 =) X i u^ixi = 0 (2) Esta CPO nos mostra que a correlação entre o resíduo u^i e xi é nula. Observação 2 Podemos notar isso mais claramente se minimizarmos o modelo em termos de desvios da média, ou seja: yi = �+ �xi + ui Tomando a média, teremos: �y = �+ ��x (A média dos erros é zero: é uma das hipóteses que veremos na próxima seção). Tomando a diferença entre as duas equações acima: yi � �y = � (xi � �x) + ui y�i = �x � i + ui onde, o sobrescrito * indica que a variável está especi cada em termos de desvios da média. Assim: minimizando: min � nX i=1 u2i = min � nX i=1 (y�i � �x�i )2 obtemos na derivação do � : �2 X i � y�i � �^x�i � x�i = 0 =) X i u^ix � i = 0 Dividindo a última expressão por n� 1 (considerando n > 1), teremos:P i u^i (xi � �x) n� 1 = Cov (u^i; xi) = 0 Ou de forma mais simples ainda, retome a CPO da equação (2) e note que:X i u^ixi = 0X i u^ixi � X i u^i = 0 8 que não altera em nada a expressão, pois como vimos P i u^i = 0. Multiplicando pela constante �x: X i u^ixi � �x X i u^i = 0X i u^i (xi � �x) = 0 Dividindo por n� 1: P i u^i (xi � �x) n� 1 = Cov (u^i; xi) = 0 Retomando a CPO (2) do �^, temos que:X i � yi � �^� �^xi � xi = 0X i yixi � X i �^xi � X i �^x2i = 0X i yixi = �^ X i xi + �^ X i x2iX i yixi = � �y � �^�x �X i xi + �^ X i x2i ( h �^ = �y � �^�x i ) X i yixi = �y X i xi + �^ X i x2i � �x X i xi ! �^MQO = P i yixi � �y P i xi�P i x 2 i � �x P i xi � Podemos escrever este estimador também de uma forma diferente. O denominador 9 pode ser escrito como:X i (xi � �x)2 = X i � x2i � 2xi�x+ �x2 � = X i x2i � X i 2xi�x+ X i �x2 = X i x2i � 2�x X i xi + n�x 2 = X i x2i � 2�xn�x+ n�x2 = X i x2i � n�x2 = X i x2i � �xn�x = X i x2i � �x X i xi E o numerador pode ser escrito como:X i (xi � �x) (yi � �y) = X i (xi � �x) yi � X i (xi � �x) �y = X i (xi � �x) yi � �y X i (xi � �x)| {z } = P i xi � P i �x = n�x� n�x = 0 = X i xiyi � X i �xyi = X i yixi � �x X i yi = X i yixi � P i xi n P i yi = X i yixi � X i xi�y = X i yixi � �y X i xi Assim, o estimador MQO do � pode ser escrito como: �^MQO = P i (xi � �x) (yi � �y)P i (xi � �x)2 Exercício 3 Obtenha o estimador MQO do � a partir do modelo exposto na 2, ou seja, continue a partir da CPO do problema já derivada. 10 O estimador MQO acima pode ser escrito também de outra forma usual; basta dividir o numerador e denominador por n� 1 e assim: �^MQO = P i (xi � �x) (yi � �y) =n� 1P i (xi � �x)2 =n� 1 = Cov (x; y) V ar (x) Exercício 4 Faça a Condição de Segunda Ordem (CSO) e mostre que o problema de minimização da soma do quadrado dos resíduos resulta realmente em um mínimo. Dica= monte a matriz hessiana e mostre que o determinante é positivo). 2.2 O Coe ciente de Determinação: RLS Existe alguma medida que me mostre se o meu modelo tem um bom poder preditivo? Ou seja, se o regressor(es) (x) que eu inclui no meu modelo explica(m) bem a variável dependente (y). Seja a FRA: yi = �^+ �^xi| {z } y^i + u^i Tomando a média: �y = y^i Assim, ambas as médias são iguais. Subtraindo �y dos dois lados da FRA: (yi � �y) = (y^i � �y) + u^i y�i = y^ � i + u^i onde o sobrescrito * indica que a variável está especi cada em termos de desvios em relação à média. Assim temos: y�i = y^ � i + u^i Elevando ao quadrado: (y�i ) 2 = (y^�i ) 2 + 2y^�i u^i + u^ 2 i Somando a expressão para todas as observações da amostra:X i (y�i ) 2 = X i (y^�i ) 2 + 2 X i y^�i u^i + X i u^2i Note que: P i y^ � i u^i = P i � �^+ �^x�i � u^i = �^ P i u^i + �^ P i x � i u^i = 0. Os dois termos são iguais a zero e vem das CPOs do � e do � (2). Assim:X i (y�i ) 2 = X i (y^�i ) 2 + X i u^2i 11 onde: X i (y�i ) 2 = Soma dos Quadrados Totais (SQT)X i (y^�i ) 2 = Soma dos Quadrados Explicados (SQE)X i u^2i = Soma dos Quadrados dos Resíduos (SQR) Assim: SQT = SQE + SQR Dividindo a expressão por SQT , teremos: 1 = SQE SQT| {z } R2 + SQR SQT OR2 mede o quanto da variação da variável dependente pode ser explicado pelavariação do regressor. Assim: R2 = SQE SQT = 1� SQR SQT R2 = P i (y^ � i ) 2P i (y � i ) 2 = Pn i=1 (byi � �y)2Pn i=1 (yi � �y)2 = 1� P i u^ 2 iPn i=1 (yi � �y)2 onde R2 2 [0; 1]. Observação 5 Esta expressão é válida apenas se o intercepto é íncluído no modelo. Caso contrário, o R2 não pode ser mais utilizado pois não necessariamente ele estará no intervalo [0; 1], podendo inclusive ser negativo. Sem intercepto, estamos forçando o modelo partir da origem. Se o valor verdadeiro do intercepto, �, for diferente de zero, então ~� será um estimador viesado de �. Exercício 6 Prove que no modelo sem intercepto o R2 não estará necessariamente no intervalo [0; 1]. Exercício 7 Mostre que no modelo com intercepto: yi = �^+�^xi+u^i, o R2 = [corr (x; y)] 2. 12 3 Hipóteses doModelo Clássico de Regressão Linear (MCRL) Hipótese 1 (Linearidade dos Parâmetros) A relação entre a variável dependente y e as explicativas x1; ::::; xk é linear: y1 = �0 + �1x1i + :::+ �kxki + ui De nição 8 Um modelo de regressão é linear nos parâmetros se as CPOs associadas ao problema de obtenção dos EMQ (Estimadores de MQO) gerarem um sistema linear nos parâmetros. Exemplo 9 Seja o seguinte modelo: yi = �+ �xi + ui Assim, o problema de minimização será: min �;� X i (yi � �� �xi)2 As CPOs serão: �^ : �2 X i � yi � �^� �^xi � = 0 =) X i yi = n�^+ �^ X i xi �^ : �2 X i � yi � �^� �^xi � xi = 0 =) X i yixi = �^ X i xi + �^ X i x2i � n P i xiP i xi P i x 2 i � � b�b� � = � P i yiP i yixi � Logo é um sistema linear e o modelo é linear nos parâmetros. Exemplo 10 Seja o seguinte modelo: yi = �+ �x i + ui O problema de minimização é: min f�;�; g X i (yi � �� �x i )2 A CPO: � : �2 X i (yi � �� �x i ) = 0 Logo não é linear por causa do . 13 Exemplo 11 Seja o seguinte modelo: yi = �x �1 1i x �2 2i e ui Tomando o ln, teremos: ln yi = ln�+ �1 lnx1i + �2 lnx2i + ui Portanto, o modelo é linear. Hipótese 2 (Amostragem Aleatória) : Podemos extrair uma amostra aleatória: f(x1i; :::; xki; yi) ; i = 1; ::::; ng da população. Observação 12 Nos livros-texto esta hipótese é geralmente substituída por uma hipótese de que X é não-estocástico (aleatório). Hipótese 3 (Média Condicional Zero) : E (ujx) = 0 Exercício 13 Mostre que: (i) E (ujx) = 0 =) E (u) = 0 (ii) E (ujx) = 0 =) Cov (u; x) = 0. Dicas: Usem a Lei das Expectativas Iteradas (L.E.I): EX (EY (Y jX)) = E (Y ) e a seguinte propriedade: E (Y XjX) = XE (Y jX). Se Cov (u; x) = 0, dizemos que os regressores são exógenos e, assim, podemos seaparar y em parte explicada e erro sem haver relação entre elas. Se Cov (u; x) 6= 0, dizemos que os regressores são endógenos e teremos um problema de endogeneidade no modelo que viesa os estimadores MQO (isto será visto em seção posterior). Exemplo 14 lnw = �+ �educ+ u onde w = sal�ario e educ = anos de estudo. Em u podemos ter diversas variáveis não observáveis, como por exemplo: habilidades (cognitivas/não-cognitivas) de um indivíduo. A habilidade de um indivíduo pode estar correlacionada com educação. Assim, o efeito de um maior nível educacional no salário pode estar viesado pois indivíduos com maior nível de habilidade é de se esperar que avancem mais nos ciclos escolares e, conseqüentemente, obtenham um maior nível salarial. 14 Hipótese 4 (Não há Multicolinearidade Perfeita) : As variáveis explicativas 1; x1; :::; xk são linearmente independentes. Logo, xj ; j = 1; :::; k; não podem ser constante. X = 26666664 1 x11 x21 : : : xk1 1 x12 x22 : : : xk2 : : : : : : : : : : : : : : : 1 x1n x2n xkn 37777775 n�(k+1) Esta hipótese implica que posto (X) = k + 1, pois n � k + 1. Relembre das propriedades de algebra matricial que: posto (X) = posto � X 0X � = k + 1 Assim, (X 0X) é uma matriz invertível pois possui posto pleno (ou posto cheio ou máximo). Assim, 9 (X 0X)�1 e portanto, podemos obter os parâmetros estimados:� X 0X � �^ = X 0Y� X 0X ��1 � X 0X � �^ = � X 0X ��1 X 0Y �^ = � X 0X ��1 X 0Y Hipótese 5 (Homocedasticidade) : V ar (uijx) = �2;8i, ou seja, a variância do erro é constante. Hipótese 6 (Ausência de (Auto)Correlação (Serial)) : Cov (ui; uj jx) = 0;8i; j; i 6= j. Hipótese 7 (n > k) : Número de observações maior do que o número de regressores. Essa hipótese é importante para obtermos os EMQ. Hipótese 8 (Normalidade) : ui � N � 0; �2 � para todo i. Tal hipótese será necessária para inferência. 15 Hipótese 9 (O modelo está corretamente especi cado) : Não podemos incluir no erro variáveis que estejam correlacionadas com as demais variáveis explicativas, pois assim violaríamos a H.3. Assim, dadas estas hipóteses, podemos enunciar um teorema (que será mais adiante provado), que mostra a importância do EMQ. Teorema 15 (de Gauss-Markov) : Dentro da classe dos estimadores lineares e não- viesados, e dadas as hipóteses do MCRL, os EMQ são os estimadores que possuem a menor variância (BLUE - Best Linear Unbiased Estimator) Figura Agora, veremos, no caso da RLS, que: (i) EMQ são lineares (ii) EMQ são não viesados (iii) Qual a variância dos EMQ? (iv) Qual a Cov � �^; �^ � ? (v) Quem é o "EMQ"de �2? Proposição 16 (i) Os estimadores MQO �^ e �^ são estimadores lineares se puderem ser escritos como uma combinação linear de y. Prova. O estimador �^ é escrito como: �^ = �y � �^�x Assim, sua linearidade depende de �^. �^ = P i (xi � �x) (yi � �y)P i (xi � �x)2 = P i (xi � �x) yi � P i (xi � �x) �yP i (xi � �x)2 �^ = P i (xi � �x) yi � �y P i (xi � �x)P i (xi � �x)2 P i(xi��x)=0= P i (xi � �x) yiP i (xi � �x)2 �^ = X i " (xi � �x)P i (xi � �x)2 yi # = �^ = X i diyi onde, di = (xi��x)P i(xi��x)2 . Logo, �^ é um estimador linear. 16 Em relação ao intercepto: �^ = �y � �^�x = P i yi n � �x P i (xi � �x) yiP i (xi � �x)2 = X i " 1 n � �x P i (xi � �x)P i (xi � �x)2 # yi = X i ciyi onde, ci = h 1 n � �x P i(xi��x)P i(xi��x)2 i = 1n � �xdi. Logo �^ é um estimador linear. Proposição 17 (ii) EMQ são não-viesados. Prova. �^ = X i diyi = X i di (�+ �xi + ui) = X i di�+ X i di�xi + X i diui = � X i di + � X i dixi + X i diui Analisando o segundo e terceiro termo do lado direito da expressão:X i di = X i (xi � �x)P i (xi � �x)2 = 1P i (xi � �x)2 X i (xi � �x)| {z } =0 = 0 X i dixi = X i (xi � �x)xiP i (xi � �x)2 = Note que P i (xi � �x) (xi � �x) = P i (xi � �x) (xi � �x) = P i (xi � �x)xi� P i (xi � �x) �x =P i (xi � �x)xi � �x P i (xi � �x) = P i (xi � �x)xi: Assim, substituindo P i (xi � �x) (xi � �x) = P i (xi � �x)xi, acima:X i dixi = X i (xi � �x) (xi � �x)P i (xi � �x)2 = P i (xi � �x)2P i (xi � �x)2 = 1 Substituindo P i di = 0 e P i dixi = 1, de volta na expressão de �^ : �^ = � + X i diui 17 Analisamos 2 casos aqui: (1) X não-estocástico (não-aleatório ou xo). E � �^ � = E � + X i diui ! = � + E X i diui ! = � + X i E (diui) Como X é não-estocástico e di depende apenas dos regressores logo di é xo também. Logo: E � �^ � = � + X i diE (ui)| {z } =0 E � �^ � = � (2) X estocástico (aleatório). Neste caso devemos tomar a esperança condicional: E � �^jx � = � + E X i diuijx ! = � + X i E (diuijx) = � + X i diE (uijx)| {z } =0 E � �^jx � = � Exercício 18 Prove que �^ é não-viesado. Dica: mostre primeiramente que �^ pode ser escrito como: �^ = �+ P i ciui. Apartir de (i) e (ii) note a partir do seguinte modelo (FRA): y = �^+ �^x+ u Tomando a esperança condicional: E (yjx) = �+ �x Ou seja, o que estamos tentando modelar é o comportamento médio dos agentes (indi- víduos, rmas, governo, países etc). (iii) Qual a variância dos EMQ? 18 �^0 = �0 + X i ciui �^1 = �1 + X i diui Assim: V ar � �^1 � = E �� �^1 � E � �^1 ��2� = E �� �^1 � �1 �2� = E ��X diui �2� = E � d21u 2 1 + d 2 2u 2 2 + :::+ d 2 nu 2 n + 2d1d2u1u2 + :::+ 2dn�1dnun�1un � = d21E � u21 �| {z } �2 + d22E � u22 �| {z } �2 + :::+ d2nE � u2n �| {z } �2 + +2d1d2E (u1u2)| {z } 0 + :::+ 2dn�1dnE (un�1un)| {z } 0 V ar � �^1 � = �2 X i d2i Mas: X i d2i = X i xi � �xP i (xi � �x)2 !2 = 1hP i (xi � �x)2 i2 X i (xi � �x)2 = 1P i (xi � �x)2 Substituindo na expressão acima, teremos: V ar � �^1 � = �2P i (xi � �x)2 19 V ar � �^0 � = E �� �^0 � �0 �2� = E 24 �0 +X i ciui � �0 !235 = E � c21u 2 1 + :::+ c 2 nu 2 n + 2c1c2u1u2 + :::+ 2cncn�1unun�1 � = E � c21u 2 1 � + :::+ E � c2nu 2 n � + 2c1c2E (u1u2) + :::+ 2cncn�1E (unun�1) = �2 X i c2i = � 2 X i 1 n � �x (xi � �x)P i (xi � �x)2 !2 = �2 X0B@ 1 n2 � 2�x (xi � �x) n P (xi � �x)2 + �x2 (xi � �x)2�P (xi � �x)2 �2 1CA = �2 264X i 1 n2 � X i 2�x (xi � �x) n P (xi � �x)2 + X i �x2 (xi � �x)2�P (xi � �x)2 �2 375 = �2 264 1 n � 2�x n X� (xi � �x)P (xi � �x)2 � + �x2 X0B@ (xi � �x)2�P (xi � �x)2 �2 1CA 375 = �2 264 1 n � 2�x n P (xi � �x)P (xi � �x)2 + �x2 P (xi � �x)2�P (xi � �x)2 �2 375 = �2 � 1 n + �x2 1P (xi � �x)2 � = �2 "P (xi � �x)2 + n�x2 n P (xi � �x)2 # = �2 �P x2i � 2�x P xi + P �x2 + n�x2 n P (xi � �x)2 � = �2 �P x2i � 2�xn�x+ n�x2 + n�x2 n P (xi � �x)2 � V ar � �^0 � = �2 P x2i n P (xi � �x)2 : (iv) Quem é Cov � �^0; �^1 � ? 20 Cov � �^0; �^1 � = Cov � �y � �^1�x; �^1 � = Cov � �y; �^1 � | {z } 0 + Cov � ��^1�x; �^1 � = ��xCov � �^1; �^1 � = ��xV ar � �^1 � Cov � �^0; �^1 � = ��x�2P (xi � �x)2 Observação 19 A variância para um vetor de variáveis é calculado como: V ar (x) = E � (x�E (x)) (x�E (x))0� onde x é um vetor coluna de tamanho n. Esta expressão é chamada também de matriz de variância-covariância. Assim, seja �^ = � �^0 �^1 � o vetor de parâmetros. Então, no nosso caso teríamos: V ar � �^ � = E �� �^ �E � �^ ��� �^ �E � �^ ��0� = E 240@� �^0 �^1 � � 0@ E ��^0� E � �^1 � 1A1A�� �^0 �^1 ��� E ��^0� E ��^1� �� 35 = E 240@ �^0 � E ��^0� �^1 � E � �^1 � 1A� �^0 � E ��^0� �^1 � E ��^1� � 35 = 2664 E �� �^0 � E � �^0 ��2� E h� �^0 � E � �^0 ��� �^1 � E � �^1 ��i E h� �^0 � E � �^0 ��� �^1 � E � �^1 ��i E � �^1 � E � �^1 �2� 3775 = 24 V ar ��^0� Cov ��^0; �^1� Cov � �^0; �^1 � V ar � �^1 � 35 = 24 �2Px2inP(xi��x)2 ��x�2P(xi��x)2��x�2P (xi��x)2 �2P i(xi��x)2 35 21 (v) Estimador "MQO"de �2 (variância do erro): yi = y^i + u^i yi � �y = y^i � �y + u^i Retomando a FRP (Função de Regressão Populacional) temos: yi = �+ �xi + ui �y = �+ ��x+ �u � yi � �y = � (xi � �x) + ui � �u Retomando a FRA (Função de Regressão Amostral) temos: y^i = �^+ �^xi �y = �^+ �^�x � y^i � �y = �^ (xi � �x) Logo: u^i = (yi � �y)� (y^i � �y) u^i = � (xi � �x) + ui � �u� �^ (xi � �x) u^i = � � �^ � � � (xi � �x) + ui � �uX u^2i = � �^ � � �2X (xi � �x)2| {z } A + X (ui � �u)2| {z } B � 2 � �^ � � �X (xi � �x) (ui � �u)| {z } C Tomando a esperança, para obtermos E �P u^2i � . 22 Assim, analisando termo a termo: E (A) = E 24 Pi (xi � �x)uiP i (xi � �x)2 !2 P (xi � �x)2 35 (�^ � � =Pi diui) = E 264(Pi (xi � �x)ui)2�P i (xi � �x)2 �2 P (xi � �x)2 375 = 1P i (xi � �x)2 E h ( P i (xi � �x)ui)2 i = 1P i (xi � �x)2 E h ((x1 � �x)u1 + :::+ (xn � �x)un)2 i = 1P i (xi � �x)2 E 24 (x1 � �x)2 u21 + :::+ (xn � �x)2 u2n+2 (x1 � �x)u1 (x2 � �x)u2 + ::: +2 (xn�1 � �x)un�1 (xn � �x)un 35 = 1P i (xi � �x)2 h (x1 � �x)2 �2 + :::+ (xn � �x)2 �2 i = 1P i (xi � �x)2 "X i (xi � �x)2 �2 # =) E (A) = �2 23 Em relação a B: E (B) = E �X (ui � �u)2 � = E �X� u2i + �u 2 � 2ui�u �� = E �X u2i + X �u2 � 2�u X ui � = E �X u2i + n�u 2 � 2�un�u � = E �X u2i � n�u2 � = E �X u2i � � E n �P ui n �2! = X E � u2i �� E � 1 n �X ui �2� = n�2 � 1 n E h (u1 + :::+ un) 2 i = n�2 � 1 n � E � u21 � + :::+ E � u2n �� = n�2 � �2 E (B) = (n� 1)�2 Em relação a C: E (C) = E h� �^ � � �X (xi � �x) (ui � �u) i = E " P i (xi � �x)uiP i (xi � �x)2 !X (xi � �x) (ui � �u) # = E 26664 � (x1 � �x)2 u21 + :::+ (xn � �x)2 u2n + 2 (x1 � �x) (x2 � �x)u1u2 + ::: +2 (xn�1 � �x) (xn � �x)un�1un � P i (xi � �x)2 37775 = 1P i (xi � �x)2 � (x1 � �x)2 �2 + :::+ (xn � �x)2 �2 � = 1P i (xi � �x)2 �2 X i (xi � �x)2 ! E (C) = �2 24 Substituindo as expressões em E �P u^2i � , teremos: E �X u^2i � = E (A) + E (B)� 2E (C) = �2 + (n� 1)�2 � 2�2 E �X u^2i � = (n� 2)�2 Então um estimador não viesado para a variância do erro (�2) será: �^2 = P u^2i n� 2 = SQR n� 2 pois vimos que: E � �^2 � = E �P u^2i n� 2 � = 1 n� 2E �X u^2i � = 1 n� 2 (n� 2)� 2 = �2 Veremos em regressão múltipla que, de forma geral: �^2 = P u^2i n� k � 1 = SQR n� k � 1 onde k é o número de regressores. Como estamos tratando de regressão linear simples, então k = 1. Teorema 20 (Gauss-Markov) Dadas as hipóteses do MCRL, dentro da classe dos esti- madores lineares e não-viesados, os EMQ são os que apresentam a menor variância. Prova. Seja �^1 = P i diyi. Tomemos um outro estimador ~�1 = P iwiyi, o qual é linear e não viesado. Para este ser não viesado, devemos observar que: ~�1 = X i wiyi = X i wi (�0 + �1xi + ui) = �0 X i wi + �1 X i wixi + X i wiui Para que este outro estimador seja não viesado devemos ter que: E � ~�1 � = �1 25 E para ocorrer isso, devem valer as seguintes condições:X i wi = 0X i wixi = 1 Para que o estimador possa ser escrito como: ~�1 = �1 + X i wiui Como estamos supondo que X é não-estocástico, então: E X i wiui ! = X i E (wiui) = X i wiE (ui) = 0 visto que wi é função de xi, o qual é não-estocástico. Analisando a variância de ~�1: V ar � ~�1 � = E �� ~�1 � E � ~�1 ��2� = E �� ~�1 � �1 �2� = E ��X wiui �2� = E h (w1u1 + :::+ wnun) 2 i = E � w21u 2 1 � + :::+ E � w2nu 2 n � V ar � ~�1 � = �2 X w2i Agora, vejamos qual o wi que gera a menor variância. Para isso: min wi X i w2i s:t:X i wi = 0 ([�1])X i wixi = 1 ([�2]) L = X i w2i � �1 X i wi � �2 X i wixi � 1 ! 26 As CPOs serão: @L @wi = 2wi � �1 � �2xi = 0 =) 2wi = �1 + �2xi (3)X i wi = 0 (4)X i wixi = 1 (5) Passando o somatório na equação (3), temos: 2 X i wi = X i �1 + �2 X i xiX i wi = n�1 + �2 X i xi Substituindo (4) acima, teremos: 0 = n�1 + �2 X i xi �1 = ��2 P i xi n = ��2�x (6) Substituindo wi de (3) em (5), teremos:Xi wixi| {z } 1 = X i (�1 + �2xi) 2| {z } wi xi 1 = 1 2 �1 X i xi + �2 X x2i ! (7) 2 = �1 X i xi + �2 X x2i ! (8) Substituindo (6) em (7), teremos: ��2�x X i xi + �2 X x2i = 2 �2 ��x X i xi + X x2i ! = 2 �2 � ��xn�x+ X x2i � = 2 �2 �X x2i � n�x2 � = 2 (9) 27 Agora, relembre que:X i (xi � �x)2 = X i � x2i � 2xi�x+ �x2 � = X i x2i � 2�x X i xi + X i �x2 = X i x2i � 2�xn�x+ n�x2X i (xi � �x)2 = X i x2i � n�x2 Então podemos substituir esta expressão em (9): �2 X i (xi � �x)2 = 2 �2 = 2P i (xi � �x)2 (10) Substituindo (10) em (6), temos: �1 = �2�xP i (xi � �x)2 (11) Substituindo (10) e (11) em (3), temos: wi = 1 2 (�1 + �2xi) wi = 1 2 �2�xP i (xi � �x)2 + 2xiP i (xi � �x)2 ! wi = ��xP i (xi � �x)2 + xiP i (xi � �x)2 ! wi = x� �xP i (xi � �x)2 = di Então, o próprio di gera a menor variância. Logo, �^1 = P i diyi (EMQ) é o estimador que possui menor variância, dentro da classe de estimadores lineares não-vieados. 4 Regressão Linear Múltipla (RLM) Seja o seguinte modelo de regressão múltipla: yi = �0 + �1x1i + �2x2i + :::+ �kxki + ui; 28 onde agora, temos k variáveis explicativas. Os estimadores MQO são obtidos através do seguinte problema de minimização: min f�^0;�^1;:::;�^kg X i u^2i = minf�^0;�^1;:::;�^kg X i (yi � �0 � �1x1i � �2x2i � :::� �kxki)2 As CPOs serão: �^0 : �2 X i (yi � �0 � �1x1i � �2x2i � :::� �kxki) = 0 �^1 : �2 X i (yi � �0 � �1x1i � �2x2i � :::� �kxki)x1i = 0 : : : �^k : �2 X i (yi � �0 � �1x1i � �2x2i � :::� �kxki)xki = 0 Resolvendo o sistema: n�^0 + �^1 X i x1i + :::+ �^k X i xki = X i yi �^0 X i x1i + �^1 X i x21i + :::+ �^k X i x1ixki = X i yix1i : : : �^0 X i xki + �^1 X i x1ixki + :::+ �^k X i x2ki = X i yixki Matricialmente o sistema ca: � X 0X � �^ =X 0Y 29 onde: X = 26666664 1 x11 x21 : : : xk1 1 x12 x22 : : : xk2 : : : : : : : : : : : :: : : : 1 x1n x2n : : : xkn 37777775 n�(k+1) ; �^ = 266666664 �^0 �^1 : : : �^k 377777775 (k+1)�1 ; Y= 26666664 y1 y2 : : : yn 37777775 n�1 ; u^ = 26666664 u^1 u^2 : : : u^n 37777775 n�1 Assim, podemos escrever a FRP e FRA em termos matriciais: Y = X� + u (FRP) Y = X�^ + u^ (FRA) Uma das hipóteses do MCRL que vimos em termos matriciais foi: posto (X) = k + 1 = posto pleno Sendo: Xn�(k+1) ! X 0(k+1)�nXn�(k+1) = � X 0X � (k+1)�(k+1) ! posto (X) = posto �X 0X� Retomando: � X 0X � �^ =X 0Y Logo, se posto (X 0X) = k + 1 =posto pleno então 9 (X 0X)�1 e portanto:� X 0X � �^ = X 0Y� X 0X ��1 � X 0X � �^ = � X 0X ��1 X 0Y �^MQO = � X 0X ��1 X 0Y (12) Observação 21 Uma forma de se escrever os estimadores de MQO, em termos de so- matório, é: �^j = P i r^jiyiP i r^ 2 ji ; j = 1; :::; k (13) 30 onde r^ji é o resíduo MQO de uma regressão de xj contra x�j, ou seja, contra todos os outros regressores exceto o próprio xj. Esta fórmula dá uma outra interpretação do efeito parcial de xj sobre y (que é medido pelo �^j, que é nada mais que uma derivada parcial de y em relação xj). Os resíduos r^ji representam a parte de xj que não está correlacionada com os outros regressores (x�j) (Ou seja, ao rodarmos uma regressão: xji = 0 + 1x1i + ::: + j�1xj�1i + j+1xj+1i + ::: + kxki + r^ji, este resíduo pode ser interpretado como a parte de xj após excluir (ou deduzir ou isolar) o efeito dos outros regressores). Assim �^j mede o efeito de xj sobre y, isolando o efeito de x�j. 4.1 Geometria do MQO Consideremos o modelo com duas variáveis explicativas: yi = �0 + �1x1i + �2x2i + ui: Em termos matriciais: Y = X�^ + u^ = X � X 0X ��1 X 0| {z } Px Y + u^ = PY + u^ onde P é a matriz de projeção no span(X). Span(X) é o subespaço gerado pelas colunas de X. Assim, PY projeta o vetor Y no span(X). Além disso, note que: u^ = Y � PY = [I � P ]| {z } M Y u^ = MY onde M = I � X (X 0X)�1X 0 é a matriz de projeção ortogonal ao span (X). Assim MY projeta o vetor Y no subespaço ortogonal ao span(X). Assim, Y é decomposto em duas partes: Y = PY|{z} Y^=X�^ +MY|{z} u^ Gra camente temos: Figura 31 Assim, temos que ter: u^?X�^ =) D u^;X�^ E = 0 ou u^0 � X�^ � = 0 ou� X�^ �0 u^ = 0 �^ 0 X 0u^ = �^ 0 X 0 � Y �X�^ � �^ 0 � X 0Y �X 0X�^ � = 0� X 0Y �X 0X�^ � = 0 X 0Y = X 0X�^ �^= � X 0X ��1 X 0Y Exercício 22 Prove que as matrizes M e P são: (i) simétricas (M 0 =M) (ii) idempotentes (MM =M) 4.2 Coe ciente de Determinação (R2): Regressão Múltipla Da mesma forma que na regressão linear simples, temos que: R2 = SQE SQT = 1� SQR SST ou ainda, R2 = Pn i=1 (y^i � �y)2Pn i=1 (yi � �y)2 = 1� Pn i=1 u^ 2 iPn i=1 (yi � �y)2 onde y^i = �^0 + �^1x1i + :::+ �^kxki e u^i = yi � y^i. que é o coe ciente de correlação quadrático entre o valor real e ajustado de y. Observação: O R2 nunca diminui quando adicionamos regressores. Exercício 23 Prove que o R2 não diminui quando adicionamos regressores, ou seja, é uma função não decrescente do número de variáveis explicativas. (Dica: use SQT = SQE + SQR e veja o que acontece com o SQE e com o SQR quando adicionamos algum regressor). 32 Observação 24 Não podemos comparar o R2 de modelos: (i) com diferente número de variáveis explicativas; (ii) com variáveis dependentes diferentes. Se o R2 nunca diminui quando adicionamos regressores, necessitamos de um coe ciente que penalize em certo grau a inclusão de regressores. Tal coe ciente é chamado R2 ajus- tado: �R2 = 1� [SQR= (n� k � 1)] [SQT= (n� 1)] = 1� �^2= [SQT= (n� 1)] (�^2 = SQRn�k�1) O R2 ajustado também recebe o nome em inglês de R � bar squared ou ainda R2 corrigido. A importância desta medida é que ela impõe uma penalidade por se adicionar regres- sores ao modelo. Assim, SQR= (n� k � 1) é um estimador não-viesado de �2, que é a variância pop- ulacional do erro, e SQT= (n� 1) é um estimador não viesado de �2y, que é a variância populacional do y. Proposição 25 Se adicionamos um novo regressor à regressão, então: �R2 aumenta () a estatística t deste novo regressor é maior que 1, em módulo. Proposição 26 E se adicionarmos um grupo de variáveis à regressão, então: �R2 aumenta () a estatística F deste novo grupo de regressores é maior que 1: Uma fórmula alternativa para o �R2 é: �R2 = 1� [SQR= (n� k � 1)] [SQT= (n� 1)] �R2 = 1� � 1�R2� (n� 1) (n� k � 1) ( SQR SQT = 1�R2) Além de se comparar modelos ao se incluir regressores, o �R2 serve também para escolher entre modelos nonnested (não encaixantes). Por exemplo, um modelo 1 que tem x1; x2 e x3 e um outro modelo 2 que tem x1; x2 e x4. Mas ele não serve para escolher entre formas funcionais diferentes da variável depen- dente. Mas tais testes serão mostrados em capítulo posterior. 33 4.3 Propriedades dos EMQ: Regressão Múltipla Vamos provar, que o EMQ �^ é não viesado. Teorema 27 Sob as hipóteses H.1 a H.4 temos que: E � �^j � = �j ; j = 0:1; :::; k ou seja, os estimadores MQO são não-viesados. Em termos matriciais: E h �^ i = � em que, �^ =(X 0X)�1X 0Y . Prova. �^ = � X 0X ��1 X 0Y �^ = 266666664 �^0 �^1 : : : �^k 377777775 ; �^ = 26666664 �0 �1 : : : �k 37777775 Relembrando: Y = X� + u (FRP) Y = X�^ + u^ (FRA) Assim: �^ = � X 0X ��1 X 0Y = � X 0X ��1 X 0 (X� + u) = � X 0X ��1 X 0X�+ � X 0X ��1 X 0u �^ = �+ � X 0X ��1 X 0u 1. X não estocástico:E � �^ � = E � �+ � X 0X ��1 X 0u � = �+ � X 0X ��1 X 0E (u)| {z } =0 (Usando H.3) E � �^ � = � 34 Assim, o vetor de estimadores �^ é não viesado. 2. X estocástico: E � �^jX � = E � �+ � X 0X ��1 X 0ujX � = �+ � X 0X ��1 X 0E (ujX)| {z } =0 (Usando H.3) E � �^jX � = � Utilizamos também H.4 para podermos inverter (X 0X) e obter o estimador. Vimos que a variância de um vetor é dado por: V ar � �^ � = E �� �^ �E � �^ ��� �^ �E � �^ ��0� = E �� �^ � � �� �^ � � �0� é a matriz de variância-covariância que foi visto anteriormente. Calculando: �^ = � X 0X ��1 X 0Y = � X 0X ��1 X 0 (X� + u) = � + � X 0X ��1 X 0u Substituindo na fórmula da variância: V ar � �^ � = E ��� X 0X ��1 X 0u ��� X 0X ��1 X 0u �0� = E �� X 0X ��1 X 0uu0X �� X 0X ��1�0� = E �� X 0X ��1 X 0uu0X �� X 0X �0��1� = E h� X 0X ��1 X 0uu0X � X 0X ��1i (X n~ao estoc�astico) V ar � �^ � = � X 0X ��1 X 0E � uu0 � X � X 0X ��1 Quem é E [uu0]? V ar (u) = E � (u�E (u)) (u�E (u))0� = E � uu0 � = E 26666664 0BBBBBB@ u1 u2 : : : un 1CCCCCCA � u1 u2 : : : un � 37777775 35 = E 26666664 u21 u1u2 : : : u1un u2u1 u 2 2 u2un : : : : : : : : : : : : unu1 unu2 : : : u 2 n 37777775 n�n = 26666664 �2 0 : : : 0 0 �2 0 : : : : : : : : : : : : 0 0 : : : �2 37777775 n�n V ar (u) = E � uu0 � = �2In Substituindo esta expressão em V ar � �^ � , temos: V ar � �^ � = � X 0X ��1 X 0�2X � X 0X ��1 = �2 � X 0X ��1 X 0X � X 0X ��1 V ar � �^MQO � = �2 � X 0X ��1 Observação 28 As variâncias dos EMQ podem ser escritas na forma de somatório: V ar �b�j� = �2 SQTj � 1�R2j � ; j = 1; :::; k em que, SQTj = Pn j=1 (xij � �xj)2 é a variação amostral em xj e R2j é o R2 da regressão de xj em todos os outros regressores, incluindo o intercepto. Pelas duas fórmulas podemos notar que quanto maior a variância do erro, �2, maior a variância dos estimadores, e portanto, menos preciso sua magnitude. Uma forma de reduzi-la é adicionar mais regressores à equação. Mas nem sempre é possível. Isso ocorre, pois o termo R2j avalia a relação linear entre as variáveis independentes, ou seja, a correlação entre os regressores. Assim, quando R2j é proximo de um, a variância do estimador será muito grande. Assim, correlação alta (mas não perfeita) entre 2 ou mais regressores é denominado Multicolinearidade (que será visto em mais detalhes em capítulo posterior) Mas note que este problema não con gura uma violação da hipótese H4 (Multicolin- earidade Perfeita). 36 Note que a correlação alta entre algumas variáveis terá impacto somente nas variâncias de seus parâmetros estimados. Ou seja, correlação alta entre x2 e x3 implica em V ar � �^2 � e V ar � �^3 � mais alta, mas sem efeito na V ar � �^1 � e na dos outros estimadores. 5 Inferência Estatística Nesta seção veremos o problema de testar hipóteses sobre os parâmetros (coe cientes) populacionais, ou seja, sobre os coe cientes da FRP. Para tal, precisaremos inicialmente derivar as distribuições dos estimadores de MQO. Teorema 29 Sob as hipóteses do MCRL, temos que: �^j � Normal � �j ; V ar � �^j �� ; j = 1; :::; k onde V ar � �^j � = � 2 SQTj(1�R2j) . Logo: � �^j � �j � dp � �^j � � Normal (0; 1) Assim, a distribuição amostral (amostras nitas) do estimador �^j é uma distribuição Normal. Prova. Retomando o EMQ em termos de somatório (equação (13) ): �^j = P i r^jiyiP i r^ 2 ji �^j = P i r^ji (�0 + �1x1i + �2x2i + :::+ �kxki + ui)P i r^ 2 ji �^j = �0 P i r^ji + �1 P i r^jix1i + �2 P i r^jix2i + :::+ �k P i r^jixki + P i r^jiui;P i r^ 2 ji Teremos P i r^ji = 0; P i xlir^ji = 0;8l 6= j Estas expressões podem ser obtidas a partir das CPOs da regressão xj contra x�j , ou seja, da regressão: xji = 0 + 1x1i + :::+ j�1xj�1i + j+1xj+1i + :::+ kxki + r^ji 37 O problema de minimização será: min 0;:::; 1 X i r^2ji () min 0;:::; 1 X i � xji � ^0 � ^1x1i � :::� ^j�1xj�1i � ^j+1xj+1i � :::� ^kxki �2 CPOs: ^0 : 2 X i (xji � ^0 � ^1x1i � :::� ^kxki) = 0| {z }P i rji=0 ^1 : 2 X i (xji � ^0 � ^1x1i � :::� ^kxki)x1i = 0| {z }P i rjix1i=0 E assim, sucessivamente até ^k. Assim teremos as seguintes expressões:X i r^ji = 0X i r^jix1i = 0 : : :X i r^jixki = 0 Assim: �^j = �j P i r^jixji + P i r^jiuiP i r^ 2 ji O primeiro termo do numerador pode ser visto derivado a partir da regressão auxiliar: xji = 0 + 1x1i + :::+ j�1xj�1i + j+1xj+1i + :::+ kxki| {z } x^ji + r^ji xji = x^ji + r^ji xjir^ji = x^jir^ji + r^ 2 ji (� (r^ji))X i xjir^ji = X i x^jir^ji + X i r^2ji (Passando P i) 38 Vamos avaliar P i x^jir^ji. Retomando:X i r^ji = 0X i r^jix1i = 0 : : :X i r^jixki = 0 Multiplicando cada uma dessas CPOs por seus parâmetros estimados: ^0; :::; ^k, tere- mos: ^0 X i r^ji = 0 ^1 X i r^jix1i = 0 : : : ^k X i r^jixki = 0 Somando estes somatórios teremos:X i ^0r^ji + X i ^1r^jix1i + :::+ X i ^kr^jixki = 0X i ( ^0r^ji + ^1r^jix1i + :::+ ^kr^jixki) = 0X i r^ji( ^0 + ^1x1i + :::+ ^kxki)| {z } x^ji = 0 X i r^jix^ji = 0 Substituindo na expressão inicial:X i xjir^ji = X i x^jir^ji + X i r^2jiX i xjir^ji = X i r^2ji 39 Substituindo de volta em: �^j = �j P i r^jixji + P i r^jiuiP i r^ 2 ji �^j = �j P i r^ 2 ji + P i r^jiuiP i r^ 2 ji �^j = �j P i r^ 2 jiP i r^ 2 ji + P i r^jiuiP i r^ 2 ji �^j = �j + P i r^jiuiP i r^ 2 ji Assim, este etimador pode ser escrito como: �^j = �j + X i r^jiP i r^ 2 ji ui ! �^j = �j + X i wjiui onde, wji = r^jiP i r^ 2 ji = r^ji SQRj . ou seja, da mesma forma que na RLS, o EMQ da RLM pode ser escrito em função do parâmetro verdadeiro (�j) e uma combinação linear dos erros. Sob a hipótese H.8 (Normalidade) do MCRL (+ H.3, H.5 e H.6, ou seja, média condicional nula dos erros, homocedasticidade e autocorrelação nula) podemos dizer que ui é i:i:d: segundo uma Normal � 0; �2 � (Podemos dizer que eles são independentes, pois a hipótese de não serem autocorrela- cionados com a normalidade implica independência). Então �^ é uma combinação linear de variáveis normais independentes o que resulta também em uma variável normal independente. E como: E � �^j � = �j + E X i wjiui ! = �j + X i E (wjiui) = �j + X i wjiE (ui) = �j Assim: �^j � Normal � �j ; V ar � �^j �� 40 E podemos padronizá-la para uma normal padrão:� �^j � �j � dp � �^j � � Normal (0; 1) Exercício 30 A partir das CPOs dadas no teorema acima, obtenha o estimador MQO em termos de somatório exposto na Observação (21) Note que, utilizamos dp � �^j � = r V ar � �^j � = r �2 SQTj(1�R2j) , que é baseado na variân- cia populacional do erro. Assim, precisamos substituir �2 por seu estimador �^2: Teorema 31 Sob as hipóteses do MCRL:� �^j � �j � ep � �^j � � tn�k�1; em que k é o número de regressores do modelo populacional y = �0+�1x1+:::+�kxk+u e ep � �^j � = r �^2 SQTj(1�R2j) é o erro padrão. Prova. Note que: � �^j � �j � r �^2 SQTj(1�R2j) p �2p �2 = � �^j � �j � r �2 SQTj(1�R2j) p �2p �^2 = (�^j��j)s �2 SQTj(1�R2j)q(n�k�1)�^2 �2 = p n� k � 1 Relembrando do curso de Estatística, a variância amostral do resíduo é: �^2 = Pn i=1 u^ 2 i n� k � 1 (n� k � 1) �^2 = nX i=1 u^2i (n� k � 1) �^ 2 �2 = nX i=1 u^2i �2 � �2n�k�1 41 Essa demonstração vem dos testes de variâncias que seguem uma qui-quadrada. Isso é válido desde que �^2 tenha sido obtida de uma população normal, ou seja, de uma variável cuja distribuição é normal, que é o caso pois u segue uma Normal. E temos que ( �^j��j)s �2 SQTj(1�R2j) pelo teorema anterior segue uma distribuição normal padrão. Logo: (�^j��j)s �2 SQTj(1�R2j)q (n�k�1)�^2 �2 = p n� k � 1 � N (0; 1)q �2n�k�1=n� k � 1 = tn�k�1 desde que o numerador e o denominador sejam independentes. Assim:� �^j � �j � ep � �^j � � tn�k�1 E assim, podemos utilizar esta distribuição para os testes. Vale lembrar que a t-student aproxima-se da Normal quando aumentamos os graus de liberdade. Mas, neste caso, os graus de liberdade dependem diretamente da amostra. E assim, quando aumentamos a amostra, n, a t-student pode ser aproximada pela normal. 5.1 O Teste t Assim, podemos testar a seguinte hipótese nula: H0 : �j = 0 Assim podemos utilizar teste t de Student: t�^j = �^j ep � �^j � De forma mais geral podemos testar se o estimador é igual a um valor especí co: H0 : �j = �j0 t�^j = �^j � �j0 ep � �^j � 42 Podemos também executar os testes de hipóteses sobre uma combinação linear dos parâmetros, por exemplo: H0 : �1 + �2 = 1 onde: t = � �^1 + �^2 � � (�1 + �2) ep � �^1 + �^2 � em que, ep � �^1 + �^2 � = r V ar � �^1 + �^2 � = r V ar�^1 + V ar�^2 + 2Cov � �^1; �^2 � . 5.2 Testes de Restrições Lineares Múltiplas: O Teste F Podemos estar interessados em testar se um conjunto de parâmetros populacionais é igual a zero. Ou seja, considere o modelo: y = �0 + �1x1 + �2x2 + :::+ �kxk + u (14) E queremos testar se q parâmetros são conjuntamente iguais a zero, por exemplo, os q últimos: H0 : 266664 �k�q+1 : : : �k 377775 = 0 Esta H0 é composta por q restrições de exclusão, sendo este um exemplo de conjunto de restrições múltiplas. A alternativa a esta H0 é se pelo menos um dos coe cientes é diferente de zero. O modelo (14) é denominado modelo irrestrito, pois inclui todos os parâmetros. A idéia do teste é estimar o modelo retirando os parâmetros da H0, ou seja, estimar o modelo restrito: y = �0 + �1x1 + �2x2 + :::+ �k�qxk�q + u; (15) e analisar o SQR dos dois modelos. Sabemos que o SQR sempre aumenta quando retiramos regressores, mas a questão é saber se esse aumento do SQR modelo restrito é grande o su ciente em relação ao SQR do modelo irrestrito. E SQR está relacionado à variância. Assim, a idéia do teste basicamente é comparar variâncias. E o teste propício para isso é o teste F :Hipóteses sobre restrições lineares múltiplas: Teste F H0 : �k�q+1 = 0; :::; �k = 0 43 Esta hiótese nula constitui q restrições de exclusão. Um teste sobre tal hipótese é chamado de teste de hipóteses múltiplas ou teste de hipóteses conjuntas. Assim, temos o modelo irrestrito: y = �0 + �1x1 + :::+ �kxk + u E quando impomos as retrições de H0, temos o modelo restrito: y = �0 + �1x1 + :::+ �kxk�q + u Suporemos que em ambos os modelos contém os interceptos. A estatística F será: F � (SQRr � SQRir) =q SQRir= (n� k � 1) � Fq;n�k�1 (16) onde SQRr é a soma dos quadrados dos resíduos do modelo restrito e SQRur do modelo irrestrito. Observação 32 SQRr � SQRir e SQT é o mesmo nos dois modelos pois y é o mesmo. Observação 33 O denominador de F é apenas o estimador não viesado de �2 = V ar (u) do modelo irrestrito. Observação 34 Quando q = 1, estamos testando uma hipótese simples sobre um parâmetro. E pode ser mostrado que: t2n�k�1 � F1;n�k�1, ou seja, a estatística t elevada ao quadrado é igual a estatística F:E assim, as duas abordagens levam ao mesmo resultado, dado que o teste é bilateral. A estatística t é mais exível pois pode ser utilizada para um teste unilateral. Observação 35 É possível que uma regressor tenha uma estatística t signi cante, mas um grupo de variáveis (incluindo esta última) seja conjuntamente insigni cante ao utilizar a estatística F. Além disso, a estatística F para restrições conjuntas incluindo �1 = 0 terá menos poder para detectar �1 6= 0 que a estatística t. Outra forma de se medir a estatística F é a sua forma R2. F = (SQRr � SQRur) =q SQRur= (n� k � 1) Substituindo SQRr = SQT � 1�R2r � e SQRir = SQT � 1�R2ir � acima: F = � SQT � 1�R2r �� SQT �1�R2ir�� =q SQT � 1�R2ir � = (n� k � 1) F = � R2iur �R2r � =q� 1�R2ir � = (n� k � 1) (17) 44 Agora, podemos veri car que o teste F de signi cância global (ou seja, se todos os coe cientes são conjuntamente iguais a zero) é um caso especial do teste F de restrição de co cientes. A estatística F para signi cância geral de uma regressão é baseada na hipótese: H0 : �1 = ::: = �k = 0 Agora note que R2r = 0, pois y é rodado contra apenas a constante 1. Assim (sendo R2ir = R2): F = R2=k (1�R2) = (n� k � 1) Este teste de signi cância global (ou geral) da regressão ajuda a testar se o seu mod- elo está bem especi cado. Caso a hipótese nula não seja rejeitada, então nenhum dos regressores ajudam a explicar y. Hipóteses de Restrição Linear Geral Um exemplo: H0 : �1 = 1; �2 = 0; :::; �4 = 0 A estatística F pode ser computada normalmente, mas não o seu formato R2 (equação 17) logo acima, apenas o primeiro formato mostrado (equação 16), pois as variáveis depen- dentes dos modelos restritos e irrestritos serão diferentes. 6 Teoria Assintótica do MQO As propriedades vistas anteriormente se mantém para amostras nitas. Aqui apresentamos as propriedades assintóticas (de amostra grande ou in nita) dos estimadores e das estatísticas de teste. Assim, por exemplo, mesmo sem a hipótese H.8 (Normalidade), as estatísticas t e F tem aproximadamente distribuições t e F, con- siderando amostras grandes. 1A rigor, estamos estimando o modelo restrito: yi = �0 + ui Logo: SQE = X i (y^i � �y)2 = X i (�0 � �0)2 = 0 Logo, R2r = 0. 45 6.1 Consistência A primeira propriedade assimptótica dos estimadores se refere à provável distância que o estimador ca do parâmetro que ele supostamente estará estimando conforme o tamanho da amostra cresça inde nidamente. � De nição 36 Um estimador b�n é dito consistente se: lim n!1P ����b�n � ���� < "� = 1 i:e:; p limb�n = � i:e:; b�n p! � ou seja, se b�n converge em probabilidade para a constante �, que é o seu valor ver- dadeiro. (Obs.: Para saber se um estimador é consistente, basta veri car se a LGN se veri ca para ele) Proposição 37 Um estimador b�n é dito consistente se: lim n!1E �b�n� = � lim n!1V ar �b�n� = 0 ou limEQM �b�n� = 0 onde EQM �b�n� = V ar �b�n�+ vi�es2 �b�n�, EQM é o Erro Quadrático Médio. Cuidado: Consistência do EQM implica consistência do b�n, mas o inverso não é necessariamente válido. Teorema 38 Sob as hipóteses H1 a H4, os estimadores MQO são consistentes Prova. Vamos provar para o caso da RLS: yi = �0 + �1x1i + ui 46 Retomando: �^1 = �1 + X i diui = �1 + P i (x1i � �x)uiP i (x1i � �x)2 �^1 = �1 + ( P i (x1i � �x)ui) =n�P i (x1i � �x)2 � =n Calculando o limite da probabilidade (plim): plim�^1 = plim�1 + plim 24(Pi (x1i � �x)ui) =n�P i (x1i � �x)2 � =n 35 plim�^1 = �1 + plim [( P i (x1i � �x)ui) =n] plim h�P i (x1i � �x)2 � =n i (plim�XnYn � = plimXnplimYn ) plim�^1 = �1 + Cov (x1; u) V ar (x1) onde, na última igualdade, eu utilizei a Lei dos Grandes Números que implica que o numerador e denominador convergem para suas expressõespopulacionais. E assim: plim�^1 = �1 pois pela H.4 V ar (x1) 6= 0 e pela H.3 Cov (x1; u) = 0. Outra forma de se provar é utilizar a proposição 37 e assim: lim n!1E � �^1 � = lim n!1�1 = �1 lim n!1V ar � �^1 � = lim n!1 �2P i (x1i � �x)2 = lim n!1 �2 (n� 1)�2x1 = 0 (�2x = P i(xi��x)2 n�1 ) onde �2x1 6= 0 pela H.4 e E � �^1 � = �1 pois vale H.3. H.3: (Média Zero e Correlação Zero): E (u) = 0 e Cov (xj ; u) = 0; para j = 1; :::; k. Vimos que a hipótese H.3 implica na hipótese H.3, mas não o inverso. Sob a hipótese acima, é ainda válida a consistência, mas não vale mais a propriedade "não-viesado"do estimador MQO. 47 Observação 39 Correlação de u com qualquer um dos regressores então os estimadores MQO de todos os regressores são viesados e inconsistentes. Observação 40 Mas, por exemplo, se tivermos um modelo com dois regressores x1 e x2, e se x1 e x2 forem não correlacionados, então qualquer correlação entre x1 e u não resulta em inconsistência de �^2, apenas no estimador �^1. Observação 41 No caso de regressão linear simples, teríamos o viés assintótico (in- consistência) como: plim�^1 � �1 = Cov (x1; u) =V ar (x1) 6.2 Normalidade Assintótica e Inferência em Amostras Grandes Teorema 42 (Normalidade Assintótica do MQO): Sob as hipóteses de H1 a H5, (i) p n � �^j � �j � a� N � 0; �2=a2j � , onde �2=a2j > 0 é a variância assintótica; a 2 j = plim � n�1 Pn i=1 r^ 2 ij � , onde o r^ij são os resíduos de regredir xj em outras variáveis inde- pendentes. Assim, �^j é assintoticamente normalmente distribuído. (ii) �^2 é um estimador consistente de �2 = V ar (u) (iii)Para cada j : � �^j � �j � =ep � �^j � a� N (0; 1) onde ep(:) é o erro padrão MQO (no qual está incluído a estimativa �^2) Prova. Provando (i), para o caso de RLS:� �^1 � �1 � = P i (xi � �x)uiP i (xi � �x)2 p n � �^1 � �1 � = 0@ 1P i(xi��x)2 n 1APi (xi � �x)uip n p n � �^1 � �1 � = � 1=s2x � " n�1=2 X i (xi � �x)ui # ; onde s2x = P i(xi��x)2 n é a variância amostral de xi. Pela Lei dos Grandes Números(LGN): plim � s2x � = �2x = V ar (x), a variância polucional de x. A hipótese H.4 exclui perfeita colinearidade, e então V ar (x) > 0. 48 Note que podemos escrever a expressão dos colchetes como: n�1=2 X i (xi � �x)ui = n�1=2 X i (xi � �x+ �� �)ui = n�1=2 X i ((xi � �) + (�� �x))ui = n�1=2 X i ((xi � �)ui + (�� �x)ui) = n�1=2 X i (xi � �)ui + n�1=2 X i (�� �x)ui = n�1=2 X i (xi � �)ui + (�� �x) " n�1=2 X i ui # ; em que � = E (x) é a média populacional de x. Agora fuigni=1 é uma seqüência de v.a.s i:i:d: com média zero e variância �2, e portanto, pelo Teorema do Limite Central (TLC): n�1=2 P i ui d! N �0; �2�, quando n!1. Pela LGN: p lim �x = � e logo: p lim (�x� �) = p lim (�x)� p lim (�) = �� � = 0. Usando uma propriedade da teoria assintótica de que: se p limwn = 0 e zn tem dis- tribuição normal assintótica.então p limwnzn = 0. Isso implica que p lim � (�� �x) �n�1=2Pi ui� = 0. Agora, note que f(xi � �)uigni=1 é uma seqüência de variáveis aleatórias i:i:d: com média zero (pois a hipótese H.3 implica que u e x são não correlacionados) e variância �2�2x, dada hipótese H.5 de homocedasticidade. Média zero pois: E ((xi � �)ui) = E (xiui)| {z } =0 � E (�ui) E ((xi � �)ui) = �E (ui) = 0 E a variância pode ser obtida através de: V ar ((xi � �)ui) = E [(xi � �)ui]2 � 8<:E [(xi � �)ui]| {z } =0 9=; 2 = E h (xi � �)2 u2i i = E h (xi � �)2 i E � u2i � = �2x� 2 onde na penúltima linha eu utilizei o fato de que x e u são independentes, logo x2 e u2 também são. Logo, pelo TLC: n�1=2 P i (xi � �)ui a� N � 0; �2�2x � . 49 Retomando a expressão acima: n�1=2 X i (xi � �x)ui = n�1=2 X i (xi � �)ui + (�� �x) " n�1=2 X i ui # ; n�1=2 X i (xi � �x)ui � n�1=2 X i (xi � �)ui = (�� �x) " n�1=2 X i ui # ; Como o p lim do lado direito é zero como vimos, então o p lim do lado esquerdo também é zero. Usando outro resultado da teoria assintótica: se zn tem distribuição normal e p lim (vn � zn) = 0, então vn tem a mesma distribuição normal assintótica que zn. Aplicando isso à expressão acima temos que: zn = P i (xi � �)ui e vn = P i (xi � �x)ui, logo esta tem também distribuição normal assintótica, N � 0; �2�2x � . Assim: p n � �^1 � �1 � = � 1=�2x � " n�1=2 X i (xi � �x)ui # + �� 1=s2x �� �1=�2x�� " n�1=2 X i (xi � �x)ui # p n � �^1 � �1 � � �1=�2x� " n�1=2 X i (xi � �x)ui # = �� 1=s2x �� �1=�2x�� " n�1=2 X i (xi � �x)ui # Analisando o lado direito, note que p lim � 1=s2x � = � 1=�2x � . E como � n�1=2 P i (xi � �x)ui � tem distribuição assintótica, usamos a propriedade: se p limwn = 0 e zn tem distribuição normal assintótica.então p limwnzn = 0. Logo o lado direito tem p lim = 0. Assim o p lim da diferença do lado esquerdo é zero. Vimos que � n�1=2 P i (xi � �x)ui � a� N �0; �2�2x� e portanto:� 1=�2x � � n�1=2 P i (xi � �x)ui � a� N �0; �2�2x= ��2x�2� = N �0; �2=�2x�. Usando a propriedade de que: se zn tem distribuição normal e p lim (vn � zn) = 0, então vn tem a mesma distribuição normal assintótica que zn. zn = � 1=�2x � � n�1=2 P i (xi � �x)ui � e vn = p n � �^1 � �1 � . Logo: p n � �^1 � �1 � a� N �0; �2=�2x� que é o caso da RLS pois a21 = � 2 x, pois xi = + r^i1:�x = . Assim: xi � �x = r^i1. a2j = plim � n�1 Pn i=1 r^ 2 ij � = plim � n�1 Pn i=1 (xi � �x)2 � = plim � s2x � = �2x, onde o r^ij 50 (ii) Vem da LGN. (iii) Vem de (i) e (ii). Observação: A normalidade assintótica dos estimadores MQO também implica que a estatistica F tem distribuição F aproximada em amostras grandes. Mas para isso devem ser válidas as hipóteses do teorema acima. 6.3 Estatística do Multiplicador de Lagrange (LM) É outra estatística para testar restrições de exclusão múltiplas. Recebe esse nome pois provém de um problema de otimização com restrição. Outro nome para a estatística LM é estatística de escore (score), o qual também é proveniente da otimização utilizada em cálculo. Devem ser válidas também as hipóteses de Gauss-Markov (H1 a H5) do teorema acima para sua derivação. Seja a hipótese nula: H0 : �k�q+1 = 0; :::; �k = 0 Esta hipótese nula constitui q restrições de exclusão. A estatística LM requer apenas a estimação do modelo restrito, de nido como: y = ~�0 + ~�1x1 + :::+ ~�k�qxk�q + ~u A idéia do teste é rodar uma regressão dos resíduos desse modelo estimado, b~u, contra todos os regressores, x1; :::; xk. Este é um exemplo de uma regressão auxiliar, a qual é utilizada para obter a estatís- tica do teste. Assim, se a hipótese nula acima for verdadeira, então o R2~u desta regressão auxiliar deve ser próximo de zero, porque ~u será aproximadamente não correlacionado com todas as variáveis independentes. Sob H0; temos: LM = nR2u � �2q A estatística LM é também denominada como estatística n�R2. Observação: Se rodássemos os resíduos restritos apenas contra o conjunto restrito de q regressores (e não contra todos) obteríamos R2u = 0. 6.4 E ciência Assintótica do MQO Teorema 43 Sob as hipóteses de H1-H5, os estimadores MQO tem as menores variâncias assintóticas dentro da classe de estimadores consistentes. Ou seja: Avar p n � �^j � �j � � Avarpn � ~�j � �j � 51 em que, �^j são os estimadores MQO, e ~�j é outro estimador qualquer, consistente. 7 Formas Funcionais da Regressão Nesta seção trataremos sobre diversas formas funcionais que surgem em trabalhos empíri- cos. 7.1 FormasFuncionais Logarítmicas Seja o seguinte modelo: dlog y = �^0 + �^1 log x1 + �^2x2 Ele é log-log de y em relação a x1 e é log-linear em relação a x2. �1 mede a elasticidade de y em relação a x1, xado x2. Vejamos porque: �^1 = @dlog y @ log x1 = @y=y @x1=x1 = @y @x1 x1 y = "x1y A interpretação do �^1 é que para um aumento de 1% em x1 temos um aumento de �1% em y. Em relação a x2, podemos escrever, mantendo x1 xo: �^2 = @dlog y @x2 Se x2 varia discretamente: �dlog y = �^2�x2 Para termos a medida em termos da mudança percentual exata: �dlog y = log y1 � log y0 = �^2�x2 log y1 y0 = �^2�x2 e log y1 y0 = e�^2�x2 y1 y0 � 1 = e�^2�x2 � 1 y1 � y0 y0 = �y% = 100 h e�^2�x2 � 1 i 52 onde a multiplicação por 100 transforma a mudança proporcional em mudança per- centual. Quando �x2 = 1 : %�^y = 100 h e�^2 � 1 i Assim, �^2 pode ser interpretado como: um aumento de uma unidade em x2 dá um aumento exato de 100 h exp � �^2 � � 1 i % em y. Uma medida aproximada, para uma mudança pequena em x2 seria 100�^2%. Este coe ciente é, às vezes, denominado como semi-elasticidade. Observação: h exp � �^2 � � 1 i não é um estimador não-viesado devido à função não-linear exp (:), pois o operador esperança não passa diretamente nesta função, mas é um estimador consistente. Outras vantagens de se usar o log tanto nas variáveis dependente e independentes: 1. Além da interpretação econômica, quando, y > 0, suas distribuições condicionais geralmente são heterocedásticas ou assimétricas, tomando o log podemos reduzir ou elim- inar estes problemas, ao suavizar tais séries. 2. Reduz o impacto de outliers (ou valores extremos), pois reduz o intervalo de domínio das variáveis. 3. É o artifício mais comum em econometria para permitir relações não-lineares entre a variável dependente e as independentes. 7.2 Formas Funcionais Quadráticas As funções quadráticas são bastante usadas para capturar efeitos marginais crescentes ou decrescentes de algum regressor sobre a variável dependente. Assim, seja o seguinte modelo: y^ = �^0 + �^1x+ �^2x 2 O efeito de x em y será: @y^ @x = �^1 + 2�^2 Para variações discretas em x, teremos a seguinte aproximação: �^y � � �^1 + 2�^2x � �x �^y=�x � � �^1 + 2�^2x � �^1 é interpretado como o impacto de x partir de 0 para 1: 53 Quando o coe ciente de x é positivo e o coe ciente de x2 é negativo, a função quadrática,de y em relação a x, tem um formato côncavo. 7.3 Formas Funcionais com Termos de Interação Muitas vezes o efeito parcial de um regressor sobre y pode depender do valor de outro regressor: y = �0 + �1x1 + �2x2 + �3x1x2 + u Note que @y @x2 = �2 + �3x1 Assim, �2 é o efeito parcial de x2 quando x1 = 0. Mas, muitas vezes, queremos saber o impacto para outros valores de x1. Assim, podemos reparametrizar o modelo: y = �0 + �1x1 + �2x2 + �3 (x1 � �1) (x2 � �2) + u onde �1 e �2 são as médias populacionais de x1 e x2. Podemos veri car a relação entre os parâmetros deste modelo com o do modelo acima. Rearrumando: y = �0 + �1x1 + �2x2 + �3x1x2 � �3x1�2 � �3x2�1 + �3�1�2 + u y = (�0 + �3�1�2)| {z } =�0 + (�1 � �3�2)| {z } =�1 x1 + (�2 � �3�1)| {z } =�2 x2 + �3x1x2 + u Assim: �0 = �0 � �3�1�2 �1 = �1 + �3�2 �2 = �1 + �3�1 Agora o coe ciente �2 = �2 + �3�1, mede o efeito parcial de x2 sobre y no valor médio de x1, i.e., quando x1 = �1. Na prática, as médias populacionais podem ser substituídas pelas médias amostrais. 54 7.4 Adicionando Regressores para Reduzir a Variância do Erro A adição à regressão de certos regressores pode aumentar o problema de multicolinearidade. Mas é sempre bom adicionar variáveis que afetam y e que são não-correlacionadas com todos os outros regressores, e assim, não induzindo multicolinearidade e reduzirá a variância do erro. Em amostras grandes, os erros padrões de todos estimadores MQO serão reduzidos. Para notar isso, veja que: V ar �b�j� = �2 SQTj � 1�R2j � Se adicionamos um regressor novo, teremos um componente a menos no erro, u, e portanto, �2 se reduz. E se esse novo regressor for não correlacionado com os outros regressores, então o R2j de algum regressor xj que já estava incluído na regressão antes, não será afetado. 7.5 Variáveis Binárias (ou Dummy) como Variáveis Explicativas Tais variáveis transforma informações qualitativas em informações quantitativas. Mudança de Intercepto yi = �0 + �1xi + ui E (yijxi) = �0 + �1xi + E (uijxi)| {z } =0 E (yijxi) = �0 + �1xi Suponha que tenhamos a seguinte variável dummy: Di = � 1; se mulher 0; se homem Incluindo essa variável no modelo acima de forma aditiva: yi = �0 + �1xi + �2Di + ui Tomando a esperança condicional: E (yijxi; Di = 1) = �0 + �1xi + �2 = (�0 + �2) + �1xi E (yijxi; Di = 0) = �0 + �1xi 55 Assim: �2 = E (yijxi; Di = 1)� E (yijxi; Di = 0) Gra camente: Gr�afico Assim, ao incluirmos a dummy ao modelo de forma aditiva, ela atua como uma mudança de intercepto. Observação 44 A variável dummy é uma variável discreta. Logo, ela não é diferenciável e não podemos calcular @y@D . Assim ela não pode ser interpretada como as demais variáveis. Mudança de Inclinação yi = �0 + �1xi + ui Podemos incluir a dummy de forma multiplicativa, ou seja: yi = �0 + �1xi + �3xiDi + ui ou seja, a dummy entra como um termo de interação com a variável explicativa. Assim: E (yijxi; Di = 1) = �0 + �1xi + �3xi = �0 + (�1 + �3)xi E (yijxi; Di = 0) = �0 + �1xi Gra camente: Gr�afico Assim, ao incluirmos a dummy ao modelo de forma multiplicativa, ela atua como uma mudança de inclinação. Mudança de Intercepto e Inclinação A dummy pode entrar simultaneamente de forma aditiva e multiplicativa: yi = �0 + �1xi + �2Di + �3xiDi + ui Assim: E (yijxi; Di = 1) = (�0 + �2) + (�1 + �3)xi E (yijxi; Di = 0) = �0 + �1xi Gra camente: Gr�afico 56 Dummies Múltiplas Quando temos categorias variadas, entramos com N�1 categorias no modelo. Isso para que a categoria excluída seja a base de comparação, pois se colocar N cate- gorias as colunas das dummies serão uma combinação linear com a coluna do intercepto, e assim violaremos a hipótese H.4, pois como posto (X) = posto (X 0X) e a matriz X 0X não será invertível. Um bom exemplo deste caso é quando temos a variável categórica raça: raça = 8>>>><>>>>: 1; branco 2; negro 3; pardo 4; amarelo 5; ind�{gena Assim, podemos ter uma dummy para cada raça, ou seja: D1i = � 1; se branco 0; se c.c. D2i = � 1; se negro 0; se c.c. D3i = � 1; se pardo 0; se c.c. D4i = � 1; se amarelo 0; se c.c. D5i = � 1; se indígena 0; se c.c. Assim, podemos ter o seguinte modelo: yi = �0 + �1xi + �2D1i + �3D2i + �4D3i + �5D4i + (�6D5i) + ui Devemos retirar uma das dummies. Se retirarmos D5i, teremos as interpretações em termos do grupo base indígena. Se por exemplo y é ln (sal�ario), então �2 mede o quanto que os brancos ganham, em termos percentuais, a mais (ou a menos) que os indígenas. Observação 45 Assim para evitar o problema de colinearidade perfeita (aqui denominado como dummy trap na literatura) podemos: i) Manter o intercepto e eliminar uma categoria; ii) Manter todas as categorias e eliminar o intercepto. Neste caso, não teremos grupo de comparação. Para o exemplo acima, os coe cientes vão indicar apenas o salário médio para cada raça. 57 7.5.1 Testando para Diferenças em Funções de Regressões de Grupos difer- entes (Teste de Quebra Estrutural ou Teste de Chow) Podemos testar se dois grupos seguem a mesma função de regressão, contra a hipótese alternativa de que pelo menos um coe ciente de inclinação seja diferente entre os grupos. No modelo geral com k variáveis explicativas e um intercepto, suponha que existam2 grupos, g = 1 (por exemplo, homens) e g = 2.(por exemplo, mulheres) A hipótese nula seria se o intercepto e todas as inclinações são as mesmas entre os dois grupos. Seja o modelo: y = �g;0 + �g;1x1 + :::+ �g;kxk + u A hipótese nula envolve que cada beta da equação seja o mesmo entre os dois grupos e assim, inclui k + 1 restrições. O modelo irrestrito, tem além do intercepto e as variáveis explicativas, uma variável dummy de grupo e k termos adicionais de interação entre esta dummy e as variáveis explicativas. Exemplo 46 Para se construir um teste F , deste tipo precisamos do SQRir, do modelo irrestrito. Ele pode ser obtido de duas regressões separadas para cada grupo, que denotamos por: SQR1 e SQR2, tal que: SQRir = SSR1 + SSR2. Para se obter o SQR do modelo restrito, é obtido do SQR oriundo do empilhamento (pooling) dos grupos e estimação de uma equação simples (como a equação acima); que será denominado SQRp = SQRr Assim, a estatística F será: FCHOW = [SSRP � (SSR1 + SSR2)] =k + 1 (SSR1 + SSR2) = [n� 2 (k + 1)] FCHOW = [SSRP � SQRir] =k + 1 SQRir= [n� 2 (k + 1)] Esta estatística F é denominada de estatística de Chow. Como é um teste F, será válido apenas sob a hipótese de homocedasticidade. Sob H0, as variâncias dos erros para os dois grupos devem ser iguais. Exemplo 47 Vejamos um exemplo para car mais claro. Sejam dois grupos: homens e mulheres. O modelo para cada parte da amostra é: lnwi = �h;0 + �h;1 exp+�h;2 exp 2+�h;3educ+ uh;i (18) lnwi = �m;0 + �m;1 exp+�m;2 exp 2+�m;3educ+ um;i (19) ou seja, temos o modelo para cada grupo (h = homens, m = mulheres) Assim, a hipótese nula é: H0 : �h;0 = �m;0; �h;1 = �m;1; �h;2 = �m;2; �h;3 = �m;3 58 Podemos obter o SQRir, estimando estes dois modelos e somando os SQRs, tal que: SQRir = SQRh + SQRm. E obtemos o SQRr empilhando as duas amostras (homens e mulheres) e estimando o modelo acima. E, portanto, obtendo: FCHOW = [SSRr � SQRir] =k + 1 SQRr= [n� 2 (k + 1)] onde k+1 = 4 é o número de coe cientes ou restrições na hipótese nula (ou k número de regressores). O termo 2 (k + 1) = 8, é o número total de regressores do modelo (18) mais o total do modelo (19). Uma outra forma é estimar o modelo irrestrito do seguinte modo: lnwi = �0 + �1 exp+�2 exp 2+�3educ (20) +�4Di + �5Di exp+�6Di exp 2+�7Dieduc+ ui (21) para toda a amostra, onde Di = 1 se mulher e 0, c.c. E estimar o modelo restrito (também considerando toda a amostra): lnwi = �0 + �1 exp+�2 exp 2+�3educ+ ui Agora podemos computar a estatística F no formato R2: FCHOW = � R2ir �R2r � =k + 1� 1�R2ir � = [n� 2 (k + 1)] Assim, queremos testar se há alguma quebra no comportamento do salário (wi) com a inclusão da variável dummy Di (gênero). Ou seja, se há estabilidade do modelo entre as condições da variável dummy. O teste é vantajoso pois roda-se somente duas regressões. E através da estatística t (para o modelo (20)) podemos testar individualmente a signi cância, para identi car onde pode ter ocorrido a origem da quebra. Observação 48 Não existe o formato R2 do teste, como tem para o teste F padrão. Observação 49 Um teste F padrão poderia ser aplicado diretamente no modelo irrestrito. O teste de Chow é apenas um modo mais fácil de computar a estatística do teste. Observação 50 Se fosse aplicado o teste F padrão, então poder-se-ia usar o formato R2 do teste visto anteriormente. Observação 51 Como veremos em seção posterior, este teste é muito aplicado em séries temporais. Por exemplo, será que houve uma queda abrupta no nível de emprego do país na época da desvalorização cambial, em 1998? 59 7.6 Exemplos Vamos apresentar um exemplo, no qual tentamos explicar a taxa de divórcio das regiões brasileiras de 1992 até 2004, através do seguinte modelo: TXDIV = �0 + �1UN_H + �2DUMFILHO_6 + �3EST_M +�4METRO + �5RAZTO + 20P i=1 �5+iDi em que: TXDIV =número de divórcios da região/ número de casais da região UN_H =taxa de desemprego entre homens casados DUMFILHO_6 =% de casais com lhos menores ou iguais a 6 anos. EST_M = média de anos de estudo das mulheres METRO =% dos casais que residem em áreas metropolitanas RAZTOT_ =média da renda total das mulheres casadas / renda total dos homens casados D1 = 1, se é da região 1, e assim sucessivamente. Desconsideramos a D21 que é Distrito Federal. Abaixo notamos algumas estatísticas para a taxa de divórcio. 0 4 8 12 16 20 24 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Series: TXDIV Sample 1 230 Observations 230 Mean 0.331642 Median 0.301763 Maximum 0.933564 Minimum 0.083382 Std. Dev. 0.164093 Skewness 1.312002 Kurtosis 5.077868 Jarque-Bera 107.3614 Probability 0.000000 60 E fomos estimando a regressão incluindo regressor por regressor: Dependent Variable: TXDIV Method: Least Squares Date: 04/06/09 Time: 19:53 Sample: 1 230 Included observations: 230 Variable Coefficient Std. Error t-Statistic Prob. C 0.147038 0.027725 5.303406 0.0000 UN_H 5.603627 0.787174 7.118666 0.0000 R-squared 0.181844 Mean dependent var 0.331642 Adjusted R-squared 0.178255 S.D. dependent var 0.164093 S.E. of regression 0.148750 Akaike info criterion -0.964436 Sum squared resid 5.044884 Schwarz criterion -0.934540 Log likelihood 112.9102 Hannan-Quinn criter. -0.952377 F-statistic 50.67540 Durbin-Watson stat 1.667461 Prob(F-statistic) 0.000000 Dependent Variable: TXDIV Method: Least Squares Date: 04/06/09 Time: 19:53 Sample: 1 230 Included observations: 230 Variable Coefficient Std. Error t-Statistic Prob. C 0.350212 0.084823 4.128736 0.0001 UN_H 5.076550 0.805394 6.303187 0.0000 DUMFILHO6_ -0.469872 0.185649 -2.530976 0.0121 R-squared 0.204298 Mean dependent var 0.331642 Adjusted R-squared 0.197288 S.D. dependent var 0.164093 S.E. of regression 0.147018 Akaike info criterion -0.983569 Sum squared resid 4.906426 Schwarz criterion -0.938725 Log likelihood 116.1105 Hannan-Quinn criter. -0.965480 F-statistic 29.14137 Durbin-Watson stat 1.813635 Prob(F-statistic) 0.000000 61 Dependent Variable: TXDIV Method: Least Squares Date: 04/06/09 Time: 19:55 Sample: 1 230 Included observations: 230 Variable Coefficient Std. Error t-Statistic Prob. C -0.901999 0.105343 -8.562474 0.0000 UN_H 2.550928 0.604712 4.218416 0.0000 DUMFILHO6_ 1.172725 0.174711 6.712368 0.0000 EST_M_ 0.126722 0.008690 14.58249 0.0000 R-squared 0.590040 Mean dependent var 0.331642 Adjusted R-squared 0.584598 S.D. dependent var 0.164093 S.E. of regression 0.105761 Akaike info criterion -1.638038 Sum squared resid 2.527881 Schwarz criterion -1.578245 Log likelihood 192.3744 Hannan-Quinn criter. -1.613919 F-statistic 108.4243 Durbin-Watson stat 2.492009 Prob(F-statistic) 0.000000 Dependent Variable: TXDIV Method: Least Squares Date: 04/06/09 Time: 19:57 Sample: 1 230 Included observations: 230 Variable Coefficient Std. Error t-Statistic Prob. C -1.118014 0.112668 -9.923100 0.0000 UN_H 3.278350 0.604876 5.419870 0.0000 DUMFILHO6_ 1.400383 0.175894 7.961528 0.0000 EST_M_ 0.150600 0.009976 15.09674 0.0000 METRO_ -0.142995 0.032601 -4.386142 0.0000 R-squared 0.622332 Mean dependent var 0.331642 Adjusted R-squared 0.615618 S.D. dependent var 0.164093 S.E. of regression 0.101735 Akaike info criterion -1.711386 Sum squared resid 2.328764 Schwarz criterion -1.636645 Log likelihood 201.8094 Hannan-Quinn criter. -1.681237 F-statistic 92.69020 Durbin-Watson stat 2.354119 Prob(F-statistic) 0.000000 62 Dependent Variable: TXDIV Method: Least Squares Date: 04/06/09 Time: 19:59 Sample: 1 230 Included observations: 230 Variable Coefficient Std. Error t-Statistic Prob. C -1.154873 0.125788 -9.181073 0.0000 UN_H 3.217708 0.612514 5.253284 0.0000 DUMFILHO6_ 1.438220 0.185147 7.767993 0.0000 EST_M_ 0.151157 0.010023 15.08031 0.0000 METRO_ -0.143395 0.032648 -4.392168 0.0000 RAZTOT_
Compartilhar