Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Universidade Federal de Sergipe Departamento de Economia Disciplina: Econometria I Professor: Olinto Silveira Alves Filho* “Educar e educar-se, na prática da liberdade, não é estender algo desde a “sede do saber”, até a “sede da ignorância” para “salvar”, com este saber, os que habitam nesta. Ao contrário, educar e educar-se, na prática da liberdade é tarefa daqueles que sabem que pouco sabem - por isto sabem que sabem algo e podem assim chegar a saber mais – em diálogo com aqueles que, quase sempre, pensam que nada sabem, para que estes, transformando seu pensar que nada sabem em saber que pouco sabem, possam igualmente saber mais.” (FREIRE, 2006:25) ANÁLISE DE REGRESSÃO MÚLTIPLA Antes de entrar na análise de regressão múltipla, vamos fazer uma breve exposição histórica sobre análise de regressão e recordar alguns dos principais conceitos de regressão linear simples. De acordo com Gujarati (2000), o termo regressão foi introduzido pelo inglês Francis Galton, em 1886: “Embora houvesse uma tendência de pais altos terem filhos altos e de pais baixos terem filhos baixos, a altura média dos filhos de pais de uma dada altura tendia a se deslocar ou regredir até a altura média da população como um todo”. A regressão pode ser contemporaneamente interpretada da seguinte forma: 2 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br A análise de regressão ocupa-se do estudo da dependência de uma variável (a variável dependente ou variável explicada) em relação a uma ou mais variáveis independentes (variáveis explicativas) com o objetivo de estimar e/ou prever a média da população (ou o valor médio da dependente) em termos dos valores conhecidos ou fixos (em amostragem repetida) das variáveis independentes (GUJARATI, 2000). Uma vez que estamos interessados em estudar as relações entre as variáveis independentes e a variável dependente, de tal maneira que se possa estabelecer uma função (equação ou fórmula) estatística entre elas, precisamos de um conjunto de observações para cada uma dessas variáveis e uma hipótese que apresenta a forma matemática explicita dessa função. Um procedimento consagrado na literatura especializada é o Método dos Mínimos Quadrados que foi “inventado” por Carl Friedrich Gauss, matemático alemão, em 1821. O critério dos mínimos quadrados nos diz que a melhor função linear que se ajusta a um conjunto de dados é aquela que minimiza a soma dos quadrados dos desvios ou resíduos, entre a verdadeira linha reta (reta teórica) e aquela ajustada, ou seja, obtida através da amostra. Portanto, o critério de mínimos quadrados é escolher estimadores dos parâmetros da reta ajustada que minimiza a soma dos quadrados dos desvios. Etapas do processo de análise de regressão linear i. Formulação da teoria ou hipótese – exemplo: “a lei psicológica fundamental... as pessoas como regra e na média se dispõem a aumentar seu consumo quando sua renda aumenta, mas não tanto quanto o aumento em sua renda”. PMgC de Keynes. ii. Especificação do modelo matemático (função consumo keynesiana) ii XY 21 iii. Especificação do modelo econométrico iii uXY 21 iv. Obtenção de dados v. Estimação do modelo (estimar os parâmetros da função consumo), as estimativas numéricas dos parâmetros dão um conteúdo empírico à função consumo. 3 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br iii XY 21 ˆˆˆ vi. Análise dos resultados vii. Previsão Especificação do modelo clássico de regressão Para simplificar a exposição, trabalharemos com o modelo de regressão linear simples com duas variáveis (ou seja, com apenas uma variável explicativa). ),( uXfY iii uXY 21 Observação: o símbolo representa a letra grega beta. Veja que o Y (que é uma variável aleatória) é a variável dependente ou explicada, enquanto que o X (que é fixo ou não-estocástico) é a variável independente ou explicativa. Outro termo que entra na equação é o u que é o termo de erro (variável de perturbação estocástica). A inclusão deste componente aleatório na especificação de um modelo econométrico pode ser justificada por três principais argumentos: Omissão de variáveis explicativas relevantes; O comportamento social humano não é exatamente previsível, sempre existe algum tipo de elemento aleatório; A variável dependente apresenta erros de medida, não repetindo de forma precisa os valores teóricos da variável dependente. Antes de fazer a estimação do modelo, vamos levantar algumas hipóteses de trabalho relacionadas ao Método dos Mínimos Quadrados que será usado no processo de estimação. Só para reforçar, conforme dito anteriormente, o Método dos Mínimos Quadrados, ou Mínimos Quadrados Ordinários (MQO) é uma técnica de otimização matemática que procura encontrar o melhor ajustamento para um conjunto de dados, buscando minimizar a soma dos quadrados das diferenças entre o valor estimado e os dados observados, estas diferenças são chamadas resíduos. Portanto, o estimador de MQO consiste em um estimador que minimiza a soma dos quadrados dos resíduos da regressão, de forma a maximizar o grau de ajuste do modelo aos dados observados. 4 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br As Hipóteses Subjacentes ao Método dos Mínimos Quadrados (MQO) Hipótese 1 – Modelo de regressão linear: O modelo de regressão é linear nos parâmetros. Hipótese 2 – Os valores de X são fixados em amostragem repetida: Os valores assumidos pelo regressor X são considerados fixados em repetidas amostras. Em outras palavras, supõe-se que X seja não estocástico. Hipótese 3 – Valor médio zero do termo de perturbação estocástica: 0)/( ii XuE . Hipótese 4 – Homoscedasticidade ou igual variância da variável estocástica: 22)()( ii uEuVar . Observação: o símbolo representa a letra grega sigma minúsculo. Hipótese 5 – Inexistência de correlação entre as perturbações estocásticas: 0),( ji uuCov , quando ji . Hipótese 6 – Inexistência de correlação entre as perturbações estocásticas e as variáveis explicativas iX 0),( ji uXCov , quando ji . Hipótese 7 – O número de observações, n, deve ser maior que o número de parâmetros, k (que é o mesmo que o número de variáveis explicativas), a serem estimados. Hipótese 8 – Variabilidade nos valores de X, ou seja, os valores de X em uma dada amostra não podem ser todos iguais. 0)]([ 1 )( 2 jji XEX n XVar Observação: o símbolo representa a letra grega sigma maiúsculo. Hipótese 9 – O modelo de regressão está corretamente especificado: 5 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Não há nenhum viés ou erro de especificação nomodelo usado na análise empírica. Estimação do modelo através do método dos MQO iii uXY 21 (função de regressão populacional). ii XY ^ 2 ^ 1 ^ (função de regressão amostral). ^^ 2 ^ 1 iii uXY ou ^^ iii uYY Então, ^^ iii YYu ou iii XYu ^ 2 ^ 1 ^ Neste último caso, ^ iu representa os resíduos, ou perturbações. O método dos MQO consiste em escolher os valores dos parâmetros desconhecidos de tal modo que a soma dos quadrados dos resíduos, SQR, 2^ iu , seja a menor possível. Min 2^ iu Ou seja, Min 2 ^ 2 ^ 1 ][ ii XY Aplicando as condições de primeira ordem, temos: 0 ^ 1 2^ iu e 0 ^ 2 2^ iu Portanto, os estimadores dos parâmetros são dados por: 6 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br XY ^ 2 ^ 1 e 222 ^ 2 )( )( i ii ii iiii x yx XXn YXXYn As variâncias e erros-padrão dos estimadores de MQO, 2 2 2 ^ )( ix Var ou )( )( 2 ^ 2 ix ep 2 22 1 ^ . )( i i xn X Var ou .)( 2 2 1 ^ i i xn X ep Propriedades dos estimadores de MQO sob a hipótese de normalidade Os estimadores são não viesados (não tendenciosos). Os estimadores têm variância mínima. Como os estimadores são não viesados e têm variância mínima, eles são chamados de estimadores eficientes. Os estimadores são consistentes, isto significa que, conforme o tamanho da amostra aumenta indefinidamente, eles convergem para seus verdadeiros valores na população. O estimador ^ 1 se distribui normalmente com: Média: 11 ^ )( E Variância: 2 22 1 ^ . )( i i xn X Var ou ],[~ 211 ^ ^ 1 N O estimador ^ 2 se distribui normalmente com: 7 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Média: 22 ^ )( E Variância: 2 2 2 ^ )( ix Var ou ],[~ 222 ^ ^ 2 N ^ 1 e 2 ^ têm variância mínima em toda classe de estimadores não-viesados, sejam lineares ou não. Assim, podemos dizer que os estimadores por mínimos quadrados são os melhores estimadores não-viesados, MENV. Antes de iniciar nosso trabalho com o Modelo de Regressão Linear Múltipla, apresentaremos bem simplificadamente o Método dos Mínimos Quadrados generalizados, MQG, uma vez que, entre os problemas que discutiremos neste curso, tem-se a questão da heteroscedasticidade e suas conseqüências para os estimadores de MQO. O Método dos Mínimos Quadrados Generalizados – MQG Para simplificar a exposição, trabalharemos com o modelo de regressão linear simples com duas variáveis. Assim, seja dada a função regressão populacional (FRP), abaixo: iii uXY 21 Essa função de regressão populacional pode ser expressa por: iiii uXXY 201 Onde 10 iX . Supondo que as variâncias heteroscedásticas, dada por 2 i , sejam conhecidas, podemos dividir essa equação por i (os respectivos erros-padrão), de maneira que: Ou iiii uXXY ** 2 * 0 ** 1 * )()()( 2 0 1 i i i i i i i i uXXY 8 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Este modelo é chamado de modelo transformado, cujos parâmetros são * 1 e * 2 . Vamos agora encontrar a variância de * iu para ver se ela é constante (homoscedástica) ou continuará, como antes, heteroscedástica. 22** )()()( i i ii u EuEuVar 2 2 * )( 1 )( i i i uEuVar Pois 2 i é conhecido. 1)( 1 )( 2 2 * i i iuVar , que é constante. Portanto, a variância do termo de perturbação transformada * iu é agora homoscedástica. Assim, mantendo-se as demais hipóteses do modelo clássico, a constatação de que * iu é homoscedástico sugere que ao aplicar o MQO no modelo transformado, ele produzirá estimadores que são os melhores estimadores na classe dos estimadores lineares não viesados. O modelo transformado é chamado de Mínimos Quadrados Generalizados. O MODELO CLÁSSICO DE REGRESSÃO LINEAR MÚLTIPLA (MCRLM) Especificação ),,...,,,( 321 kXXXXfY ikikiiii XXXXY ...4433221 Em que o Y é a variável dependente, os X’s são variáveis explanatórias, independentes é o termo de erro estocástico. O iX 4 representa, por exemplo, a i-ésima observação da variável explanatória 4X , enquanto que o 32X representa, por exemplo, a segunda observação da variável explanatória 9 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br 3X . O 1 é o coeficiente linear (intercepto) da equação, enquanto que os k (betas) são os coeficientes angulares, ou interceptos diferenciais, também chamados de interceptos de impactos. Observação: o símbolo representa a letra grega epsilon. Novamente, como no caso de regressão simples, levantamos algumas pressuposições ou hipóteses de trabalho ao modelo de regressão múltipla que são uma extensão do referido modelo de duas variáveis. No caso do modelo de regressão múltipla trabalharemos com a álgebra matricial. As hipóteses subjacentes ao modelo clássico de regressão linear múltipla H (1) – A relação entre as variáveis explicativas, independentes ou explanatórias ),...,,,( 321 kXXXX e a variável explicada, dependente (Y), são lineares nos parâmetros ( k ,...,,, 321 ). Considerando-se o conjunto de observações, n, das k (variáveis), a equação de regressão linear múltipla pode ser apresentada por ikikiiii XXXXY ...4433221 Vamos associar ao intercepto 1 uma variável que assume valor um em cada linha, tem-se então ikikiiiii XXXXXY ...44332211 Tomando alguns valores de Ni , temos o seguinte sistema de equações lineares: 114143132121111 ... kk XXXXXY 224243232221212 ... kk XXXXXY 334343332321313 ... kk XXXXXY … … … … … … … … nknknnnnn XXXXXY ...44332211 10 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Agora podemos colocar esse sistema de equações lineares na forma matricial, obtendo nkkn k k nnnn X X X X X X X X X X X X Y Y Y 2 1 2 1 2 1 3 32 31 2 22 21 1 12 11 2 1 . 111 nxkxnxknx XY XY H(2) – Inexistência de correlação perfeita entre as variáveis explicativas, que devem ser linearmente independentes, ou seja, não é possível a presença de uma variável X que seja função exata de uma ou mais uma variável explanatória. Essa hipótese é conhecida como hipótese da não ocorrência de multicolinearidade perfeita, e é expressa como: kdeXrankposto nxk )( Observação: Se k = n (ou seja, a matriz Xkxn é uma matriz quadrada e com suas linhas e colunas linearmente independentes), então a hipótese dois torna-se equivalente a afirmação de que o determinante de Xnxk = 0 [ 0)( nxkXDet ]. Neste caso, Xnxk é uma matriz singular (aquela que não admiti inversa, uma vez que seu determinante é zero) e seu rank (posto) é pleno. nkdeXrankposto nxk )( H(3) – A matriz X é não estocástica, ou seja, é constituída por variáveis exatas (independentes) no processo de amostragem. H(4) – Os valores positivos do termo aleatório compensam os valores negativos. Essa hipótese é conhecida como hipótese da média zero, e estabelece que: 0)( E 11 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br 0 0 0 )( )( )( )( 2 1 nE E E E Ou seja, em média, o valor esperado do termo aleatório é zero, o que implica: XYE )( H(5) – Para a distribuição de probabilidade de cada termo aleatório, ε, tem-se que: Todas as distribuições apresentam a mesma variância do termo de erro, ou seja, tem a mesma dispersão (estão igualmente espalhadas), daí porque a sua variância é dita constante: 2)]([)( iii EEVar 2)()( ii EVar 2)( iVar . Os termos aleatórios (as perturbações estocásticas) não se correlacionam, ou seja, a covariância entre pares de variáveis aleatórias ji , , com ji , é nula: ji jiCov ),( )]}()][({[),( jjiiji EEECov 0)().()(),( jijiji EEECov , já os termos aleatórios são independentes Portanto, ρ = 0, quando ji . Essa também é nossa já conhecida hipótese de não-correlação serial, ou não-autocorrelação das perturbações estocásticas. Observação: o símbolo representa a letra grega rho, lê-se rô. 12 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Podemos obter a homoscedasticidade, em termos matriciais, se tomarmos ]...[' 321 n e n .. .. 2 1 Temos o seguinte produto entre as matrizes e ' (em que ' é a transposta de . Lembrando que a transposta de uma matriz é obtida trocando as linhas por colunas): n n ... ... ' 3213 2 1 . ... .. .. .. ... ... ... .. .. .. .. .. .. .. .. ..' 3 2 1 3 33 32 31 2 23 22 21 1 13 12 11 nn n n n nnn . )(... .. .. .. )(... )(... )( .. .. .. )( )( )( .. .. .. )( )( )( .. .. .. )( )( )'( 2 1 3 32 31 2 22 21 1 12 11 nn n n nnn E E E E E E E E E E E E E 13 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br . )(... .. .. .. )(... )(... )( .. .. .. )( )( )( .. .. .. )( )( )( .. .. .. )( )( )'( 2 2 1 3 32 31 2 2 2 21 1 12 2 1 n n n nnn E E E E E E E E E E E E E . )var(... .. .. .. )cov(... )cov(... )cov( .. .. .. )cov( )cov( )cov( .. .. .. )var( )cov( )cov( .. .. .. )cov( )var( )'( 2 1 3 32 31 2 2 21 1 12 1 n n n nnn E Esta última matriz é chamada de matriz de variância/covariância: . .... .. .. .. 0.... 0.... 0 .. .. .. 0 0 0 .. .. .. 0 0 .. .. .. 0 )'( 2 2 2 E . 1...000 ........... 0...010 0...001 )'( 2 E IE 2)'( 14 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br H (6) – os valores aleatórios têm distribuição normal: ),0(~ 2 Ni (na forma escalar) ),0(~ 2INi (na forma vetorial) O Método de Máxima Verossimilhança, MV Todas as evidenciam levam a crer que diferentes populações resultam diferentes amostras e também que determinadas amostras tem mais probabilidade de advir de algumas populações do que de outras. Assim, de acordo com Pindyck (2004), o estimador de máxima verossimilhança de um parâmetro é o valor de ^ com maior possibilidade de gerar as observações da amostra considerada NYYYY ,...,,, 321 . Geralmente, se iY tem distribuição normal e cada um dos Y é extraído independentemente, o estimador de máxima verossimilhança maximiza a seguinte função: )Pr()...Pr().Pr().Pr( 321 NYYYYY O símbolo representa a letra grega lambda maiúsculo. Em que cada )Pr( iY representa a probabilidade associada com a distribuição normal Y, de maneira que a estimativa de máxima verossimilhança calculada é uma função da amostra particular dos Y’s escolhidos. Com efeito, uma amostra diferente resultaria em uma estimativa de máxima verossimilhança diferente. A função Y é chamada de função de verossimilhança. Observe que ela não depende apenas dos valores da amostra, mastambém dos parâmetros desconhecidos do problema. Buscando entender o princípio da máxima verossimilhança e como ele pode ser aplicado, trabalharemos com X que tem distribuição normal com média e desvio-padrão . iii XY 21 Então, 2 2 )( 2 1 2 1 )Pr( iX i eXX Que é a função de distribuição normal ou gaussiana. Então, a função de verossimilhança a ser maximizada é dada pela seguinte expressão: 15 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br 2 2 )( 2 1 ] 2 1 [,, iXN eX Aplicando o operador logaritmo neperiano nessa função temos: }] 2 1 {[],,[ 2 2 )( 2 1 iXN eLnXLn 22 )(2 1 ) 2 1 (.],,[ iXLnNXLn 2 2 1 )( 2 1 ])()2(.[],,[ 2 1 iXLnNXLn 2 2 )( 2 1 .)2(. 2 1 ],,[ iXLnNLnNXLn Para obter os estimadores de máxima verossimilhança, precisamos maximizar a função acima, aplicando as condições de primeira ordem, que consiste em derivar a função verossimilhança, em relação aos parâmetros e , igualando o resultado a zero. Assim, para obter o estimador , fazemos: 0)1)((2. 2 1],,[ 2 iX XLn 0)( iX 0 1 )( 1 N X N i .. 1 )( 1 N N X N i )( 1 iX N ou )( 1 iX N X Por sua vez, para obter o estimador de 2 , calculamos 0)()2.( 2 1],,[ 23 iX NXLn 22 )(2 1 .)2(. 2 ],,[ iXLnNLnNXLn 0)( 1 2 3 iX N 16 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br 2 2^ )( 1 iX N Este, porém, apesar de ser um estimador consistente, é viesado. PROCESSO DE INFERÊNCIAS ESTATÍSTICAS Estimação dos parâmetros através da álgebra simples Para simplificar a exposição, trabalharemos com o modelo de regressão linear múltipla com três variáveis. iiii XXY 33221 Utilizando o método dos MQO para três variáveis para a obtenção da função de regressão amostral, FRA, chega-se à seguinte equação: ^ 3 ^ 32 ^ 2 ^ 1 iiii XXY Ou iiii XXY 3 ^ 32 ^ 2 ^ 1 ^ O método dos MQO consiste em escolher os valores dos parâmetros desconhecidos (os betas) de tal modo que a soma dos quadrados dos resíduos, SQR, 2^ i , seja o menor possível. Minimizar 23 ^ 32 ^ 2 ^ 1 2^ ][ iiii XXY De acordo com o cálculo diferencial, para o processo de otimização de uma função, aplica-se as condições de primeira ordem, ou seja, diferencia-se a função em relação a cada um dos parâmetros (derivadas parciais), igualando o resultado a zero, para obter as equações de mínimos quadrados correspondentes à equação ótima de regressão como solução. Assim, as condições de primeira ordem são dadas por 17 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br 0 ^ 1 2^ i 0 ^ 2 2^ i 0 ^ 3 2^ i Os estimadores dos parâmetros obtidos são 3 ^ 32 ^ 2 ^ 1 XXY 2 323 22 2 3233 2 2 ^ 2 )())(( ))(())(( iiii iiiiiii xxxx xxxyxxy 2 323 22 2 3222 2 3 ^ 3 )())(( ))(())(( iiii iiiiiii xxxx xxxyxxy As variâncias e erros-padrão dos estimadores de MQO 2 2 323 22 2 32222 2 33 2 2 ^ 2 ]. )())(( 21 [)var( iiii iiii xxxx xxXXxXxX n )1)(( )var( 2 23 2 2 2^ 2 rx i 2 2 323 22 2 3 2 ^ 3 . )())(( )var( iiii i xxxx x )1)(( )var( 2 23 2 3 2^ 3 rx i Estimação dos parâmetros do modelo de regressão linear geral por mínimos quadrados ordinário através da álgebra matricial Existem vários métodos para a estimação dos parâmetros de uma equação de regressão, ou seja, para determinação, com base em uma amostra, das estimativas de k ,..,,, 321 . Como anteriormente, utilizaremos o MQO. 18 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Estimação dos parâmetros por Mínimos Quadrados Ordinários, MQO O critério de mínimos quadrados permite determinar à reta que passa com melhor ajustamento ou aderência entre os pontos do diagrama. Seja a equação de regressão da população dada na forma matricial XY Seja também a equação de regressão amostral, FRA, dada na forma matricial eXbY ou XbYe Nessa equação b é o estimador de , um vetor de k elementos, e e o vetor dos resíduos (o estimador de ). No caso geral, os métodos dos minimos quadrados escolhem b tal que a soma de quadrados dos resíduos seja nula. Lembrando-se que n i ieee 1 2' , pois, com efeito, temos que se, ]...[' 321 neeeee e ne e e e .. .. 2 1 Resulta em 19 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br n n e e e eeeeee .. ..]....[' 2 1 321 n i in eeeeeee 1 222 3 2 2 2 1 ...' Então, dado eee n i i ' 1 2 )()'( 1 2 XbYXbYe n i i ))('''( 1 2 XbYXbYe n i i XbXbYXbXbYYYe n i i '''''' 1 2 XbXbYXbYYe n i i ''''2' 1 2 Pois, YXbXbY ''' , lembrem-se da regra de transposta de uma matriz, '')'( ABAB . Aplicando as condições de primeira ordem para o processo de otimização de uma função, ou seja, diferenciando em relação ao parâmetro b’ e igualando o resultado a zero, obteremos as equações de mínimos quadrados, que tem o vetor de parâmetros b, correspondente à equação ótima de regressão como solução, isto é: 0 ' )( 1 2 b e n i i 20 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br ' )''''2'( ' )( 1 2 b XbXbYXbYYb e n i i 0 ' )''''2'( b XbXbYXbYY 0 ' )''( ' )''( 2 ' )'( b XbXb b YXb b YY Lembrete sobre diferenciação de matrizes e derivada de matriz na forma quadrática simétrica: Seja ),...,,,( 321 nxxxx um escalar e nx x x X .. .. 2 1 uma matriz de variáveis, defini-se derivada de matriz da seguinte forma: X xxxx X n ),...,,,( 321 )],...,,,([ 321 nxxxx XX n n n x x x xxx x x x X .. ..)],...,,(.[ .. .. 2 1 21 2 1 Observação: o símbolo representa a letra grega phi minúsculo, lê-se fi. 21 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Se A for uma matriz simétrica ( 'AA ) e idempotente ( nAAA ...2 ), então temos a seguinte propriedade de uma matriz na forma quadrática: AXXAXAXAXAX ''')()'( . Portanto, sua derivada é dada por: AX X AXX 2 )'( Com efeito, fica fácil de provar esse resultado se tomarmos 2 1 x x X e 2221 1211 aa aa A , temos: 2 2222112 2 111 2 1 2221 1211 21 2..' xaxxaxa x x aa aa xxAXX Uma vez que, como A é simétrica, 1221 aa Assim a derivada da matriz AXX ' é: 122212 2121122 2222112 2 111 2 1 22 22 )2( )'( xaxa xaxa xaxxaxa x x X AXX 2 1 2221 1211 122221 212111 2 22 22)'( x x aa aa xaxa xaxa X AXX AX x x aa aa X AXX 22 )'( 2 1 2221 1211 Retomando a ultima expressão de onde paramos, qual seja, 0 ' )''( ' )''( 2 ' )'( b XbXb b YXb b YY 22 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Como XbXb '' é uma forma quadrática simétrica, temos que XbX b XbXb '2 ' )''( 0'2'2 XbXYX YXXbX '' Para que esse sistema tenha solução é necessário que XX ' seja, além de simétrica e idempotente, uma matriz-não singular, ou seja, aquele tipo de matriz quadrada que tem determinante diferente de zero (portanto, admite inversa). Assim, pré-multiplicando os lados dessa equação por 1)'( XX , encontramos o estimador de dado pela seguinte relação: YXXXb ')'( 1 Algumas observações sobre a estimação, por MQO, na forma matricial. (i) Como primeiro resultado percebe-se que não há correlação entre a matriz X e os resíduos da regressão, ou seja, 0' eX , com efeito, dado que YXXXb ')'( 1 e eXbY Temos )(')'( 1 eXbXXXb eXXXXbXXXb ')'(')'( 11 eXXXIbb ')'(. 1 eXXXbb ')'( 1 eXXX ')'(0 1 0')'( 1 eXXX Já que 0)'( 1 XX , obtemos nossa prova 0' eX 23 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Ademais, pode também ser mostrado que 0' 1 n i ieeX Para tanto, se tomarmos ]1...111['X e n i e e e e . . 2 1 Então, ne e e eX .. ..].1...111[' 2 1 0...' 1 321 n i in eeeeeeX (ii) A média dos valores estimados iY ^ é igual à média dos valores observado _Y , pois ocorre que iii eYY ^ n i i n i i n i i e n Y n Y n 11 ^ 1 111 0 11 1 ^ 1 n i i n i i Y n Y n 24 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br n i i n i i Y n Y n 1 ^ 1 11 Portanto, _ ^_ YY (iii) O vetor de parâmetros b é um estimador linear e não tendencioso (não viesado). De fato, como YXXXb ')'( 1 Fazendo ')'( 1 XXXA AYb Além disso, como XY , temos que )(')'( 1 XXXXb ')'(')'( 11 XXXXXXXb ')'(. 1 XXXIb Ab )()( AEbE , já que por hipótese, 0)( E )(bE (iv) A variância de b é dada por 12 )'()( XXbVar . Para tanto, calculamos )(bVar dada por: 2)()( iibEbVar ])')([()( bbEbVar Como Ab que é idêntico a ')'( 1 XXXb temos que }]'')'][(')'{[(])')([()( 11 XXXXXXEbbEbVar ]})'('][')'{[(])')([()( 11 XXXXXXEbbEbVar 25 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br ])'('')'[(])')([()( 11 XXXXXXEbbEbVar 11 )'()'(')'(])')([()( XXXEXXXbbEbVar 121 )'()(')'(])')([()( XXXIXXXbbEbVar 112 )'(')'(])')([()( XXXXXXbbEbVar 12 )'(])')([()( XXbbEbVar 12 )'()( XXbVar Observe que a definição da matriz variância depende da estimativa de 2 . Como esse parâmetro da população é frequentemente desconhecido, o ponto de partida é trabalhar com o vetor de resíduos da regressão, que é a correspondente amostral dos valores do termo estocástico, quando as hipóteses do modelo forem validas. Temos ciência que a média dos resíduos obtidos por mínimos quadrados no modelo clássico é zero, então o estimador da variância é obtido com base na soma de quadrado dos resíduos ( ee' ) corrigidos pelo grau de liberdade. Com efeito, sabendo-se que XbYe e YXXXb ')'( 1 YXXXXYe ')'( 1 YXXXXIe ]')'([ 1 Chamando de ')'( 1 XXXXIM , fácil mostrar que esta matriz é simétrica, ou seja, 'MM , e idempotente, ou seja, nMMMMM ...32 .Chegamos a MYe Demonstração das duas propriedades da matriaz M: Simetria 'MM ]'')'([' 1 XXXXIM ]'')'(['' 1 XXXXIM 26 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br ')'(' 1 XXXXIM MM ' cqd Idempotente MM 2 ]')'(][')'([ 112 XXXXIXXXXIM ')'('.)'('.)'(')'(. 111122 XXXXXXXXIXXXXXXXXIIM ')'.(.')'(.2 112 XXXIXXXXXIM ')'(')'(.2 112 XXXXXXXXIM ')'( 12 XXXXIM MM 2 cqd Podemos perceber a relação entre o resíduo no modelo e o termo estocástico da população substituindo o Y ( XY ) na expressão que chegamos acima, qual seja MYe , de maneira que MYe )( XMe MMXe Veja que 0')'(]')'([ 11 XXXXXXXXXXXXXIMX Então, resta que Me Calculando, agora, ee' , temos: )()'(' MMee MMee ''' Mee '' Como visto anteriormente, M é simétrica e idempotente, veja também que ee' é um escalar e M' é uma forma quadrática. Assim, aplicando o operador esperança matemática nessa última relação, teremos o seguinte: 27 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br )'()'( MEeeE )]'([)'( MtrEeeE )]('[)'( trMEeeE )().'()'( MtrEeeE )(.)'( 2 MtrIeeE )(.)'( 2 MtreeE Veja o traço de M (lembrem-se que o traço de uma matriz quadrada é dado pela soma dos elementos de sua diagonal principal) é obtido da seguinte maneira: ]')'([)( 1 XXXXItrMtr ]')'([)()( 1 XXXXtrItrMtr n Como kIXXXXXXXX ')'(')'( 111 Temos, )()()( kn ItrItrMtr knMtr )( Portanto, ).()'( 2 kneeE kn eeE )'(2 Sabe-se também que )( 22 SE , então: kn ee S '2 28 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Onde )( kn é o número de graus de liberdade, ou seja, o número de observações amostrais menos os números de parâmetros estimados pela regressão. Propriedades dos estimadores de MQO para o Modelo de Regressão Linear Múltipla P.1 – A reta (superfície) de regressão passa pelas médias das variáveis. kk XXXY ^ 2 ^ 32 ^ 2 ^ 1 ... P.2 – O valor médio estimado ^ iY é igual ao valor médio verdadeiro iY , ou seja, ii YY ^ . Demonstração: Pelas equações abaixo (i) kkiiii XXXY ^ 3 ^ 32 ^ 2 ^ 1 ^ ... (ii) kk XXXY ^ 2 ^ 32 ^ 2 ^ 1 ... Substituindo (ii) em (i), temos kikiiikkii XXXXXXYY ^ 3 ^ 32 ^ 2 ^ 3 ^ 32 ^ 2 ^ ...... )(...)()( ^ 32 ^ 322 ^ 2 ^ kikikiiii XXXXXXYY kikiiii xxxYY ^ 2 ^ 32 ^ 2 ^ ... Aplicando o somatório e dividindo por n ambos os lados dessa última equação, obtemos resultados esperado, posto que 0 1 n i kix . De fato, kikiiii x n x n x n Y n Y n 1 ... 1111 ^ 3 ^ 32 ^ 2 ^ 29 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Yn n Y n i . 11 ^ YYi _ ^ P.3 – 0 ^^ ii . Demonstração: Seja a equação abaixo ikkiiii XXXY ^^ 3 ^ 32 ^ 2 ^ 1 ... kk XXXY ^ 2 ^ 32 ^ 2 ^ 1 ... Substituindo a segunda equação da primeira, temos que ikkiiikki XXXXXXYY ^^ 3 ^ 32 ^ 2 ^ 2 ^ 32 ^ 2 ...... ikkikiiii XXXXXXYY ^^ 33 ^ 322 ^ 2 )(...)()( ikikiiii xxxYY ^^ 3 ^ 32 ^ 2 ... Passe o somatório em ambos os lados da equação acima e divida tudo por n, lembrando que 0 1 n i kix ^^ 3 ^ 32 ^ 2 11 ... 1111 n x n x n x n Y n Y n kikiiii _ ^ . 1 Yn n Y _ ^ YY 30 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br 0 _ ^ P.4 – Os resíduos i ^ não têm correlação com iX 2 e iX 3 , ou seja: 03 ^ 2 ^ iiii XX . A demonstração é fácil, logo no desenvolvimento do processo de minimização da soma dos quadrados dos resíduos quando se aplica as condições de primeira ordem. P.5 – Dadas às hipóteses do modelo clássico de regressão linear, os estimadores de MQO dos coeficientes de regressão parcial do MCRM são lineares e não-viesados, como também têm variância mínima na classe de todos os estimadores lineares não-viesados. Coeficiente Múltiplo de Determinação, 2R , e o Coeficiente Múltiplo de Correlação, R O Coeficiente Múltiplo de Determinação, 2R O 2r (que é o coeficiente de determinação para a regressão de duas variáveis, uma dependente e outra independente) mede o grau de ajuste da equação de regressão, ou seja, fornece a proporção, ou porcentagem, da variação total na variável dependente Y explicada pela única variável explicativa X. No modelo de regressão com três variáveis queremos saber a proporção da variação em Y explicada simultaneamente (conjuntamente) pelas variáveis 2X e 3X , o coeficiente múltiplo de determinação, denominado 2R nos da esta resposta. 2R é definido algebricamente por: ^ 3 ^ 32 ^ 2 ^ 1 iiii XXY ^^ iii YY ^ 2 ^ 22 iii YY 31 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Como iiiiii xyxyY 3 ^ 32 ^ 2 2 ^ 2 Tem-se que iiiiiii xyxyYYY 3 ^ 32 ^ 2 2 ^ 22 iiiii xyxyY 3 ^ 32 ^ 2 ^ 2 SQT SQE R 2 Ou 2 ^ 2 2 i i y y R Então, o coeficiente de determinação múltiplo para três variáveis pode ser expresso pela seguinte fórmula: 2 33 ^ 2 ^ 22 i iiii y xyxy R O coeficiente de determinação múltiplo para k variáveis fica assim: 2 ^ 33 ^ 2 ^ 22 ... i KiiKiiii y xyxyxy R Portanto, o coeficiente múltiplo de determinação fornece aproporção ou porcentagem total na variável dependente Y que é explicada pelo modelo adotado. Dito de outra maneira, o coeficiente múltiplo de determinação indica até que ponto a variação de Y é explicada conjuntamente (simultaneamente) pelas variáveis explicativas (X1, X2, X3,..., Xk). 32 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br O coeficiente múltiplo de determinação é um número que está entre 0 e 1, ou seja, 0 < R 2 < 1. De maneira que se 12 R que é conseqüência de SQR = 0, temos o caso do ajuste ótimo, significando que a reta de regressão ajustada explica 100% da variação em Y. Como o R 2 é um importante indicador da qualidade do modelo adotado, um alto valor de R 2 é elemento indicativo de um bom ajuste. Uma importante relação entre o 2R e a variância de um coeficiente de regressão parcial é dada pela seguinte relação: ) 1 1 ()( 22 2^ Rx Var j j Em que ^ j é o coeficiente de regressão parcial do regressor jX , e 2 jR é o 2R na regressão de jX sobre os demais (k – 1) regressores. O Coeficiente de Correlação Múltipla, R O coeficiente de correlação múltipla, R , é uma medida do grau de associação linear entre Y e todas as variáveis explicativas conjuntamente. O coeficiente de correlação múltipla, R , pode ser calculado pela seguinte fórmula: 2RR Ou 2 ^ 2 i i y y R Testes de hipóteses O teste de hipótese assume diversas formas, tais como as citadas a seguir: Teste de hipótese sobre Coeficientes Individuais de Regressão Parcial Dado a hipótese de que ),0(~ 2 Ni , podemos utilizar o teste t de Student para testar uma hipótese sobre qualquer coeficiente de regressão parcial individual, ou seja, postularemos que: 33 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br 0:0 iH e 0:1 iH A estatística teste de Student pode ser obtida pela seguinte relação: )( ^ ^ i ii ep t Se o valor calculado de t supera seu valor crítico de significância escolhido, podemos rejeitar a hipótese nula; caso contrário, podemos não rejeitá-la. Teste de Significância Global da Regressão Vamos testar a hipótese conjunta de que todos os parâmetros são conjunta ou simultaneamente iguais a zero. Este teste é chamado de teste de significância global. Com efeito, postulamos que: 0...: 3210 kH e 0...: 3211 kH O teste indicado é o teste F de Fisher que nos fornece um teste da hipótese nula de que os verdadeiros coeficientes de inclinação são simultaneamente iguais a zero. Se o valor F calculado exceder o valor crítico de F constante na tabela F em nível de significância , rejeitamos 0H ; caso contrário, não a rejeitamos. Pode-se obter uma regra de decisão da seguinte forma: Dado o modelo de regressão de k variáveis ikikiiii XXXXY ...4433221 Para testar a hipótese nula 0...: 3210 kH Ou seja, todos os coeficientes de inclinação são não simultaneamente iguais a zero, contra a alternativa 0...: 3211 kH Ou seja, todos os coeficientes de inclinação são simultaneamente zero, calcule 34 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br )/( )1/( / / knSRQ kSEQ glSRQ glSEQ Fc (1) Se ),1( knkFFc , rejeitamos a 0H . Caso contrário, não a rejeitamos. Então, utiliza-se a seguinte regra de decisão, se ),1( knkF é o valor crítico de F em nível de significância convenientemente escolhido, )1( k é o grau de liberdade do numerador e )( kn é o grau de liberdade do denominador. Alternativamente, se o valor p do F obtido em (1) for suficientemente baixo, pode-se rejeitar a 0H . Outras fórmulas para calcular o F: )/()1( )1/( 2 2 knR kR Fc )3/( )13/()( ^ 2 ^ 3322 n xyxy F i iiii c Problemas do Modelo Clássico de Regressão Linear, MCRL Os problemas mais importantes que afetam o modelo clássico de regressão linear são: heteroscedasticidade, autocorrelação e multicolinearidade. Vamos trabalhar cada um deles e analisar, dentre outras, as conseqüências sobre os estimadores de mínimos quadrados. HETEROSCEDASTICIDADE Uma importante hipótese que foi vista MCRL foi à hipótese da homoscedasticidade ou variância constante (igual dispersão) do termo estocástico, i . Dado o valor de X, a variância de i é a mesma para todas as observações. Quando essa hipótese é invalidada por algum motivo, dizemos que a dispersão em torno da reta ajustada é desigual ou heteroscedástica. A essência da heteroscedasticidade 35 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Conforme as hipóteses vistas acima, é desejável que a variância do termo estocástico i , condicional aos valores escolhidos das variáveis explicativas, seja constante, isto é: 2)( iVar No caso de violação desse pressuposto, tem-se o fenômeno da heteroscedasticidade, ou seja, a variância não é mais constante. 2 )( iiVar Como surge a heteroscedasticidade e quais suas principais fontes? É comum nos modelos de aprendizagem do erro; Com efeito, na medida em que as pessoas vão constantemente aprendendo, os erros na execução de determinada técnica vão gradativamente diminuindo. Exemplo, erros de condução de veículo versus tempo de prática de direção. Erros de especificação do modelo, como por exemplo, na omissão de variáveis relevantes; Na presença de observações aberrantes (valores extremos – outliers). Como detectar problemas de heteroscedasticidade? Podem-se detectar problemas de heteroscedasticidade através dos seguintes procedimentos e testes estatísticos: a) Método gráfico Não havendo nenhuma informação a priori (ou empírica) sobre a natureza da heteroscedasticidade, podemos na prática fazer a análise de regressão sob a hipótese de que os erros estocásticos têm suas variâncias constantes (homoscedásticas), então examinamos os resíduos ao quadrado, ^ 2 i , com o objetivo de verificar se eles exibem algum padrão sistemático. Embora ^ 2 i não sejam a mesma coisa que 2 i , podem ser usados como substitutos, principalmente se o tamanho da amostra for suficientemente grande. b) Teste de Goldefeld-Quandt 36 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Consiste em verificar se existe diferença entre a variância dos resíduos estimados, ou seja, ^ i , localizados nas proximidades do intercepto linear, e aqueles que se encontram a uma distância maior. Assim, se tabeladoFF * , ou seja, se ^ 2 1 ^ 2 2 , rejeita-se a hipótese nula de que os errosestimados são homoscedásticos. Portanto, constata-se que nos encontramos na presença de heteroscedasticidade. c) Teste de Park Park formaliza o método gráfico ao sugerir que 2 i é alguma função da variável explicativa iX . A forma da função sugerida por ele pode ser dada por iv ii eX 22 iii vX lnlnln 22 Como geralmente 2 i não é conhecido, Park sugere usar ^ 2 i como uma proxy e rodar a seguinte regressão: iii vX lnlnln 2 ^ 2 iii vX lnln ^ 2 Se apresentar um valor estatisticamente significativo, ou seja, tomando como 0:0 H e alternativamente 0:1 H , tem-se que se a estatística teste de Student, 2t , rejeita-se a 0H , isto sugeriria que a heteroscedasticidade está presente nos dados. As conseqüências da heteroscedasticidade A principal conseqüência da heteroscedasticidade é que o Método dos Mínimos Quadrados não gera estimadores dos parâmetros que sejam eficientes. Assim: 37 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Apesar dos estimadores dos parâmetros são não-viesados. Eles são ineficientes (ou seja, não têm variância mínima); As variâncias estimadas dos parâmetros são viesadas, gerando problemas com os testes de hipóteses. Como exemplos, temos os testes t de Student e F de Fisch. De tal maneira que, estes, provavelmente, nos fornecem resultados imprecisos, já que )( 2 ^ Var é excessivamente grande e o que parece ser um coeficiente estatisticamente não significativo [porque o valor de t dado por )( ^ ^ i i ep t é menor do que seria apropriado e, de acordo com a fórmula de Student, quanto maior t, maior a probabilidade de rejeitarmos a hipótese nula] pode na verdade ser significativo se forem estabelecidos intervalos de confiança corretos com base no procedimento de MQG (Mínimos Quadrados Generalizados). Algumas medidas corretivas para driblar a heteroscedasticidade São duas as principais medidas conhecidas para resolver o problema da heteroscedasticidade: i. Quando a variância heteroscedástica, 2 i , é conhecida, utiliza-se o método dos Mínimos Quadrados Ponderados, MQP, vista anteriormente neste curso. Assim, quando construímos o modelo de regressão transformado, veja especificação abaixo, * 20 * 1 * iii XXYi Perceber-se que os estimadores dos parâmetros (obtido aplicando o MQO na equação transformada desse modelo) são os melhores estimadores lineares não viesados, MELNV. ii. Quando 2 i não é conhecido Existe um meio de obter estimativas consistentes (do ponto de vista estatístico) das variâncias e covariâncias dos estimadores de MQO, através de técnica ou procedimento formulado White que está disponível na maioria dos programas estatísticos, a exemplo do spss. AUTOCORRELAÇÃO Outra importante hipótese do MCRL é a de que não há autocorrelação ou correlação serial entre os termos de perturbações estocásticas i , que entram na função de regressão da população. 38 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br A essência da autocorrelação Conforme vimos, é desejável que os erros (ou seja, os termos estocásticos) sejam não autocorrelacionados ou não tenham correlação serial entre si. De tal forma que não possa haver dependência temporal dos valores sucessivos das perturbações estocásticas. Em outras palavras, os termos aleatórios não se correlacionam, ou seja, a covariância entre pares de variáveis aleatórias, i e j , ji , é nula. Essa hipótese pode ser convenientemente expressa utilizando-se da seguinte relação algébrica ji jiCov ),( Nesta expressão ρ é conhecido como coeficiente de correlação, o qual mede o grau de associação linear (ou dependência linear) entre duas ou mais variáveis quaisquer, no caso, entre os termos de perturbações estocásticos, i e j . )]}()][({[),( jjiiji EEECov , temos que 0)().()(),( jijiji EEECov , já que i e j são independentes. Portanto, ρ = 0 quando ji . Pode-se também explicitar algebricamente a hipótese de autocorrelação serial dos erros estocásticos através da seguinte expressão: ttt 1. O termo aleatório t deixa de ser independente e, nesse exemplo, é representado por um esquema auto-regressivo de primeira ordem, RA (1). Isto significa que ele depende do valor de ocorrido no período anterior, t – 1, e de um choque aleatório t , que tem distribuição normal, com média zero e variância constante. Se 0 tem-se uma autocorrelação positiva, caso contrário, 0 , tem-se uma autocorrelação negativa. Observação: o símbolo representa a letra grega nu, lê-se ni. Como surge a autocorrelação e quais suas fontes? 39 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Omissão de variáveis explicativas relevantes (erro de especificação). Isso se deve ao fato do erro estocástico incorporar os efeitos dessa variável que foi excluída do modelo. Os procedimentos para dessazonalização de séries temporais com médias móveis. As transformações realizadas no modelo para, por exemplo, incorporar expectativas ou aspectos dinâmicos das relações econômicas também pode gerar autocorrelação. Defasagens nas variáveis explicativas, por exemplo, em uma regressão de série temporal do consumo sobre a renda, não é raro verificar que o consumo no período corrente depende, entre outras coisas, do consumo no período anterior. As conseqüências da autocorrelação Apesar de que o método dos Mínimos Quadrados possibilite obter estimadores (para os parâmetros) lineares e não-viesados (além de consistentes), eles já não são mais eficientes (não têm variância mínima). Os estimadores dos parâmetros de MQO, embora não-viesados, já não possuem variância mínima entre todos os estimadores lineares não-viesados (contraria o Teorema de Gauss-Markov). Adicionalmente, como no caso da heteroscedasticidade, para estabelecer intervalos de confiança e para testar hipóteses, devemos usar MQG (Mínimos Quadrados Generalizado), e não MQO, embora os estimadores derivados deste último sejam não-viesados e consistentes. Como detectar problemas de autocorrelação? Podem-se detectar problemas de autocorrelação através dos seguintes testes estatísticos: a) Teste d de Durbin-Watson Este teste só se aplica para a existência de autocorrelação com o padrão auto-regressivo de primeira ordem, AR(1) ttt 1. Se 0 temos que tt e nenhum problema existiria. Como não é possível testa a hipótese de que 0 , pois não se conhece a distribuição de probabilidade de seu estimador ^ , J. Durbin e G. S. Watson derivaram a seguinte estatística teste: 40 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br n t t n t tt d 1 2 2 2 1 )( )( De maneira que teremos as seguintes situações: Se não houver autocorrelação, ou seja,se 0 , então .2d Se a autocorrelação for positiva, ou seja, se 10 , então .20 d Se a autocorrelação for negativa, ou seja, se 11 , então .42 d b) Breusch-Godfreey Os pesquisadores Breusch-Godfreey desenvolveram um teste que pode ser aplicada a qualquer padrão de autocorrelação, tanto auto-regressivo, como de média móvel ou auto- regressivo de média móvel, de qualquer ordem. Dado o modelo XY Sabendo-se que erro estocástico for do tipo autoregressivo de ordem p, AR (p), ou seja, se tptpttt ...2211 A realização exige os seguintes passos: (1) Estimar a expressão XY (2) Estimar uma nova regressão com os resíduos obtidos em ttt XY 21 , ou seja, ^ como variável explicada e a matriz X e as séries defasadas dos resíduos como explicativas. Teríamos, então, a seguinte regressão que é do tipo autoregressivo integrado de média móvel, ARIMA: tptpttktkttt xxx ...... 22112211^ (3) A estatística do teste é dada por: 2^ .Rnd 41 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Sendo n número de elementos da amostra e 2R o coeficiente de determinação da regressão tptpttktkttt xxx ...... 22112211^ Se o valor da estatística ^ d for maior que o valor crítico na tabela da distribuição 2 rejeita- se 0:0 H . Portanto, existe autocorrelação de ordem p. Algumas medidas corretivas da autocorrelação A solução mais abrangente é o método de mínimos quadrados generalizados, MQG. A idéia básica que norteará todos os demais métodos é introduzir transformações nas variáveis presentes no modelo, de tal forma que o termo de erro estocástico já não seja autocorrelacionado. Assim, se nosso modelo original for: ttt XY 21 Em que o termo de erro estocástico segue o esquema auto-regressivo de primeira ordem, dado por ttt 1. Com 1 e os t seguem as hipóteses dos MQO de valor esperado zero, variância constante e ausência de autocorrelação. Procederemos da seguinte forma: (i) Fazemos a defasagem em 1 período em ttt XY 21 e a multiplicamos por (ii) Depois subtraímos ttt XY 21 de 11211 ttt XY obtendo a seguinte expressão: 11211 )()1( tttttt XXYY Ou ttttt vXXYY )()1( 1211 11211 ttt XY 42 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Ou ainda, ttt vXY * 2 * 1 * Como tv não é autocorrelacionado e satisfaz todas as hipóteses dos MQO, fica evidente que os estimadores da equação transformada, ttt vXY ** 2 * 1 * , são MELNV. Entretanto, isto só seria possível se fosse conhecido, mas infelizmente não é o que ocorre. Assim, alguns procedimentos adicionais foram desenvolvidos por Cochrane-Orcutt. O procedimento de Cochrane-Orcutt consiste em: (1) Estimar a equação ttt XY 21 , ou seja, o modelo original por MQO. (2) Com os resíduos obtidos, estimar , por meio da seguinte fórmula: n t t n t tt 2 2 ^ 2 ^ 1 ^ ^ )( )().( (3) Gerar a equação transformada ttttt vXXYY )()1( 1 ^ 2 ^ 11 ^ ttt vXY ''' 21 (4) Estimar ttt vXY ''' 21 por MQO, (5) Repetir os passos 2, 3 e 4 até que haja convergência do valor estimado para ^ . MULTICOLINEARIDADE A última, mas nem por isto menos importante hipótese que foi vista MCRL, foi à hipótese de que não existe correlação entre as variáveis explicativas, Xi. Essa hipótese afirma que não há correlação perfeita entre as variáveis explicativas, que devem ser linearmente independentes. Em outras palavras, não é possível a presença de uma variável X que seja função exata de outra variável ou de 43 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br outras variáveis. Quando essa hipótese é contrariada, tem-se a ocorrência do fenômeno da multicolinearidade. A essência da multicolinearidade. De acordo com Gujarati (2000), o termo multicolinearidade foi cunhado por Ragnar Frisch que estabeleceu uma forma de detectar, através de teste estatístico, teste F, problemas de multicolinearidade. Originalmente, o significado da multicolinearidade era a existência de uma “perfeita” (ou exata) relação linear entre algumas ou todas as variáveis explicativas de um modelo de regressão. A hipótese da ocorrência da multicolinearidade pode ser expressa algebricamente da seguinte forma: 0...332211 kk XXXX Em que os k ,...,,, 321 são constantes e nem todos eles são simultaneamente iguais a zero, ou seja, tem-se a situação de pelo menos algum 0i garantido que existe uma combinação linear entre os regressores, neste caso, dizemos que eles são linearmente dependentes ou multicolineares. Como surge a multicolinearidade e quais suas fontes Em primeiro lugar, podemos destacar o fato de que variáveis econômicas sofrem influência de muitos fatores. Com isso, devem apresentar comportamentos semelhantes. Dito de outra forma, algumas variáveis podem apresentar a mesma tendência durante alguns períodos. Assim, pode ocorrer que entre as explicativas exista uma correlação maior do que se espera teoricamente, como decorrência da seleção de uma amostra que inclua apenas observações referentes a esses períodos. A utilização de valores defasados de algumas das variáveis explicativas com novas variáveis independentes também pode ocasionar o problema da multicolinearidade. No contexto dos modelos de defasagens, podemos verificar o papel dessas novas variáveis independentes. As conseqüências da multicolinearidade 44 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Apesar de serem os melhores estimadores lineares não viesados, os estimadores de MQO têm grandes variâncias e covariâncias, dificultando uma estimativa precisa. Por causa disso, os intervalos de confiança tendem a serem maiores, resultando na aceitação da “hipótese nula zero” (qual seja, a de que os coeficientes de inclinação parcial da equação populacional sejam individualmente iguais a zero), mais prontamente. Adicionalmente, a razão t de um ou mais coeficientes tende a ser estatisticamente não significante. Embora a razão t de um ou mais coeficientes tende a ser estatisticamente insignificante, o R2, a medida global do grau de ajuste, pode ser bastante alto. Os estimadores de MQO e seus erros-padrão podem ser sensíveis a pequenas variações nos dados. Em poucas palavras, teremos a situação em que os estimadores dos parâmetros de MQO, embora não-viesados, já não possuem variância mínima, entre todos os estimadores lineares não-viesados. Complementarmente, observa-se que para estabelecer intervalos de confiança e para testar hipóteses, devemos usar MQG, e não MQO, embora os estimadores derivados deste último sejam não-viesados e consistentes.Como detectar problemas de multicolinearidade? Para descobrir se a multicolinearidade está presente em modelos que envolvem mais de duas variáveis explicativas, observam-se as seguintes características nos modelos: (i) Alto 2R , porém poucas razões t significativas. Este é o clássico sintoma de multicolinearidade. Se 2R for alto, o teste F, na maioria dos casos, rejeitará a hipótese de que os coeficientes de inclinação parcial são simultaneamente iguais a zero, mas os testes t individuais vão mostrar que nenhum ou algum pouco dos coeficientes de inclinação parcial são estatisticamente diferentes de zero; (ii) Altas correlações dois a dois entre os regressores. Se o coeficiente de correlação dois a dois ou de ordem zero for alto, então a multicolinearidade se constitui um sério problema; (iii) Fator inflação da variância. A variância de um coeficiente de regressão parcial pode ser expressa como: ) 1 1 ()( 22 2^ Rx Var j j Ou 45 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br j j j FIV x Var 2 2^ )( Onde ) 1 1 ( 2 j j R FIV Que é o fator inflação da variância. À medida que 2 jR aumenta em direção à unidade, ou seja, conforme aumenta a colinearidade de jX com os outros regressores, o FIV também aumenta e, no limite, pode ser infinito. Por isso o FIV é usado como um indicador da multicolinearidade. Come efeito, quanto maior o valor do FIVj, mais problemática ou colinear é a variável jX . Como regra, um FIV de uma variável exceder 10 diz-se que essa variável é altamente colinear. Variáveis dummy ou binárias As variáveis mencionadas até aqui eram referentes a grandezas mensuráveis (variáveis quantitativas ou métricas). No entanto, em muitos modelos podem surgir variáveis explicativas importantes para a modelagem econométrica que não são diretamente mensuráveis. Podemos citar, a título de exemplo, o estado civil do consumidor, seu gênero e condição de empregado ou não empregado, em uma estimação da função consumo interpessoal. Outro exemplo seria a estimação de uma função de consumo agregada na distinção entre área urbana e área rural. Por isso, faz-se necessário introduzir o conceito de variáveis dummy ou binárias. De fato, essas variáveis tornam possível incluir efeitos de variáveis qualitativas, categóricas ou mesmo variáveis mensuráveis, quando o importante for à distribuição em classes. Vasconcellos (2000), a título de exemplos, expressa as variáveis dummies da seguinte forma: Para fatores qualitativos (categorias): Grupo social; Setor de atividade; Região; Gênero; Estado civil. 46 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br Para variáveis contínuas expressas em classes: Faixa etária; Classe de renda; Nível de escolaridade. Na construção de uma variável dummy, escolhemos uma característica e freqüentemente atribuímos valor 1 se a característica está presente e valor zero, caso contrário. Embora seja comum o uso das variáveis dummies como variáveis explicativas muito naturalmente é possível construir modelos cuja variável explicada ou dependente é do tipo dummy, como por exemplo, nos modelos Logit e Probit, que veremos mais tarde neste curso. Existem os modelos simples com uma só variável explicativa dummy e os modelos mais complexos que combinam variáveis quantitativas e variáveis dummy. Nesse último caso, temos duas possíveis análises: incorporar mudanças no intercepto e/ou na declividade de uma função ou possibilitar a identificação de mudanças estruturais. Modelos com variáveis dummy Um modelo simples em que a variável independente é uma variável dummy poderia ser representado pela estimação de uma função de uma empresa que utiliza dois processos produtivos A e B, cada um com produção média esperada distinta, mas com a mesma variância (VASCONCELLOS, 2000). Assim, a produção da empresa em uma amostra de períodos de tempo seria a variável dependente, e a dummy para o processo produtivo seria a única variável independente. Ou seja: ttt DY 21 Aqui o tY é a produção em cada período t e o D é uma variável dummy com as seguintes características: D = 1, se o produto foi obtido pelo processo A; D = 0, se o produto foi obtido pelo processo B A equação estimada pode ser expressa da seguinte forma: DY 2 ^ 1 ^^ Sua interpretação é feita da seguinte forma: Se D = 0, estamos tratando do processo B, neste caso temos 47 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br 1 ^^ Y Que nos dá a produção média esperada do processo B. Se D = 1, estamos tratando do processo A, assim: 1.2 ^ 1 ^^ Y 2 ^ 1 ^^ Y Que é a produção média esperada para o processo A. Comparando os dois resultados, é fácil perceber como é possível testar se a diferença entre os dois processos é significante. Com efeito, se 02 ^ , podemos concluir que não há diferença entre os processos A e B. No caso em que 2 ^ fosse positivo e estatisticamente diferente de zero, poderíamos inferir (desde que 1 ^ seja positivo) que o processo A é mais produtivo que o B. Se, ao contrário, 2 ^ fosse negativo e estatisticamente diferente de zero, concluiríamos que o processo B seria o mais produtivo. Modelos que combinam variáveis independentes quantitativas e qualitativas Conforme vimos acima, muito freqüentemente os modelos com variável independente tipo dummy surgem em conjunto com variáveis quantitativas. Tais modelos possibilitam especificar essas variáveis de forma aditiva e/ou multiplicativa para testar se seu efeito recaiu sobre o intercepto da regressão e/ou sobre as declividades. Cita-se como exemplo a estimação da função consumo, dado que o consumo muitas das vezes está relacionado à renda e a condição de cada observação amostral corresponder a um período atípico, por exemplo, a um ano de guerra. Ainda de acordo com Vasconcellos (2000), quando a hipótese é que a dummy altera apenas o termo autônomo de regressão, a dummy é adicionada ao modelo, conforme se vê abaixo: ttt DXY 3221 Nessa equação temos que as variáveis representam: tY o consumo agregado no período t; tX 2 a renda agregada no período t. 48 *Professor Assistente de Métodos Quantitativos da UFS Graduado em Economia pela UEFS Mestre em Economia do Trabalho pela UFBA olinthos@ig.com.br D a variável dummy com os seguintes elementos: D = 1, anos de guerra; D = 0, anos de paz. De maneira que a interpretação da equação estimada é a seguinte: Para os anos de paz, D = 0: ttt DXY 3221 DXY t 3 ^ 22 ^ 1 ^^ Para os anos de guerra, D = 1: ttt XY 1.3221 ttt XY 2231 )( tXY 22 ^ 3 ^ 1 ^^ )( Pelas equações acima, podemos analisar o impacto da dummy que ocorre na forma de
Compartilhar