Baixe o app para aproveitar ainda mais
Prévia do material em texto
ECONOMETRIA Prof. Patricia Maria Bortolon, D. Sc. Cap. 10 – Multicolinearidade: o que acontece se os regressores são correlacionados? Fonte: GUJARATI; D. N. Econometria Básica: 4ª Edição. Rio de Janeiro. Elsevier- Campus, 2006 • Premissa 10 do modelo de regressão linear clássico é que não há multicolinearidade entre os regressores. 1. Qual é a natureza da multicolinearidade? 2. A multicolinearidade é realmente um problema? 3. Quais são as suas consequências práticas? 4. Como é possível detectá-las? 5. Que medidas práticas podemos tomar para amenizar o problema da multicolinearidade? • Também examinaremos a premissa 7 (no. de observações da amostra deve ser maior que o número de regressores) e a premissa 8 (deve haver suficiente variabilidade nos valores dos regressores). A natureza da multicolinearidade • Multicolinearidade perfeita λ1𝑋1 + λ2𝑋2 + ⋯ + λ𝑘𝑋𝑘 = 0 𝑋1 = − λ2 λ1 𝑋2 + ⋯ − λ𝑘 λ1 𝑋𝑘 • Multicolinearidade imperfeita λ1𝑋1 + λ2𝑋2 + ⋯ + λ𝑘𝑋𝑘 + 𝑣𝑖 = 0 𝑋1 = − λ2 λ1 𝑋2 + ⋯ − λ𝑘 λ1 𝑋𝑘 − 1 λ1 𝑣𝑖 X1 é uma combinação linear exata das demais variáveis X1 não é mais uma combinação linear exata porque também é determinada por um termo de erro estocástico A natureza da multicolinearidade • Multicolinearidade perfeita – Coeficientes indeterminados e erros padrão infinitos • Multicolinearidade imperfeita – Coeficientes com erros padrão grandes, ou seja, serão estimados com pouca precisão – Lembrar de 7.4.12 𝑣𝑎𝑟 𝛽𝑗 = 𝜎2 𝑥𝑗 2 1 1−𝑅𝑗 2 É o R2 da regressão de Xj contra as outras variáveis explicativas A natureza da multicolinearidade • Fontes de multicolinearidade – Método de coleta de dados: coleta limitada a uma faixa de valores dos regressores – Restrições nos próprios dados: ex: empresas maiores têm maior endividamento – Especificação do modelo: acréscimo de termos polinomiais – Modelo superdeterminado: muitas variáveis para poucas observações – No caso de séries temporais quando os regressores têm uma tendência comum, ou seja, todos aumentam ou diminuem ao longo do tempo Estimação na presença de multicolinearidade perfeita 𝑋3𝑖 = λ𝑋2𝑖 𝑌𝑖 = 𝛼 + 𝛽1𝑋2𝑖 + 𝛽2𝑋3𝑖 + 𝑢𝑖 𝑌𝑖 = 𝛼 + 𝛽1𝑋2𝑖 + 𝛽2(λ𝑋2𝑖) + 𝑢𝑖 𝑌𝑖 = 𝛼 + (𝛽1 + 𝛽2λ)𝑋2𝑖 + 𝑢𝑖 Esse valor será estimado e não se poderá determinar β1 e β2 separadamente Consequências teóricas da multicolinearidade • Os estimadores de MQO ainda são os melhores estimadores não tendenciosos. • Então qual é o problema? • É mais difícil estimar coeficientes com erros-padrão pequenos. – Mas isso também ocorre quanto há (i) poucas observações e (ii) variáveis independentes com pequena variância – Exemplo: 𝐶𝑜𝑛𝑠𝑢𝑚𝑜𝑖 = 𝛽1 + 𝛽2𝑅𝑒𝑛𝑑𝑎𝑖 + 𝛽3𝑅𝑖𝑞𝑢𝑒𝑧𝑎𝑖 + 𝑢𝑖 – Pessoas com renda elevada têm riqueza elevada – Para estimar precisaríamos ter na amostra pessoas ricas com renda baixa, e pessoas com renda alta e pouca riqueza – Aumentar a amostra pode ajudar Consequências práticas da multicolinearidade 1. Embora sejam melhores estimadores lineares não tendenciosos, os estimadores de MQO têm grande variância e covariância, tornando difícil uma estimação exata. 2. Em decorrência de 1, os intervalos de confiança tendem a ser mais amplos, facilitando a aceitação da “hipótese nula igual a zero” 3. Também com efeito de 1, a razão t de um ou mais coeficientes tende a ser estatisticamente insignificante 4. Embora a razão t de um ou mais coeficientes seja estatisticamente insignificante, R2, a medida geral da qualidade do ajustamento, pode ser muito alto. 5. Os estimadores MQO e seus erros-padrão podem ser sensíveis a pequenas alterações nos dados. Consequências práticas da multicolinearidade • Grandes variâncias e covariâncias dos estimadores MQO em: 𝑦𝑖 = 𝛽2𝑥2𝑖 + 𝛽3𝑥3𝑖 + 𝑢𝑖 𝑣𝑎𝑟 𝛽2 = 𝜎2 𝑥2𝑖 2 (1−𝑟23 2 ) 𝑣𝑎𝑟 𝛽3 = 𝜎2 𝑥3𝑖 2 (1−𝑟23 2 ) A variância dos coeficientes aumenta a uma velocidade igual a 1 (1−𝑟23 2 ) FIV = fator de inflação da variância 𝑣𝑎𝑟 𝛽2 = 𝜎2 𝑥2𝑖 2 𝐹𝐼𝑉 𝑣𝑎𝑟 𝛽3 = 𝜎2 𝑥3𝑖 2 𝐹𝐼𝑉 Consequências práticas da multicolinearidade • Grandes variâncias e covariâncias dos estimadores MQO 𝐹𝐼𝑉 = 1 (1 − 𝑟23 2 ) se r23 = 1 => FIV → ∞ se r23 = 0 => FIV → 1 Quanto mais próximo de 1 melhor. Ver figura 10.2. Consequências práticas da multicolinearidade • Grandes variâncias e covariâncias dos estimadores MQO 𝑣𝑎𝑟 𝛽𝑗 = 𝜎2 𝑥𝑗 2 1 1 − 𝑅𝑗 2 𝑣𝑎𝑟 𝛽𝑗 = 𝜎2 𝑥𝑗 2 𝐹𝐼𝑉𝑗 Ou seja, a 𝑣𝑎𝑟( 𝛽) depende de: 1. 𝑥𝑗 2 => deve haver variabilidade suficiente nos valores assumidos pelos regressores (Premissa 8) 2. FIV 3. 𝜎2 Consequências práticas da multicolinearidade • Grandes variâncias e covariâncias dos estimadores MQO • Tolerância = inverso do FIV 𝑇𝑂𝐿𝑗 = 1 𝐹𝐼𝑉𝑗 = (1 − 𝑅𝑗 2) Consequências práticas da multicolinearidade • Intervalos de confiança mais amplos – Com intervalos mais amplos os dados amostrais podem ser compatíveis com um conjunto mais amplo de hipóteses – Logo, a chance de aceitar uma hipótese nula sendo ela falsa é aumentada. Esse é o erro do tipo II. Consequências práticas da multicolinearidade • Razões t “insignificantes” – A razão t é 𝛽2 𝑒𝑝( 𝛽2) que será comparada com o tcrítico para rejeição ou não da hipótese de que β2 = 0. – Com o aumento de 𝑒𝑝( 𝛽2) teremos razões t pequenas o que torna mais difícil rejeitar H0: β2 = 0. Consequências práticas da multicolinearidade • Alto valor de R2, mas com poucas razões t significativas – Com R2 alto => o teste F rejeitará H0: β1 = β2 = ... = βk = 0, ou seja, a regressão como um todo é significativa mas com poucos valores t significantes – É um sintoma de multicolinearidade. Rodar regressõs em multi1.txt. Comando estat vif. Detecção da Multicolinearidade • Kmenta: “A multicolinearidade é uma questão de grau, e não de tipo” • Não há um método único para detectá-la ou medir sua força. Temos alguma regras práticas: 1. R2 alto, mas com poucas razões t significativas. Detecção da Multicolinearidade 2. Altas correlações entre pares de regressores (> 0,8) • Problema: uma baixa correlação de ordem 0 não garante que não há multicolinearidade 𝑌𝑖 = 𝛽1 + 𝛽2𝑋2𝑖 + 𝛽3𝑋3𝑖 + 𝛽4𝑋4𝑖 + 𝑢𝑖 E imaginemos que 𝑋4𝑖 = λ2𝑋2𝑖 + λ3𝑋3𝑖 Ou seja, X4 é uma combinação linear exata de X2 e X3, de modo que 𝑅4.23 2 = 1 é o coeficiente de determinação da regressão X4 contra X2 e X3. 𝑅4.23 2 = 𝑟42 2 + 𝑟43 2 − 2𝑟42𝑟43 𝑟23 1 − 𝑟23 2 Mas como 𝑅4.23 2 = 1 devido à colinearidade perfeita, obtemos: 1 = 𝑟42 2 + 𝑟43 2 − 2𝑟42𝑟43 𝑟23 1 − 𝑟23 2 Que pode ser satisfeita por r42=0,5, r43=0,5 e r23= -0,5, que são valores não muito altos. Então, em modelos com mais de 2 variáveis explanatórias a correlação simples não é um indicador infalível da presença de multicolinearidade. Ver comandos em correlações.txt Detecção da Multicolinearidade 3. Exame das correlações parciais 4. Regressões auxiliares 1. Fazer a regressão de uma variável explicativa com as demais 2. Se o teste F apontar significância da regressão auxiliar, há multicolinearidade 3. Se for significativo decidir se Xi deve ser mantido no modelo Regra prática de Klien: a multicolinearidade só será um problema sério se o R2 de todas as regressões auxiliares for maior que o R2 da regressão de Y contra X. (como qualquer regra prática use com cautela) 4. Tolerância e fator de inflaçãoda variância: Regra prática: se o FIV > 10, o que acontece quando 𝑅𝑗 2 > 0,90 diz-se que essa variável é altamente colinear. Ver comandos em correlações.txt Detecção da Multicolinearidade Crítica: 𝑣𝑎𝑟 𝛽𝑗 = 𝜎2 𝑥𝑗 2 𝐹𝐼𝑉𝑗 mostra que um FIV alto não necessariamente implicará uma 𝑣𝑎𝑟 𝛽𝑗 alta, pois este aumento pode ser contrabalançado por 𝑥𝑗 2 maior ou 𝜎2 menor. Outra regra: quanto mais próxima de zero estiver a TOLj, maior o grau de colinearidade dessa variável com os demais regressores. Ver comandos em correlações.txt Medidas Corretivas • Não fazer nada – Blanchard: “vontade divina” – Se não posso estimar o coeficiente individualmente estimo uma combinação linear dos mesmos, é melhor que nada – 𝑦𝑖 = (𝛽1 + 𝛽2λ)𝑥2𝑖 + 𝑢𝑖 • Exclusão de variáveis e viés de especificação – Excluir a variável com correlação alta – Pode levar ao viés de especificação – Se a teoria estipula a variável ela não deve ser retirada Medidas Corretivas • Informações a priori – Se trabalhos anteriores estipulam a relação entre os coeficientes ele pode ser usado – Ex: se sabe-se que β3 = 0,10β2 𝑌𝑖 = 𝛽1 + 𝛽2𝑋2𝑖 + 𝛽3𝑋3𝑖 + 𝑢𝑖 𝑌𝑖 = 𝛽1 + 𝛽2𝑋2𝑖 + 0,10𝛽2𝑋3𝑖 + 𝑢𝑖 𝑌𝑖 = 𝛽1 + 𝛽2(𝑋2𝑖 + 0,10𝑋3𝑖) + 𝑢𝑖 𝑌𝑖 = 𝛽1 + 𝛽2𝑋𝑖 ∗ + 𝑢𝑖 Medidas Corretivas • Transformação de variáveis – Se a série é temporal – Ex: consumo, renda e riqueza => renda e riqueza podem evoluir no tempo de forma semelhante levando à correlação 𝑌𝑡 = 𝛽1 + 𝛽2𝑋2𝑡 + 𝛽3𝑋3𝑡 + 𝑢𝑡 Vale também em t-1: 𝑌𝑡−1 = 𝛽1 + 𝛽2𝑋2𝑡−1 + 𝛽3𝑋3𝑡−1 + 𝑢𝑡 Solução: forma de primeira diferença (𝑌𝑡 − 𝑌𝑡−1) = 𝛽2(𝑋2𝑡 − 𝑋2𝑡−1) + 𝛽3(𝑋3𝑡 − 𝑋3𝑡−1) + 𝑣𝑡 Problema: perda de uma observação Problema: na maioria dos casos é correlacionado serialmente violando a premissa 5 Problema: este procedimento não se aplica a dados em corte transversal. Medidas Corretivas • Transformação de variáveis – Solução: transformação proporcional 𝑌𝑡 𝑋3𝑡 = 𝛽1 1 𝑋3𝑡 + 𝛽2 𝑋2𝑡 𝑋3𝑡 𝑋2𝑡 + 𝛽3 + 𝑢𝑡 𝑋3𝑡 Onde: Yt = consumo X2t = PNB X3t = população Problema: esse termo de erro será heterocedástico Medidas Corretivas • Dados adicionais ou novos – Testar outra amostra – Aumentar o tamanho da amostra 𝑣𝑎𝑟 𝛽2 = 𝜎2 𝑥2𝑖 2 (1 − 𝑟23 2 ) • Outros métodos – Análise fatorial – Componentes principais Com o aumento da amostra esse termo aumenta. A multicolinearidade é necessariamente algo ruim? • Se o objetivo é a previsão, a mulicolinearidade não é ruim. • Se a estimação dos parâmetros é importante então teremos problemas. • Exemplo aplicado: os dados de Longley
Compartilhar