Buscar

A Metodologia econométrica aula dia 23 09

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

A Metodologia econométrica 
O modelo de regressão linear clássico busca encontrar uma relação estatística entre duas variáveis, 
X e Y, ou y = f(x). Nestes tipos de modelos, pressupõe-se implicitamente que as relações causais, 
se as houver, entre as variáveis explicadas ou dependentes, só se dão em direção das variáveis 
explicativas ou independentes. É o modelo mais popular para estudar a relação entre duas 
variáveis, no qual os parâmetros de interesse são estimados a partir da minimização da soma dos 
quadrados dos resíduos. Estes estimadores são conhecidos como estimadores de mínimos 
quadrados ordinários (MQO) 
As hipóteses têm um papel importante na análise de relação de causalidade, tendo em vista o fato 
de não ser possível a utilização de toda população na grande maioria das vezes, razão pela qual 
utiliza-se de amostras aleatórias supostamente representativas do universo que se quer analisar, e 
para isso é necessário identificar algumas hipóteses básicas de um modelo de regressão com o 
intuito de garantir que as propriedades dos estimadores de MQO serão mantidas. Convém listar 
tais propriedades (pressupostos) do modelo: 
− O modelo de regressão é linear nos parâmetros; 
− O número de observações, n, deve ser superior ao numero de parâmetros estimados pelo 
modelo; 
− Os erros são variáveis aleatórias com valor esperado nulo e variância constante; 
− Os termos de erros são normalmente distribuídos; 
− Os erros são não correlacionados, isto é, são independentes sob a condição de normalidade. 
Se qualquer uma dessas hipóteses estiver errada, existe um Erro de especificação. A violação 
dessas hipóteses pode ser causada por diferentes razões e as consequências da violação destas 
hipóteses devem ser objecto de atenção do pesquisador. 
O Sob muitos aspectos, as premissas analisadas no modelo de regressão linear clássico, podem ser 
também utilizada no modelo de regressão linear múltipla. No entanto, novos testes precisam ser 
realizados. As variáveis independentes e o termo de erro são não correlacionados e não há 
multicolinearidade perfeita, isto é, não há relações lineares perfeitas entre as variáveis. 
Propriedades Desejáveis dos Estimadores 
− Ausência de Tendenciosidade - se diz que um estimador é não-tendencioso se a média ou 
o valor esperado de β * for igual ao verdadeiro valor, ou seja, E ( β *) = β. 
− Eficiente – espera-se que um estimador seja não tendencioso e eficiente quando, para um 
dado tamanho da amostra, a variância de β * é menor que a variância de qualquer outro 
estimador não-tendencioso. Algumas vezes é difícil julgar se um estimador é eficiente, 
então é natural descrever estimadores em termos de sua eficiência relativa, ou seja, um 
estimador será relativamente mais eficiente que outro. 
− Consistente - o estimador β * é considerado consistente quando se aproxima do verdadeiro 
β conforme o tamanho da amostra aumentasse. Ou, seja, espera-se que à medida que a 
amostra se torne muito grande, a probabilidade de que β * seja diferente de β se torne muito 
pequena. 
Tipo de Dados 
− Dados de Corte Transversal (dados em cross-section) - Estes são dados em que uma ou 
mais variáveis foram coletadas no mesmo ponto do tempo. Trabalha-se com dados em 
cross-section sempre que se tem observações para várias unidades individuais (e.g. 
pessoas, empresas, municípios, estados, países) em um ponto no tempo. Um fato 
importante na utilização desse tipo de dados é que a ordenação dos dados, a partir da 
amostra aleatória, não é relevante. 
− Séries Temporais - é um conjunto de observações dos valores que uma variável assume 
em diferentes momentos do tempo”. Exemplos de dados de séries temporais incluem 
preços de ações, oferta de moeda, índice de preços ao consumidor, Produto Interno bruto 
(PIB), taxas de ocupação de um resort, relatórios meteorológicos, taxa de desempregos, 
entre tantos outros. Esses dados são coletados em intervalos regulares, que pode ser 
diariamente, semanalmente, mensalmente, trimestralmente, anualmente, etc. Uma das 
características principais das séries temporais é a organização de diversas variáveis ao 
longo tempo, para uma única unidade individual. Um modelo de série temporal reflete o 
padrão de movimentos passados de uma variável e usa essa informação para prever seus 
movimentos futuros. Nestes modelos, a ordem das observações é de extrema importância. 
Dificuldades encontradas nas análises de séries temporais: 
• O trabalho empírico baseado em séries temporais pressupõe que a série temporal 
subjacente seja estacionária, ou seja, pode-se dizer de maneira geral, que sua média 
e sua variância não variam sistematicamente ao longo do tempo; 
• Frequentemente verifica-se a existência de autocorrelação em séries não-
estacionárias; 
• Observações correlacionadas são mais difíceis de analisar e requerem técnicas 
específicas. Portanto é muito importante verificar se a relação entre as variáveis é 
espúria ou sem sentido; 
• Presença de tendências, variações cíclicas ou sazonais podem ser difíceis de estimar 
ou remover; 
• É mais difícil lidar com observações perdidas e dados discrepantes devido à 
natureza sequencial; 
• Algumas séries temporais financeiras, como preço das ações, exibem o que é 
conhecido como fenômeno do passeio aleatório. Isso significa que a melhor 
previsão de uma ação de amanhã, é seu valor de hoje acrescido de um termo de 
erro. O que não acontece na prática. 
− Agrupamento de Cortes Transversais - Alguns conjuntos de dados têm tanto 
características de corte transversal quanto série de tempo. Este tipo de estrutura ocorre 
quando um mesmo conjunto de variáveis é coletado em diferentes períodos de tempo, em 
distintas amostras aleatórias de uma mesma população. Por exemplo, suponha que dois 
estudos sobre família sejam realizados com dados de corte transversal, um em 2013 e outro 
em 2017. Em 2013, uma amostra aleatória de família é pesquisada para variáveis tais como 
renda, poupança, tamanho da família, e assim por diante. Em 2017, uma nova amostra 
aleatória de família é extraída usando as mesmas questões da pesquisa. 
Com a utilização desse tipo de dados, além de aumentar o tamanho da amostra, a análise 
do corte transversal agrupada é importante para estimar como uma relação fundamental 
mudou ao longo do tempo. Podendo obter ainda, estimadores mais precisos e estatísticas 
de testes mais poderosas. No entanto, o agrupamento só é útil nesse sentido, se a relação 
entre a variável dependente e pelo menos uma das variáveis independentes permanecerem 
constantes ao longo do tempo. 
− Dados de Painel ou Longitudinais - Consiste em uma série de tempo para cada membro 
do corte transversal do conjunto de dados. São estruturados com observações de variáveis 
de diferentes unidades em cross-section ao longo de um mesmo período de tempo, sendo 
que se tem mais de uma observação temporal por unidade de cross-section. A característica 
essencial dos dados de painel que os distingue dos dados de corte transversal agrupado é o 
fato de que as mesmas unidades de corte transversal são acompanhadas ao longo de um 
determinado período. Podemos usar como exemplo de dados de painel a criminalidade de 
determinados municípios ao longo dos anos, desde que a analise seja dos mesmos 
municípios. Outro exemplo seria o estudo de desempenho escolar de um mesmo conjunto 
de indivíduos durante o período fixo. 
 
A metodologia econométrica 
1. Exposição da teoria - Neste passo são feitas hipóteses sobre os tipos de relações causais 
entre variáveis dependentes e independentes. 
2. Especificar a forma do modelo - questões teóricas sozinhas usualmente não podem 
especificar a forma funcional. Isto é um típico exemplo do fato que restrições qualitativas 
derivadas da teoria econômica não servem para delimitar as formas funcionais mais perto. 
Por exemplo, pode ser do tipo Y=ABx, onde A e B são constantes. Se este for o caso, deve-
se fazeruma transformação de maneira a converter equações não-lineares em lineares. 
3. Estimar os parâmetros - a discussão é ampla e vários métodos são disponíveis. O método 
dos mínimos quadrados é o mais utilizado; inclusive quando se trata de modelos não 
linears. A equação dos mínimos quadrados estabelece a fórmula matemática da linha reta 
que passa através dos dados da “melhor” forma possível. O “melhor” no caos é dado pela 
linha que minimiza a soma dos quadrados dos desvios dos pontos em relação a reta 
estimada. 
4. Testar o modelo - Para aplicar o modelo neste estágio, requer –se responder duas questões: 
a) quão confiável é a projeção com o uso deste modelo? b) o que se pode falar a respeito 
da significância do modelo? Existe grande numero de teste estatístico aptos a responder 
estas questões; três deles são de particular importâncias. 
a) coeficiente de determinação R2 - Estabelece a proporção da variação da 
variável dependente que é explicada pelo modelo. 
b) erro padrão da estimativa – Este dado indica o campo esperado de 
variações que encontraremos se usarmos o modelo para fazer uma projeção; 
c) teste de significância – É possível que o resultado ocorreu por acaso? É 
possível que o atual R2 seja igual a zero, não obtivemos um R2 grande por 
termos um conjunto de dados ruins ou por especificar mal o modelo ou 
ainda por causa de ser pequena a amostra? O teste significância F da a 
resposta a isso. Portanto temos que estar seguros que o nosso modelo é 
significante, e explica a variações na variável que estamos projetando. 
d) erros de especificações – A especificação de um modelo de regressão 
consiste numa formulação da equação de regressão e de proposição ou 
pressupostos referentes aos regressores e ao termo de perturbação. Um erro 
de especificação, no sentido amplo do termo, ocorre todas as vezes que a 
formulação de uma equação de regressão ou um de seus pressupostos forem 
incorretos. No sentido menos amplo do termo, o erro de especificação só se 
refere a erros na formulação da equação de regressão adequada, e esta é a 
interpretação que aqui adotamos. Consideramos aqui: 
• omissão de uma variável independente; 
• não consideração de uma mudança qualitativa em uma das variáveis 
independentes; 
• inclusão de uma variável independente não importante; 
• forma matemática incorreta da equação de regressão; 
• especificação incorreta da maneira pela qual a perturbação entra na 
equação de regressão. 
5. Testando as premissas do modelo de regressão usando o “Método dos Mínimos 
Quadrados”. As premissas são: 
• a variável dependente é linearmente relacionada a independentes, ou as variáveis foram 
transformadas. 
• a variância dos erros é constante, onde os erros são definidos como a diferença entre os 
valores atuais da variável dependente e as estimativas produzidas pelo modelo. 
• os erros que ocorrem entre um caso e outro são independentes entre si? Em outras palavras, 
o erro produzido pela diferença entre o valor atual e o predito, é independente dos erros 
produzidos entre a atual predição e outras instancias? 
• os erros são normalmente distribuídos. 
De modo geral, para testar as premissas do modelo, fazemos os seguintes testes: normalidade 
multicolinearidade, heterocedasticidade e autocorrelação dos distúrbios. 
Se os teste propostos provarem que não estamos seguros das premissas dos MQO, e melhor voltar 
ou colocar hipótese adicionais ou variáveis independentes alternativas. fazer algumas 
transformações ou mesmo formular um modelo alternativo. 
− O que é normalidade 
A suposição de normalidade dos dados amostrais é uma condição exigida para a realização de 
muitas inferências válidas a respeito de parâmetros populacionais. Vários dos diferentes métodos 
de estimação e testes de hipóteses existentes foram formulados sob a suposição de que a amostra 
aleatória tenha sido extraída de uma população gaussiana. 
É importante salientar que além dos testes apresentados abaixo, é fundamental observar a 
distribuição empírica dos dados por exemplo através do gráfico de densidade. Alguns dos testes 
de normalidade são: Teste de Shapiro Wilk, Teste Anderson-darling, Teste Cramer-von 
Mises, Teste Lilliefors, Teste de Kolmogorov-Smirnov 
A hipótese a ser testada é se os dados seguem uma distribuição gaussiana. Segundo o resultado do 
teste do exemplo abaixo, temos evidências para dizer que a amostra provém de uma distribuição 
gaussiana. 
 
Agora vamos verificar o gráfico de densidade da amostra. 
 
 
− O que e heterocedasticidade? 
Um dos pressupostos básicos da utilização do método dos mínimos quadrados ordinários e a de 
que a variância das variáveis explicativas Xi tem de ser constante. Isto garante a propriedade de 
homocedasticidade. Caso contrario (variância não constante) implica a característica de 
heterocedasticidade. Isto e fácil de se observar ao estimarmos, por exemplo a procura em função 
do rendimento. Quanto maior o rendimento, obviamente, haverá maior dispersão dos dados (baixo 
rendimento tem pouca flexibilidade de consumir, portanto com pequena variância; alto rendimento 
possui mais flexibilidade entre poupar e consumir - alta variância). 
A maneira de superar esta dificuldade, é a utilização do método dos mínimos quadrados 
generalizados. Técnica que busca corrigir, justamente, esta questão. 
Por que se preocupar com heterocedasticidade? é sabido que o Teorema de Gauss-Markov, 
afirma que para que os estimadores de MQO serem os melhores estimadores lineares não viesados 
(BLUE), vale-se de entre outros pressupostos a da suposição de homocedasticidade. Assim, na 
presença da heterocedasticidade, os estimadores de MQO não são mais BLUE e nem 
assintoticamente eficientes. 
Quando os erros são heterocedásticos, os estimadores de MQO dão mais peso para os resíduos 
associados às observações com maior variância, já que a soma de quadrados dos resíduos (SSR) 
associados com os termos de maior variância tende a ser maior que aquela associada aos termos 
de menor variância. 
A suposição de homocedasticidade entra fundamentalmente na derivação das distribuições das 
variáveis presentes nos testes. Logo, toda a análise neles baseada não é válida (a falha na suposição 
de homocedasticidade é mais grave que a falha na suposição de normalidade). O problema é que 
os erros-padrão dos coeficientes estimados serão viesados. Se os erros-padrão são viesados, não 
podemos utilizar as estatísticas t, F e LM usuais. 
A primeira forma de detectar a existência de heterocedasticidade é através da análise gráfica dos 
resíduos. Assim, sugere-se a construção dos seguintes gráficos de dispersão: 
i. resíduos ao quadrado versus cada uma das variáveis explicativas; 
ii. resíduos ao quadrado versus os valores ajustados da variável resposta. 
 
− O que e autocorrelação? 
Outro pressuposto do método dos mínimos quadrados ordinários é a independência dos distúrbios 
estocásticos. O modelo generalista é o seguinte: 
Y= βX + Ui 
Onde: Y é o vetor (y1, y2,......,yn); 
X é a matriz : 
x11 x12…..x1m 
x21 x22…..x2m 
..................... 
xn1 xn2….xnm 
β é o vector (β1, β2, β3… βn) 
Ui= (u1, u2,…un) 
O fenômeno da autocorrelação ocorre quando os Ui's possuem correlação (relação estatística entre 
eles). 
É comum quando os valores podem ser ordenados no tempo (com dados de séries temporais) ou 
no espaço (com dados espaciais) sendo que o tipo mais comum de autocorrelação aquele dado por 
um processo o autorregressivo de 1ª ordem, AR. 
Principais causas da autocorrelação: 
− Inércia: séries econômicas costumam apresentar ciclos, ou seja, períodos de crescimento 
ou recessão. Quando esse comportamento se reflete nos fatores não observados (ui), é 
comum que mudanças na tendência ocorreram lentamente; 
− Falhas de especificação: a autocorrelação pode ser devida à ausência de um regressor ou 
falha na especificação da forma funcional. Os erros expressariam, assim, um padrãosistemático devido à ausência dessas informações; 
− Defasagens: as decisões econômicas em um período t dependem, muitas vezes, de 
informações defasadas do período t–1. Desconsiderar esse tipo de relação sujeitaria os erros 
à correlação serial. 
Na presença de autocorrelação nos erros, os estimadores de MQO continuam sendo não viesados 
e consistentes, mas deixam de ser eficientes (ou seja, não possuem mais variância mínima). Outra 
importante consequência da autocorrelação é o viés do estimador da variância de β, mesmo para 
amostras grandes (inconsistência). Como resultado, as estatísticas de teste t e F deixam de ser 
válidas, pois dependem da variância do estimador. 
Principais testes para se detectar a autocorrelação: 
− Análise gráfica 
 
 
− Testes Estatísticos 
Teste t: Se supormos que os erros apresentem autocorrelação de primeira ordem: 
𝑌𝑡 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2…𝛽𝑛𝑋𝑛 + 𝑌𝑡 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2…𝑈𝑖 - estimar a equação normal de 
MQO 
𝜀𝑡 = 𝜌𝜀𝑡−1 + 𝑈𝑡 - gerar resíduos e regredir os resíduos em função das variáveis explicativas 
Fazer o testar t sobre a hipótese : H0: ρ=0 – ausência de autocorrelação; 
 - Caso os regressores sejam estritamente exógenos e amostra seja relativamente 
grande. 
Durbin-Watson 
Um dos testes mais conhecidos para verificação de autocorrelação temporal é a estatística d, 
de Durbin Watson, que envolve o calculo de um teste estatístico baseado nos resíduos do 
método de regressão de mínimos quadrados. 
Durbin e Watson tabularam os limites inferiores, dL, e os limites superiores, ds, para vários 
valores de n (número de dados) e k (número de variáveis explicativas), tais que, se o d 
calculado estiver fora desses valores críticos, é possível a verificação da autocorrelação. 
Para efetuar um teste de autocorrelação, calcula-se d. 
 
Na análise da figura, verifica-se que a Estatistica de Durbin – Watson está na faixa entre 0 a 4, 
sendo que um valor próximo de 2 indica que não há autocorrelação. Através de várias 
aproximações é possível mostrar que DW = 2( 1 – ρ*). Assim, quando não há autocorrelação 
(ρ = 0), a estatística de Durbin – Watson será próxima de 2. Uma autocorrelação positiva está 
associada com valores de DW abaixo de 2, e uma autocorrelação negativa, com valores de DW 
acima de 2. Se o propósito é investigar a possibilidade de autocorrelação positiva, um valor da 
estatística de DW abaixo de dL permite rejeitar a hipótese nula de que não há autocorrelação. 
Se a estatística de DW é superior a ds, a hipótese nula se mantém. A faixa entre dL e ds 
apresenta resultados inconclusivos. Para análise a autocorrelação negativa, a hipótese nula é 
rejeitada se a estatística de DW é maior que 4 – dL, e a hipótese é aceita se DW é menor que 
4 – ds. No interior da faixa entre dL e ds o teste é inconclusivo. 
O teste de Durbin-Watson busca verificar a significância do coeficiente ρ na fórmula: 
𝜀𝑡 = 𝜌𝜀𝑡−1 + 𝑈𝑡 
onde Et é o resíduo estimado do modelo e Ut é o ruído branco com o teste de Wald . A hipótese 
nula (H0) afirma que não há autocorrelação, portanto, ρ = 0 a alternativa (H1) afirma que há 
autocorrelação, portanto, ρ diferente de 0 com sempre | ρ | <1. 
A estatística Durbin-Watson é definida por: 
 
Breusch-Godfrey: 
O teste Breusch-Godfrey é um teste estatístico que testa a autocorrelação de qualquer ordem. 
Este é um teste assintótico que testa diretamente a significância do coeficiente ρ na fórmula: 
𝑈𝑡 = 𝜌𝑈𝑡−1 + 𝑈𝑡 
hipótese nula (H0) afirma que, portanto, não há autocorrelação contra a alternativa (H1) que afirma 
que há autocorrelação, portanto, ρ diferente de 0. 
 
 
 
− O que e multiricolinearidade? 
Pelo pressuposto de ausência de multicolinearidade, exige-se que nenhuma das variáveis 
independentes esteja perfeitamente correlacionada com qualquer outra variável independente ou 
com qualquer combinação linear de variáveis independentes. Este é o fenômeno onde as variáveis 
explicativas Xi são de alguma maneira correlacionadas. 
É o terceiro fenômeno importante que traz distorções na analise de regressão, devendo de alguma 
forma ser superado. Um entendimento “geométrico” seria o seguinte. Imagine-se uma regressão 
com uma variável dependente (procura por exemplo) e duas variáveis “explicativas” (rendimento 
e produto interno bruto, por exemplo). Caso haja correlação entre rendimento e pib, o “plano” que 
passa pelos pontos no espaço formado pelas duas variáveis não possui estabilidade, qualquer 
informação adicional pode modificar completamente a inclinação deste plano em relação a 
quaisquer das duas variáveis. Também e um fenômeno que exige correção. 
A multicolinearidade é uma questão de grau e não de natureza. A distinção significativa não esta 
entre a presença ou a ausência de multicolinearidade, mas entre seus vários graus. Como a 
multicolinearidade se refere a condições de variáveis independentes que se presume não- 
estocásticas, e uma característica da amostra e não da população. Portanto, “não se faz teste de 
multicolinearidade”, mas pode-se, medir o seu grau em qualquer amostra particular. 
Um pouco de multicolinearidade não é necessariamente um grande problema: ampliando a 
analogia da banda de rock, se um guitarrista for mais barulhento que o outro, você poderá 
diferenciá-lo facilmente. Mas a multicolinearidade grave é um grande problema, porque aumenta 
a variância dos coeficientes de regressão, tornando-os instáveis. Quanto mais variância eles têm, 
mais difícil é interpretar os coeficientes. Então, como você sabe se precisa se preocupar com 
multicolinearidade em seu modelo de regressão? Aqui estão algumas coisas para serem 
observadas: 
− Um coeficiente de regressão não é significativo, embora, teoricamente, essa variável 
deveria ser altamente correlacionada com Y; 
− Quando você adiciona ou exclui uma variável X, os coeficientes de regressão mudam 
drasticamente; 
− Você observa um coeficiente de regressão negativo quando sua resposta deveria aumentar 
junto com o X; 
− Você observa um coeficiente de regressão positivo quando a resposta deveria diminuir 
conforme X aumenta. 
− Suas variáveis X têm correlações emparelhadas altas; 
Várias são as possibilidades de se detectar multicolinearidade. Uma delas e se regredimos cada 
uma das variáveis independentes sobre todas as variáveis independentes remanescentes, 
podemos obter uma medida do "grau de ajustamento" calculando o valor de R2 em cada caso. 
Se qualquer destes R2's estiver próximo da unidade, o grau de multicolinearidade será alto. 
Dado que alguma multicolinearidade quase sempre existe, a questão e saber em que o grau de 
multicolinearidade deixa de ser normal e toma-se prejudicial. Esta questão não tem sido resolvida 
satisfatoriamente. 
Uma maneira de medir a multicolinearidade é o fator de inflação da variância (VIF), que avalia o 
quanto a variância de um coeficiente de regressão estimado aumenta se as suas preditoras 
estiverem correlacionadas. Se nenhum fator estiver correlacionado, os VIFs serão todos 1. 
Se o VIF for igual a 1 não há multicolinearidade entre os fatores, mas se o VIF for maior que 1, as 
preditoras podem estar moderadamente correlacionadas. Um VIF entre 5 e 10 indica alta 
correlação, o que pode ser problemático. E se o VIF for acima de 10, você pode assumir que os 
coeficientes de regressão estão mal estimados devido à multicolinearidade. 
Como lidar com a multicolinearidade? 
Se a multicolinearidade for um problema em seu modelo - se o VIF para um fator estiver próximo 
ou acima de 5 a solução pode ser uma destas: 
− Remover do modelo as preditoras que são altamente correlacionadas; se você tiver dois ou 
mais fatores com um VIF alto, remova um deles do modelo. Como eles fornecem 
informações redundantes, a remoção de um dos fatores correlacionados geralmente não 
reduz drasticamente o R-quadrado; 
− Use o modelo de Regressão de Mínimos Quadrados Parciais (PLS) ou Análise de 
ComponentesPrincipais, que são métodos de regressão que reduzem o número de 
preditoras a um conjunto menor de componentes não correlacionados. 
 
6. Estimar valores para as variáveis independentes e projetar 
Devemos, para finalizar estimar valores para as variáveis independentes. Este e um dos problemas 
dos modelos de criados. Entretanto e uma força desta metodologia, já que se pode usar a análise 
"what-if” dai podermos dizer que, uma das fraquezas do approach e uma de suas maiores forças.

Continue navegando

Outros materiais