ECONOMETRIA APLICADA - Violação de Hipóteses

•

UNINTER

Fernando Silva

26/04/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria

6.443 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ECONOMETRIA APLICADAECONOMETRIA APLICADA
VIOLAÇÃO DE HIPÓTESESVIOLAÇÃO DE HIPÓTESES
Au to r ( a ) : D ra . M a rc e l a G i m e n e s B e ra O s h i t a
R ev i s o r : M e . M a rc o A n to n i o S a n to s
Tempo de leitura do conteúdo estimado em 1 hora e 10 minutos.
Introdução
Olá, caro(a) estudante!
É com prazer que lhe apresentamos este material, que o ajudará a analisar os requisitos
relacionados à violação de hipóteses, que acontece quando desenvolvemos um modelo de
regressão. A violação de hipóteses apresenta: heteroscedasticidade, autocorrelação serial
dos resíduos, multicolinearidade e não normalidade.
Dessa forma, aprenderemos que, para que o modelo tenha um fundamento estatístico, ele
não pode apresentar violação das hipóteses. Diante disso, entenderemos que, ao
desenvolver um modelo, precisamos que ele apresente homocedasticidade, normalidade,
ausência de resíduos autocorrelacionados e ausência de multicolinearidade.
Nessa perspectiva, veremos que a homocedasticidade acontece quando: a variância de
uma variável aleatória é constante; o termo de erro é, normalmente, distribuído com média
zero e uma variância constante; as variáveis independentes não podem ter uma
combinação linear entre elas, o que resulta no problema de multicolinearidade, e os
resíduos não podem ser autocorrelacionados. Note que, a partir desse conhecimento, você
estará apto a utilizar um modelo múltiplo, de forma que não viole as hipóteses desse
modelo.
Caro(a) estudante, a con�abilidade e a aceitação dos resultados obtidos pelos processos
de medição são muito relevantes no âmbito das questões metrológicas. Basicamente,
nenhum tipo de medição que possa ser realizada representa o verdadeiro valor mensurado.
Essa variação normalmente é explicada pelas limitações inerentes ao processo
dimensional, as quais limitam as quantidades de medições que podem ser realizadas,
assim como está associada aos efeitos das demais variações que possam estar
presentes.
O objetivo da análise de conglomerados, também conhecida como análise de
agrupamentos ou de cluster, é particionar um conjunto de dados em grupos que são
internamente homogêneos e externamente distintos, ou seja, segmentar ou agrupar em
grupos menores (subgrupos). A classi�cação é realizada com base em uma medida de
similaridade ou dissimilaridade dentro e entre os grupos.
Violação de Hipóteses:
Heteroscedasticidade
Figura 4.1 - Um exemplo de heteroscedasticidade
Fonte: Stock e Watson (2004, p. 85).
#PraCegoVer: a �gura apresenta um grá�co em que há a relação entre pontuação nos exames
(eixo y) e a razão aluno-professor (eixo x) com uma reta de regressão inclinada de forma
descendente para a direita do grá�co, com curvas de sino em três pontos, em diferentes locais
da reta, que representam a distribuição de y com relação a x. No entanto essas distribuições
apresentam valores diferentes quando x = 15, x = 20 e x = 25, isto é, oscilando ao longo da curva.
Ao analisarmos a Figura 4.1, vemos a distribuição condicional da pontuação nos exames
para três tamanhos de turmas diferentes. Assim, conforme o tamanho da turma aumenta,
a variância aumenta, isto é, turmas maiores possuem variância maior. Para que esse
modelo fosse homocedástico, as turmas teriam que apresentar a mesma variância.
Nesse contexto, uma das suposições feitas sobre resíduos/erros na regressão dos
mínimos quadrados ordinários é que os erros têm a mesma variância, mas esta é
desconhecida. Isso é conhecido como variância constante ou homocedasticidade. Quando
essa suposição é violada, o problema é conhecido como heteroscedasticidade.
Conforme Hair et al. (2009), para realizar uma análise de cluster cuidadosa, são
necessários métodos com as seguintes características:
A heterocedasticidade não é uma propriedade necessariamente restrita a dados
em corte transversal. Com dados de séries temporais, em que temos dados ao
longo do tempo sobre uma unidade econômica, como uma �rma, uma família ou
mesmo toda economia, é possível que a variância do erro se modi�que. Isso
ocorre quando um choque ou variação externa nas circunstâncias cria maior ou
menor incerteza sobre y (HILL et al., 2010, p. 275).
Se os dados contiverem variância heterocedástica, é provável que um modelo de mínimos
quadrados ordinários subestime ou superestime a variância na população, dependendo do
tipo de variância observado na amostra. Isso leva a uma série de problemas em cascata:
os erros-padrão dos parâmetros do modelo tornam-se incorretos, fazendo com que os
valores p sejam errados e os intervalos de con�ança sejam muito estreitos ou muito
amplos. Isso pode levar o modelo a entender que certos valores de parâmetros são
signi�cativos, quando, na verdade, não são signi�cativos, e vice-versa. Todo o modelo
torna-se não con�ável.
SAIBA MAIS
Muitas vezes, a análise de regressão é realizada em dados
que podem ter um recurso interno de alta variância em
diferentes valores de variáveis independentes. Um dos
artefatos desse tipo de dado é a heteroscedasticidade, que
indica variâncias das variáveis em torno dos valores
ajustados. Ao observarmos a heteroscedasticidade, é
necessário validar o modelo e, às vezes, os dados de
regressão podem não ser con�áveis. Quando realizamos a
regressão, os pontos de dados são espalhados ao redor da
linha ajustada. Para um bom modelo de regressão, o
espalhamento deve ser o mínimo possível. Quando o
espalhamento é uniforme, o modelo é chamado de
homocedástico.
Para saber mais sobre o assunto, assista ao vídeo a seguir.
A S S I S T I R
Os abusos cometidos em nome do Estado e da Ciência, apurados e denunciados
mundialmente em 1947 no Relatório �nal do Tribunal Internacional de
Nuremberg, levaram à elaboração do primeiro Código de conduta em pesquisas,
internacionalmente aceito – o Código de Nurembergue (1947) (PALÁCIOS; REGO,
SCHRAMM, 2009, p. 607).
Perceba que a heteroscedasticidade torna um modelo de regressão menos robusto.
Essencialmente, os erros previstos variam para diferentes faixas da variável independente,
sugerindo um modelo imperfeito. Deve-se sempre veri�car o grá�co de resíduos após
qualquer análise de regressão e garantir que a variabilidade dos resíduos não siga nenhum
padrão, ou, em outras palavras, a dispersão dos resíduos deve ser uniforme ao longo da
linha de regressão.
Veja, a seguir, as causas de heteroscedasticidade (GUJARATI; PORTER, 2011).
Natureza do fenômeno em estudo: pode ter uma tendência crescente ou decrescente. Por
exemplo, a variação no padrão de consumo de alimentos aumenta à medida que a renda
aumenta. Da mesma forma, o número de erros de digitação diminui à medida que o
número de horas de prática de digitação aumenta.
Exemplos de tipos de fatores que levam à heteroscedasticidade: se houver um aumento
na renda, as pessoas terão mais opções de investimentos, causando aumento na
variância. De forma semelhante, as empresas que possuem maiores lucros podem
distribuir mais dividendos em comparação com aquelas empresas que possuem um lucro
menor.
Outliers: a heteroscedasticidade também ocorre na presença de dados discrepantes
(outliers). Por exemplo, se a maioria da população ganha em média R$ 2.000 e você inserir
os dados de algumas pessoas que ganham R$40.000, esses são considerados dados
discrepantes. Além disso, modelos mal especi�cados podem levar a problemas de
heteroscedasticidade. A assimetria na distribuição de um ou mais regressores incluídos no
modelo pode também resultar em heteroscedasticidade, por exemplo, se você comparar
renda, riqueza e educação.
De forma geral, o Código de Nuremberg estabeleceu que nenhum ser humano poderia ser
submetido a projetos de pesquisa sem o seu devido consentimento, sendo o primeiro
documento a ter alcance internacional, por conta, principalmente, do repúdio da
comunidade internacional quanto aos crimes cometidos no período nazi-fascista
(PALÁCIOS; REGO; SCHRAMM, 2009).
A necessidade de regulamentação de pesquisas em seres humanos, para proteger seus
participantes, e o desejo do corpo médico ter suaprópria regulamentação foram
motivações para a criação da Declaração de Helsinque, a qual foi aprovada pela
Associação Médica Mundial, e cuja primeira versão é de 1964 (PALÁCIOS; REGO;
SCHRAMM, 2009).
Teste Goldfeld-Quandt
Para realizar o teste Goldfeld-Quandt, você pode fazê-lo por meio do software (por
exemplo, no RStudio, com o seguinte comando: gqtest {lmtest}) ou calculá-lo. Para o
cálculo, devemos:
Em 1988, o Conselho Nacional de Saúde (CNS) do Brasil estabeleceu normas que tratam
da ética em pesquisa com seres humanos e, em 10 de outubro de 1996, aprovou as
diretrizes/normas que regulamentam pesquisas com seres humanos, denominada
Resolução 196/96 (PALÁCIOS; REGO; SCHRAMM, 2009).
Teste de White
A Resolução 196/96 estabeleceu princípios básicos para permitir apreciação da ética em
protocolos de pesquisa, criando os Comitês de Ética em Pesquisa (CEP) e a Comissão
Nacional de Ética em Pesquisa (Conep). O conteúdo da resolução incorpora as
experiências históricas da regulamentação sobre ética em pesquisa, principalmente com
base no Código de Nuremberg (1947), na Declaração dos Direitos Humanos (1948), na
Declaração de Helsinque (desde a primeira versão de 1964), nas Diretrizes Internacionais
para a Revisão Ética de Estudos Epidemiológicos e nas Diretrizes Éticas Internacionais
para Pesquisas Biomédicas Envolvendo Seres Humanos, assim como em conteúdos de
leis promulgadas após a aprovação da Constituição de 1988 (PALÁCIOS; REGO;
SCHRAMM, 2009; NOVOA, 2014).
Samohyl (2009) estabelece que o grá�co de soma acumulada (CUSUM) é um
aprimoramento do grá�co de controle X de Shewhart, este, de�nido como sendo a forma
de monitoramento da média de um processo especí�co cuja característica deμμ
organizar os dados de pequenos a grandes valores da variável independente
suspeita de causar heterocedasticidade e organizá-los de forma decrescente;
 
qualidade de interesse X é uma grandeza mensurável representada. Assim sendo, o
CUSUM é o mais apropriado para se reconhecer o histórico dos dados, característica
ausente em grá�cos mais simples, e também para identi�car pequenas alterações nos
processos muito antes dos alarmes dos grá�cos X, considerados como LSC e LIC.
A hipótese alternativa (a que você está testando) é que as variâncias não são iguais:
Assim, para realizar o teste de White, é necessário calcular os resíduos da regressão e
elevá-los ao quadrado; na sequência, calcular a regressão dos resíduos ao quadrado como
variáveis explicativas e utilizar o dessa regressão como valor calculado do teste,
multiplicando o número da amostra por dos resíduos (nx ). Considerando uma
distribuição Qui-quadrado com 5% de signi�cância, com graus de liberdade, se o
valor calculado do teste for menor do que o apresentado na tabela Qui-quadrado, o modelo
é homocedástico; caso contrário, o modelo é heterocedástico.
Apesar de a eticidade e a cienti�cidade da pesquisa cientí�ca, em especial, daquela
realizada com seres humanos, serem aspectos que caminham juntos, não cabe aos
Comitês de Ética em Pesquisa (CEP) a emissão de pareceres sobre a metodologia utilizada
no desenvolvimento dos estudos (NOVOA, 2014).
=H1 σi
2≠σ2
R2
R2 R2
k − 1
REFLITA
Podemos corrigir a heteroscedasticidade em caso
grandes amostras por meio do ajuste do erro padrã
Assim, quando a variância for conhecida, podemos aplic
o modelo de mínimos quadrados generalizados, e quando
variância for desconhecida, utilizamos o método d
mínimos quadrados ponderados.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Leia o trecho a seguir.
“[...] a heterocedasticidade é potencialmente um problema grave e o pesquisador precisa
saber se ela está presente em determinada situação. Se ela for detectada, podem-se
adotar medidas corretivas, como a regressão de mínimos quadrados ponderados ou
alguma outra técnica. Antes de examinarmos os vários procedimentos corretivos,
devemos descobrir se a heterocedasticidade está presente ou se provavelmente irá
apresentar-se em algum caso”.
GUJARATI, D. N.; PORTER, D. C. Econometria básica. 5. ed. Porto Alegre: AMGH Editora,
2011. p. 380.
Assinale qual das alternativas a seguir pode apresentar heteroscedasticidade
corretamente.
a) Renda das pessoas e lucros das empresas.
b) Taxa básica de juros e emprego.
c) Taxa de juros e desemprego.
d) Renda e riqueza.
e) Consumo e juros.
Você já ouviu falar de autocorrelação serial de resíduos? A autocorrelação é uma
característica dos dados que apresenta uma medida de similaridade entre um sinal e sua
versão atrasada no tempo. Por exemplo, uma série de números ao longo dos anos, como
séries históricas do PIB, in�ação ou desemprego, pode apresentar esse problema, uma vez
que os valores podem ser previstos com base nos valores anteriores da série. A existência
de autocorrelação nos resíduos de um modelo é um sinal de que o modelo pode não ser
sólido. Além disso, a autocorrelação, normalmente, é diagnosticada usando o teste de
Durbin-Watson.
Teste de Durbin-Watson
O erro de amostragem, por si só, signi�ca que, normalmente, veremos alguma
autocorrelação em qualquer conjunto de dados, portanto, é necessário um teste estatístico
para descartar a possibilidade de que o erro de amostragem esteja causando a
autocorrelação. Para isso, o teste padrão é o de Durbin-Watson, em que a estatística do
teste é baseada somente nos resíduos da regressão.
A estatística Durbin-Watson (DW) é utilizada como teste para veri�car a autocorrelação
nos resíduos de uma análise estatística de regressão. Se existir autocorrelação, esta
subestima o erro padrão e pode nos levar a acreditar que os preditores são signi�cativos,
quando, na realidade, não são.
O teste Durbin-Watson procura um tipo especí�co de correlação serial, ou seja, correlação
de primeira ordem (o atraso é de uma unidade). As hipóteses para o teste Durbin-Watson
são:
= não existe correlação de primeira ordem.
Violação de Hipóteses:
Autocorrelação Serial
de Resíduos
H0
Não existem sistemas de medição que possam ser classi�cados como ideais. Dessa
forma, é atribuição direta dos engenheiros de�nir e implantar sistemas de medição que
apresentem propriedades estatísticas consideradas adequadas.
A estatística de teste DW (d) é:
Note que o teste Durbin-Watson compreende a razão da soma das diferenças dos resíduos
elevada ao quadrado, em que o denominador representa a soma do quadrado dos resíduos
SQR (GUJARATI; PORTER, 2011). Cabe destacar que podemos utilizar o seguinte comando
no RStudio para obter o mesmo resultado da fórmula anterior: dwtest ( ).
Esse teste investiga, explicitamente, apenas a correlação de primeira ordem, mas, na
prática, tende a detectar as formas mais comuns de autocorrelação, pois a maioria das
formas de autocorrelação exibe algum grau de correlação de primeira ordem.
A pesquisa epidemiológica tem por base a coleta sistemática de dados sobre eventos
associados, principalmente, à saúde das pessoas pertencentes a populações de interesse.
O tratamento analítico dado aos fatores pesquisados tem base em três procedimentos, a
saber, a mensuração de variáveis aleatórias, a estimação de parâmetros populacionais e o
uso de testes estatísticos (BLOCH; COUTINHO, 2009).
d =
Σt
t=2( − )ût ût−1
2
Σt
t=1û
2
t
Figura 4.2 - Estatística d de Durbin-Watson
Fonte: Gujarati e Porter (2011, p. 436).
#PraCegoVer: a �gura representa as áreas de ausência de autocorrelação positiva e negativa do
teste Durbin-Watson. São cinco colunas, em que, na primeira, há evidência de autocorrelação
positiva, representando de 0 até a segunda coluna dL; a segunda seria uma zona de indecisão,
que �ca entre dL e dU, a coluna do meio e a região de não rejeição, e �ca entre o dU, 2 e o 4-dU.
A quarta coluna também seria uma zona de indecisão, que �ca entre 4-dU e 4-dL. Por �m, a
última coluna representa evidências de autocorrelação negativa, e �ca entre 4-dL e 4.
Os valores críticos superior e inferior, dU e dL, foram tabulados para diferentes valores de k
(o número de variáveis explicativas) e n.
Se< — rejeitar .
Se > — não rejeitar .
Se < < — o teste é inconclusivo.
Perceba que a estatística DW (d) está entre 0 e 4, que indica que não há correlação serial.
Valores mais próximos de 0 indicam correlação serial positiva, e valores mais próximos de
4 indicam correlação serial negativa. Um valor de 0 indica um passeio aleatório. Assim:
d dL H0
d du H0
dL d du
signi�ca que não há autocorrelação.
signi�ca autocorrelação positiva.
signi�ca autocorrelação negativa.
Uma regra geral seguida é: valores estatísticos de teste DW na faixa de 1,5 a 2,5 são
relativamente aceitáveis. Valores fora desse intervalo podem ser motivo de preocupação,
enquanto valores abaixo de 1 ou mais de 3 são uma causa de�nitiva de preocupação.
Se você rejeitar a hipótese nula do teste de Durbin-Watson e concluir que a autocorrelação
está presente nos resíduos, então, você tem algumas opções diferentes para corrigir esse
problema, se considerar que ele é sério o su�ciente:
para correlação serial positiva, considere adicionar defasagens da variável
dependente e/ou independente ao modelo.
para correlação serial negativa, certi�que-se de que nenhuma de suas variáveis
seja superdiferenciada.
para correlação sazonal, considere adicionar variáveis dummy sazonais ao modelo.
Normalmente, essas estratégias são su�cientes para remover o problema da
autocorrelação.
Cabe destacar que, em certos cenários, o teste Durbin-Watson pode ser inconclusivo. Além
disso, quando as variáveis dependentes defasadas são incluídas nas variáveis preditoras,
não é apropriado usar esse teste. Em outras palavras, a estatística Durbin-Watson é válida
apenas se seus regressores forem estritamente exógenos, portanto, não é apropriado para
casos em que você possui variáveis dependentes defasadas no lado direito de sua
equação. Nesse caso, você pode optar por utilizar o teste Breusch-Godfrey.
d = 2
0 < d < 2
2 < d < 4
Em muitas situações, no entanto, constatou-se que o limite superior é,
aproximadamente, o verdadeiro limite de signi�cância e, portanto, no caso
em que d �ca na zona de indecisão, pode-se usar o seguinte teste d
modi�cado: dado o nível de signi�cância :
du
α 
Considerando as autocorrelações positivas e negativas, as hipóteses do teste Breusch-
Godfrey seriam:
: .
: .
A estatística do teste seria calculada por:
Em que temos:
= coe�ciente de determinação do ajuste para os resíduos como função de seus valores
e dos regressores defasados.
= probabilidade de erro ao dizermos que os erros possuem autocorrelação de ordem q.
Na presença de autocorrelação nos erros, supõe-se que os estimadores de MQO não
possuem mais variância mínima, embora continuem sendo não viesados e consistentes,
deixando de ser e�cientes.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Podemos considerar que o erro de medição sempre estará presente quando a indicação
do sistema de medição não relacionar corretamente com o valor verdadeiro do
mensurando. Sendo assim, de�ne-se como erro de medição a diferença entre o valor
indicado pelo sistema de medição e o valor verdadeiro do componente ou da peça
dimensionada.
“Lembre-se de que a hipótese da ausência da autocorrelação do modelo clássico refere-
se aos termos de erro da população, , que não são observados diretamente. O que
temos são suas proxies, os resíduos , que podem ser obtidos pelo procedimento dos
H0 ρ = 0
H1 ρ ≠ 0
LM = (n − q)R2
û
R2
û
ρ
ui
uî
MQO. Embora os , não sejam a mesma coisa que , muitas vezes um exame visual
dos dá algumas pistas sobre a provável presença de autocorrelação dos ”.
GUJARATI, D. N.; PORTER, D. C. Econometria básica. 5. ed. Porto Alegre: AMGH Editora,
2011. p. 421.
A respeito da autocorrelação dos resíduos, podemos a�rmar que esse fenômeno pode
ocorrer no caso:
a) de as observações serem independentes.
b) de especi�cação incorreta do modelo de regressão.
c) de dados em corte transversal com observações independentes.
d) de uma estatística de teste que varia de 0 a 2.
e) de valores futuros das variáveis independentes.
Você sabia que, na análise de regressão, é evidente a presença de uma correlação entre a
variável dependente e as independentes? Normalmente, é isso que buscamos ao
desenvolver uma regressão. Haver correlação entre as variáveis independentes é algo
indesejado.
uî ui
uî û
Violação de Hipóteses:
Multicolinearidade
Fonte: antusenoktanya / 123RF.
Diante disso, o aumento no erro padrão decorrente de multicolinearidade signi�ca que os
coe�cientes podem ser signi�cativamente diferentes de 0 para algumas ou para todas as
variáveis independentes. Isto é, ao superin�ar os erros-padrão, a multicolinearidade torna
algumas variáveis estatisticamente insigni�cantes quando deveriam ser signi�cativas
(DAOUD, 2017).
A multicolinearidade pode ser descrita como um distúrbio de dados em um modelo de
regressão. Isso signi�ca que, em uma regressão, existe uma condição em que temos um
par de características fortemente correlacionadas entre si nos dados. Nessa perspectiva, a
multicolinearidade, ou dependência quase linear, é um fenômeno estatístico no qual dois
ou mais preditores variáveis em um modelo de regressão múltipla são altamente
correlacionados. Se não houver relação linear entre variáveis independentes, elas são ditas
ortogonais (DAOUD, 2017).
Para que uma variável seja considerada independente, ela deve ser distinta de outras
variáveis, visto que a multicolinearidade pode di�cultar a distinção entre os efeitos
isolados de variáveis independentes em uma variável dependente.
A nova resolução divide-se em 13 partes e apresenta-se mais longa e �losó�ca,
levando-se em consideração referenciais básicos de bioética, como o
reconhecimento e a a�rmação da dignidade, a liberdade, a autonomia, a
bene�cência, a não male�cência, a justiça e a equidade, dentre outros que visam
assegurar os direitos e deveres que dizem respeito aos participantes da
pesquisa, à comunidade cientí�ca e ao Estado (NOVOA, 2014, p. VII).
Desse modo, a variável explicativa tem que ser independente de outras variáveis. Isso
signi�ca que não devemos ter a capacidade de derivar os valores dessa variável usando
outras variáveis independentes, apesar de que a multicolinearidade pode ameaçar um
modelo; ela pode ser detectada e tratada.
SAIBA MAIS
O grau de associação entre as variáveis é medido por um
coe�ciente de correlação, que possibilita analisar se há
uma medida de associação linear. O coe�ciente de
correlação é medido em uma escala que varia de +1 a –1. A
correlação completa entre duas variáveis é expressa por +1
ou -1. Quando uma variável aumenta à medida que a outra
aumenta, a correlação é positiva; quando uma diminui à
medida que a outra aumenta, a correlação é negativa. A
ausência completa de correlação é representada por 0.
Assim, em uma regressão, essa correlação entre as
variáveis independentes pode afetar um modelo
econométrico. Veja mais sobre o assunto no vídeo a seguir.
A S S I S T I R
Esse é um caso típico de experimentos controlados, em que as demais variáveis
são controladas, de modo que é possível veri�car a relação da variável
dependente com cada uma das variáveis separadamente. Sabe-se que
experimentos controlados não são, em geral, possíveis em ciências sociais.
Além disso, num modelo econômico, interações entre as variáveis explicativas
são um fato da vida. A preocupação deve se limitar a quando essa correlação
�ca em valores próximos a 1 (ou –1) (SARTORIS, 2013, p. 285).
Desse modo, a multicolinearidade pode não ter um impacto signi�cativo na precisão do
modelo, mas tem um impacto maior na con�abilidade ao encontrar os efeitos de
características individuais do modelo. Nessa perspectiva, existem muitas razões pelas
quais a multicolinearidade pode ocorrer, por exemplo, incluir variáveis que são idênticas,
colocar o valor da mesma variável em pesos de medidas diferentes (como quilogramas e
libras), colocar variáveis que dependem uma da outra (o que deixa o modelo redundante)ou até utilizar dados inadequados (variáveis que depende de outras variáveis).
Muitas vezes é possível reduzir os efeitos da multicolinearidade por meio do
aumento da amostra. Isso porque a correlação alta observada pode ser
decorrente da própria amostra, isto é, essa correlação pode não existir na
população e um aumento das observações poderia re�etir melhor esse fato; ou,
ainda, a correlação pode ser resultado de algum tipo de política econômica
transitória e, se a amostra incluir observações de períodos em que essa política
não foi adotada, a correlação obtida será bem menor (SARTORIS, 2013, p. 288).
De forma estatística, um modelo de regressão com mais dados, provavelmente, sofrerá
menos variância devido a um tamanho de amostra maior, o que reduzirá o impacto da
multicolinearidade. Se inserirmos mais variáveis e, ainda assim, concluirmos que a
multicolinearidade representa um problema para nosso modelo de regressão, podemos
tentar mais algumas correções básicas, como remover variáveis que apresentam alta
correlação e centralizá-las.
A centralização é de�nida como uma constante do valor de cada variável, o que rede�ne o
ponto zero para um determinado preditor para se tornar o valor que subtraímos. Para
centralizar as variáveis, podemos, primeiramente, calcular a média de cada variável
independente, e o próximo passo substituiria cada valor de variável pela diferença entre os
valores e a média (DAOUD, 2017). O resultado dessa ação é que a interpretação dos
coe�cientes de regressão permanece inalterada, reduzindo o impacto da
multicolinearidade, tornando a correlação entre as variáveis muito mais gerenciável.
Quando existe correlação entre as variáveis independentes, o erro padrão dos coe�cientes
dos preditores aumentará, e, consequentemente, a variância dos coe�cientes do preditor
será in�ada. Para isso, temos o teste VIF (Vetor de In�ação da Variância), normalmente
calculado em software de regressão, que mede e quanti�ca o quanto a variância é in�ada
(por exemplo, no RStudio você pode utilizar o comando vif () (DAOUD, 2017). O VIF pode
ser calculado pela fórmula:
Os resultados dos VIFs começam em 1 e não têm limite superior. Um valor de 1 indica que
não há correlação entre essa variável independente e qualquer outra. VIFs entre 1 e 5
sugerem que há uma correlação moderada, mas não grave o su�ciente para justi�car
medidas corretivas. VIFs maiores que 5 representam níveis críticos de multicolinearidade,
em que os coe�cientes são mal estimados e os valores p são questionáveis.
Além do signi�cado do próprio VIF em mostrar se os preditores estão correlacionados, o
no cálculo do VIF indica que, quanto maior é o erro-padrão, maior tende ser a
correlação entre as variáveis independentes. Por exemplo, se VIF for 9, signi�ca que o erro-
padrão para o coe�ciente desse preditor é três vezes maior do que seria se esse preditor
não fosse correlacionado com outros preditores.
Além do VIF, há o teste de Farrar-Glauber, um dos testes estatísticos usados para detectar
multicolinearidade, composto por mais três testes: o primeiro, o teste Qui-quadrado,
examina se a multicolinearidade está presente no sistema; o segundo, o teste F, determina
quais regressores ou variáveis explicativas são colineares; terceiro, o teste T, determina o
tipo ou o padrão de multicolinearidade.
V IF = 1
1−R2
i
R2
i
Fonte: nexusby / 123RF.
#PraCegoVer: o infográ�co estático, intitulado “Teste de Farrar-Glauber”, possui embaixo do
título a ilustração de um monitor com um grá�co e três subtítulos e suas de�nições. O primeiro
subtítulo, “Teste Qui-quadrado”, é de�nido como “a hipótese nula é que os são ortogonais.
Uma estatística baseada no determinante poderia fornecer uma primeira medida útil da
presença de multicolinearidade dentro das variáveis independentes. Se o valor observado >
, aceitamos que a variável possui multicolinearidade, isto é, ela não é octogonal.
. O segundo subtítulo, “Teste F”, é de�nido como
“Se > F, rejeita-se , caso contrário, não se rejeita. Como é o coe�ciente
de correlação múltipla entre e os outros membros de , em que é a razão de
explicada para inexplicada variação. Se o valor observado é i > F, aceitamos que a variável
possui multicolinearidade. ”. O terceiro subtítulo, “Teste t”, é
de�nido como “Se t > , em que t é o valor teórico da Distribuição de Student com ν graus de
liberdade, então devemos aceitar que as variáveis e são responsáveis pela
multicolinearidade. .
Portanto, quando as variáveis independentes são correlacionadas, isso leva à notação de
multicolinearidade, que indica que mudanças em uma variável estão associadas a
X
X X ̀
χ2
∗
χ2 Xi
= − [T − 1 − (2p + 5)]χ2
∗
1
6 ln|X X ̀ |′′
Fi cal H0 R2
xi, x1,x2....xk
Xi X Fi cal
Fi cal
Xi = −Fi cal
/(k−1)R2
xi, x1,x2....xk
(1− )/(n−k)R2
xi, x1,x2....xk
t∗v
Xi Xj
=t∗v
Rij,1,2...p T−p√
1−r2
ij,1,2...p√
mudanças em outra variável. A colinearidade mais forte e mais difícil é mudar uma variável
sem mudar outra. Dessa forma, a multicolinearidade di�culta a interpretação de
coe�cientes e reduz o poder do modelo para identi�car variáveis independentes
signi�cativas.
Além disso, compreendemos que existem dois tipos de multicolinearidade:
multicolinearidade estrutural: esse tipo ocorre quando criamos um modelo termo
usando outros termos.
multicolinearidade de dados: este tipo é apresentado nos próprios dados ao invés
de ser um artefato do modelo.
praticar
Vamos Praticar
Muitos fatores afetam a multicolinearidade, por exemplo, ela pode existir durante o
processo de coleta de dados, ou devido à seleção errada do modelo. Se considerarmos as
variáveis exploratórias como renda e tamanho da casa em nosso modelo, então, este
terá o problema de multicolinearidade, porque a renda e o tamanho da casa são
altamente correlacionados. Também pode ocorrer se considerarmos muitas variáveis
exploratórias na análise de regressão.
Diante disso, considere que você rodou uma regressão e chegou no seguinte =
0.97651. A partir do resultado do seu calcule o teste VIF de multicolinearidade.
R2
i
R2
i
Agora, vamos estudar a violação de hipóteses: não normalidade. Uma suposição central da
análise de regressão linear é que os resíduos da regressão estão normalmente
distribuídos (GUJARATI; PORTER, 2011). Quando a suposição de normalidade é violada, a
interpretação e as inferências podem não ser con�áveis ou não ser válidas. A suposição de
normalidade para regressão múltipla é que uma distribuição normal se aplica, apenas, aos
resíduos, não às variáveis independentes.
No caso das variáveis independentes, há poucas consequências associadas a uma
violação da suposição de normalidade, uma vez que essa suposição, nesse caso, não
contribui para viés ou ine�ciência em modelos de regressão. Sendo assim, a suposição de
normalidade é importante para o cálculo dos valores de p para testes de signi�cância, mas
isso é, apenas, uma consideração quando o tamanho da amostra é muito pequeno.
Se estivermos lidando com uma amostra pequena, ou �nita, por exemplo com
menos de 100 observações, a hipótese de normalidade assume um papel
fundamental. [....] Para amostras grandes a hipótese de normalidade pode não
ser relevante em grandes conjuntos de dados (GUJARATI; PORTER, 2011, p.
120).
Quando o tamanho da amostra é su�cientemente grande (>200), a suposição de
normalidade não é necessária, pois o Teorema do Limite Central garante que a distribuição
dos resíduos se aproxime da normalidade (GUJARATI; PORTER, 2011). Não obstante, ao
lidar com amostras muito pequenas, é importante veri�car se há uma possível violação da
suposição de normalidade. Isso pode ser feito por meio de uma inspeção dos resíduos do
modelo de regressão.
Violação de Hipóteses:
Não Normalidade
Existem várias estatísticas disponíveis para examinar a normalidade das variáveis,
incluindo assimetria e curtose, bem como inúmeras representações grá�cas, como o
grá�co de probabilidade normal. Infelizmente, as estatísticas para avaliá-lo são instáveis
em amostras pequenas,portanto, os resultados devem ser interpretados com cautela.
Quando a distribuição dos resíduos se desvia da normalidade, possíveis soluções incluem
transformar os dados, remover valores discrepantes ou realizar uma análise alternativa que
não exija normalidade (por exemplo, uma regressão não paramétrica). Assim, para testar a
normalidade dos resíduos, podemos utilizar dois testes: o Kolmogorov e Lilliefors e o
Jarque-Bera.
SAIBA MAIS
A S S I S T I R
SAIBA MAIS
O teste Kolmogorov e Lilliefors é um teste de normalidade
que pode ser usado quando a média populacional ou o
desvio-padrão não é conhecido. A hipótese nula é de que
os dados provêm de uma distribuição normal, e a
alternativa é que os dados não vêm de uma distribuição
normal.
Veja mais sobre o assunto no link a seguir.
A S S I S T I R
O teste Jarque-Bera é, normalmente, usado para grandes conjuntos de dados nos quais
outros testes de normalidade não são con�áveis. Esse é um teste apropriado para ser
usado antes de realizar alguma análise em que se supõe que o conjunto de dados segue
uma distribuição normal. Um teste Jarque-Bera pode dizer se essa suposição é satisfeita
ou não.
Teste Jarque-Bera
Para avaliar a normalidade dos resíduos em grandes amostras, podemos utilizar o teste
Jarque-Bera (JB) (GUJARATI; PORTER, 2011). Primeiramente, calcula-se a assimetria e a
curtose dos resíduos da regressão, para, depois, utilizar a seguinte fórmula:
Em que:
n = tamanho da amostra;
S = coe�ciente de assimetria;
K = coe�ciente de curtose.
Nesse caso, a hipótese nula do teste é a normalidade. Desse modo, se o p-valor < 5% (0,05)
ou p-valor < 10% (p<0,10), rejeita-se a normalidade, então, os resíduos não são
normalmente distribuídos. Por sua vez, se o valor > 0,05, aceita-se a hipótese nula de que
os resíduos são normalmente distribuídos.
JB = n [ + ]S 2
6
(K−3)2
24
Fonte: dmit3d / 123RF.
De acordo com Gujarati e Porter (2011), quando a
estatística do teste é 0, indica que a distribuição tem
uma assimetria de 0 e uma curtose de 3, podendo,
assim, ser considerada como uma distribuição normal.
Em outras palavras, as distribuições com valores
assimétricos distintos de zero e curtose distinta de 3
resultam em grandes valores de Jarque-Bera.
Considere o seguinte exemplo de análise dos resultados da fórmula anterior: se a
estatística de teste é 1,32 e o valor p correspondente é 0,53089, como esse valor de p não
é menor que 0,05, deixamos de rejeitar a hipótese nula. Não temos evidências su�cientes
para dizer que esses dados têm assimetria e curtose signi�cativamente diferentes de uma
distribuição normal.
Cabe destacar que a estatística do teste Jarque-Bera é sempre um número positivo, e,
quanto mais distante de zero, mais evidências de que os dados da amostra não seguem
uma distribuição normal.
praticar
Vamos Praticar
O teste de qualidade de ajuste, isto é, o teste de Jarque-Bera, mede se os dados da
amostra têm assimetria e curtose semelhantes a uma distribuição normal. A estatística
do teste Jarque-Bera é sempre positiva e, se não estiver próxima de zero, indica que os
dados amostrais não possuem distribuição normal.
Considerando que o resultado da estatística do teste Jarque-Bera foi de 6.17123 com um
valor p correspondente de 0.0456, realize uma análise desse resultado.
Material
Complementar
W E B
Teste Jarque-Bera
Ano: 2020
Comentário: Esse vídeo apresenta de forma didática como realizar a
estatística do teste Jarque Bera no Excel. Ao assistir a esse vídeo,
você poderá acompanhar com detalhes todos os passos que
envolvem o desenvolvimento desse teste. Além disso, vale a pena
assistir a outros vídeos sobre o tema, de forma a ampliar seus
conhecimentos sobre como realizar esse e os demais testes em
software estatísticos.
Para conhecer mais sobre o vídeo, acesse:
TRA I LER
L I V R O
Controle estatístico de qualidade
Autores: James H. Stock e Mark W. Watson
Editora: Addison Wesley
Capítulo: 4
Ano: 2004
ISBN: 85-88639-14-9
Comentário: Apresentando os aspectos relacionados à validade dos
modelos de regressão pelos mínimos quadrados ordinários, Stock e
Watson apresentam, nesse livro, uma abordagem sobre como realizar
todo o processo de análise e validação dos modelos, tratando desde
os conceitos básicos até os mais avançados, bem como as tomadas
de decisões com relação à violação das hipóteses. Com o objetivo de
�xar seu conhecimento, o livro torna-se importante, pois aborda a
análise dos aspectos relacionados à violação de hipótese dos
mínimos quadrados ordinários. Esperamos que, ao ler esse material,
você possa coletar dados de forma mais assertiva, desenvolvendo
uma análise mais robusta do modelo de regressão. Aproveite!
Disponível em: Biblioteca Virtual.
Conclusão
Caro(a) estudante, neste material, você teve a oportunidade de compreender o universo das
hipóteses dos modelos de Mínimos Quadrados Ordinários (MQO), bem como os fatores que
levam à violação dessas hipóteses, uma vez que um modelo de regressão robusto estimado por
MQO não pode apresentar heteroscedasticidade, autocorrelação serial dos resíduos,
multicolinearidade e não normalidade.
O modelo não pode, portanto, apresentar violação das hipóteses, porque deixa de ser o melhor
estimador não viesado, e�ciente etc. Assim, estudamos a importância de desenvolver um
modelo que apresente homocedasticidade e normalidade, sem resíduos autocorrelacionados e
sem multicolinearidade.
Nessa perspectiva, vimos que os dados podem até não seguir uma distribuição normal, mas os
resíduos precisam atender a esse pressuposto, e podemos testar isso pelo teste Jarque-Bera.
Além disso, entendemos que a multicolinearidade torna difícil obter os coe�cientes dos
parâmetros por MQO. Para testar a multicolinearidade, podemos utilizar o VIF. Aprendemos,
também, que, em um cenário de homocedasticidade, a variância deve ser constante, e podemos
testar esse fator utilizando o teste de White. Portanto, a partir dos conhecimentos tratados neste
estudo, possibilita-se desenvolver modelos robustos utilizando os mínimos quadrados
ordinários.
Referências
DAOUD, J. I. Multicollinearity and
regression analysis. Journal of Physics:
Conference Series, v. 949. n. 1, 2017.
Disponível em:
https://iopscience.iop.org/article/10.1088
/1742-6596/949/1/012009/pdf. Acesso
em: 12 mar. 2022.
https://iopscience.iop.org/article/10.1088/1742-6596/949/1/012009/pdf
https://iopscience.iop.org/article/10.1088/1742-6596/949/1/012009/pdf
GUJARATI, D. N.; PORTER, D. C.
Econometria básica. 5. ed. Porto Alegre:
AMGH Editora, 2011.
HILL, R. C. et al. Econometria. 3. ed. São Paulo: Saraiva, 2010.
HISTOGRAMA no Excel com Curva da Distribuição Normal. [S. l.: s. n.], 2016. 1 vídeo (21 min.).
Publicado pelo canal Aprendendo Gestão. Disponível em: https://www.youtube.com/watch?
v=2YItnzdFHjU. Acesso em: 14 abr. 2022.
INFERÊNCIA Estatística — Aula 12 — Teste Não Paramétrico de Lilliefors. [S. l.: s. n.], 2019. 1
vídeo (10 min.). Publicado pelo canal As Explicações do Pontes. Disponível em:
https://www.youtube.com/watch?v=Toq0hc0STJo. Acesso em: 14 abr. 2022.
O QUE é multicolinearidade? (parte1/3). [S. l.: s. n.], 2020b. 1 vídeo (10 min.). Publicado pelo
canal economiaetv. Disponível em: https://www.youtube.com/watch?v=Hv9TlslegyQ. Acesso em:
14 abr. 2022.
O QUE é heterocedasticidade? [S. l.: s. n.], 2020a. 1 vídeo (7 min.). Publicado pelo canal
economiaetv. Disponível em: https://www.youtube.com/watch?v=i-fLov_lm0Y. Acesso em: 14
abr. 2022.
SARTORIS, A. Estatística e introdução à econometria. 2. ed. São Paulo: Saraiva, 2013.
STOCK, J. H.; WATSON, M. W. Econometria. São Paulo: Addison Wesley, 2004.
TESTE de Normalidade Jarque Bera. [S. l.: s. n.], 2012. 1 vídeo (3 min.). Publicado pelo canal
Contabilidade Sonora. Disponível em: https://www.youtube.com/watch?v=es2Q9dmYdp0.
Acesso em: 14 abr. 2022.
https://www.youtube.com/watch?v=2YItnzdFHjU
https://www.youtube.com/watch?v=2YItnzdFHjU
https://www.youtube.com/watch?v=Toq0hc0STJo
https://www.youtube.com/watch?v=Hv9TlslegyQ
https://www.youtube.com/watch?v=i-fLov_lm0Yhttps://www.youtube.com/watch?v=es2Q9dmYdp0