Buscar

Livro ACS - Capítulo 5r

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

CAPÍTULOCAPÍTULOCAPÍTULOCAPÍTULO 5555 
 
 
SANTANA, A. C. de. Métodos quantitativos em economia: elementos e aplicações. Belém: UFRA, 2003. 
 
ANÁLISE DE RESÍDUOS E VIOLAÇÃO DAS HIPÓTESES 
DO MODELO CLÁSSICO DE REGRESSÃO LINEAR 
 
 
Introdução 
5.1 Análise de resíduos na regressão - 175 
5.2 Multicolinearidade - 180 
5.3 Heteroscedasticidade - 194 
5.4 Autocorrelação - 206 
 
Objetivos do capítulo 
 Introduzir a análise de resíduos e avaliar suas implicações para os modelos de regressão; 
 Apresentar as causas, consequências, métodos de identificação e correção da violação das 
hipóteses do modelo clássico de regressão por multicolinearidade, heteroscedasticidade e 
autocorrelação; 
 Desenvolver análises de problemas reais de microeconomia (modelos de mercado) e 
macroeconomia (função consumo, curva de Phillips e oferta monetária) brasileira; 
 Utilizar as ferramentas do Excel e o software Eviews para a solução dos modelos de 
regressão utilizados. 
 
 
 
 
 194 
CAPÍTULO 5 
ANÁLISE DE RESÍDUOS E VIOLAÇÃO DAS HIPÓTESES DO 
MODELO CLÁSSICO DE REGRESSÃO LINEAR 
 
 
INTODUÇÃO 
 emprego do modelo de regressão linear clássico (RLC - simples ou múltipla) para a 
análise de fenômenos reais da economia prescinde da aceitação das hipóteses clássicas, que 
são impostas à construção do modelo. Ou seja, as hipóteses intrínsecas ao modelo de RLC 
devem ser atendidas para que os resultados obtidos da estimação do modelo sirvam de base para 
outros estudos, para a orientação de políticas ou para a tomada de decisão. 
No caso de alguma hipótese ser violada, deve-se avaliar as consequências que resultam 
disto e tentar contornar o problema, ou então empregar outra abordagem para a análise do 
fenômeno. 
Neste capítulo, serão avaliadas as principais consequências, que a violação de tais 
hipóteses causa ao modelo de RLC e, em seguida, serão indicados os principais caminhos para 
solucionar o problema. 
Antes de iniciar a abordagem da análise de valores atípicos dos resíduos (ou outliers) e 
aprofundar o estudo sobre os problemas causados pela violação das hipóteses de ausência de 
multicolinearidade entre as variáveis independentes, de homoscedasticidade e de autocorrelação 
dos resíduos, serão apresentadas algumas ponderações a respeito da hipótese de normalidade do 
termo de erro. 
A hipótese de normalidade do termo de erro não é essencial se o objetivo pretendido é 
apenas de estimação dos parâmetros da regressão. Como foram apresentados no capítulo 3, os 
estimadores de MQO são os melhores estimadores lineares não-tendenciosos (MELNT), 
independentemente da forma de distribuição do termo de erro. 
O importante a dizer é que com a distribuição do termo de erro normal, pode-se assegurar 
que os estimadores de MQO dos coeficientes da regressão seguem distribuição normal, que [(n-
k)s
2
/σ2] apresenta distribuição qui-quadrado (χ2) e que as estatísticas t e F, empregadas nos testes 
de hipóteses podem ser usadas, independentemente do tamanho da amostra. 
Na verdade, os testes t e F são válidos assintoticamente, ou seja, quando o tamanho da 
amostra tende para infinito. Porém, não converge assintoticamente em amostras finitas ou 
pequenas amostras. O fato, é que, se o termo de erro não apresenta distribuição normal, os 
estimadores de MQO ainda são normalmente distribuídos assintoticamente, sob as hipóteses de 
homoscedasticidade – de que as variações do termo de erro não são aleatórias e nem funções 
O 
 
 195 
lineares exatas com as demais variáveis independentes. Entretanto, isto tem pouco significado 
prático, dado que dificilmente se dispõe de grandes amostras de dados. 
Sendo assim, cabe a aplicação do teste de Jarque-Bera, apresentado no capítulo 3, dado 
que em pequenas amostras e sem o conhecimento prévio sobre a distribuição dos resíduos, as 
estatísticas t e F podem não seguir as respectivas distribuições de t e F. 
5.1 ANÁLISE DE RESÍDUOS NA REGRESSÃO 
Sabe-se que é sobre o termo de erro que as hipóteses do modelo de regressão são 
construídas, o que justifica uma análise mais detalhada dos principais problemas, que podem 
levar à violação de tais hipóteses e, em consequência, comprometer os resultados gerados a partir 
da estimação por MQO. Um destes problemas diz respeito à presença de valores atípicos (ou 
outliers) nos erros da regressão. Um outlier, grosseiramente falando, é uma observação que se 
comporta de forma diferente do restante da massa de dados. Algumas vezes, é possível identificar 
as razões que levaram ao aparecimento de observações extremas, visto que seus comportamentos 
são peculiarmente distintos dos demais. Se realmente tais observações são outliers, o processo 
geralmente empregado é o de eliminar tais observações da amostra de dados e reestimar a 
regressão. 
Do ponto de vista estatístico, há diferença quando os outliers são eliminados antes ou 
depois de uma análise preliminar. Se a regressão é estimada na presença de outliers, ou é re-
estimada após a eliminação destas observações, os desvios padrão e os intervalos de confiança 
não são válidos. Por outro lado, se tais valores não forem eliminados do conjunto das 
observações, caso nenhuma informação adicional seja obtida, os resultados podem, também, ser 
insignificantes, ou seja, nem sempre a eliminação de outlier deve ser a solução recomendada. 
O termo de erro da regressão (ou resíduo da regressão) é definido pela diferença entre o 
valor observado da variável dependente e seu respectivo valor estimado, como a seguir: 
e Y Yi i i= −
$ , i n= 1 2, ,..., 5.1 
em que: 
Yi é um valor observado da variável dependente; 
iŶ é o correspondente valor estimado da regressão por meio de MQO. 
A detecção de possíveis outliers nos resíduos da regressão requer o conhecimento prévio 
sobre a origem dos principais fatores que podem gerar estes problemas. 
5.1.1 Origem de outliers 
Os autovalores que aparecem nos dados podem ser causados por diversos fatores. Os dois 
principais são apresentados em seguida. 
Erro de medida: algumas vezes os valores extremos surgem como resultado de eventos não 
usuais, mais de fácil explicação, tais como o registro incorreto dos dados ou erro de digitação. 
Se esta for a causa, o outlier deve ser eliminado dos dados, sendo feita a substituição do dado 
 
 196 
errado pelo valor correto (caso seja erro de digitação) ou por outro valor qualquer que 
mantenha a tendência da série, ou coerência com o restante dos dados. 
Ausência de variáveis importantes: neste caso, os outliers surgem por causa da influência 
exercida por alguma variável explicativa importante que não foi incluída no modelo. Quando 
isto ocorre, é possível que tais variáveis induzam a um comportamento sistemático nos 
resíduos da regressão. 
A identificação e análise das causas que produzem outliers são importantes porque pode 
resultar em novos conhecimentos sobre as formas de associação das variáveis do modelo, além de 
aprofundar a análise sobre o fenômeno estudado. Por causa disso, deve-se lembrar que a 
eliminação de outlier deve ser realizada apenas quando as evidências que lhe deram origem 
forem conhecidas e justifiquem sua eliminação. 
5.1.2 Identificação e tratamento de outlier 
A adequação de um modelo econométrico pode ser feita por meio de representações 
gráficas, plotando-se os resíduos em função do valor estimado da variável dependente, ou em 
função de alguma variável explicativa identificada. Muitos são os casos de problemas causados 
por resíduos. Um destes casos é o provocado por autovalores de resíduos e que podem 
caracterizar a presença de outliers. 
O gráfico de resíduos ei contra o valor estimado da variável dependente $Yi pode ser útil 
para revelar a presença de observações extremas, conhecidas como outliers. Assim, um resíduo 
que seja, em valor absoluto, consideravelmente maior, ou menor, que os demais, pode ser 
considerado como um outlier, uma vez que a observação que originou tal resíduo não é típica do 
restante da massa de dados.Na Figura 5.1, exibe-se uma situação de ausência de outlier 
(ilustração a) e outra de presença de outlier (ilustração b). 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
No gráfico de resíduos ( )ei contra os valores estimados ( $ )Yi , como o apresentado na 
ilustração b da Figura 5.1, o outlier é o ponto afastado da região em que se concentram os demais 
resíduos. 
 
 ei ( a ) ei ( b ) 
 outlier 
 
 
 
 0 
iY$ 0 iY$ 
 
 
 
 Ausência de outliers Presença de outliers 
Figura 5.1. Representação das situações sem e com outlier. 
 
 197 
Uma maneira adequada de identificação de possíveis outliers é trabalhar com os resíduos 
padronizados, denominados por d i e definidos como a seguir. 
QMR
e
d ii = , para i n= 1 2, ,..., 
em que QMR é o quadrado médio dos resíduos. 
Se os erros forem independentes e identicamente distribuídos com média zero e variância 
constante, representados por: ),0(~ 2σiidNei , então 95% dos resíduos padronizados devem cair 
dentro do intervalo de -2 a +2 (-2 < di < 2). Os resíduos padronizados, que se localizam fora deste 
intervalo, em se tratando de pequenas amostras, podem ser considerados como outliers. 
A análise de outlier por meio da técnica de padronização dos resíduos pode ser observada 
diretamente dos resultados do Excel. Para isto, basta ativar a caixa de resíduos padronizados ao 
estimar a regressão. O resultado será o apresentado na Tabela 5.1, para a regressão de demanda 
de café. 
Observa-se que os resíduos da regressão simples de demanda do café (quantidade de café 
em função do preço do café), não há presença de outliers, uma vez que todas as observações 
estão dentro do intervalo de -2 até +2 (coluna 4 da Tabela 5.1). 
Tabela 5.1. Resultados do valor estimado (previsto), resíduo simples e resíduo padronizado da 
regressão. 
Ano 
Y previsto 
tŶ 
Resíduos 
et 
Resíduo padronizado 
d i 
1990 23,57 0,83 0,38 
1991 24,27 1,03 0,47 
1992 25,82 0,78 0,35 
1993 25,12 -2,82 -1,27 
1994 19,96 1,84 0,83 
1995 19,18 -3,68 -1,66 
1996 21,51 0,69 0,31 
1997 18,88 1,32 0,60 
 
 
A representação gráfica entre os resíduos ei e a variável independente X1 (no caso, os 
preços reais do café), não indicam presença de outliers. Este gráfico é obtido diretamente da saída 
do Excel. Para tanto, basta ativar a caixa de plotagem de resíduos. 
Na Figura 5.2, apresentam-se os resultados do Excel, relacionando os valores da variável 
independente com os erros da regressão. 
 
 
 198 
 
 
 
O procedimento formal, geralmente, empregado para a avaliação de outliers no modelo 
de regressão linear clássico (simples ou múltipla) é o seguinte: 
i. Eliminar os outliers da massa de dados original; 
ii. Ajustar novamente o modelo de regressão à nova massa de dados que foi obtida após a 
eliminação dos outliers; 
iii. Comparar, para os dois modelos, os valores das estimativas de b0 e b1, das estatísticas t, F e 
R
2 e dos quadrados médios dos erros; 
iv. Se os valores comparados acima, relativos aos dois modelos estiverem relativamente 
próximos, os outliers exercem um pequeno efeito sobre o modelo de regressão. 
Um exemplo deste processo pode ser elaborado a partir da simulação de um erro de 
digitação nos dados de consumo de frango. Portanto, assume-se que ao invés de ser digitado o 
valor 18,5 kg/hab./ano, para o consumo de 1994, foi digitado o valor de 185 kg/hab./ano. Neste 
caso, a análise de padronização de resíduos revela que há um outlier, cujo valor é de 2,395 e cai 
fora do intervalo estabelecido para os resíduos padronizados di. Na Figura 5.3, ilustra-se a 
presença de um outliers. 
A regressão estimada na presença deste autovalor é a seguinte: 
866,0;11,0
02,117758,110
)7,1(
2
*
)93,0()35,1(
*
==
−=
−
FR
PQ
gl
f
t
f
t
 
Os resultados são ruins, pois as estatísticas t e F são insignificantes, a 5% de 
probabilidade. Também o poder explicativo do modelo é muito baixo quando comparado com os 
resultados obtidos para o modelo com os dados corretos, sem a presença de outliers. Estes 
resultados são apresentados na equação abaixo. 
68,13;662,0
474,2079,30
)7,1(
2
)7,3()51,8(
==
−=
−
FR
PQ
gl
f
t
f
t
 
-4,0
-3,0
-2,0
-1,0
0,0
1,0
2,0
3,0
0 20 40 60 80 100 120 140 160 180R
es
íd
uo
s
Variável X 1
Figura 5.2. Resíduos da regressão contra a variável X1 (preço) 
 
 199 
Observa-se que o outlier pode produzir efeitos severos sobre as estimativas dos 
parâmetros. Não apenas as estatísticas se tornaram insignificantes a 5% de probabilidade, mas 
também os valores dos parâmetros se tornaram totalmente diferentes da realidade. Neste caso, o 
outlier levaria o pesquisador a cometer um erro do Tipo II, já que a hipótese nula seria aceita em 
detrimento da hipótese alternativa que é a verdadeira. 
 
 
Figura 5.3. Plotagem de resíduos contra o valor estimado da regressão 
 
Observa-se que o diagnóstico dos resíduos é fundamental para a análise de regressão, pois 
é em seu comportamento que aparecem muitos dos problemas de especificação, relações entre 
variáveis explicativas e outros problemas intrínsecos ao processo gerador dos dados econômicos 
que, geralmente, são empregados nas análises quantitativas. 
A seguir serão apresentadas as consequências atribuídas aos problemas causados por 
multicolinearidade, assim como os métodos empregados para sua identificação e para correção. 
Este é um caso de violação da hipótese de independência das variáveis explicativas, em função de 
características inadequadas da amostra eleita. 
 
-40
-20
0
20
40
60
80
100
120
140
160
0,0 10,0 20,0 30,0 40,0 50,0 60,0
R
es
íd
uo
s
Valor estimado 
 
 200 
5.2 MULTICOLINEARIDADE 
O modelo de regressão linear clássico pressupõe que as variáveis independentes são fixas. 
Portanto, assume-se que não existem relações lineares exatas entre elas e que o número de 
observações será maior do que o número de variáveis. Quando algum destes pontos for violado, 
não será possível obter o valor das estimativas de MQO. 
A multicolinearidade diz respeito ao caso em que duas ou mais variáveis explicativas, no 
modelo de regressão múltipla, são altamente correlacionadas (colineares), tornando difícil ou 
impossível separar seus efeitos individuais sobre a variável dependente. Isto ocorre em função da 
tendência apresentada por muitas séries econômicas de se moverem na mesma direção e dentro 
dos mesmos padrões de ciclos de negócios, ao longo do tempo. 
A multicolinearidade não depende de argumentos teóricos ou das atuais relações lineares 
existentes entre alguns dos regressores; depende apenas da existência de uma relação linear 
aproximada nos dados da amostra. Por esta razão, diz-se que multicolinearidade é um problema 
da amostra, dado que diz respeito apenas às relações entre as variáveis independentes. 
A hipótese do modelo de regressão linear múltiplo é que não há multicolinearidade entre 
as variáveis explicativas do modelo de regressão. A compreensão do fenômeno da 
multicolinearidade requer a análise dos seguintes aspectos importantes. 
i. A natureza e problema da multicolinearidade; 
ii. As consequências práticas da multicolinearidade; 
iii. A identificação do problema da multicolinearidade; 
iv. A correção do problema da multicolinearidade. 
5.2.1 Natureza do problema da multicolinearidade 
Em primeiro lugar, deve-se assumir um caso de multicolinearidade perfeita. Dada a 
equação 5.2. 
eXAXAAY tttt +++= 22110 5.2 
e assumindo que 
XX tt 5,12 12 += 5.3 
o coeficiente de determinação é igual a um: 12 =R 
Neste caso, não é possível estimar a regressão por MQO, pois, fazendo a substituição da 
equação 5.3, na equação 5.2, tem-se: 
 
 201 
eXAAAAY
eXAXAAAY
eXAXAAY
ttt
tttt
tttt
++++=
++++=
++++=
12120
121120
12110
)5,1()2(
5,12
)5,12(
 
eXBBY ttt ++= 110 5.4 
e os valores dos parâmetros B0 e B1 são dados por: 
AAB
AAB
211
200
5,1
2
+=
+=
 
A regressão 5.4 pode ser estimada para gerar osvalores dos parâmetros B0 e B1. A partir 
destes valores, porém, não é possível determinar os valores das variáveis explicativas X1 e X2 
sobre Y. Isto significa que, na presença de multicolinearidade, não se tem uma única estimativa 
para os parâmetros da regressão. Em consequência disso, não é possível testar as hipóteses 
individuais sobre os parâmetros da regressão múltipla. 
Na prática, a perfeita colinearidade é rara, o que se tem, geralmente, são casos de 
imperfeita colinearidade entre as variáveis explicativas. Isto significa que a multicolinearidade é 
uma questão de grau e, nestes termos, o grau será considerado forte quando próximo da perfeita e 
fraco quando próximo de zero. 
5.2.2 Consequências da multicolinearidade 
Na presença de imperfeita multicolinearidade, os estimadores de MQO ainda preservam 
as propriedades de consistência e de eficiência. Isto significa que os estimadores de MQO ainda 
são os melhores estimadores lineares não tendenciosos (MELNT). 
A maior consequência indesejada da multicolinearidade é a de que a variância dos 
estimadores dos parâmetros de MQO, relacionados às variáveis independentes e ditas colineares, 
são grandes. Esta alta variância surge porque, na presença de multicolinearidade, não se tem a 
independência necessária da variação do regressor, que o processo de estimação de MQO requer 
para calcular o efeito, que tal regressor exerce sobre a variável dependente. 
Considerar, por exemplo, o caso em que a variável dependente é regressada sobre duas 
variáveis independentes, e que são altamente correlacionadas. A variação nos dois regressores 
pode ser classificada de três maneiras: variação isolada da primeira variável, variação isolada da 
segunda variável e variação conjunta de ambas as variáveis. 
Sabe-se, entretanto, que não é possível isolar os efeitos das variáveis colineares sobre a 
variável dependente. Ao mesmo tempo, o processo de estimação por MQO usa somente a 
variação da primeira variável no cálculo da estimativa do coeficiente da respectiva variável; e 
emprega somente a variação da segunda variável no cálculo da estimativa do coeficiente do 
segundo regressor. Por conseguinte, a variação conjunta é desprezada. 
Por outro lado, quando os regressores são altamente correlacionados, a maior parte da 
variação é comum às duas variáveis, o que resulta em pouca variação isolada relativa a cada 
 
 202 
variável. Em consequência disso, o processo de estimação de MQO dispõe de poucas 
informações para usar no cálculo do valor dos coeficientes, sobretudo quando se trata de uma 
pequena amostra de dados ou quando diz respeito a amostras em que o regressor varia muito 
pouco. Adicionalmente, sabe-se que as estimativas realizadas com base em poucas informações 
não devem manter alta confiabilidade, por resultar em alta variância. Ou seja, uma alta correlação 
entre as variáveis independentes, leva a menos informações disponíveis para o processo de 
estimação dos parâmetros de MQO e, então, resulta em uma maior variância. 
Em síntese, as principais consequências da multicolinearidade podem ser agrupadas em 
duas categorias: teóricas e práticas. As consequências teóricas são as seguintes: 
i. Na presença de colinearidade imperfeita, os estimadores de MQO são consistentes (não 
viesados), e a estatística R2 não é afetada; 
ii. A colinearidade imperfeita não destrói a propriedade de variância mínima dos estimadores de 
MQO. Mas na amostra, a variância dos estimadores pode ser muito grande. Isto ocorre 
porque na presença de multicolinearidade, o procedimento de estimação de MQO não recebe 
variação independente suficiente, em uma variável independente, para se calcular o efeito 
sobre a variável dependente; 
iii. A multicolinearidade é essencialmente um problema da amostra, uma vez que se refere às 
variáveis explicativas. 
As consequências práticas da multicolinearidade são as seguintes: 
i. Grandes variâncias e desvios padrão dos estimadores de MQO, o que diminui a precisão 
destes estimadores de MQO; 
ii. Grandes intervalos de confiança. Isto leva a que os estimadores de MQO sejam não 
significantes; 
iii. Um alto R2 com poucas estatísticas t significantes e algumas estimativas com sinais trocados; 
iv. Os estimadores de MQO são sensíveis a pequenas mudanças nos dados, portanto são 
instáveis. 
5.2.3 Identificação da multicolinearidade 
Há varias controvérsias com relação à questão da identificação da multicolinearidade, ou 
mais precisamente, com relação à questão de medir o grau em que os dados são colineares. Uma 
das razões para esta controvérsia diz respeito ao fato de que grande parte dos métodos 
empregados para a identificação da multicolinearidade é inadequada. Mas há outras razões que 
são mais importantes. Um dos remédios para as altas variâncias indesejáveis que surgem da 
multicolinearidade é a incorporação de informações adicionais ao processo de estimação. Este 
remédio é empregado mesmo que não se saiba que a variância grande é causada por 
multicolinearidade ou inadequada variação do conjunto de dados das variáveis independentes. 
Também é comum entre os pesquisadores a atitude de eliminar a multicolinearidade, 
quando os sinais esperados para as estimativas dos coeficientes são diferentes do esperado, ou 
 
 203 
quando as variáveis relevantes não apresentam significância estatística pelo teste t, a 5% de 
probabilidade, ou quando vários regressores apresentam mudanças substanciais quando uma 
variável é eliminada da regressão. Infelizmente, nenhuma destas condições é necessária ou 
suficiente para a existência de colinearidade. Em consequência, nenhuma providência deveria ser 
tomada, além da inclusão de dados ou informações adicionais, para solucionar os sintomas 
apresentados. 
Outra maneira geralmente utilizada para identificar multicolinearidade diz respeito à 
utilização da matriz de correlação simples entre as variáveis independentes da regressão. Os 
elementos fora da diagonal principal representam os coeficientes de correlação simples entre 
pares de variáveis independentes. Um alto valor (em torno de 0,8 ou 0,9 em valor absoluto) de 
um desses coeficientes de correlação indica alta correlação entre as duas variáveis independentes 
em referência. Este método detecta colinearidade entre duas específicas variáveis e sugere que 
informações adicionais sejam incluídas para resolver o problema. Entretanto, este método não 
detecta os casos em que três ou mais variáveis são colineares, e quando são tratadas em pares, as 
relações de colinearidade não aparecem. 
Outro método menos comum, mais de maior efetividade na identificação da 
multicolinearidade é o índice condicionado, dado pela raiz quadrada da razão entre o maior e o 
menor valor da raiz característica da matriz X’X. Para um valor abaixo de 10, tem-se ausência de 
multicolinearidade, um valor entre 10 e 30, tem-se multicolinearidade moderada, e um valor 
acima de 30, tem-se severa multicolinearidade (GUJARATI, 1995). 
Portanto, há vários métodos formais, que podem ser empregados para detectar a presença 
da multicolinearidade na regressão múltipla. Os principais e mais fáceis métodos são 
apresentados em seguida. 
a) Análise de correlação 
Segundo Klein, a multicolinearidade não necessariamente se constitui em problema, a não 
ser que o grau de correlação entre as variáveis explicativas seja muito elevado. Este alto grau de 
correlação, que indica multicolinearidade séria, é avaliado relacionando-se o coeficiente de 
correlação simples entre duas variáveis explicativas e o coeficiente de determinação múltipla da 
regressão, como na expressão 5.5. 
Rr ji xx
22
, ≥ 5.5 
em que r xjxi
2
.
 é o coeficiente de correlação simples ao quadrado, obtido entre pares de variáveis 
explicativas e R
2 é o coeficiente de determinação múltipla da regressão. 
O coeficiente de determinação múltipla da demanda de carne de frango é da ordem de 
996,02 =R . Este valor deve ser comparado com o quadrado dos coeficientes de correlação 
simples entrepares de variáveis explicativas, apresentados na matriz de correlação simples da 
Tabela 5.2. 
 
 204 
Por meio deste critério, nota-se que não há problemas sérios de multicolinearidade no 
modelo de regressão múltipla, estimado para a demanda de carne de frango. Isto porque o 
quadrado dos coeficientes de correlação simples entre o preço da carne de frango e a renda, entre 
preço da carne de frango e o preço da carne de boi, e entre a renda e o preço da carne de boi é 
muito menor do que o coeficiente de determinação múltipla. Portanto, este critério da análise de 
correlação rejeita a hipótese de que há problemas sérios de multicolinearidade entre as variáveis 
explicativas do modelo. 
 
Tabela 5.2. Matriz de correlação simples entre as variáveis da equação de demanda. 
Variável Q
f
 P
f
 R P
b
 
Qf 1,000 
P
f
 -0,813 1,000 
R 0,904 -0,507 1,000 
P
b
 0,286 -0,001 0,549 1,000 
 
b) Emprego de regressão auxiliar 
Este critério diz respeito ao cômputo do coeficiente de determinação para as regressões, 
ditas auxiliares, que são especificadas tomando-se cada variável independente em função das 
demais variáveis independentes restantes. No caso da demanda de carne de frango, o processo de 
obtenção do coeficiente de determinação é o seguinte: 
R
2
1 para a função: ),( PRP
b
tt
f
t f= 
R
2
2 para a função: ),( PPR
b
t
f
tt f= 
R
2
3 para a função: ),( PRP
f
tt
b
t f= 
5.6 
A hipótese nula é de que os Ri
2 (i = 1, 2, 3) são iguais a zero, indicando ausência de 
correlação forte entre as variáveis explicativas. Assim, a hipótese de que t
f
P não é 
correlacionada com as demais variáveis 
tR e t
b
P é 1
2
0R = . O teste para aferir esta hipótese é dado 
pela fórmula 5.7. 
)/()1(
)1/(
2
2
*
kn
k
R
R
F
i
i
i
−−
−
= , i = 1, 2, 3. 5.7 
em que: 
k é o número de parâmetros, inclusive o intercepto; 
n é o número de observações. 
O cálculo da estatística F*, para a primeira regressão auxiliar é apresentado em seguida e 
os demais na Tabela 5.3. 
739,1
1055,0
1835,0
)39/()367,01(
)13/(367,0*
1 ==
−−
−
=F 
 
 205 
O valor crítico da estatística F para (2 e 6) graus de liberdade, a 5% de probabilidade é 
5,14. Como o valor calculado da estatística *F é inferior a esse valor crítico, aceita-se a hipótese 
nula de que não há correlação forte entre a variável preço da carne de frango e as demais 
variáveis explicativas da regressão. 
A análise de conjunto, envolvendo todas as regressões auxiliares, permite concluir que 
não há multicolinearidade forte a ponto de comprometer a análise dos parâmetros estimados 
(Tabela 5.3). 
 
Tabela 5.3. Valores das estatísticas R2 e F para as regressões auxiliares. 
Função estimada R
2
 * )6,2(F gl Decisão ( 5% ) 
t
f
t t
b
P R Pf= ( , ) 0,367 1,739 ausência 
t t
f
t
b
R P Pf= ( , ) 0,558 3,786 ausência 
t
b
t t
f
P R Pf= ( , ) 0,404 2,034 ausência 
F crítico a 5%, com (2, 6) graus de liberdade = 5,14. 
 
c) Fator de variância inflacionária 
Outra maneira de medir o grau da multicolinearidade leva em consideração o cálculo do 
fator de variância inflacionária (FVI) para cada variável explicativa. O FVI, para uma dada 
variável explicativa Xi, é definido pela fórmula abaixo (SNEE, 1973; MARQUARDT, 1980): 
R
FVI
i
i 2
1
1
−
= 
em que: 
Ri
2 é o coeficiente de determinação da variável explicativa i, regressada contra todas as demais 
variáveis explicativas. 
Se o conjunto de variáveis explicativas for não-correlacionado, o FVI é igual a um. 
Entretanto, se as variáveis apresentarem intercorrelação forte, o FVI pode exceder o valor 5. Um 
FVI superior a 5 indica que existe alta correlação entre as variáveis explicativas. 
Usado os coeficientes de determinação, obtidos pelo método de regressão auxiliar, pode-
se verificar o grau de multicolinearidade entre as variáveis explicativas do modelo de demanda de 
carne de frango. Os resultados são os seguintes: 
5798,1
367,01
1
=
−
=FVI PF ; 0421,1404,01
1
=
−
=FVI PB e 2624,2558,01
1
=
−
=FVI R 
 
 206 
Esses resultados mostram, por esse critério, que não há forte intercorrelação entre as 
variáveis explicativas, ou seja, a multicolinearidade não constitui um problema sério para essa 
regressão. 
5.2.4 Correção da multicolinearidade 
Há vários métodos que podem ser empregados para corrigir os problemas de 
multicolinearidade do modelo de regressão múltipla. Os principais são os seguintes: 
i. Retirada de variáveis do modelo: uma medida simplista é a retirada de variáveis colineares 
do modelo. Todavia, esta prática pode introduzir um viés de especificação, ou erro de 
especificação no modelo, sobretudo quando há respaldo teórico que justifique a permanência 
da variável na regressão; 
ii. Adicionar novos dados ou uma nova amostra: como a multicolinearidade é um problema 
da amostra, é possível que outra amostra, com as mesmas variáveis e um maior número de 
observações, possa reduzir o problema por aumentar a variabilidade dos dados; 
iii. Repensar a especificação do modelo: verificar se a forma funcional escolhida para 
representar o fenômeno a ser estudado é a mais apropriada; 
iv. Transformar as variáveis: o modelo apresentado nas primeiras diferenças pode reduzir a 
severidade da multicolinearidade. Porém, esta prática pode introduzir outro problema - não 
satisfazer a hipótese de autocorrelação serial dos resíduos; 
v. Utilização de informações a priori sobre os parâmetros: fazer uso de informações 
conhecidas sobre os parâmetros. 
5.2.4.1 O caso da demanda de café 
A estimativa da demanda de café mostra que os parâmetros não se apresentam 
significativos a 5% de probabilidade, embora ambas as variáveis sejam individualmente 
importantes para explicar a demanda de café. Note-se que o coeficiente de determinação múltipla 
é praticamente igual ao obtido para a regressão simples do capítulo 3, que foi igual a 0,644, com 
estatística F significante a 5% de probabilidade. Estes resultados sugerem que há problemas de 
multicolinearidade entre as variáveis explicativas da regressão. 
78,2;97,4;531,0;665,0 )5,2(
22
564,0947,0186,9
0011,0049,0787,31
====
−−=
dFRR
RPQ
gl
t
c
t
c
t
 
a) Análise de correlação 
O coeficiente de correlação simples ao quadrado entre o preço do café e a variável renda é 
da ordem de 7825,02 , =r rp . Este valor é superior ao do coeficiente de determinação múltipla 
 
 207 
2 0 665R = , , indicando que há problema sério de multicolinearidade entre estas variáveis (Tabela 
5.4). 
 
Tabela 5.4. Matriz de correlação simples entre as variáveis preço e renda. 
Correlação Preço Renda 
Preço 1 
Renda 0,8846 1 
b) Emprego de regressão auxiliar 
A análise por meio de regressão auxiliar também indica presença de multicolinearidade 
forte entre as variáveis explicativas da regressão de demanda de café. Os dados estão na Tabela 
5.5, em que a estatística F* rejeita a hipótese nula ao nível de 1% de probabilidade de erro, uma 
vez que o valor do F calculado é maior do que o valor crítico de F = 13,74. 
 
Tabela 5.5 – Estatísticas R2 e F da regressão auxiliar. 
Função estimada R
2
 * )6,1(F gl Decisão 
( 1% ) 
t
c
tP Rf= ( ) 0,7825 21,586 presença 
F crítico a 1%, com (1, 6) graus de liberdade = 13,74. 
 
5.2.4.2 Correção da multicolinearidade 
Neste caso específico, não se deve eliminar uma variável do modelo para não violar o 
requisito teórico da função de demanda, que respalda a presença das duas variáveis como 
importantes para determinar a demanda de café. Talvez uma amostra de tamanho maior 
resolvesse o problema, uma vez que se dispõe de apenas oito observações. Também não é o caso 
de problemas com a forma funcional da regressão. Sendo assim, resta apenas o método de 
transformação de variáveis, que será apresentado a seguir. 
a) Transformação de variáveis 
Uma das maneiras de solucionar o problema é por meio da transformação das variáveis do 
modelo. No caso específico, representar-se-á a razão entre as quantidades demandadas de café 
(consumoaparente de café) e a renda dos consumidores em função dos preços do café. Ou seja, a 
proporção do consumo na renda sendo explicada pelos preços do café. A regressão transformada 
é a seguinte: 
 
 208 
838,2;69,28;798,0;827,0 )6,1(
22
36,592,9
000064,0014,0
====
−=








−
dFRR
P
R
Q
gl
c
t
t
c
t
 
Observa-se que o sinal do coeficiente de regressão está correto e é significativo a 1% de 
probabilidade. O poder explicativo da regressão, medido pelo coeficiente de determinação 
múltiplo aumentou e a estatística F também é significativa. Estes indicadores mostram que a 
multicolinearidade desapareceu. 
5.2.5 Análise da demanda de carne de boi 
Os resultados da estimação da demanda de carne de boi, estudada no Capítulo 4, é 
reproduzido aqui (Tabela 5.6), sem a inclusão da variável dummy. O modelo é especificado nos 
logaritmos naturais, como a seguir. 
eSMbPCSbPCFbPCBbbQCB tttttt +++++= lnlnlnlnln 43210 
em que: 
lnQCBt quantidade demandada de carne de boi no mês t, em toneladas; 
lnPCBt preço real da carne de boi no mês t, em R$/t; 
lnPCFt preço real da carne de frango no mês t, em R$/t; 
lnPCSt preço real da carne suína no mês t, em R$/t; 
lnSMt salário mínimo real no mês t, em R$/mês; 
et Termo de erro aleatório. 
 
 
 
Os resultados da estimação do modelo de demanda de carne de boi no mercado brasileiro 
são apresentados na Tabela 5.6. 
 
Tabela 5.6. Resultados da estimação dos parâmetros da demanda de carne de boi no Brasil. 
Variável dependente: ln(QCBt) 
Variável independente Coeficiente Erro padrão Estatística - t Probabilidade 
C 12.65162 0.250512 50.50310 0.0000 
ln(PCBt) -0.298715 0.084771 -3.523775 0.0007 
ln(PCFt) -0.193391 0.061108 -3.164767 0.0021 
ln(PCSt) 0.192189 0.066822 2.876149 0.0050 
ln(SMt) 0.171779 0.031849 5.393544 0.0000 
R - quadrado 0.426851 Estatística - F 16.94300 
R – quadrado ajustado 0.401658 Prob (Estatística-F) 0.000000 
 
 
 209 
 
 
Para testar se a regressão de demanda de carne de boi apresenta problemas de 
multicolinearidade, a análise será iniciada pela matriz de correlação simples, cujos resultados são 
apresentados na Tabela 5.7. 
 
Tabela 5.7. Matriz de correlação simples das variáveis do modelo de demanda. 
Variável ln(QCBt) ln(PCBt) ln(PCFt) ln(PCSt) ln(SMt) 
ln(QCBt) 1.000000 
ln(PCBt) -0.371089 1.000000 
ln(PCFt) -0.403729 0.667281 1.000000 
ln(PCSt) -0.143482 0.792390 0.533404 1.000000 
ln(SMt) 0.344161 0.180194 0.188898 0.171889 1.000000 
 
 
Os coeficientes de correlação simples entre as variáveis preço da carne de boi (PCBt) e 
preço da carne suína (PCSt) e entre o PCBt e o preço da carne de frango (PCFt) são, 
respectivamente, de 628,02 =rbs e 445,0
2 =rbs . Estes valores são superiores ao do coeficiente de 
determinação múltipla R2 = 0,427. Tais resultados indicam que há problema de 
multicolinearidade na regressão. 
Os resultados da análise de multicolinearidade por meio do método das regressões 
auxiliares são apresentados na Tabela 5.8. 
Tabela 5.8. Resultados dos testes para as regressões auxiliares. 
Regressão auxiliar R2 F* Decisão (1%) 
lnPCBt = f(lnPCFt, lnPCSt, lnSMt) 0,7116 75,6671 Presença 
lnPCFt = f(lnPCBt, lnPCSt, lnSMt) 0,4501 25,1010 Presença 
lnPCSt = f(lnPCFt, lnPCBt, lnSMt) 0,6287 51,9260 Presença 
lnSMt = f(lnPCFt, lnPCSt, lnPCBt) 0,0431 1,3813 Ausência 
Fcrítico a 1% de probabilidade, com (3, 92) graus de liberdade é igual a 3,95. 
 
 
 
5.2.5.1 Correção da multicolinearidade 
Os resultados da análise por meio da matriz de correlação mostraram que a maior 
colinearidade ocorre entre as variáveis lnPCBt e lnPCSt. Há uma forma alternativa de se 
expressar a função de demanda, na forma inversa, em que o preço da carne de boi passa a ser a 
variável dependente e a quantidade a variável independente. Esta prática reduz a colinearidade 
entre tais variáveis. Os resultados obtidos para a demanda inversa são apresentados na Tabela 5.9. 
Nota-se que o ajustamento melhorou muito, como mostra o R2 = 0,746. 
 
 210 
Tabela 5.9. Resultados da estimação dos parâmetros da demanda inversa. 
Variável dependente: ln(PCBt) 
Variável independente Coeficiente Erro padrão Estatística - t Probabilidade 
C 6.613055 1.403801 4.710822 0.0000 
ln(QCBt) -0.401945 0.114067 -3.523775 0.0007 
ln(PCFt) 0.220387 0.071020 3.103159 0.0026 
ln(PCSt) 0.556451 0.056140 9.911785 0.0000 
ln(SMt) 0.075812 0.041690 1.818460 0.0723 
R - quadrado 0.746258 Estatística - F 66.90809 
R – quadrado ajustado 0.735105 Prob (Estatística-F) 0.00000 
 
 
Os resultados da matriz de correlação simples entre as variáveis independentes são 
apresentados na Tabela 5.10. 
 
Tabela 5.10. Matriz de correlação simples 
Variável ln(PCBt) ln(QCBt) ln(PCFt) ln(PCSt) ln(SMt) 
ln(PCBt) 1,0000 
ln(QCBt) -0,3711 1,0000 
ln(PCFt) 0,6673 -0,4037 1,0000 
ln(PCSt) 0,7924 -0,1435 0,5334 1,0000 
ln(SMt) 0,1802 0,3442 0,1889 0,1719 1,0000 
 
Os resultados mostram que a maior correlação simples remanescente ocorre entre as 
variáveis PCFt e PCSt, da ordem de 0,5334. Porém, o quadrado deste coeficiente 285,02 =rbs que 
é inferior ao R2=0,746. Isto significa, por este critério, que a multicolinearidade deixou de ser um 
problema grave. Ou seja, sua presença não compromete os resultados das estimativas de MQO. 
Outra maneira de corrigir a multicolinearidade é por meio da transformação das variáveis 
do modelo de demanda de carne de boi. A sugestão é dividir o preço da carne de boi pelo preço 
da carne suína e tomar a variável transformada resultante para re-estimar o modelo. Essa prática 
diminui o número de variáveis explicativas e aumenta o número de observações, o que pode 
reduzir a multicolinearidade. Isto fica como exercício. As informações estão disponíveis na 
Tabela 5.11. 
Como verificação da aprendizagem, repetir o processo para a demanda de carne suína, 
tomando a variável QCSt como variável dependente e as variáveis (PCSt, PCBt, PCFt e SMt) 
como variáveis independentes. Fazer um teste para o modelo linear e o modelo logarítmico para 
as funções na forma direta e na forma inversa de demanda. 
 
 
 211 
Tabela 5.11. Dados mensais sobre quantidades e preços das carnes de boi e de suíno, preço da 
carne de frango e salário mínimo, Brasil, 1990 a 1997. 
Ano QCBt PCBt PCFt PCSt SMt QCSt 
Jan90 395381 31,8 0,83 21,59 90,23 80169 
F 359674 27,8 0,87 17,47 84,72 71298 
M 417083 28,9 1,12 18,28 96,28 75672 
A 454222 26,6 0,75 17,68 76,57 81819 
M 495460 27,4 0,73 22,36 70,32 91751 
J 474113 34,6 0,86 29,06 67,5 86217 
J 423669 32,8 0,87 27,2 73,49 94913 
A 427923 35,7 0,91 26,61 72,53 99899 
S 354897 44 1,13 29,25 79,95 89143 
O 384432 34,1 0,93 23,18 67,32 98779 
N 415833 24,2 0,66 17,33 67,48 92132 
D 449403 19,4 0,58 13,9 57,14 88208 
Jan91 478458 19,4 0,63 15,59 63,79 78215 
F 420131 22 0,83 17,46 71,64 76033 
M 456955 22,3 0,69 18,44 73,83 83308 
A 522835 21,5 0,59 18,15 67,36 90078 
M 543285 20,8 0,63 18,34 62,18 93962 
J 508143 20,4 0,63 18,83 56,98 93853 
J 498967 24,9 0,63 19,26 51,59 105082 
A 443259 28,3 0,6 20,19 45,7 105040 
S 409800 28,2 0,58 18,06 96,97 102678 
O 421986 28,5 0,58 15,34 71,69 103692 
N 420351 27,6 0,61 15,34 56,47 99888 
D 457847 21,6 0,57 13,69 44,28 98172 
Jan92 453785 20,7 0,56 13,44 83,85 91528 
F 465472 20,2 0,59 13,86 64,95 87685 
M 509062 18,3 0,48 12,98 52,67 94357 
A 511875 20,3 0,41 13,01 43,67 97573 
M 530321 21,2 0,53 13,89 87,5 103241 
J 561361 19,4 0,53 15,43 73,02 101993 
J 546605 20,1 0,48 15,09 60,06 113449 
A 463684 22 0,54 16,39 49,23 102627 
S 435588 23,2 0,59 17,24 90,48 104265 
O 439459 22,8 0,61 16,66 72,42 105365 
N 471114 20,1 0,6 15,94 57,78 94534 
D 493725 23,1 0,67 21,18 47,24 93383 
Jan93 439840 23,7 0,63 20,71 88,96 98528 
F 433696 22 0,58 17,9 70 91957 
M 527501 22,2 0,57 17,76 76,08 108496 
A 460592 23 0,54 17,66 59,5 101292 
M 513565 21,4 0,48 16,89 89,18 104251 
J 535726 20,2 0,5 19,63 68,67 105212 
J 520028 22,9 0,58 19,44 73,91 109970 
A 437829 26,40,64 19,57 66,88 106923 
S 438243 25,8 0,64 18,98 86,39 108963 
O 433432 24,9 0,61 17,54 79,5 109301 
 
 
 212 
 
N 446752 23,6 0,59 19,92 72,98 105439 
D 501670 24,8 0,64 22,07 67,15 109668 
Jan94 466241 22,3 0,63 17,15 84,13 98614 
F 459570 21,6 0,65 14,8 77,76 96125 
M 489104 22,9 0,68 16,9 64,79 100930 
A 474554 21,6 0,62 16,33 64,79 98073 
M 490978 20,1 0,61 16,15 64,79 120788 
J 483847 25,4 0,59 17,89 64,79 108335 
J 487846 25,9 0,66 18,21 69,37 112045 
A 492136 28,8 0,67 20,25 72,07 123836 
S 496061 31,6 0,72 25,61 80,92 117835 
O 466914 40,5 0,75 26,59 82,74 107951 
N 488722 42 0,86 29,93 83,14 121856 
D 518778 38,3 0,86 32,53 82,26 123612 
Jan95 488501 33,1 0,84 28,66 82,74 111108 
F 470182 33,1 0,74 25,77 83,3 108159 
M 500713 29 0,53 22,79 78,56 138301 
A 494607 27,3 0,54 21,48 77,09 111636 
M 512926 26,4 0,57 20,3 112 134782 
J 506820 24,8 0,6 18,65 109,53 126612 
J 488501 27,8 0,68 18,19 107,76 128434 
A 525138 27,5 0,72 18,94 106,16 137799 
S 531245 26,7 0,66 18,14 105,04 136461 
O 512926 27,5 0,6 17,86 104,17 133786 
N 543457 27,1 0,59 17,81 103,84 133786 
D 580095 23,5 0,59 17,72 103,31 139137 
Jan96 531680 23,1 0,55 17,16 102,65 129125 
F 537218 23,2 0,66 15,51 101,94 127560 
M 553833 22,8 0,58 14,2 101,45 133459 
A 542756 22,7 0,65 13,59 101,02 127567 
M 553833 21,9 0,69 14,02 112,55 135698 
J 564910 22,1 0,73 17,22 111,88 133562 
J 520603 24,1 0,71 17,19 111,25 136897 
A 520603 24,9 0,62 17,81 110,55 144623 
S 542756 24,7 0,72 17,17 109,92 146321 
O 509526 25,4 0,77 17,49 109,25 147562 
N 553833 23,5 0,8 21,26 108,75 145698 
D 542756 23,5 0,69 20,46 108,01 151928 
Jan97 535310 23,5 0,55 20,31 107,42 133287 
F 474872 24,3 0,56 21,48 106,78 125612 
M 496457 24,4 0,58 23,12 105,97 122598 
A 523438 25 0,51 25,15 105,59 118123 
M 539627 24,3 0,51 21,08 112,36 124678 
J 539627 24,3 0,64 19,56 111,69 129654 
J 512645 25,1 0,72 19,65 111,06 133743 
A 518042 24,8 0,73 19,81 110,3 137876 
S 512645 24,2 0,71 19,97 109,74 140328 
O 501853 25,3 0,63 19,79 109,11 144479 
N 512645 24,9 0,61 19,69 108,38 147951 
D 528834 25 0,64 19,24 107,78 154648 
 
 213 
 
5.3 Heteroscedasticidade 
A heteroscedasticidade refere-se ao caso em que a variância do termo de erro não é 
constante para todas as observações das variáveis explicativas. Neste caso, a hipótese de 
homoscedasticidade é violada e a variância do erro é dada por: 
σεεεε
222 )()]([()var( ii iEiiE E === − 5.8 
em que: 
i = significa que a variância σ2 assume valor diferente para alguma observação. 
Nota-se que, para E(Xiεi) ≠ 0, tem-se E(εi
2
) ≠ σ2 para (i = 1, 2, ...,n). Isto viola o 
pressuposto de homoscedasticidade de que σε
22)( =iE . 
5.3.1 Natureza da heteroscedasticidade 
A heteroscedasticidade é um fenômeno que está mais ligado a dados cross-section. A 
despesa das famílias serve de exemplo. Assim, a variância do erro associada com as despesas das 
famílias de baixa renda é geralmente menor do que para as famílias de alta renda, dado que a 
grande parcela da renda das famílias de baixa renda é para atender suas necessidades básicas, 
com pouca folga para ação (Figura 5.4). 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 5.4. Exemplos de heteroscedasticidade. 
 
 
 
 
 Y ( a ) Y ( b ) 
 
 
 
 
 
 
 
 
 
 
 0 Heteroscedasticidade X 0 Heteroscedasticidade X 
No gráfico ( a ) a variância do erro decresce e no gráfico ( b ) a variância do erro diminui e 
aumenta. 
 
 
 214 
5.3.2 Consequências da heteroscedasticidade 
Na presença de heteroscedasticidade, os estimadores de MQO são afetados. Eles 
continuam não viesados e consistentes, dado que essas propriedades dependem apenas das 
hipóteses de média zero do termo de erro, E(εi)=0, e de que as observações de X são fixas, e não 
da hipótese de homoscedasticidade. Sendo assim, as estimativas de MQO para os parâmetros da 
regressão são ineficientes na presença de heteroscedasticidade, ou seja, os estimadores não têm 
variância mínima. Em consequência disso, as variâncias estimadas dos parâmetros são viesadas, 
conduzindo a testes estatísticos incorretos para os parâmetros e intervalos de confiança também 
irreais ou viesados. Isto significa que os testes de hipóteses usuais não são confiáveis, sendo 
grande a possibilidade de se fazer conclusões erradas. De uma maneira geral, as principais 
consequências da heteroscedasticidade são as seguintes: 
a) Eficiência: no modelo geral de regressão linear (MGRL), os estimadores de MQO continuam 
não viesados e consistentes, mas não possuem as menores variâncias entre todos os 
estimadores lineares não viesados. Como os estimadores de MQO não possuem variância 
mínima, eles não são eficientes. 
b) Inferência: no modelo geral de regressão linear, a fórmula da matriz de variância-covariância 
dos estimadores de MQO é incorreta e, por consequência, as variâncias dos estimadores, V(β) 
são viesadas. Assim, embora o estimador b de MQO seja não viesado no MGRL, o intervalo 
de estimação e os testes de hipóteses usando os b podem não ser confiáveis. As fórmulas 
usuais de cálculo dos estimadores de MQO são viesadas, porém não se pode antecipar a 
direção do viés. Se for para menos, a variância é subestimada e as estatísticas são 
superavaliadas. Assim, tem-se: 
∑ − knet /
2 não é um estimador correto de σ
2 e, portanto, as estatísticas t, F e R2 também são 
viesadas (ou irreais) na presença de heteroscedasticidade. 
5.3.3 Identificação da heteroscedasticidade 
A terceira hipótese do modelo de regressão linear clássico (RLC) é que os erros são 
esféricos, isto é, apresentam variância uniforme e não são correlacionados entre si. Estas 
características são usualmente descritas em termos da matriz de variância-covariância do termo 
de erro. Nesta matriz, cada elemento da diagonal principal é a variância associada a uma das 
observações da amostra de dados. Se todos os elementos da diagonal forem iguais, o termo de 
erro apresenta variância uniforme, ou seja, a variância é homoscedástica. Se os elementos da 
diagonal principal não forem todos iguais, o termo de erro apresenta variância desuniforme, isto 
é, a variância é heteroscedástica. Veja na ilustração a seguir: 
 
 
 215 
Variância homoscedástica: 












σ
σ
σ
2
2
2
...00
............
0...0
0...0
 
 
Variância heteroscedástica: 












nσ
σ
σ
2
2
2
...00
............
0...0
0...0
1
 
Cada elemento fora da diagonal principal da matriz de variância-covariância resulta da 
covariância entre os erros associados a duas observações da amostra. Se todos estes elementos 
forem iguais a zero, os erros não são correlacionados. Isto significa, que em repetidas amostras, 
não há uma tendência para que o erro esteja associado a uma observação. Se os elementos fora da 
diagonal principal não forem todos iguais a zero, os erros são autocorrelacionados com o termo 
de erro de outra observação. Este problema viola outra hipótese do MRC, que será estudado mais 
adiante. 
Erros autocorrelacionados: 












σ
σ
σ
εεεε
εεεε
εεεε
2
2
2
...)()(
............
)(...)(
)(...)(
21
212
121
nn
n
n
EE
EE
EE
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 5.5. Exemplo de homoscedasticidade e heteroscedasticidade. 
 
 
 e2 ( a ) e2 ( b ) 
 
 
 
 
 
 
 
 
 
 0 Homoscedasticidade X 0 Heteroscedasticidade X 
No gráfico ( a ) a variância do erro é constante e no gráfico ( b ) a variância do erro diminui e 
aumenta. 
 
 216 
Há várias maneiras de identificação da heteroscedasticidade. Uma delas é por meio da 
análise gráfica. Isto consiste em se fazer o gráfico, plotando-se os resíduos da regressão contra 
uma variável independente (Figura 5.5) 
Outra maneira de identificação da heteroscedasticidade é por meio de testes formais. Os 
principais serão apresentados a seguir: 
5.3.3.1 Teste de Park 
O teste de Park para heteroscedasticidade adota oprincípio de que o logaritmo do termo 
de erro ao quadrado (lne2) é uma função linear do logaritmo da variável explicativa (lnXi). A 
equação formal é a seguinte: 
ν iii Xe ba ++= lnln
2
 5.9 
em que νi é o termo de erro aleatório. 
Se o parâmetro b for estatisticamente diferente de zero, isto sugere que a 
heteroscedasticidade pode estar presente nos dados. Se, por outro lado, o b for insignificante, 
pode-se aceitar a hipótese de homoscedasticidade nos dados. Os passos para a aplicação do teste 
de Park são: 
i. Estimar a regressão original: eXbaY iii ++= ; 
ii. Tomar os valores do termo de erro ao quadrado e calcular o logaritmo natura (ln e2 ); 
iii. Estimar a regressão transformada: ν iii Xe ba ++= lnln
2 
ν iii Ye ba ++= lnln
2
 5.10 
iv. Testar a hipótese nula: H0: b = 0 de que não há heteroscedasticidade; 
v. Decidir: se a hipótese H0 for aceita, a variância é constante, ou homoscedástica. 
a) Aplicação 
Em primeiro lugar apresentar-se-á a estimativa da regressão simples entre hiato de 
produto e taxa de desemprego, depois será exibida a representação gráfica entre desemprego e 
hiato de produto e entre os resíduos e a variável independente que é a taxa de desemprego. 
84,3;23,0 )13,1(
2
)96,1()81,0(
964,811,19
==
+−=
FR
uh
gl
&&
 
Na Figura 5.6, indica-se que não há problema de heteroscedasticidade nos dados, ou seja, 
a variância é constante. Mesmo assim, serão aplicados os testes formais para maior precisão da 
análise. 
 
 
Regressão de Park: 
Pelo que é dado observar, não há presença de 
o parâmetro de regressão não é significativo a 5% de probabilidade.
 
Figura 5.6. Gráfico de dispersão entre hiato de produto e desemprego, 1983/1997.
 
 
5.3.3.2 Teste de Glejser 
O teste de Glejser para 
empregada para o teste de Park. O teste de Glejser diz respeito a uma regressão em que os valores 
absolutos do termo de erro são regressados contra a variável explic
variância heteroscedástica (σ
sugeridas em 5.11. 
ν iii Xe ba ++= 
ν iii Xe ba ++= 
ν i
i
i
X
e ba ++=
1
 
ν i
i
i
X
e ba ++=
1
 
4
4,5
5
5,5
6
6,5
7
7,5
0,00 10,00
D
E
S
E
M
P
R
E
G
O
217 
Regressão de Park: 
115,0;008,0
)ln()ln(
)13,1(
2
)34,0()21,2(
2 444,062,4
==
+=
FR
ue
gl
i &
 
Pelo que é dado observar, não há presença de heteroscedasticidade 
o parâmetro de regressão não é significativo a 5% de probabilidade. 
Gráfico de dispersão entre hiato de produto e desemprego, 1983/1997.
O teste de Glejser para heteroscedasticidade segue a mesma linha de raciocínio 
empregada para o teste de Park. O teste de Glejser diz respeito a uma regressão em que os valores 
absolutos do termo de erro são regressados contra a variável explicativa que está associada com a 
σi
2
). O teste é aplicado para algumas formas funcionais, como a
 
 
i
 
20,00 30,00 40,00 50,00HIATO
 nos dados. Isto porque 
 
Gráfico de dispersão entre hiato de produto e desemprego, 1983/1997. 
segue a mesma linha de raciocínio 
empregada para o teste de Park. O teste de Glejser diz respeito a uma regressão em que os valores 
ativa que está associada com a 
. O teste é aplicado para algumas formas funcionais, como as 
5.11 
60,00 70,00
 
 218 
Se o parâmetro b em quaisquer das expressões de 5.11 for estatisticamente diferente de 
zero, tem-se um indicativo de que a heteroscedasticidade pode estar presente nos dados. Se, por 
outro lado, o b não for estatisticamente significante ao nível de 5% de probabilidade, a hipótese 
nula de que a variância é homoscedástica é aceita. 
 
a) Aplicação 
Regressão de Glejser: 
318,0;024,0
||
)13,1(
2
)56,0()04,1(
124,1695,10
==
+=
FR
ue
gl
i &
 
Como no teste de Park, os resultados do teste de Glejser também permitem rejeitar a 
hipótese alternativa de que há heteroscedasticidade nos erros. 
5.3.3.3 Teste robusto de heteroscedasticidade de Breusch-Pagan 
O teste robusto de heteroscedasticidade consiste da aplicação de uma simples técnica para 
computar as estatísticas t, que seguem assintoticamente a distribuição t de Student com ou sem a 
presença de heteroscedasticidade. 
Diante do modelo linear, dado na equação 5.12 
εββββ tkikiii XXXY +++++= L22110 5.12 
em que: 
Yi = variável dependente para a unidade econômica i; 
Xji = variáveis explicativas para a unidade econômica i; 
βj = parâmetros da regressão; 
εi = termo de erro aleatório. 
e sob a hipótese de homoscedasticidade, dada na equação 5.13, as estimativas de MQO são não 
viesadas e consistentes. 
σε
2
21
2
0
),,,|(: =XXXEH kiii L 5.13 
Isto mostra que, para testar a violação da hipótese de homoscedasticidade, tem-se que 
verificar se o termo de erro ao quadrado (ε2) está relacionado a uma ou mais variável 
independente Xj. A equação de teste é dada por: 
νδδδδε ikikii XXX +++++= L22110
2 5.14 
em que: 
νi é um erro com média zero para os valores de Xi. 
A hipótese do teste robusto de heteroscedasticidade é expressa como em 5.15. 
 
 219 
0: 210 ==== δδδ kH L 5.15 
Sob a hipótese nula, é razoável assumir que na equação 5.14, o termo de erro νi é 
independente de Xi. As estatísticas de teste F e LM (multiplicador de Lagrange) são dadas pelas 
seguintes fórmulas: 
)/()1(
)1/(
2
2
kn
k
R
R
F
−−
−
=
ε
ε
ε
 5.16 
em que: 
R
2
ε
 = coeficiente de determinação da equação 5.14; 
k é o número de parâmetros, inclusive o intercepto; 
n é o número de observações. 
A estatística F segue a distribuição aproximada de F(k-1, n-k), sob a hipótese nula de 
homoscedasticidade. 
A estatística LM para heteroscedasticidade, tipicamente chamada de teste de 
heteroscedasticidade Breusch-Pagan (teste BP), é dada pelo produto entre o número de 
observação e o R-quadrado. 
χε
22
k
a
RnLM →⋅= 5.17 
Sob a hipótese nula de homoscedasticidade, LM segue assintoticamente a distribuição 
qui-quadrado. 
Estes testes são de fácil aplicação e podem ser realizados com a ajuda das ferramentas 
estatísticas do Excel. Sendo assim, toma-se uma amostra de dados cross-section de 52 famílias de 
Belém-PA, para estimar o seguinte modelo linear de demanda: 
εβββββ tiiiii RPPPCFPCBQCB +++++= 43210 5.18 
em que: 
QCB = é a quantidade de carne de boi que a família i consome por mês, em kg; 
PCB = é o preço de aquisição da carne de boi pela família i, em R$/kg; 
PCF = é o preço de aquisição da carne de frango pela família i, em R$/kg; 
PP = é o preço de aquisição do peixe pela família i, em R$/kg; 
R = é a parcela da renda gasta em alimentação pela família i, em R$; 
εi = é o termo de erro aleatório. 
Os resultados da estimação da demanda de carne de boi, através do Excel, são 
apresentados na Tabela 5.12. 
 
 220 
Uma visualização rápida desses resultados indica que estão coerentes com a teoria do 
consumidor, pois os sinais negativos e positivos, respectivamente, das estimativas dos 
coeficientes das variáveis preço e renda estão corretos. Há, pois, uma relação inversa entre preço 
e quantidade e uma relação direta entre renda e quantidade demandada. As estatísticas t para 
esses coeficientes também são diferentes de zero ao nível de 1%. No entanto, como se trata de 
uma amostra de dados cross-section, é prudente que, antes de qualquer análise dos resultados, 
sejam avaliados os resíduos da regressão para identificação de problemas de 
heteroscedasticidade. 
 
Tabela 5.12. Resultados da estimação da equação de demanda de carne de boi para as 52 famílias 
de Belém, 2003. 
Estatística de regressão Variável dependente: QCB 
R múltiplo 0.7883 
R-quadrado 0.6214 
R-quadrado ajustado 0.5892 
Erro padrão 6.1693 
Observações 52 
ANOVA gl SQ MQ F 
Regressão 4 2935.891 733.9727 19.2847 
Resíduo 47 1788.816 38.0599 1.91E-09 
Total 51 4724.707 
Variáveis Coeficientes Erro padrão Estaística - t valor-P 
Interseção 29.4424 4.5668 6.4470 5.65E-08 
PCB -2.7114 0.9370 -2.8937 0.005756 
PCF -3.7136 1.5082 -2.4622 0.017529 
PP 0.5506 0.6047 0.9105 0.36723 
R 0.0154 0.0023 6.8274 1.49E-08 
 
 
Os resultados da equação de resíduo ao quadrado para testara hipótese nula de 
homoscedasticidade, por meio do teste BP são apresentados na Tabela 5.13. 
A estatística F apresentou um valor maior do que o F crítico de 3,83. Igualmente, a 
estatística LM apresentou um valor superior ao valor crítico χ2 = 0,297 com quatro graus de 
liberdade (k-1 gl). 
Estatística F: .896,3
016,0
0623,0
)552/()249,01(
)15/(249,0
==
−−
−
=F ε 
Estatística LM: 948,12249,052
2
=⋅== ⋅RnLM ε 
Com base nestas estatísticas, rejeita-se a hipótese nula em favor da hipótese alternativa de 
que há presença de heteroscedasticidade nos resíduos da regressão. Em função disso, os 
resultados da Tabela 5.12 devem ser analisados com cautela. 
 
 
 221 
Tabela 5.13. Resultados da estimação da equação para o teste BP de heteroscedasticidade. 
Estatística de regressão Variável dependente: εεεε2 
R múltiplo 0.49906 
R-quadrado 0.24906 
R-quadrado ajustado 0.18515 
Erro padrão 34.32652 
Observações 52 
ANOVA gl SQ MQ F 
Regressão 4 18367.806 4591.951 3.897 
Resíduo 47 55380.569 1178.310 0.0082 
Total 51 73748.375 
Variáveis Coeficientes Erro padrão Estatística - t valor-P 
Interseção 15.99543 25.41039 0.62948 0.53208 
PCB -6.40816 5.21359 -1.22913 0.22514 
PCF -3.50048 8.39189 -0.41713 0.67848 
PP 8.74426 3.36467 2.59885 0.01246 
R 0.03000 0.01256 2.38921 0.02095 
 
5.3.3.4 Teste de heteroscedasticidade de White 
O teste de heteroscedasticidade proposto por White (1980) adiciona à equação do termo 
de erro ao quadrado 5.14, as relações cruzadas e cada variável explicativa ao quadrado. O modelo 
de White para duas variáveis independentes é dado por: 
νδδδδδδε iiiiiii XXXXXX ++++++= 215
2
24
2
1322110
2 5.19 
A hipótese nula do teste de White para heteroscedasticidade é expressa como em 5.20. 
0: 5210 ==== δδδ LH 5.20 
As estatísticas F e LM podem ser utilizadas para testar a hipótese de homoscedasticidade. 
O Eviews apresenta o teste de White para detectar heteroscedasticidade nos modelos de 
regressão. O caminho para se realizar este teste, após estimar a equação de demanda, é o 
seguinte: View/Residual tests/White Heteroskedasticity (cross terms). 
A equação 5.19, para o caso da demanda de carne de boi, deve ser especificada da 
seguinte maneira: 
tvRPPRPCFPPPCFRPCBPPPCB
PCFPCBRPPPCFPCB
iiiiiiiiii
ii
i
i
i
i
i
i
i
i
i RPPPCFPCB
+++++
+++++++++=
+ ....
.
13.1211109
8
2
7
2
65
2
43
2
21
2
80
δδδδδ
δδδδδδδδδδε 
As estatísticas F e (LM = n*R2) não são diferentes de zero ao nível de 5%, conforme 
indicam os resultados da Tabela 5.14. Portanto, não há presença de heteroscedasticidade na 
regressão de demanda de carne de boi, pois a probabilidade de rejeição da hipótese nula (de que 
 
 222 
os resíduos são homoscedásticos) é superior a 14,2% para o teste F e superior a 15,5% para o 
teste LM. Sendo assim, os resultados da Tabela 5.12 podem ser interpretados normalmente. 
Os resultados do teste de White negam os resultados do teste BP. Qual o teste mais 
confiável? A resposta é simples e direta. Neste caso, os resultados do teste de White são 
confiáveis. Isto ocorreu porque o modelo é completo, capta todas as relações possíveis entre as 
variáveis independentes e o termo de erro ao quadrado. Esta é a razão pela qual os principais 
softwares econométricos incluem o teste de White. 
 
Tabela 5.14 – Teste de heteroscedasticidade de White. 
Teste de Heteroscedasticidade de White 
Estatística – F 1.546312 Probabilidade 0.142734 
Obs*R-quadrado (LM = n*R2) 19.19432 Probabilidade 0.157656 
Variável dependente: Resíduo2 
Método: Mínimos Quadrados 
Observações incluídas: 52 
 
Variável Coeficiente Erro padrão Estatística - t Probabilidade 
C -49.9114 133.5429 -0.3737 0.7107 
PCB -19.9315 47.7144 -0.4177 0.6786 
PCB2 -0.2316 5.3989 -0.0429 0.9660 
PCB*PCF -0.5237 10.1930 -0.0514 0.9593 
PCB*PP 1.4914 5.6967 0.2618 0.7949 
PCB*R 0.0146 0.0191 0.7633 0.4501 
PCF 84.6862 69.6721 1.2155 0.2319 
PCF2 -13.7465 14.2073 -0.9676 0.3395 
PCF*PP 0.9638 10.2206 0.0943 0.9254 
PCF*R -0.0110 0.0232 -0.4726 0.6393 
PP 9.2668 36.1501 0.2563 0.7991 
PP2 -1.5592 1.8236 -0.8550 0.3980 
PP*R 0.0145 0.0162 0.8974 0.3753 
R -0.0922 0.1173 -0.7865 0.4366 
R2 0.0000 0.0000 0.1948 0.8466 
R-quadrado 0.369121 Média da variável dependente 34.4003 
R-quadrado ajustado 0.130411 S.D. da variável dependente 38.02692 
S.E. da regressão 35.46078 Critério de inf. Akaike 10.21133 
Soma de quadrados dos resíduos 46526.27 Critério de Schwarz 10.77419 
Log de probabilidade -250.4945 Estatística - F 1.546312 
Estatística Durbin-Watson - d 1.982059 Prob(Estatística - F) 0.142734 
 
 
5.3.4 Solução da heteroscedasticidade 
Uma hipótese plausível sobre o padrão de heteroscedasticidade diz respeito ao caso em 
que a variância do erro é proporcional ao quadrado da variável explicativa. Para ilustrar essa 
situação, toma-se como exemplo a regressão de duas variáveis abaixo. 
 
 223 
eXbaY iii ++= 0 
Assumindo a hipótese de que a da heteroscedasticidade segue o padrão determinado na 
expressão 5.21. 
Xe iiE
222)( σ= 5.21 
Se há razões para se acreditar, por meio da análise gráfica, de que a variância do erro é 
proporcional ao quadrado da variável explicativa X, como na Figura 5.7, pode-se transformar a 
regressão original, fazendo a divisão de ambos os termos da regressão por X. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Figura 5.7. Ilustração de heteroscedasticidade. 
 
O modelo transformado é o seguinte: 
X
e
XX
Y
i
i
ii
i b
a
++= 
ν i
ii
i b
a
XX
Y ++= 
em que νi é o termo de erro aleatório transformado, igual a: ei/Xi. 
Sendo assim, pode-se mostrar que a variância é constante, como em 5.22. 
 
 e2 
 
 
 
 
 
 
 
 
 0 
 
 
 
 
 
0 Heteroscedasticidade X 
No gráfico ( a ) a variância do erro é proporcional ao quadrado de X. 
 
 224 
σσν
222
2
2
2
2
2 1)(
1
)( ==== 





X
X
e
XX
e
i
i
i
i
i
EEE
i
i 5.22 
 
Neste caso, a variância de νi torna-se homoscedástica, podendo ser aplicado o método de 
MQO à regressão transformada. 
O método mais geral e que produz bons resultados é o desenvolvido por White e incluído 
no Eviews, que consiste em corrigir os dados com base em uma matriz de covariância consistente, 
que gera estimativas corretas para os coeficientes de covariância, na presença de 
heteroscedasticidade. Para aplicar este método, basta clicar na opção Heteroskedasticity 
Consistent no botão Options da caixa de diálogo do Eviews. 
Como não há problemas de heteroscedasticidade na equação de demanda de carne de boi, 
os resultados da equação corrigida pelo método de White são iguais àqueles obtidos no Excel, 
conforme pode ser observado na Tabela 5.15. 
Tabela 5.15 – Resultados do modelo de demanda corrigido pelo método de White, para 
heteroscedasticidade. 
Erro padrão e covariâncias consistentes heteroscedásticos de White (EVIEWS, 2003) 
Variável dependente: QCB 
Método: mínimos quadrados 
Observações incluídas: 52 
Variável Coeficiente Erro padrão Estatística - t Probabilidade 
C 29.44237 4.464618 6.594601 0.0000 
PCB -2.711358 0.942566 -2.876573 0.0060 
PCF -3.713605 1.306447 -2.842521 0.0066 
PP 0.550559 0.688389 0.799778 0.4279 
R 0.015407 0.002805 5.493420 0.0000 
R-quadrado 0.621391 Média da variável dependente 15.97115 
R-quadrado ajustado 0.589169 S.D. da variável dependente 9.62504 
S.E. da regressão 6.169272 Critério de inf. Akaike 6.56825 
Soma de quadrados dos resíduos 1788.816 Critério de Schwarz 6.75587 
Log de probabilidade -165.7745 Estatística - F 19.28467 
Estatística Durbin-Watson - d 1.616661 Prob. (Estatística - F) 0.00000 
 
 
Conforme indicado na Tabela 5.15, os resultados podem ser analisados. Observa-se que 
62,13% das variações ocorridas nas quantidades demandadas de carne de boi pelas famílias 
participantes da amostra são explicadas pelo conjunto das variáveis independentes. A estatística 
F, significativa ao nível de 1%, indica que o modelo se adequouao fenômeno estudado. 
A estimativa do coeficiente da variável preço da carne de boi, da ordem de -2,71, 
sugerindo que para cada aumento de R$1,00 no preço da carne de boi, a quantidade demandada 
de carne tende a diminuir de 2,71 kg, em média, para as famílias, mantendo a influência das 
demais variáveis constante, o que mantém coerência com a lei da demanda. Seguindo o mesmo 
 
 225 
raciocínio, tem-se que o valor da estimativa do coeficiente da variável preço da carne de frango é 
de -3,71, indicando que para cada aumento de R$1,00 no preço da carne de frango, as famílias 
tendem a diminuir o consumo de carne de boi em 3,71 kg, caracterizando os produtos como 
complementares, ceteris paribus. Os preços do peixe não influenciam o consumo de carne de boi 
dessas famílias, uma vez que não apresentou significância estatística. O valor da estimativa do 
coeficiente de renda é de 0,015 e indica que para cada aumento de R$1,00 na renda da família, o 
consumo de carne de boi tende a aumentar de 15,4 gramas. 
 
 226 
5.4 Autocorrelação 
Quando o termo de erro (ei) em um período de tempo é positivamente, ou negativamente, 
correlacionado com o termo de erro do período de tempo anterior, depara-se com um problema 
de autocorrelação positiva, ou negativa, de primeira ordem. Isto significa que os sucessivos 
termos de erro são gerados em função de valores prévios, de modo que a hipótese de não 
autocorrelação pode não ser plausível. Este fenômeno é comum em análises de séries temporais e 
pode conduzir a desvios padrão viesados. Geralmente, os valores dos desvios são subestimados. 
Neste caso, os resíduos são autorregressivos, ou seja: 
)(;0)( htE
htt
f∀≠−εε 5.23 
Isto indica que o resíduo, que ocorre no ano t, relaciona-se ao resíduo que ocorre no ano 
(t-h). Quando h=1 tem-se que o resíduo do período t está correlacionado ao resíduo do período t-
1, caracterizando o caso da autocorrelação serial de primeira ordem. A natureza e causa da 
autocorrelação são apresentadas em seguida. 
5.4.1 Natureza da autocorrelação 
O fenômeno da autocorrelação é usualmente associado com dados de série temporal. 
Quando a autocorrelação ocorre em dados cross-section, diz-se que há correlação espacial. 
No modelo de regressão linear simples, assume-se ausência de autocorrelação, em função 
da aleatoriedade da amostra, ou seja: 
)(,0)( jiE
ji
≠∀=εε 
Para dados de série temporal e cross-section, isto significa que: 
Série temporal: se um trabalhador influencia a geração do produto em um período, não há razão 
para se acreditar que este efeito seja transmitido para outros períodos. Porém, a possibilidade 
de autocorrelação sempre deve ser levada em conta quando se trabalha com dados de séries 
temporais. 
Cross-section: os gastos realizados em consumo por uma família não influenciam as decisões de 
aumento ou diminuição de gasto de outra família. 
Por outro lado, se há autocorrelação serial dos resíduos, tem-se que: 
E(εiεj) ≠ 0, para todo i≠j. 
5.4.2 Causas da autocorrelação 
Quando os elementos fora da diagonal principal da matriz de variância-covariância são 
diferentes de zero, os erros são autocorrelacionados, como na ilustração a seguir. 
 
 
 227 
Erros não autocorrelacionados: 














σ
σ
σ
2
2
2
...00
............
0...0
0...0
 
 
Erros autocorrelacionados: 












σ
σ
σ
εεεε
εεεε
εεεε
2
2
2
...)()(
............
)(...)(
)(...)(
21
212
121
nn
n
n
EE
EE
EE
 
 
Observa-se que os termos das diagonais secundárias são diferentes de zero. Isto indica que 
os erros são correlacionados. Esta correlação pode ser causada pelas seguintes razões: 
i. Autocorrelação espacial: em dados cross-section, um choque aleatório que afete a produção 
agrícola em uma região pode causar impacto na produção de regiões subjacentes que mudam 
por causa das ligações econômicas existentes entre si. São exemplos: geadas, enchentes, etc. 
ii. Influência prolongada de choques: em dados de séries temporais, choques aleatórios 
produzem efeitos que, algumas vezes, persistem por mais de um período de tempo. A 
desvalorização do câmbio e fenômenos como geadas e secas, guerra, por exemplo, podem 
afetar a economia no presente e nos períodos subseqüentes. 
iii. Inércia: por causa da inércia ou de condições psicológicas, ações passadas algumas vezes 
podem exercer fortes efeitos sobre o presente, de tal forma que um erro positivo em relação à 
média, relativo a um período pode influenciar a atividade em períodos seguintes. Este 
fenômeno acompanha a própria forma de evolução de variáveis econômicas como PNB, 
emprego, oferta monetária, índice de preços, taxa de juros, etc. Ou seja, o ajuste que ocorre 
por conta do próprio ciclo da economia pode gerar autocorrelação. 
iv. Erro de especificação do modelo: uma variável relevante não incluída na regressão torna o 
modelo subespecificado. Se esta variável é autocorrelacionada, a sua ausência no modelo de 
regressão pode resultar em padrão sistemático no comportamento dos resíduos, tornando-os 
autocorrelacionados. Para verificar se isto está ocorrendo, basta observar o comportamento 
dos resíduos na presença e na ausência de tais variáveis no modelo de regressão. 
v. Manipulação de dados: os dados mensais transformados em dados trimestrais, empregando 
média aritmética, tornam as séries mais suaves. Isto faz com que os dados suavizados 
apresentem um padrão sistemático no termo de erro, induzindo à autocorrelação. Da mesma 
forma, a interpolação de dados tende a elevar a média em períodos sucessivos, o que pode 
induzir padrões sistemáticos no comportamento dos resíduos. 
 
 228 
vi. O fenômeno da teia de aranha: a quantidade ofertada dos produtos da agropecuária reage ao 
preço defasado de um ou mais período, em função do tempo que leva da implantação até a 
comercialização da produção. A forma mais comum de representar este fenômeno é por meio 
da seguinte equação: 
ePQ ttt ba ++= −1 
Se no período t, o preço Pt for menor que o preço Pt-1, no período seguinte (t + 1), os 
produtores decidem produzir menos do que no período t. Esta é uma razão que leva ao erro, et, 
ser não aleatório. 
A autocorrelação serial dos resíduos pode ser de várias ordens. A mais comum é 
autocorrelação de primeira ordem que ocorre quando o termo de erro de um período é uma 
proporção do termo de erro do período anterior, mais uma disturbância esférica, ou seja, um 
termo de erro não autocorrelacionado. Em termos matemáticos, a autocorrelação de primeira 
ordem é escrita da seguinte maneira: 
νρ ttt ee += −1 
em que ρ é um parâmetro menor do que um em valor absoluto, denominado coeficiente de 
autocorrelação e νt é o termo de erro esférico. 
5.4.3 Consequências da autocorrelação 
As principais consequências da autocorrelação sobre as estimativas dos parâmetros de 
MQO são as relacionadas em seguida: 
a) Os estimadores de MQO continuam estimadores lineares não viesados e consistentes; 
b) Os estimadores de MQO não possuem mais variância mínima, portanto não são eficientes; 
c) As variâncias dos estimadores de MQO são viesadas. Isto significa que os desvios padrão dos 
parâmetros podem ser subestimados, elevando o valor das estatísticas t, R2 e F. 
d) As estatísticas t e F são irreais. Portanto, se forem aplicadas podem levar a erros nas 
conclusões. 
e) A variância e desvio padrão de previsão podem ser ineficientes. 
5.4.4 Identificação da autocorrelação 
Há várias formas para a identificação da autocorrelação serial de primeira ordem. A 
forma mais simples de diagnóstico do problema, porém a menos segura é a análise gráfica, por 
fornecer apenas um indicativo da presença ou ausência de autocorrelação nos resíduos. 
Conforme mostrado na Figura 5.8, exceção do gráfico (a), todos os demais apresentam 
indícios de que os erros não são normalmente distribuídos, em função da presença de 
autocorrelação serial. Para ter certeza de que realmente há presença de autocorrelação, um teste 
formal deveser aplicado. Geralmente, o teste mais empregado é o de Durbin-Watson, descrito em 
seguida. 
 
 229 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 5.8 – Identificação de casos de autocorrelação serial positiva e negativa. 
 
 
5.4.4.1 Teste de Durbin-Watson: d 
A estatística de Durbin-Watson é calculada com base na expressão 5.24. 
∑
∑ −
=
=
−
=
n
t
t
n
t
e
ee
d
tt
1
2
2
2
)( 1
 5.24 
Este teste toma por base a hipótese de que os erros são correlacionados de primeira 
ordem, como em 5.25. 
11
1
+−
+= −
pp ρ
ρ ν ttt ee
 5.25 
 
 ei ( a ) ei ( b ) 
 
 
 
 
 0 t 0 t 
 
 
 
 
 Não autocorrelação Autocorrelação positiva 
 
 ei ( c ) ei ( d ) 
 
 
 
 
 0 t 0 t 
 
 
 
 
 Autocorrelação positiva Autocorrelação negativa 
 
 230 
em que o parâmetro ρ (rô) é dado por: 
∑
∑
=
=
−
=
n
t
t
n
t
tt
e
ee
1
2
2
1
ρ
 5.26 
De posse dos resultados em 5.26, pode-se deduzir que a estatística de Durbin-Watson 
varia entre zero (valor mínimo) e quatro (valor máximo): d ≈ −2 1( )ρ . Neste caso, se ρ = -1, a 
estatística de Durbin-Watson é d = 4, indicando correlação serial negativa perfeita, se ρ = 0, tem-
se que d = 2, indicando ausência de autocorrelação serial de primeira ordem e, se ρ = 1, o valor 
de d = 0, indicando que há correlação serial positiva perfeita. A demonstração é a seguinte: 
∑
∑∑∑
=
=
−
=
−
=
−+
=
n
t
t
n
t
tt
n
t
t
n
t
t
e
eeee
d
1
2
2
1
2
2
1
2
2 2
 
)1(22112
1
2
2
1
1
2
2
2
1
1
2
2
2
ρρ −≅−+≅−+=
∑
∑
∑
∑
∑
∑
=
=
−
=
=
−
=
=
n
t
t
n
t
tt
n
t
t
n
t
t
n
t
t
n
t
t
e
ee
e
e
e
e
d 
Os testes de hipótese para autocorrelação de primeira ordem positiva e negativa, com 
base na estatística de Durbin-Watson, são enquadrados nas situações indicadas no esquema 
abaixo. 
 
Rejeita Zona de Aceita as hipóteses Zona de Rejeita 
0H Indecisão 0H ou 0
*
H ou ambas Indecisão 0
*
H 
0 dL dU 2 4-dU 4-dL 4 
 
 
As hipóteses de ausência de autocorrelação de primeira ordem, pelo esquema acima, são 
dadas por: 
H0: não autocorrelação positiva de primeira ordem é aceita se dU.< d < 2 
H0: não autocorrelação negativa de primeira ordem é aceita se 2 < d < 4-dU. 
As hipóteses de presença de autocorrelação de primeira ordem, pelo esquema acima, são 
dadas por: 
Ha: autocorrelação positiva de primeira ordem é aceita se d < dL. 
Ha: autocorrelação negativa de primeira é aceita se d > 4-dL. 
 
 231 
Nas duas outras situações em que a estatística d se situa no intervalo (dL e dU), para 
autocorrelação positiva, e no intervalo (4-dL e 4-dU), para autocorrelação negativa, o teste é 
inconclusivo. 
Os passos utilizados na determinação da estatística de Durbin-Watson são os quatro 
determinados a seguir: 
i. Estimar a regressão para obter os resíduos: et; 
ii. Calcular o valor da estatística d; 
iii. Encontrar o valor crítico de dL e dU de Durbin-Watson em tabela específica para o número de 
variáveis explicativas da regressão (k’) e o número de observações ( n ); 
iv. Tomar a decisão de aceitar ou rejeitar a hipótese nula. 
5.4.5 Correção da autocorrelação 
Em primeiro lugar, estima-se o modelo especificado na equação 5.26 e testa-se a hipótese 
de autocorrelação de primeira ordem. Se a hipótese alternativa de que há presença de 
autocorrelação nos resíduos for aceita, emprega-se o método de Cochrane-Orcutt para fazer a 
correção. 
11
;
1
+−
+=
++=
−
pp ρ
ρ ν ttt
ttt
ee
eXbaY
 5.26 
 
Passo 1: O primeiro passo é tomar a regressão anterior, defasado-a de um período, como a seguir: 
eXbaY ttt 111 −−− ++= 5.27 
 
Passo 2: O segundo passo é multiplicar a regressão defasada (5.27) por rô (ρ), como a seguir: 
eXbaY ttt 1111 −−− ++= ρρρρ 5.28 
 
Passo 3: O terceiro passo é subtrair da regressão original (5.26) a regressão (5.28), como a seguir: 
eeXbXbaaYY tttttt 111 −−− −+−+−=− ρρρρ 5.29 
 
Passo 4: O passo final é ajustar os termos da regressão, que resulta na regressão transformada (5.30). 
ν ttt XbaY ++=
***
 5.30 
em que: 
t t tY Y Y
*
= −
−
ρ
1
; 
 
 232 
t t tX X X
*
= −
−
ρ
1
; 
�∗ = (1 − �) 
	
 = �
 + ��

� 
 
Na aplicação deste método de Cochrane-Orcutt para correção de autocorrelação serial, 
perde-se a primeira observação e para recuperá-la, aplica-se a seguinte fórmula corretiva: 
YY 1
2*
1 1 ⋅−= ρ 
XX 1
2*
1 1 ⋅−= ρ 
Feito isto, estima-se a regressão transformada por MQO. 
5.4.6 Aplicação 
A seguir, apresentar-se o processo de cálculo da estatística de Durbin-Watsom para 
identificação de autocorrelação serial de primeira ordem nos resíduos nas equações de demanda 
de café e de carne de frango. Com base nos dados da Tabela 5.16, tem-se que: 
Durbin-Watson para café: 777,2
7267,27
9971,76
2
1
2
2
2
)( 1
===
∑
∑ −
=
=
−
t
t
n
t
e
ee
d
tt
 
 
Tabela 5.17. Cálculo da estatística de Durbin-Watson para a demanda de café 
Ano et et-1 (et-et-1)
2 et.et-1 et
2 
1990 0,6492 - - - 0,4214 
1991 0,6163 0,6492 0,0011 0,4001 0,3798 
1992 0,8009 0,6163 0,0341 0,4936 0,6415 
1993 -2,6368 0,8009 11,8181 -2,1119 6,9529 
1994 1,1142 -2,6368 14,0704 -2,9380 1,2415 
1995 -3,6408 1,1142 22,6101 -4,0566 13,2554 
1996 1,6871 -3,6408 28,3864 -6,1424 2,8463 
1997 1,4100 1,6871 0,0768 2,3787 1,9880 
Somatória = 76,9971 -11,9765 27,7267 
rô ρρρρ = -0,432 Teste t = -1,24 d = 2,777 
 
 
Cálculo do rô: 432,0
7267,27
9765,11
2
1
2
2
2
)( 1
−=
−
==
∑
∑ ⋅
=
=
−
t
t
n
t
e
ee tt
ρ 
 
 
 233 
A representação gráfica indica presença de autocorrelação negativa, pois os resíduos de 
alternam entre valores positivos e negativos, como mostra a Figura 5.9. 
 
Figura 5.9. Gráfico de resíduos em função do tempo, indicando presença de autocorrelação 
negativa. 
 
O modelo auto-regressivo de primeira ordem para a demanda de carne de frango é 
especificado como a seguir (Tabela 5.17). 
µρ
ttt
t
f
t
f
t
ee
ePbaQ
+=
++=
−1
 5.31 
Estatística de Durbin-Watson: 
d
e e
e
t t
t
n
t
t
= = =
−∑
∑
−
=
=
2
2
2
1
2
1 2 5 6 8 8
4 3 1 4 4
0 5 9 5
( ) ,
,
,
 
 
Tabela 5.18. Cálculo da estatística de Durbin-Watson para a demanda de frango. 
Ano ( et ) ( et-1 ) (et-et-1)
2 ( et
2 ) ( et.et-1 ) 
1989 0,4454 - - 0,1983 - 
1990 0,6264 0,4454 0,0328 0,3924 0,2790 
1991 -2,2778 0,6264 8,4346 5,1885 -1,4269 
1992 -2,5063 -2,2778 0,0522 6,2814 5,7088 
1993 -2,5300 -2,5063 0,0006 6,4007 6,3407 
1994 -1,6442 -2,5300 0,7846 2,7033 4,1597 
1995 1,9464 -1,6442 12,8919 3,7883 -3,2001 
1996 3,4937 1,9464 2,3944 12,2062 6,8001 
1997 2,4464 3,4937 1,0970 5,9847 8,5469 
Somatória = 25,6880 43,1437 27,2082 
 d =0,595 ρ=0,7322 t = 2,46 
 
-4,0
-3,0
-2,0
-1,0
0,0
1,0
2,0
1990 1991 1992 1993 1994 1995 1996 1997
V
A
L
O
R
 D
O
 E
R
R
O
ERRO ( Et )
 
 234 
A regressão estimada é apresentada em seguida: 
Regressão: 
595,0;68,13;66,0 )7,1(
2
)70,3()51,8(
474,20791,30
===
−=
−
dFR
PQ
gl
f
t
f
t
 
Na Figura 5.10, ilustra-se o comportamento dos resíduos da regressão em função do 
tempo. A análise gráfica sugere que há autocorrelação positiva, porém não permite assegurar se 
tal evidência suporta o teste estatístico. 
 
 
Figura 5.10. Gráfico de resíduos em função do tempo da demanda de carne de frango, indicando 
presença de autocorrelação positiva. 
 
O teste cai na região inconclusiva para autocorrelação positiva. Mesmo assim, a título de 
exemplificação, vai-se aplicar o método de Cochrane-Orcurtt apenas para correção da 
autocorrelação serial de primeira ordem. Em primeiro lugar, faz-se a transformação do modelo 
para correção de autocorrelação, como a seguir: 
ePQ t
f
t
f
t
ba 111 −−− ⋅+⋅+⋅= ρρρρ 
νρρ t
f
t
f
t
f
t
f
t PPQQ ba +−+−=− −− )()1()( 11 
ν t
f
t
f
t PCbaQC ++=
∗ 
5.32 
 
Os dados transformados são apresentados na Tabela 5.18. Os resultados obtidos da 
estimativa dos parâmetros

Continue navegando

Outros materiais