Baixe o app para aproveitar ainda mais
Prévia do material em texto
CAPÍTULOCAPÍTULOCAPÍTULOCAPÍTULO 5555 SANTANA, A. C. de. Métodos quantitativos em economia: elementos e aplicações. Belém: UFRA, 2003. ANÁLISE DE RESÍDUOS E VIOLAÇÃO DAS HIPÓTESES DO MODELO CLÁSSICO DE REGRESSÃO LINEAR Introdução 5.1 Análise de resíduos na regressão - 175 5.2 Multicolinearidade - 180 5.3 Heteroscedasticidade - 194 5.4 Autocorrelação - 206 Objetivos do capítulo Introduzir a análise de resíduos e avaliar suas implicações para os modelos de regressão; Apresentar as causas, consequências, métodos de identificação e correção da violação das hipóteses do modelo clássico de regressão por multicolinearidade, heteroscedasticidade e autocorrelação; Desenvolver análises de problemas reais de microeconomia (modelos de mercado) e macroeconomia (função consumo, curva de Phillips e oferta monetária) brasileira; Utilizar as ferramentas do Excel e o software Eviews para a solução dos modelos de regressão utilizados. 194 CAPÍTULO 5 ANÁLISE DE RESÍDUOS E VIOLAÇÃO DAS HIPÓTESES DO MODELO CLÁSSICO DE REGRESSÃO LINEAR INTODUÇÃO emprego do modelo de regressão linear clássico (RLC - simples ou múltipla) para a análise de fenômenos reais da economia prescinde da aceitação das hipóteses clássicas, que são impostas à construção do modelo. Ou seja, as hipóteses intrínsecas ao modelo de RLC devem ser atendidas para que os resultados obtidos da estimação do modelo sirvam de base para outros estudos, para a orientação de políticas ou para a tomada de decisão. No caso de alguma hipótese ser violada, deve-se avaliar as consequências que resultam disto e tentar contornar o problema, ou então empregar outra abordagem para a análise do fenômeno. Neste capítulo, serão avaliadas as principais consequências, que a violação de tais hipóteses causa ao modelo de RLC e, em seguida, serão indicados os principais caminhos para solucionar o problema. Antes de iniciar a abordagem da análise de valores atípicos dos resíduos (ou outliers) e aprofundar o estudo sobre os problemas causados pela violação das hipóteses de ausência de multicolinearidade entre as variáveis independentes, de homoscedasticidade e de autocorrelação dos resíduos, serão apresentadas algumas ponderações a respeito da hipótese de normalidade do termo de erro. A hipótese de normalidade do termo de erro não é essencial se o objetivo pretendido é apenas de estimação dos parâmetros da regressão. Como foram apresentados no capítulo 3, os estimadores de MQO são os melhores estimadores lineares não-tendenciosos (MELNT), independentemente da forma de distribuição do termo de erro. O importante a dizer é que com a distribuição do termo de erro normal, pode-se assegurar que os estimadores de MQO dos coeficientes da regressão seguem distribuição normal, que [(n- k)s 2 /σ2] apresenta distribuição qui-quadrado (χ2) e que as estatísticas t e F, empregadas nos testes de hipóteses podem ser usadas, independentemente do tamanho da amostra. Na verdade, os testes t e F são válidos assintoticamente, ou seja, quando o tamanho da amostra tende para infinito. Porém, não converge assintoticamente em amostras finitas ou pequenas amostras. O fato, é que, se o termo de erro não apresenta distribuição normal, os estimadores de MQO ainda são normalmente distribuídos assintoticamente, sob as hipóteses de homoscedasticidade – de que as variações do termo de erro não são aleatórias e nem funções O 195 lineares exatas com as demais variáveis independentes. Entretanto, isto tem pouco significado prático, dado que dificilmente se dispõe de grandes amostras de dados. Sendo assim, cabe a aplicação do teste de Jarque-Bera, apresentado no capítulo 3, dado que em pequenas amostras e sem o conhecimento prévio sobre a distribuição dos resíduos, as estatísticas t e F podem não seguir as respectivas distribuições de t e F. 5.1 ANÁLISE DE RESÍDUOS NA REGRESSÃO Sabe-se que é sobre o termo de erro que as hipóteses do modelo de regressão são construídas, o que justifica uma análise mais detalhada dos principais problemas, que podem levar à violação de tais hipóteses e, em consequência, comprometer os resultados gerados a partir da estimação por MQO. Um destes problemas diz respeito à presença de valores atípicos (ou outliers) nos erros da regressão. Um outlier, grosseiramente falando, é uma observação que se comporta de forma diferente do restante da massa de dados. Algumas vezes, é possível identificar as razões que levaram ao aparecimento de observações extremas, visto que seus comportamentos são peculiarmente distintos dos demais. Se realmente tais observações são outliers, o processo geralmente empregado é o de eliminar tais observações da amostra de dados e reestimar a regressão. Do ponto de vista estatístico, há diferença quando os outliers são eliminados antes ou depois de uma análise preliminar. Se a regressão é estimada na presença de outliers, ou é re- estimada após a eliminação destas observações, os desvios padrão e os intervalos de confiança não são válidos. Por outro lado, se tais valores não forem eliminados do conjunto das observações, caso nenhuma informação adicional seja obtida, os resultados podem, também, ser insignificantes, ou seja, nem sempre a eliminação de outlier deve ser a solução recomendada. O termo de erro da regressão (ou resíduo da regressão) é definido pela diferença entre o valor observado da variável dependente e seu respectivo valor estimado, como a seguir: e Y Yi i i= − $ , i n= 1 2, ,..., 5.1 em que: Yi é um valor observado da variável dependente; iŶ é o correspondente valor estimado da regressão por meio de MQO. A detecção de possíveis outliers nos resíduos da regressão requer o conhecimento prévio sobre a origem dos principais fatores que podem gerar estes problemas. 5.1.1 Origem de outliers Os autovalores que aparecem nos dados podem ser causados por diversos fatores. Os dois principais são apresentados em seguida. Erro de medida: algumas vezes os valores extremos surgem como resultado de eventos não usuais, mais de fácil explicação, tais como o registro incorreto dos dados ou erro de digitação. Se esta for a causa, o outlier deve ser eliminado dos dados, sendo feita a substituição do dado 196 errado pelo valor correto (caso seja erro de digitação) ou por outro valor qualquer que mantenha a tendência da série, ou coerência com o restante dos dados. Ausência de variáveis importantes: neste caso, os outliers surgem por causa da influência exercida por alguma variável explicativa importante que não foi incluída no modelo. Quando isto ocorre, é possível que tais variáveis induzam a um comportamento sistemático nos resíduos da regressão. A identificação e análise das causas que produzem outliers são importantes porque pode resultar em novos conhecimentos sobre as formas de associação das variáveis do modelo, além de aprofundar a análise sobre o fenômeno estudado. Por causa disso, deve-se lembrar que a eliminação de outlier deve ser realizada apenas quando as evidências que lhe deram origem forem conhecidas e justifiquem sua eliminação. 5.1.2 Identificação e tratamento de outlier A adequação de um modelo econométrico pode ser feita por meio de representações gráficas, plotando-se os resíduos em função do valor estimado da variável dependente, ou em função de alguma variável explicativa identificada. Muitos são os casos de problemas causados por resíduos. Um destes casos é o provocado por autovalores de resíduos e que podem caracterizar a presença de outliers. O gráfico de resíduos ei contra o valor estimado da variável dependente $Yi pode ser útil para revelar a presença de observações extremas, conhecidas como outliers. Assim, um resíduo que seja, em valor absoluto, consideravelmente maior, ou menor, que os demais, pode ser considerado como um outlier, uma vez que a observação que originou tal resíduo não é típica do restante da massa de dados.Na Figura 5.1, exibe-se uma situação de ausência de outlier (ilustração a) e outra de presença de outlier (ilustração b). No gráfico de resíduos ( )ei contra os valores estimados ( $ )Yi , como o apresentado na ilustração b da Figura 5.1, o outlier é o ponto afastado da região em que se concentram os demais resíduos. ei ( a ) ei ( b ) outlier 0 iY$ 0 iY$ Ausência de outliers Presença de outliers Figura 5.1. Representação das situações sem e com outlier. 197 Uma maneira adequada de identificação de possíveis outliers é trabalhar com os resíduos padronizados, denominados por d i e definidos como a seguir. QMR e d ii = , para i n= 1 2, ,..., em que QMR é o quadrado médio dos resíduos. Se os erros forem independentes e identicamente distribuídos com média zero e variância constante, representados por: ),0(~ 2σiidNei , então 95% dos resíduos padronizados devem cair dentro do intervalo de -2 a +2 (-2 < di < 2). Os resíduos padronizados, que se localizam fora deste intervalo, em se tratando de pequenas amostras, podem ser considerados como outliers. A análise de outlier por meio da técnica de padronização dos resíduos pode ser observada diretamente dos resultados do Excel. Para isto, basta ativar a caixa de resíduos padronizados ao estimar a regressão. O resultado será o apresentado na Tabela 5.1, para a regressão de demanda de café. Observa-se que os resíduos da regressão simples de demanda do café (quantidade de café em função do preço do café), não há presença de outliers, uma vez que todas as observações estão dentro do intervalo de -2 até +2 (coluna 4 da Tabela 5.1). Tabela 5.1. Resultados do valor estimado (previsto), resíduo simples e resíduo padronizado da regressão. Ano Y previsto tŶ Resíduos et Resíduo padronizado d i 1990 23,57 0,83 0,38 1991 24,27 1,03 0,47 1992 25,82 0,78 0,35 1993 25,12 -2,82 -1,27 1994 19,96 1,84 0,83 1995 19,18 -3,68 -1,66 1996 21,51 0,69 0,31 1997 18,88 1,32 0,60 A representação gráfica entre os resíduos ei e a variável independente X1 (no caso, os preços reais do café), não indicam presença de outliers. Este gráfico é obtido diretamente da saída do Excel. Para tanto, basta ativar a caixa de plotagem de resíduos. Na Figura 5.2, apresentam-se os resultados do Excel, relacionando os valores da variável independente com os erros da regressão. 198 O procedimento formal, geralmente, empregado para a avaliação de outliers no modelo de regressão linear clássico (simples ou múltipla) é o seguinte: i. Eliminar os outliers da massa de dados original; ii. Ajustar novamente o modelo de regressão à nova massa de dados que foi obtida após a eliminação dos outliers; iii. Comparar, para os dois modelos, os valores das estimativas de b0 e b1, das estatísticas t, F e R 2 e dos quadrados médios dos erros; iv. Se os valores comparados acima, relativos aos dois modelos estiverem relativamente próximos, os outliers exercem um pequeno efeito sobre o modelo de regressão. Um exemplo deste processo pode ser elaborado a partir da simulação de um erro de digitação nos dados de consumo de frango. Portanto, assume-se que ao invés de ser digitado o valor 18,5 kg/hab./ano, para o consumo de 1994, foi digitado o valor de 185 kg/hab./ano. Neste caso, a análise de padronização de resíduos revela que há um outlier, cujo valor é de 2,395 e cai fora do intervalo estabelecido para os resíduos padronizados di. Na Figura 5.3, ilustra-se a presença de um outliers. A regressão estimada na presença deste autovalor é a seguinte: 866,0;11,0 02,117758,110 )7,1( 2 * )93,0()35,1( * == −= − FR PQ gl f t f t Os resultados são ruins, pois as estatísticas t e F são insignificantes, a 5% de probabilidade. Também o poder explicativo do modelo é muito baixo quando comparado com os resultados obtidos para o modelo com os dados corretos, sem a presença de outliers. Estes resultados são apresentados na equação abaixo. 68,13;662,0 474,2079,30 )7,1( 2 )7,3()51,8( == −= − FR PQ gl f t f t -4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 0 20 40 60 80 100 120 140 160 180R es íd uo s Variável X 1 Figura 5.2. Resíduos da regressão contra a variável X1 (preço) 199 Observa-se que o outlier pode produzir efeitos severos sobre as estimativas dos parâmetros. Não apenas as estatísticas se tornaram insignificantes a 5% de probabilidade, mas também os valores dos parâmetros se tornaram totalmente diferentes da realidade. Neste caso, o outlier levaria o pesquisador a cometer um erro do Tipo II, já que a hipótese nula seria aceita em detrimento da hipótese alternativa que é a verdadeira. Figura 5.3. Plotagem de resíduos contra o valor estimado da regressão Observa-se que o diagnóstico dos resíduos é fundamental para a análise de regressão, pois é em seu comportamento que aparecem muitos dos problemas de especificação, relações entre variáveis explicativas e outros problemas intrínsecos ao processo gerador dos dados econômicos que, geralmente, são empregados nas análises quantitativas. A seguir serão apresentadas as consequências atribuídas aos problemas causados por multicolinearidade, assim como os métodos empregados para sua identificação e para correção. Este é um caso de violação da hipótese de independência das variáveis explicativas, em função de características inadequadas da amostra eleita. -40 -20 0 20 40 60 80 100 120 140 160 0,0 10,0 20,0 30,0 40,0 50,0 60,0 R es íd uo s Valor estimado 200 5.2 MULTICOLINEARIDADE O modelo de regressão linear clássico pressupõe que as variáveis independentes são fixas. Portanto, assume-se que não existem relações lineares exatas entre elas e que o número de observações será maior do que o número de variáveis. Quando algum destes pontos for violado, não será possível obter o valor das estimativas de MQO. A multicolinearidade diz respeito ao caso em que duas ou mais variáveis explicativas, no modelo de regressão múltipla, são altamente correlacionadas (colineares), tornando difícil ou impossível separar seus efeitos individuais sobre a variável dependente. Isto ocorre em função da tendência apresentada por muitas séries econômicas de se moverem na mesma direção e dentro dos mesmos padrões de ciclos de negócios, ao longo do tempo. A multicolinearidade não depende de argumentos teóricos ou das atuais relações lineares existentes entre alguns dos regressores; depende apenas da existência de uma relação linear aproximada nos dados da amostra. Por esta razão, diz-se que multicolinearidade é um problema da amostra, dado que diz respeito apenas às relações entre as variáveis independentes. A hipótese do modelo de regressão linear múltiplo é que não há multicolinearidade entre as variáveis explicativas do modelo de regressão. A compreensão do fenômeno da multicolinearidade requer a análise dos seguintes aspectos importantes. i. A natureza e problema da multicolinearidade; ii. As consequências práticas da multicolinearidade; iii. A identificação do problema da multicolinearidade; iv. A correção do problema da multicolinearidade. 5.2.1 Natureza do problema da multicolinearidade Em primeiro lugar, deve-se assumir um caso de multicolinearidade perfeita. Dada a equação 5.2. eXAXAAY tttt +++= 22110 5.2 e assumindo que XX tt 5,12 12 += 5.3 o coeficiente de determinação é igual a um: 12 =R Neste caso, não é possível estimar a regressão por MQO, pois, fazendo a substituição da equação 5.3, na equação 5.2, tem-se: 201 eXAAAAY eXAXAAAY eXAXAAY ttt tttt tttt ++++= ++++= ++++= 12120 121120 12110 )5,1()2( 5,12 )5,12( eXBBY ttt ++= 110 5.4 e os valores dos parâmetros B0 e B1 são dados por: AAB AAB 211 200 5,1 2 += += A regressão 5.4 pode ser estimada para gerar osvalores dos parâmetros B0 e B1. A partir destes valores, porém, não é possível determinar os valores das variáveis explicativas X1 e X2 sobre Y. Isto significa que, na presença de multicolinearidade, não se tem uma única estimativa para os parâmetros da regressão. Em consequência disso, não é possível testar as hipóteses individuais sobre os parâmetros da regressão múltipla. Na prática, a perfeita colinearidade é rara, o que se tem, geralmente, são casos de imperfeita colinearidade entre as variáveis explicativas. Isto significa que a multicolinearidade é uma questão de grau e, nestes termos, o grau será considerado forte quando próximo da perfeita e fraco quando próximo de zero. 5.2.2 Consequências da multicolinearidade Na presença de imperfeita multicolinearidade, os estimadores de MQO ainda preservam as propriedades de consistência e de eficiência. Isto significa que os estimadores de MQO ainda são os melhores estimadores lineares não tendenciosos (MELNT). A maior consequência indesejada da multicolinearidade é a de que a variância dos estimadores dos parâmetros de MQO, relacionados às variáveis independentes e ditas colineares, são grandes. Esta alta variância surge porque, na presença de multicolinearidade, não se tem a independência necessária da variação do regressor, que o processo de estimação de MQO requer para calcular o efeito, que tal regressor exerce sobre a variável dependente. Considerar, por exemplo, o caso em que a variável dependente é regressada sobre duas variáveis independentes, e que são altamente correlacionadas. A variação nos dois regressores pode ser classificada de três maneiras: variação isolada da primeira variável, variação isolada da segunda variável e variação conjunta de ambas as variáveis. Sabe-se, entretanto, que não é possível isolar os efeitos das variáveis colineares sobre a variável dependente. Ao mesmo tempo, o processo de estimação por MQO usa somente a variação da primeira variável no cálculo da estimativa do coeficiente da respectiva variável; e emprega somente a variação da segunda variável no cálculo da estimativa do coeficiente do segundo regressor. Por conseguinte, a variação conjunta é desprezada. Por outro lado, quando os regressores são altamente correlacionados, a maior parte da variação é comum às duas variáveis, o que resulta em pouca variação isolada relativa a cada 202 variável. Em consequência disso, o processo de estimação de MQO dispõe de poucas informações para usar no cálculo do valor dos coeficientes, sobretudo quando se trata de uma pequena amostra de dados ou quando diz respeito a amostras em que o regressor varia muito pouco. Adicionalmente, sabe-se que as estimativas realizadas com base em poucas informações não devem manter alta confiabilidade, por resultar em alta variância. Ou seja, uma alta correlação entre as variáveis independentes, leva a menos informações disponíveis para o processo de estimação dos parâmetros de MQO e, então, resulta em uma maior variância. Em síntese, as principais consequências da multicolinearidade podem ser agrupadas em duas categorias: teóricas e práticas. As consequências teóricas são as seguintes: i. Na presença de colinearidade imperfeita, os estimadores de MQO são consistentes (não viesados), e a estatística R2 não é afetada; ii. A colinearidade imperfeita não destrói a propriedade de variância mínima dos estimadores de MQO. Mas na amostra, a variância dos estimadores pode ser muito grande. Isto ocorre porque na presença de multicolinearidade, o procedimento de estimação de MQO não recebe variação independente suficiente, em uma variável independente, para se calcular o efeito sobre a variável dependente; iii. A multicolinearidade é essencialmente um problema da amostra, uma vez que se refere às variáveis explicativas. As consequências práticas da multicolinearidade são as seguintes: i. Grandes variâncias e desvios padrão dos estimadores de MQO, o que diminui a precisão destes estimadores de MQO; ii. Grandes intervalos de confiança. Isto leva a que os estimadores de MQO sejam não significantes; iii. Um alto R2 com poucas estatísticas t significantes e algumas estimativas com sinais trocados; iv. Os estimadores de MQO são sensíveis a pequenas mudanças nos dados, portanto são instáveis. 5.2.3 Identificação da multicolinearidade Há varias controvérsias com relação à questão da identificação da multicolinearidade, ou mais precisamente, com relação à questão de medir o grau em que os dados são colineares. Uma das razões para esta controvérsia diz respeito ao fato de que grande parte dos métodos empregados para a identificação da multicolinearidade é inadequada. Mas há outras razões que são mais importantes. Um dos remédios para as altas variâncias indesejáveis que surgem da multicolinearidade é a incorporação de informações adicionais ao processo de estimação. Este remédio é empregado mesmo que não se saiba que a variância grande é causada por multicolinearidade ou inadequada variação do conjunto de dados das variáveis independentes. Também é comum entre os pesquisadores a atitude de eliminar a multicolinearidade, quando os sinais esperados para as estimativas dos coeficientes são diferentes do esperado, ou 203 quando as variáveis relevantes não apresentam significância estatística pelo teste t, a 5% de probabilidade, ou quando vários regressores apresentam mudanças substanciais quando uma variável é eliminada da regressão. Infelizmente, nenhuma destas condições é necessária ou suficiente para a existência de colinearidade. Em consequência, nenhuma providência deveria ser tomada, além da inclusão de dados ou informações adicionais, para solucionar os sintomas apresentados. Outra maneira geralmente utilizada para identificar multicolinearidade diz respeito à utilização da matriz de correlação simples entre as variáveis independentes da regressão. Os elementos fora da diagonal principal representam os coeficientes de correlação simples entre pares de variáveis independentes. Um alto valor (em torno de 0,8 ou 0,9 em valor absoluto) de um desses coeficientes de correlação indica alta correlação entre as duas variáveis independentes em referência. Este método detecta colinearidade entre duas específicas variáveis e sugere que informações adicionais sejam incluídas para resolver o problema. Entretanto, este método não detecta os casos em que três ou mais variáveis são colineares, e quando são tratadas em pares, as relações de colinearidade não aparecem. Outro método menos comum, mais de maior efetividade na identificação da multicolinearidade é o índice condicionado, dado pela raiz quadrada da razão entre o maior e o menor valor da raiz característica da matriz X’X. Para um valor abaixo de 10, tem-se ausência de multicolinearidade, um valor entre 10 e 30, tem-se multicolinearidade moderada, e um valor acima de 30, tem-se severa multicolinearidade (GUJARATI, 1995). Portanto, há vários métodos formais, que podem ser empregados para detectar a presença da multicolinearidade na regressão múltipla. Os principais e mais fáceis métodos são apresentados em seguida. a) Análise de correlação Segundo Klein, a multicolinearidade não necessariamente se constitui em problema, a não ser que o grau de correlação entre as variáveis explicativas seja muito elevado. Este alto grau de correlação, que indica multicolinearidade séria, é avaliado relacionando-se o coeficiente de correlação simples entre duas variáveis explicativas e o coeficiente de determinação múltipla da regressão, como na expressão 5.5. Rr ji xx 22 , ≥ 5.5 em que r xjxi 2 . é o coeficiente de correlação simples ao quadrado, obtido entre pares de variáveis explicativas e R 2 é o coeficiente de determinação múltipla da regressão. O coeficiente de determinação múltipla da demanda de carne de frango é da ordem de 996,02 =R . Este valor deve ser comparado com o quadrado dos coeficientes de correlação simples entrepares de variáveis explicativas, apresentados na matriz de correlação simples da Tabela 5.2. 204 Por meio deste critério, nota-se que não há problemas sérios de multicolinearidade no modelo de regressão múltipla, estimado para a demanda de carne de frango. Isto porque o quadrado dos coeficientes de correlação simples entre o preço da carne de frango e a renda, entre preço da carne de frango e o preço da carne de boi, e entre a renda e o preço da carne de boi é muito menor do que o coeficiente de determinação múltipla. Portanto, este critério da análise de correlação rejeita a hipótese de que há problemas sérios de multicolinearidade entre as variáveis explicativas do modelo. Tabela 5.2. Matriz de correlação simples entre as variáveis da equação de demanda. Variável Q f P f R P b Qf 1,000 P f -0,813 1,000 R 0,904 -0,507 1,000 P b 0,286 -0,001 0,549 1,000 b) Emprego de regressão auxiliar Este critério diz respeito ao cômputo do coeficiente de determinação para as regressões, ditas auxiliares, que são especificadas tomando-se cada variável independente em função das demais variáveis independentes restantes. No caso da demanda de carne de frango, o processo de obtenção do coeficiente de determinação é o seguinte: R 2 1 para a função: ),( PRP b tt f t f= R 2 2 para a função: ),( PPR b t f tt f= R 2 3 para a função: ),( PRP f tt b t f= 5.6 A hipótese nula é de que os Ri 2 (i = 1, 2, 3) são iguais a zero, indicando ausência de correlação forte entre as variáveis explicativas. Assim, a hipótese de que t f P não é correlacionada com as demais variáveis tR e t b P é 1 2 0R = . O teste para aferir esta hipótese é dado pela fórmula 5.7. )/()1( )1/( 2 2 * kn k R R F i i i −− − = , i = 1, 2, 3. 5.7 em que: k é o número de parâmetros, inclusive o intercepto; n é o número de observações. O cálculo da estatística F*, para a primeira regressão auxiliar é apresentado em seguida e os demais na Tabela 5.3. 739,1 1055,0 1835,0 )39/()367,01( )13/(367,0* 1 == −− − =F 205 O valor crítico da estatística F para (2 e 6) graus de liberdade, a 5% de probabilidade é 5,14. Como o valor calculado da estatística *F é inferior a esse valor crítico, aceita-se a hipótese nula de que não há correlação forte entre a variável preço da carne de frango e as demais variáveis explicativas da regressão. A análise de conjunto, envolvendo todas as regressões auxiliares, permite concluir que não há multicolinearidade forte a ponto de comprometer a análise dos parâmetros estimados (Tabela 5.3). Tabela 5.3. Valores das estatísticas R2 e F para as regressões auxiliares. Função estimada R 2 * )6,2(F gl Decisão ( 5% ) t f t t b P R Pf= ( , ) 0,367 1,739 ausência t t f t b R P Pf= ( , ) 0,558 3,786 ausência t b t t f P R Pf= ( , ) 0,404 2,034 ausência F crítico a 5%, com (2, 6) graus de liberdade = 5,14. c) Fator de variância inflacionária Outra maneira de medir o grau da multicolinearidade leva em consideração o cálculo do fator de variância inflacionária (FVI) para cada variável explicativa. O FVI, para uma dada variável explicativa Xi, é definido pela fórmula abaixo (SNEE, 1973; MARQUARDT, 1980): R FVI i i 2 1 1 − = em que: Ri 2 é o coeficiente de determinação da variável explicativa i, regressada contra todas as demais variáveis explicativas. Se o conjunto de variáveis explicativas for não-correlacionado, o FVI é igual a um. Entretanto, se as variáveis apresentarem intercorrelação forte, o FVI pode exceder o valor 5. Um FVI superior a 5 indica que existe alta correlação entre as variáveis explicativas. Usado os coeficientes de determinação, obtidos pelo método de regressão auxiliar, pode- se verificar o grau de multicolinearidade entre as variáveis explicativas do modelo de demanda de carne de frango. Os resultados são os seguintes: 5798,1 367,01 1 = − =FVI PF ; 0421,1404,01 1 = − =FVI PB e 2624,2558,01 1 = − =FVI R 206 Esses resultados mostram, por esse critério, que não há forte intercorrelação entre as variáveis explicativas, ou seja, a multicolinearidade não constitui um problema sério para essa regressão. 5.2.4 Correção da multicolinearidade Há vários métodos que podem ser empregados para corrigir os problemas de multicolinearidade do modelo de regressão múltipla. Os principais são os seguintes: i. Retirada de variáveis do modelo: uma medida simplista é a retirada de variáveis colineares do modelo. Todavia, esta prática pode introduzir um viés de especificação, ou erro de especificação no modelo, sobretudo quando há respaldo teórico que justifique a permanência da variável na regressão; ii. Adicionar novos dados ou uma nova amostra: como a multicolinearidade é um problema da amostra, é possível que outra amostra, com as mesmas variáveis e um maior número de observações, possa reduzir o problema por aumentar a variabilidade dos dados; iii. Repensar a especificação do modelo: verificar se a forma funcional escolhida para representar o fenômeno a ser estudado é a mais apropriada; iv. Transformar as variáveis: o modelo apresentado nas primeiras diferenças pode reduzir a severidade da multicolinearidade. Porém, esta prática pode introduzir outro problema - não satisfazer a hipótese de autocorrelação serial dos resíduos; v. Utilização de informações a priori sobre os parâmetros: fazer uso de informações conhecidas sobre os parâmetros. 5.2.4.1 O caso da demanda de café A estimativa da demanda de café mostra que os parâmetros não se apresentam significativos a 5% de probabilidade, embora ambas as variáveis sejam individualmente importantes para explicar a demanda de café. Note-se que o coeficiente de determinação múltipla é praticamente igual ao obtido para a regressão simples do capítulo 3, que foi igual a 0,644, com estatística F significante a 5% de probabilidade. Estes resultados sugerem que há problemas de multicolinearidade entre as variáveis explicativas da regressão. 78,2;97,4;531,0;665,0 )5,2( 22 564,0947,0186,9 0011,0049,0787,31 ==== −−= dFRR RPQ gl t c t c t a) Análise de correlação O coeficiente de correlação simples ao quadrado entre o preço do café e a variável renda é da ordem de 7825,02 , =r rp . Este valor é superior ao do coeficiente de determinação múltipla 207 2 0 665R = , , indicando que há problema sério de multicolinearidade entre estas variáveis (Tabela 5.4). Tabela 5.4. Matriz de correlação simples entre as variáveis preço e renda. Correlação Preço Renda Preço 1 Renda 0,8846 1 b) Emprego de regressão auxiliar A análise por meio de regressão auxiliar também indica presença de multicolinearidade forte entre as variáveis explicativas da regressão de demanda de café. Os dados estão na Tabela 5.5, em que a estatística F* rejeita a hipótese nula ao nível de 1% de probabilidade de erro, uma vez que o valor do F calculado é maior do que o valor crítico de F = 13,74. Tabela 5.5 – Estatísticas R2 e F da regressão auxiliar. Função estimada R 2 * )6,1(F gl Decisão ( 1% ) t c tP Rf= ( ) 0,7825 21,586 presença F crítico a 1%, com (1, 6) graus de liberdade = 13,74. 5.2.4.2 Correção da multicolinearidade Neste caso específico, não se deve eliminar uma variável do modelo para não violar o requisito teórico da função de demanda, que respalda a presença das duas variáveis como importantes para determinar a demanda de café. Talvez uma amostra de tamanho maior resolvesse o problema, uma vez que se dispõe de apenas oito observações. Também não é o caso de problemas com a forma funcional da regressão. Sendo assim, resta apenas o método de transformação de variáveis, que será apresentado a seguir. a) Transformação de variáveis Uma das maneiras de solucionar o problema é por meio da transformação das variáveis do modelo. No caso específico, representar-se-á a razão entre as quantidades demandadas de café (consumoaparente de café) e a renda dos consumidores em função dos preços do café. Ou seja, a proporção do consumo na renda sendo explicada pelos preços do café. A regressão transformada é a seguinte: 208 838,2;69,28;798,0;827,0 )6,1( 22 36,592,9 000064,0014,0 ==== −= − dFRR P R Q gl c t t c t Observa-se que o sinal do coeficiente de regressão está correto e é significativo a 1% de probabilidade. O poder explicativo da regressão, medido pelo coeficiente de determinação múltiplo aumentou e a estatística F também é significativa. Estes indicadores mostram que a multicolinearidade desapareceu. 5.2.5 Análise da demanda de carne de boi Os resultados da estimação da demanda de carne de boi, estudada no Capítulo 4, é reproduzido aqui (Tabela 5.6), sem a inclusão da variável dummy. O modelo é especificado nos logaritmos naturais, como a seguir. eSMbPCSbPCFbPCBbbQCB tttttt +++++= lnlnlnlnln 43210 em que: lnQCBt quantidade demandada de carne de boi no mês t, em toneladas; lnPCBt preço real da carne de boi no mês t, em R$/t; lnPCFt preço real da carne de frango no mês t, em R$/t; lnPCSt preço real da carne suína no mês t, em R$/t; lnSMt salário mínimo real no mês t, em R$/mês; et Termo de erro aleatório. Os resultados da estimação do modelo de demanda de carne de boi no mercado brasileiro são apresentados na Tabela 5.6. Tabela 5.6. Resultados da estimação dos parâmetros da demanda de carne de boi no Brasil. Variável dependente: ln(QCBt) Variável independente Coeficiente Erro padrão Estatística - t Probabilidade C 12.65162 0.250512 50.50310 0.0000 ln(PCBt) -0.298715 0.084771 -3.523775 0.0007 ln(PCFt) -0.193391 0.061108 -3.164767 0.0021 ln(PCSt) 0.192189 0.066822 2.876149 0.0050 ln(SMt) 0.171779 0.031849 5.393544 0.0000 R - quadrado 0.426851 Estatística - F 16.94300 R – quadrado ajustado 0.401658 Prob (Estatística-F) 0.000000 209 Para testar se a regressão de demanda de carne de boi apresenta problemas de multicolinearidade, a análise será iniciada pela matriz de correlação simples, cujos resultados são apresentados na Tabela 5.7. Tabela 5.7. Matriz de correlação simples das variáveis do modelo de demanda. Variável ln(QCBt) ln(PCBt) ln(PCFt) ln(PCSt) ln(SMt) ln(QCBt) 1.000000 ln(PCBt) -0.371089 1.000000 ln(PCFt) -0.403729 0.667281 1.000000 ln(PCSt) -0.143482 0.792390 0.533404 1.000000 ln(SMt) 0.344161 0.180194 0.188898 0.171889 1.000000 Os coeficientes de correlação simples entre as variáveis preço da carne de boi (PCBt) e preço da carne suína (PCSt) e entre o PCBt e o preço da carne de frango (PCFt) são, respectivamente, de 628,02 =rbs e 445,0 2 =rbs . Estes valores são superiores ao do coeficiente de determinação múltipla R2 = 0,427. Tais resultados indicam que há problema de multicolinearidade na regressão. Os resultados da análise de multicolinearidade por meio do método das regressões auxiliares são apresentados na Tabela 5.8. Tabela 5.8. Resultados dos testes para as regressões auxiliares. Regressão auxiliar R2 F* Decisão (1%) lnPCBt = f(lnPCFt, lnPCSt, lnSMt) 0,7116 75,6671 Presença lnPCFt = f(lnPCBt, lnPCSt, lnSMt) 0,4501 25,1010 Presença lnPCSt = f(lnPCFt, lnPCBt, lnSMt) 0,6287 51,9260 Presença lnSMt = f(lnPCFt, lnPCSt, lnPCBt) 0,0431 1,3813 Ausência Fcrítico a 1% de probabilidade, com (3, 92) graus de liberdade é igual a 3,95. 5.2.5.1 Correção da multicolinearidade Os resultados da análise por meio da matriz de correlação mostraram que a maior colinearidade ocorre entre as variáveis lnPCBt e lnPCSt. Há uma forma alternativa de se expressar a função de demanda, na forma inversa, em que o preço da carne de boi passa a ser a variável dependente e a quantidade a variável independente. Esta prática reduz a colinearidade entre tais variáveis. Os resultados obtidos para a demanda inversa são apresentados na Tabela 5.9. Nota-se que o ajustamento melhorou muito, como mostra o R2 = 0,746. 210 Tabela 5.9. Resultados da estimação dos parâmetros da demanda inversa. Variável dependente: ln(PCBt) Variável independente Coeficiente Erro padrão Estatística - t Probabilidade C 6.613055 1.403801 4.710822 0.0000 ln(QCBt) -0.401945 0.114067 -3.523775 0.0007 ln(PCFt) 0.220387 0.071020 3.103159 0.0026 ln(PCSt) 0.556451 0.056140 9.911785 0.0000 ln(SMt) 0.075812 0.041690 1.818460 0.0723 R - quadrado 0.746258 Estatística - F 66.90809 R – quadrado ajustado 0.735105 Prob (Estatística-F) 0.00000 Os resultados da matriz de correlação simples entre as variáveis independentes são apresentados na Tabela 5.10. Tabela 5.10. Matriz de correlação simples Variável ln(PCBt) ln(QCBt) ln(PCFt) ln(PCSt) ln(SMt) ln(PCBt) 1,0000 ln(QCBt) -0,3711 1,0000 ln(PCFt) 0,6673 -0,4037 1,0000 ln(PCSt) 0,7924 -0,1435 0,5334 1,0000 ln(SMt) 0,1802 0,3442 0,1889 0,1719 1,0000 Os resultados mostram que a maior correlação simples remanescente ocorre entre as variáveis PCFt e PCSt, da ordem de 0,5334. Porém, o quadrado deste coeficiente 285,02 =rbs que é inferior ao R2=0,746. Isto significa, por este critério, que a multicolinearidade deixou de ser um problema grave. Ou seja, sua presença não compromete os resultados das estimativas de MQO. Outra maneira de corrigir a multicolinearidade é por meio da transformação das variáveis do modelo de demanda de carne de boi. A sugestão é dividir o preço da carne de boi pelo preço da carne suína e tomar a variável transformada resultante para re-estimar o modelo. Essa prática diminui o número de variáveis explicativas e aumenta o número de observações, o que pode reduzir a multicolinearidade. Isto fica como exercício. As informações estão disponíveis na Tabela 5.11. Como verificação da aprendizagem, repetir o processo para a demanda de carne suína, tomando a variável QCSt como variável dependente e as variáveis (PCSt, PCBt, PCFt e SMt) como variáveis independentes. Fazer um teste para o modelo linear e o modelo logarítmico para as funções na forma direta e na forma inversa de demanda. 211 Tabela 5.11. Dados mensais sobre quantidades e preços das carnes de boi e de suíno, preço da carne de frango e salário mínimo, Brasil, 1990 a 1997. Ano QCBt PCBt PCFt PCSt SMt QCSt Jan90 395381 31,8 0,83 21,59 90,23 80169 F 359674 27,8 0,87 17,47 84,72 71298 M 417083 28,9 1,12 18,28 96,28 75672 A 454222 26,6 0,75 17,68 76,57 81819 M 495460 27,4 0,73 22,36 70,32 91751 J 474113 34,6 0,86 29,06 67,5 86217 J 423669 32,8 0,87 27,2 73,49 94913 A 427923 35,7 0,91 26,61 72,53 99899 S 354897 44 1,13 29,25 79,95 89143 O 384432 34,1 0,93 23,18 67,32 98779 N 415833 24,2 0,66 17,33 67,48 92132 D 449403 19,4 0,58 13,9 57,14 88208 Jan91 478458 19,4 0,63 15,59 63,79 78215 F 420131 22 0,83 17,46 71,64 76033 M 456955 22,3 0,69 18,44 73,83 83308 A 522835 21,5 0,59 18,15 67,36 90078 M 543285 20,8 0,63 18,34 62,18 93962 J 508143 20,4 0,63 18,83 56,98 93853 J 498967 24,9 0,63 19,26 51,59 105082 A 443259 28,3 0,6 20,19 45,7 105040 S 409800 28,2 0,58 18,06 96,97 102678 O 421986 28,5 0,58 15,34 71,69 103692 N 420351 27,6 0,61 15,34 56,47 99888 D 457847 21,6 0,57 13,69 44,28 98172 Jan92 453785 20,7 0,56 13,44 83,85 91528 F 465472 20,2 0,59 13,86 64,95 87685 M 509062 18,3 0,48 12,98 52,67 94357 A 511875 20,3 0,41 13,01 43,67 97573 M 530321 21,2 0,53 13,89 87,5 103241 J 561361 19,4 0,53 15,43 73,02 101993 J 546605 20,1 0,48 15,09 60,06 113449 A 463684 22 0,54 16,39 49,23 102627 S 435588 23,2 0,59 17,24 90,48 104265 O 439459 22,8 0,61 16,66 72,42 105365 N 471114 20,1 0,6 15,94 57,78 94534 D 493725 23,1 0,67 21,18 47,24 93383 Jan93 439840 23,7 0,63 20,71 88,96 98528 F 433696 22 0,58 17,9 70 91957 M 527501 22,2 0,57 17,76 76,08 108496 A 460592 23 0,54 17,66 59,5 101292 M 513565 21,4 0,48 16,89 89,18 104251 J 535726 20,2 0,5 19,63 68,67 105212 J 520028 22,9 0,58 19,44 73,91 109970 A 437829 26,40,64 19,57 66,88 106923 S 438243 25,8 0,64 18,98 86,39 108963 O 433432 24,9 0,61 17,54 79,5 109301 212 N 446752 23,6 0,59 19,92 72,98 105439 D 501670 24,8 0,64 22,07 67,15 109668 Jan94 466241 22,3 0,63 17,15 84,13 98614 F 459570 21,6 0,65 14,8 77,76 96125 M 489104 22,9 0,68 16,9 64,79 100930 A 474554 21,6 0,62 16,33 64,79 98073 M 490978 20,1 0,61 16,15 64,79 120788 J 483847 25,4 0,59 17,89 64,79 108335 J 487846 25,9 0,66 18,21 69,37 112045 A 492136 28,8 0,67 20,25 72,07 123836 S 496061 31,6 0,72 25,61 80,92 117835 O 466914 40,5 0,75 26,59 82,74 107951 N 488722 42 0,86 29,93 83,14 121856 D 518778 38,3 0,86 32,53 82,26 123612 Jan95 488501 33,1 0,84 28,66 82,74 111108 F 470182 33,1 0,74 25,77 83,3 108159 M 500713 29 0,53 22,79 78,56 138301 A 494607 27,3 0,54 21,48 77,09 111636 M 512926 26,4 0,57 20,3 112 134782 J 506820 24,8 0,6 18,65 109,53 126612 J 488501 27,8 0,68 18,19 107,76 128434 A 525138 27,5 0,72 18,94 106,16 137799 S 531245 26,7 0,66 18,14 105,04 136461 O 512926 27,5 0,6 17,86 104,17 133786 N 543457 27,1 0,59 17,81 103,84 133786 D 580095 23,5 0,59 17,72 103,31 139137 Jan96 531680 23,1 0,55 17,16 102,65 129125 F 537218 23,2 0,66 15,51 101,94 127560 M 553833 22,8 0,58 14,2 101,45 133459 A 542756 22,7 0,65 13,59 101,02 127567 M 553833 21,9 0,69 14,02 112,55 135698 J 564910 22,1 0,73 17,22 111,88 133562 J 520603 24,1 0,71 17,19 111,25 136897 A 520603 24,9 0,62 17,81 110,55 144623 S 542756 24,7 0,72 17,17 109,92 146321 O 509526 25,4 0,77 17,49 109,25 147562 N 553833 23,5 0,8 21,26 108,75 145698 D 542756 23,5 0,69 20,46 108,01 151928 Jan97 535310 23,5 0,55 20,31 107,42 133287 F 474872 24,3 0,56 21,48 106,78 125612 M 496457 24,4 0,58 23,12 105,97 122598 A 523438 25 0,51 25,15 105,59 118123 M 539627 24,3 0,51 21,08 112,36 124678 J 539627 24,3 0,64 19,56 111,69 129654 J 512645 25,1 0,72 19,65 111,06 133743 A 518042 24,8 0,73 19,81 110,3 137876 S 512645 24,2 0,71 19,97 109,74 140328 O 501853 25,3 0,63 19,79 109,11 144479 N 512645 24,9 0,61 19,69 108,38 147951 D 528834 25 0,64 19,24 107,78 154648 213 5.3 Heteroscedasticidade A heteroscedasticidade refere-se ao caso em que a variância do termo de erro não é constante para todas as observações das variáveis explicativas. Neste caso, a hipótese de homoscedasticidade é violada e a variância do erro é dada por: σεεεε 222 )()]([()var( ii iEiiE E === − 5.8 em que: i = significa que a variância σ2 assume valor diferente para alguma observação. Nota-se que, para E(Xiεi) ≠ 0, tem-se E(εi 2 ) ≠ σ2 para (i = 1, 2, ...,n). Isto viola o pressuposto de homoscedasticidade de que σε 22)( =iE . 5.3.1 Natureza da heteroscedasticidade A heteroscedasticidade é um fenômeno que está mais ligado a dados cross-section. A despesa das famílias serve de exemplo. Assim, a variância do erro associada com as despesas das famílias de baixa renda é geralmente menor do que para as famílias de alta renda, dado que a grande parcela da renda das famílias de baixa renda é para atender suas necessidades básicas, com pouca folga para ação (Figura 5.4). Figura 5.4. Exemplos de heteroscedasticidade. Y ( a ) Y ( b ) 0 Heteroscedasticidade X 0 Heteroscedasticidade X No gráfico ( a ) a variância do erro decresce e no gráfico ( b ) a variância do erro diminui e aumenta. 214 5.3.2 Consequências da heteroscedasticidade Na presença de heteroscedasticidade, os estimadores de MQO são afetados. Eles continuam não viesados e consistentes, dado que essas propriedades dependem apenas das hipóteses de média zero do termo de erro, E(εi)=0, e de que as observações de X são fixas, e não da hipótese de homoscedasticidade. Sendo assim, as estimativas de MQO para os parâmetros da regressão são ineficientes na presença de heteroscedasticidade, ou seja, os estimadores não têm variância mínima. Em consequência disso, as variâncias estimadas dos parâmetros são viesadas, conduzindo a testes estatísticos incorretos para os parâmetros e intervalos de confiança também irreais ou viesados. Isto significa que os testes de hipóteses usuais não são confiáveis, sendo grande a possibilidade de se fazer conclusões erradas. De uma maneira geral, as principais consequências da heteroscedasticidade são as seguintes: a) Eficiência: no modelo geral de regressão linear (MGRL), os estimadores de MQO continuam não viesados e consistentes, mas não possuem as menores variâncias entre todos os estimadores lineares não viesados. Como os estimadores de MQO não possuem variância mínima, eles não são eficientes. b) Inferência: no modelo geral de regressão linear, a fórmula da matriz de variância-covariância dos estimadores de MQO é incorreta e, por consequência, as variâncias dos estimadores, V(β) são viesadas. Assim, embora o estimador b de MQO seja não viesado no MGRL, o intervalo de estimação e os testes de hipóteses usando os b podem não ser confiáveis. As fórmulas usuais de cálculo dos estimadores de MQO são viesadas, porém não se pode antecipar a direção do viés. Se for para menos, a variância é subestimada e as estatísticas são superavaliadas. Assim, tem-se: ∑ − knet / 2 não é um estimador correto de σ 2 e, portanto, as estatísticas t, F e R2 também são viesadas (ou irreais) na presença de heteroscedasticidade. 5.3.3 Identificação da heteroscedasticidade A terceira hipótese do modelo de regressão linear clássico (RLC) é que os erros são esféricos, isto é, apresentam variância uniforme e não são correlacionados entre si. Estas características são usualmente descritas em termos da matriz de variância-covariância do termo de erro. Nesta matriz, cada elemento da diagonal principal é a variância associada a uma das observações da amostra de dados. Se todos os elementos da diagonal forem iguais, o termo de erro apresenta variância uniforme, ou seja, a variância é homoscedástica. Se os elementos da diagonal principal não forem todos iguais, o termo de erro apresenta variância desuniforme, isto é, a variância é heteroscedástica. Veja na ilustração a seguir: 215 Variância homoscedástica: σ σ σ 2 2 2 ...00 ............ 0...0 0...0 Variância heteroscedástica: nσ σ σ 2 2 2 ...00 ............ 0...0 0...0 1 Cada elemento fora da diagonal principal da matriz de variância-covariância resulta da covariância entre os erros associados a duas observações da amostra. Se todos estes elementos forem iguais a zero, os erros não são correlacionados. Isto significa, que em repetidas amostras, não há uma tendência para que o erro esteja associado a uma observação. Se os elementos fora da diagonal principal não forem todos iguais a zero, os erros são autocorrelacionados com o termo de erro de outra observação. Este problema viola outra hipótese do MRC, que será estudado mais adiante. Erros autocorrelacionados: σ σ σ εεεε εεεε εεεε 2 2 2 ...)()( ............ )(...)( )(...)( 21 212 121 nn n n EE EE EE Figura 5.5. Exemplo de homoscedasticidade e heteroscedasticidade. e2 ( a ) e2 ( b ) 0 Homoscedasticidade X 0 Heteroscedasticidade X No gráfico ( a ) a variância do erro é constante e no gráfico ( b ) a variância do erro diminui e aumenta. 216 Há várias maneiras de identificação da heteroscedasticidade. Uma delas é por meio da análise gráfica. Isto consiste em se fazer o gráfico, plotando-se os resíduos da regressão contra uma variável independente (Figura 5.5) Outra maneira de identificação da heteroscedasticidade é por meio de testes formais. Os principais serão apresentados a seguir: 5.3.3.1 Teste de Park O teste de Park para heteroscedasticidade adota oprincípio de que o logaritmo do termo de erro ao quadrado (lne2) é uma função linear do logaritmo da variável explicativa (lnXi). A equação formal é a seguinte: ν iii Xe ba ++= lnln 2 5.9 em que νi é o termo de erro aleatório. Se o parâmetro b for estatisticamente diferente de zero, isto sugere que a heteroscedasticidade pode estar presente nos dados. Se, por outro lado, o b for insignificante, pode-se aceitar a hipótese de homoscedasticidade nos dados. Os passos para a aplicação do teste de Park são: i. Estimar a regressão original: eXbaY iii ++= ; ii. Tomar os valores do termo de erro ao quadrado e calcular o logaritmo natura (ln e2 ); iii. Estimar a regressão transformada: ν iii Xe ba ++= lnln 2 ν iii Ye ba ++= lnln 2 5.10 iv. Testar a hipótese nula: H0: b = 0 de que não há heteroscedasticidade; v. Decidir: se a hipótese H0 for aceita, a variância é constante, ou homoscedástica. a) Aplicação Em primeiro lugar apresentar-se-á a estimativa da regressão simples entre hiato de produto e taxa de desemprego, depois será exibida a representação gráfica entre desemprego e hiato de produto e entre os resíduos e a variável independente que é a taxa de desemprego. 84,3;23,0 )13,1( 2 )96,1()81,0( 964,811,19 == +−= FR uh gl && Na Figura 5.6, indica-se que não há problema de heteroscedasticidade nos dados, ou seja, a variância é constante. Mesmo assim, serão aplicados os testes formais para maior precisão da análise. Regressão de Park: Pelo que é dado observar, não há presença de o parâmetro de regressão não é significativo a 5% de probabilidade. Figura 5.6. Gráfico de dispersão entre hiato de produto e desemprego, 1983/1997. 5.3.3.2 Teste de Glejser O teste de Glejser para empregada para o teste de Park. O teste de Glejser diz respeito a uma regressão em que os valores absolutos do termo de erro são regressados contra a variável explic variância heteroscedástica (σ sugeridas em 5.11. ν iii Xe ba ++= ν iii Xe ba ++= ν i i i X e ba ++= 1 ν i i i X e ba ++= 1 4 4,5 5 5,5 6 6,5 7 7,5 0,00 10,00 D E S E M P R E G O 217 Regressão de Park: 115,0;008,0 )ln()ln( )13,1( 2 )34,0()21,2( 2 444,062,4 == += FR ue gl i & Pelo que é dado observar, não há presença de heteroscedasticidade o parâmetro de regressão não é significativo a 5% de probabilidade. Gráfico de dispersão entre hiato de produto e desemprego, 1983/1997. O teste de Glejser para heteroscedasticidade segue a mesma linha de raciocínio empregada para o teste de Park. O teste de Glejser diz respeito a uma regressão em que os valores absolutos do termo de erro são regressados contra a variável explicativa que está associada com a σi 2 ). O teste é aplicado para algumas formas funcionais, como a i 20,00 30,00 40,00 50,00HIATO nos dados. Isto porque Gráfico de dispersão entre hiato de produto e desemprego, 1983/1997. segue a mesma linha de raciocínio empregada para o teste de Park. O teste de Glejser diz respeito a uma regressão em que os valores ativa que está associada com a . O teste é aplicado para algumas formas funcionais, como as 5.11 60,00 70,00 218 Se o parâmetro b em quaisquer das expressões de 5.11 for estatisticamente diferente de zero, tem-se um indicativo de que a heteroscedasticidade pode estar presente nos dados. Se, por outro lado, o b não for estatisticamente significante ao nível de 5% de probabilidade, a hipótese nula de que a variância é homoscedástica é aceita. a) Aplicação Regressão de Glejser: 318,0;024,0 || )13,1( 2 )56,0()04,1( 124,1695,10 == += FR ue gl i & Como no teste de Park, os resultados do teste de Glejser também permitem rejeitar a hipótese alternativa de que há heteroscedasticidade nos erros. 5.3.3.3 Teste robusto de heteroscedasticidade de Breusch-Pagan O teste robusto de heteroscedasticidade consiste da aplicação de uma simples técnica para computar as estatísticas t, que seguem assintoticamente a distribuição t de Student com ou sem a presença de heteroscedasticidade. Diante do modelo linear, dado na equação 5.12 εββββ tkikiii XXXY +++++= L22110 5.12 em que: Yi = variável dependente para a unidade econômica i; Xji = variáveis explicativas para a unidade econômica i; βj = parâmetros da regressão; εi = termo de erro aleatório. e sob a hipótese de homoscedasticidade, dada na equação 5.13, as estimativas de MQO são não viesadas e consistentes. σε 2 21 2 0 ),,,|(: =XXXEH kiii L 5.13 Isto mostra que, para testar a violação da hipótese de homoscedasticidade, tem-se que verificar se o termo de erro ao quadrado (ε2) está relacionado a uma ou mais variável independente Xj. A equação de teste é dada por: νδδδδε ikikii XXX +++++= L22110 2 5.14 em que: νi é um erro com média zero para os valores de Xi. A hipótese do teste robusto de heteroscedasticidade é expressa como em 5.15. 219 0: 210 ==== δδδ kH L 5.15 Sob a hipótese nula, é razoável assumir que na equação 5.14, o termo de erro νi é independente de Xi. As estatísticas de teste F e LM (multiplicador de Lagrange) são dadas pelas seguintes fórmulas: )/()1( )1/( 2 2 kn k R R F −− − = ε ε ε 5.16 em que: R 2 ε = coeficiente de determinação da equação 5.14; k é o número de parâmetros, inclusive o intercepto; n é o número de observações. A estatística F segue a distribuição aproximada de F(k-1, n-k), sob a hipótese nula de homoscedasticidade. A estatística LM para heteroscedasticidade, tipicamente chamada de teste de heteroscedasticidade Breusch-Pagan (teste BP), é dada pelo produto entre o número de observação e o R-quadrado. χε 22 k a RnLM →⋅= 5.17 Sob a hipótese nula de homoscedasticidade, LM segue assintoticamente a distribuição qui-quadrado. Estes testes são de fácil aplicação e podem ser realizados com a ajuda das ferramentas estatísticas do Excel. Sendo assim, toma-se uma amostra de dados cross-section de 52 famílias de Belém-PA, para estimar o seguinte modelo linear de demanda: εβββββ tiiiii RPPPCFPCBQCB +++++= 43210 5.18 em que: QCB = é a quantidade de carne de boi que a família i consome por mês, em kg; PCB = é o preço de aquisição da carne de boi pela família i, em R$/kg; PCF = é o preço de aquisição da carne de frango pela família i, em R$/kg; PP = é o preço de aquisição do peixe pela família i, em R$/kg; R = é a parcela da renda gasta em alimentação pela família i, em R$; εi = é o termo de erro aleatório. Os resultados da estimação da demanda de carne de boi, através do Excel, são apresentados na Tabela 5.12. 220 Uma visualização rápida desses resultados indica que estão coerentes com a teoria do consumidor, pois os sinais negativos e positivos, respectivamente, das estimativas dos coeficientes das variáveis preço e renda estão corretos. Há, pois, uma relação inversa entre preço e quantidade e uma relação direta entre renda e quantidade demandada. As estatísticas t para esses coeficientes também são diferentes de zero ao nível de 1%. No entanto, como se trata de uma amostra de dados cross-section, é prudente que, antes de qualquer análise dos resultados, sejam avaliados os resíduos da regressão para identificação de problemas de heteroscedasticidade. Tabela 5.12. Resultados da estimação da equação de demanda de carne de boi para as 52 famílias de Belém, 2003. Estatística de regressão Variável dependente: QCB R múltiplo 0.7883 R-quadrado 0.6214 R-quadrado ajustado 0.5892 Erro padrão 6.1693 Observações 52 ANOVA gl SQ MQ F Regressão 4 2935.891 733.9727 19.2847 Resíduo 47 1788.816 38.0599 1.91E-09 Total 51 4724.707 Variáveis Coeficientes Erro padrão Estaística - t valor-P Interseção 29.4424 4.5668 6.4470 5.65E-08 PCB -2.7114 0.9370 -2.8937 0.005756 PCF -3.7136 1.5082 -2.4622 0.017529 PP 0.5506 0.6047 0.9105 0.36723 R 0.0154 0.0023 6.8274 1.49E-08 Os resultados da equação de resíduo ao quadrado para testara hipótese nula de homoscedasticidade, por meio do teste BP são apresentados na Tabela 5.13. A estatística F apresentou um valor maior do que o F crítico de 3,83. Igualmente, a estatística LM apresentou um valor superior ao valor crítico χ2 = 0,297 com quatro graus de liberdade (k-1 gl). Estatística F: .896,3 016,0 0623,0 )552/()249,01( )15/(249,0 == −− − =F ε Estatística LM: 948,12249,052 2 =⋅== ⋅RnLM ε Com base nestas estatísticas, rejeita-se a hipótese nula em favor da hipótese alternativa de que há presença de heteroscedasticidade nos resíduos da regressão. Em função disso, os resultados da Tabela 5.12 devem ser analisados com cautela. 221 Tabela 5.13. Resultados da estimação da equação para o teste BP de heteroscedasticidade. Estatística de regressão Variável dependente: εεεε2 R múltiplo 0.49906 R-quadrado 0.24906 R-quadrado ajustado 0.18515 Erro padrão 34.32652 Observações 52 ANOVA gl SQ MQ F Regressão 4 18367.806 4591.951 3.897 Resíduo 47 55380.569 1178.310 0.0082 Total 51 73748.375 Variáveis Coeficientes Erro padrão Estatística - t valor-P Interseção 15.99543 25.41039 0.62948 0.53208 PCB -6.40816 5.21359 -1.22913 0.22514 PCF -3.50048 8.39189 -0.41713 0.67848 PP 8.74426 3.36467 2.59885 0.01246 R 0.03000 0.01256 2.38921 0.02095 5.3.3.4 Teste de heteroscedasticidade de White O teste de heteroscedasticidade proposto por White (1980) adiciona à equação do termo de erro ao quadrado 5.14, as relações cruzadas e cada variável explicativa ao quadrado. O modelo de White para duas variáveis independentes é dado por: νδδδδδδε iiiiiii XXXXXX ++++++= 215 2 24 2 1322110 2 5.19 A hipótese nula do teste de White para heteroscedasticidade é expressa como em 5.20. 0: 5210 ==== δδδ LH 5.20 As estatísticas F e LM podem ser utilizadas para testar a hipótese de homoscedasticidade. O Eviews apresenta o teste de White para detectar heteroscedasticidade nos modelos de regressão. O caminho para se realizar este teste, após estimar a equação de demanda, é o seguinte: View/Residual tests/White Heteroskedasticity (cross terms). A equação 5.19, para o caso da demanda de carne de boi, deve ser especificada da seguinte maneira: tvRPPRPCFPPPCFRPCBPPPCB PCFPCBRPPPCFPCB iiiiiiiiii ii i i i i i i i i i RPPPCFPCB +++++ +++++++++= + .... . 13.1211109 8 2 7 2 65 2 43 2 21 2 80 δδδδδ δδδδδδδδδδε As estatísticas F e (LM = n*R2) não são diferentes de zero ao nível de 5%, conforme indicam os resultados da Tabela 5.14. Portanto, não há presença de heteroscedasticidade na regressão de demanda de carne de boi, pois a probabilidade de rejeição da hipótese nula (de que 222 os resíduos são homoscedásticos) é superior a 14,2% para o teste F e superior a 15,5% para o teste LM. Sendo assim, os resultados da Tabela 5.12 podem ser interpretados normalmente. Os resultados do teste de White negam os resultados do teste BP. Qual o teste mais confiável? A resposta é simples e direta. Neste caso, os resultados do teste de White são confiáveis. Isto ocorreu porque o modelo é completo, capta todas as relações possíveis entre as variáveis independentes e o termo de erro ao quadrado. Esta é a razão pela qual os principais softwares econométricos incluem o teste de White. Tabela 5.14 – Teste de heteroscedasticidade de White. Teste de Heteroscedasticidade de White Estatística – F 1.546312 Probabilidade 0.142734 Obs*R-quadrado (LM = n*R2) 19.19432 Probabilidade 0.157656 Variável dependente: Resíduo2 Método: Mínimos Quadrados Observações incluídas: 52 Variável Coeficiente Erro padrão Estatística - t Probabilidade C -49.9114 133.5429 -0.3737 0.7107 PCB -19.9315 47.7144 -0.4177 0.6786 PCB2 -0.2316 5.3989 -0.0429 0.9660 PCB*PCF -0.5237 10.1930 -0.0514 0.9593 PCB*PP 1.4914 5.6967 0.2618 0.7949 PCB*R 0.0146 0.0191 0.7633 0.4501 PCF 84.6862 69.6721 1.2155 0.2319 PCF2 -13.7465 14.2073 -0.9676 0.3395 PCF*PP 0.9638 10.2206 0.0943 0.9254 PCF*R -0.0110 0.0232 -0.4726 0.6393 PP 9.2668 36.1501 0.2563 0.7991 PP2 -1.5592 1.8236 -0.8550 0.3980 PP*R 0.0145 0.0162 0.8974 0.3753 R -0.0922 0.1173 -0.7865 0.4366 R2 0.0000 0.0000 0.1948 0.8466 R-quadrado 0.369121 Média da variável dependente 34.4003 R-quadrado ajustado 0.130411 S.D. da variável dependente 38.02692 S.E. da regressão 35.46078 Critério de inf. Akaike 10.21133 Soma de quadrados dos resíduos 46526.27 Critério de Schwarz 10.77419 Log de probabilidade -250.4945 Estatística - F 1.546312 Estatística Durbin-Watson - d 1.982059 Prob(Estatística - F) 0.142734 5.3.4 Solução da heteroscedasticidade Uma hipótese plausível sobre o padrão de heteroscedasticidade diz respeito ao caso em que a variância do erro é proporcional ao quadrado da variável explicativa. Para ilustrar essa situação, toma-se como exemplo a regressão de duas variáveis abaixo. 223 eXbaY iii ++= 0 Assumindo a hipótese de que a da heteroscedasticidade segue o padrão determinado na expressão 5.21. Xe iiE 222)( σ= 5.21 Se há razões para se acreditar, por meio da análise gráfica, de que a variância do erro é proporcional ao quadrado da variável explicativa X, como na Figura 5.7, pode-se transformar a regressão original, fazendo a divisão de ambos os termos da regressão por X. Figura 5.7. Ilustração de heteroscedasticidade. O modelo transformado é o seguinte: X e XX Y i i ii i b a ++= ν i ii i b a XX Y ++= em que νi é o termo de erro aleatório transformado, igual a: ei/Xi. Sendo assim, pode-se mostrar que a variância é constante, como em 5.22. e2 0 0 Heteroscedasticidade X No gráfico ( a ) a variância do erro é proporcional ao quadrado de X. 224 σσν 222 2 2 2 2 2 1)( 1 )( ==== X X e XX e i i i i i EEE i i 5.22 Neste caso, a variância de νi torna-se homoscedástica, podendo ser aplicado o método de MQO à regressão transformada. O método mais geral e que produz bons resultados é o desenvolvido por White e incluído no Eviews, que consiste em corrigir os dados com base em uma matriz de covariância consistente, que gera estimativas corretas para os coeficientes de covariância, na presença de heteroscedasticidade. Para aplicar este método, basta clicar na opção Heteroskedasticity Consistent no botão Options da caixa de diálogo do Eviews. Como não há problemas de heteroscedasticidade na equação de demanda de carne de boi, os resultados da equação corrigida pelo método de White são iguais àqueles obtidos no Excel, conforme pode ser observado na Tabela 5.15. Tabela 5.15 – Resultados do modelo de demanda corrigido pelo método de White, para heteroscedasticidade. Erro padrão e covariâncias consistentes heteroscedásticos de White (EVIEWS, 2003) Variável dependente: QCB Método: mínimos quadrados Observações incluídas: 52 Variável Coeficiente Erro padrão Estatística - t Probabilidade C 29.44237 4.464618 6.594601 0.0000 PCB -2.711358 0.942566 -2.876573 0.0060 PCF -3.713605 1.306447 -2.842521 0.0066 PP 0.550559 0.688389 0.799778 0.4279 R 0.015407 0.002805 5.493420 0.0000 R-quadrado 0.621391 Média da variável dependente 15.97115 R-quadrado ajustado 0.589169 S.D. da variável dependente 9.62504 S.E. da regressão 6.169272 Critério de inf. Akaike 6.56825 Soma de quadrados dos resíduos 1788.816 Critério de Schwarz 6.75587 Log de probabilidade -165.7745 Estatística - F 19.28467 Estatística Durbin-Watson - d 1.616661 Prob. (Estatística - F) 0.00000 Conforme indicado na Tabela 5.15, os resultados podem ser analisados. Observa-se que 62,13% das variações ocorridas nas quantidades demandadas de carne de boi pelas famílias participantes da amostra são explicadas pelo conjunto das variáveis independentes. A estatística F, significativa ao nível de 1%, indica que o modelo se adequouao fenômeno estudado. A estimativa do coeficiente da variável preço da carne de boi, da ordem de -2,71, sugerindo que para cada aumento de R$1,00 no preço da carne de boi, a quantidade demandada de carne tende a diminuir de 2,71 kg, em média, para as famílias, mantendo a influência das demais variáveis constante, o que mantém coerência com a lei da demanda. Seguindo o mesmo 225 raciocínio, tem-se que o valor da estimativa do coeficiente da variável preço da carne de frango é de -3,71, indicando que para cada aumento de R$1,00 no preço da carne de frango, as famílias tendem a diminuir o consumo de carne de boi em 3,71 kg, caracterizando os produtos como complementares, ceteris paribus. Os preços do peixe não influenciam o consumo de carne de boi dessas famílias, uma vez que não apresentou significância estatística. O valor da estimativa do coeficiente de renda é de 0,015 e indica que para cada aumento de R$1,00 na renda da família, o consumo de carne de boi tende a aumentar de 15,4 gramas. 226 5.4 Autocorrelação Quando o termo de erro (ei) em um período de tempo é positivamente, ou negativamente, correlacionado com o termo de erro do período de tempo anterior, depara-se com um problema de autocorrelação positiva, ou negativa, de primeira ordem. Isto significa que os sucessivos termos de erro são gerados em função de valores prévios, de modo que a hipótese de não autocorrelação pode não ser plausível. Este fenômeno é comum em análises de séries temporais e pode conduzir a desvios padrão viesados. Geralmente, os valores dos desvios são subestimados. Neste caso, os resíduos são autorregressivos, ou seja: )(;0)( htE htt f∀≠−εε 5.23 Isto indica que o resíduo, que ocorre no ano t, relaciona-se ao resíduo que ocorre no ano (t-h). Quando h=1 tem-se que o resíduo do período t está correlacionado ao resíduo do período t- 1, caracterizando o caso da autocorrelação serial de primeira ordem. A natureza e causa da autocorrelação são apresentadas em seguida. 5.4.1 Natureza da autocorrelação O fenômeno da autocorrelação é usualmente associado com dados de série temporal. Quando a autocorrelação ocorre em dados cross-section, diz-se que há correlação espacial. No modelo de regressão linear simples, assume-se ausência de autocorrelação, em função da aleatoriedade da amostra, ou seja: )(,0)( jiE ji ≠∀=εε Para dados de série temporal e cross-section, isto significa que: Série temporal: se um trabalhador influencia a geração do produto em um período, não há razão para se acreditar que este efeito seja transmitido para outros períodos. Porém, a possibilidade de autocorrelação sempre deve ser levada em conta quando se trabalha com dados de séries temporais. Cross-section: os gastos realizados em consumo por uma família não influenciam as decisões de aumento ou diminuição de gasto de outra família. Por outro lado, se há autocorrelação serial dos resíduos, tem-se que: E(εiεj) ≠ 0, para todo i≠j. 5.4.2 Causas da autocorrelação Quando os elementos fora da diagonal principal da matriz de variância-covariância são diferentes de zero, os erros são autocorrelacionados, como na ilustração a seguir. 227 Erros não autocorrelacionados: σ σ σ 2 2 2 ...00 ............ 0...0 0...0 Erros autocorrelacionados: σ σ σ εεεε εεεε εεεε 2 2 2 ...)()( ............ )(...)( )(...)( 21 212 121 nn n n EE EE EE Observa-se que os termos das diagonais secundárias são diferentes de zero. Isto indica que os erros são correlacionados. Esta correlação pode ser causada pelas seguintes razões: i. Autocorrelação espacial: em dados cross-section, um choque aleatório que afete a produção agrícola em uma região pode causar impacto na produção de regiões subjacentes que mudam por causa das ligações econômicas existentes entre si. São exemplos: geadas, enchentes, etc. ii. Influência prolongada de choques: em dados de séries temporais, choques aleatórios produzem efeitos que, algumas vezes, persistem por mais de um período de tempo. A desvalorização do câmbio e fenômenos como geadas e secas, guerra, por exemplo, podem afetar a economia no presente e nos períodos subseqüentes. iii. Inércia: por causa da inércia ou de condições psicológicas, ações passadas algumas vezes podem exercer fortes efeitos sobre o presente, de tal forma que um erro positivo em relação à média, relativo a um período pode influenciar a atividade em períodos seguintes. Este fenômeno acompanha a própria forma de evolução de variáveis econômicas como PNB, emprego, oferta monetária, índice de preços, taxa de juros, etc. Ou seja, o ajuste que ocorre por conta do próprio ciclo da economia pode gerar autocorrelação. iv. Erro de especificação do modelo: uma variável relevante não incluída na regressão torna o modelo subespecificado. Se esta variável é autocorrelacionada, a sua ausência no modelo de regressão pode resultar em padrão sistemático no comportamento dos resíduos, tornando-os autocorrelacionados. Para verificar se isto está ocorrendo, basta observar o comportamento dos resíduos na presença e na ausência de tais variáveis no modelo de regressão. v. Manipulação de dados: os dados mensais transformados em dados trimestrais, empregando média aritmética, tornam as séries mais suaves. Isto faz com que os dados suavizados apresentem um padrão sistemático no termo de erro, induzindo à autocorrelação. Da mesma forma, a interpolação de dados tende a elevar a média em períodos sucessivos, o que pode induzir padrões sistemáticos no comportamento dos resíduos. 228 vi. O fenômeno da teia de aranha: a quantidade ofertada dos produtos da agropecuária reage ao preço defasado de um ou mais período, em função do tempo que leva da implantação até a comercialização da produção. A forma mais comum de representar este fenômeno é por meio da seguinte equação: ePQ ttt ba ++= −1 Se no período t, o preço Pt for menor que o preço Pt-1, no período seguinte (t + 1), os produtores decidem produzir menos do que no período t. Esta é uma razão que leva ao erro, et, ser não aleatório. A autocorrelação serial dos resíduos pode ser de várias ordens. A mais comum é autocorrelação de primeira ordem que ocorre quando o termo de erro de um período é uma proporção do termo de erro do período anterior, mais uma disturbância esférica, ou seja, um termo de erro não autocorrelacionado. Em termos matemáticos, a autocorrelação de primeira ordem é escrita da seguinte maneira: νρ ttt ee += −1 em que ρ é um parâmetro menor do que um em valor absoluto, denominado coeficiente de autocorrelação e νt é o termo de erro esférico. 5.4.3 Consequências da autocorrelação As principais consequências da autocorrelação sobre as estimativas dos parâmetros de MQO são as relacionadas em seguida: a) Os estimadores de MQO continuam estimadores lineares não viesados e consistentes; b) Os estimadores de MQO não possuem mais variância mínima, portanto não são eficientes; c) As variâncias dos estimadores de MQO são viesadas. Isto significa que os desvios padrão dos parâmetros podem ser subestimados, elevando o valor das estatísticas t, R2 e F. d) As estatísticas t e F são irreais. Portanto, se forem aplicadas podem levar a erros nas conclusões. e) A variância e desvio padrão de previsão podem ser ineficientes. 5.4.4 Identificação da autocorrelação Há várias formas para a identificação da autocorrelação serial de primeira ordem. A forma mais simples de diagnóstico do problema, porém a menos segura é a análise gráfica, por fornecer apenas um indicativo da presença ou ausência de autocorrelação nos resíduos. Conforme mostrado na Figura 5.8, exceção do gráfico (a), todos os demais apresentam indícios de que os erros não são normalmente distribuídos, em função da presença de autocorrelação serial. Para ter certeza de que realmente há presença de autocorrelação, um teste formal deveser aplicado. Geralmente, o teste mais empregado é o de Durbin-Watson, descrito em seguida. 229 Figura 5.8 – Identificação de casos de autocorrelação serial positiva e negativa. 5.4.4.1 Teste de Durbin-Watson: d A estatística de Durbin-Watson é calculada com base na expressão 5.24. ∑ ∑ − = = − = n t t n t e ee d tt 1 2 2 2 )( 1 5.24 Este teste toma por base a hipótese de que os erros são correlacionados de primeira ordem, como em 5.25. 11 1 +− += − pp ρ ρ ν ttt ee 5.25 ei ( a ) ei ( b ) 0 t 0 t Não autocorrelação Autocorrelação positiva ei ( c ) ei ( d ) 0 t 0 t Autocorrelação positiva Autocorrelação negativa 230 em que o parâmetro ρ (rô) é dado por: ∑ ∑ = = − = n t t n t tt e ee 1 2 2 1 ρ 5.26 De posse dos resultados em 5.26, pode-se deduzir que a estatística de Durbin-Watson varia entre zero (valor mínimo) e quatro (valor máximo): d ≈ −2 1( )ρ . Neste caso, se ρ = -1, a estatística de Durbin-Watson é d = 4, indicando correlação serial negativa perfeita, se ρ = 0, tem- se que d = 2, indicando ausência de autocorrelação serial de primeira ordem e, se ρ = 1, o valor de d = 0, indicando que há correlação serial positiva perfeita. A demonstração é a seguinte: ∑ ∑∑∑ = = − = − = −+ = n t t n t tt n t t n t t e eeee d 1 2 2 1 2 2 1 2 2 2 )1(22112 1 2 2 1 1 2 2 2 1 1 2 2 2 ρρ −≅−+≅−+= ∑ ∑ ∑ ∑ ∑ ∑ = = − = = − = = n t t n t tt n t t n t t n t t n t t e ee e e e e d Os testes de hipótese para autocorrelação de primeira ordem positiva e negativa, com base na estatística de Durbin-Watson, são enquadrados nas situações indicadas no esquema abaixo. Rejeita Zona de Aceita as hipóteses Zona de Rejeita 0H Indecisão 0H ou 0 * H ou ambas Indecisão 0 * H 0 dL dU 2 4-dU 4-dL 4 As hipóteses de ausência de autocorrelação de primeira ordem, pelo esquema acima, são dadas por: H0: não autocorrelação positiva de primeira ordem é aceita se dU.< d < 2 H0: não autocorrelação negativa de primeira ordem é aceita se 2 < d < 4-dU. As hipóteses de presença de autocorrelação de primeira ordem, pelo esquema acima, são dadas por: Ha: autocorrelação positiva de primeira ordem é aceita se d < dL. Ha: autocorrelação negativa de primeira é aceita se d > 4-dL. 231 Nas duas outras situações em que a estatística d se situa no intervalo (dL e dU), para autocorrelação positiva, e no intervalo (4-dL e 4-dU), para autocorrelação negativa, o teste é inconclusivo. Os passos utilizados na determinação da estatística de Durbin-Watson são os quatro determinados a seguir: i. Estimar a regressão para obter os resíduos: et; ii. Calcular o valor da estatística d; iii. Encontrar o valor crítico de dL e dU de Durbin-Watson em tabela específica para o número de variáveis explicativas da regressão (k’) e o número de observações ( n ); iv. Tomar a decisão de aceitar ou rejeitar a hipótese nula. 5.4.5 Correção da autocorrelação Em primeiro lugar, estima-se o modelo especificado na equação 5.26 e testa-se a hipótese de autocorrelação de primeira ordem. Se a hipótese alternativa de que há presença de autocorrelação nos resíduos for aceita, emprega-se o método de Cochrane-Orcutt para fazer a correção. 11 ; 1 +− += ++= − pp ρ ρ ν ttt ttt ee eXbaY 5.26 Passo 1: O primeiro passo é tomar a regressão anterior, defasado-a de um período, como a seguir: eXbaY ttt 111 −−− ++= 5.27 Passo 2: O segundo passo é multiplicar a regressão defasada (5.27) por rô (ρ), como a seguir: eXbaY ttt 1111 −−− ++= ρρρρ 5.28 Passo 3: O terceiro passo é subtrair da regressão original (5.26) a regressão (5.28), como a seguir: eeXbXbaaYY tttttt 111 −−− −+−+−=− ρρρρ 5.29 Passo 4: O passo final é ajustar os termos da regressão, que resulta na regressão transformada (5.30). ν ttt XbaY ++= *** 5.30 em que: t t tY Y Y * = − − ρ 1 ; 232 t t tX X X * = − − ρ 1 ; �∗ = (1 − �) = � + �� � Na aplicação deste método de Cochrane-Orcutt para correção de autocorrelação serial, perde-se a primeira observação e para recuperá-la, aplica-se a seguinte fórmula corretiva: YY 1 2* 1 1 ⋅−= ρ XX 1 2* 1 1 ⋅−= ρ Feito isto, estima-se a regressão transformada por MQO. 5.4.6 Aplicação A seguir, apresentar-se o processo de cálculo da estatística de Durbin-Watsom para identificação de autocorrelação serial de primeira ordem nos resíduos nas equações de demanda de café e de carne de frango. Com base nos dados da Tabela 5.16, tem-se que: Durbin-Watson para café: 777,2 7267,27 9971,76 2 1 2 2 2 )( 1 === ∑ ∑ − = = − t t n t e ee d tt Tabela 5.17. Cálculo da estatística de Durbin-Watson para a demanda de café Ano et et-1 (et-et-1) 2 et.et-1 et 2 1990 0,6492 - - - 0,4214 1991 0,6163 0,6492 0,0011 0,4001 0,3798 1992 0,8009 0,6163 0,0341 0,4936 0,6415 1993 -2,6368 0,8009 11,8181 -2,1119 6,9529 1994 1,1142 -2,6368 14,0704 -2,9380 1,2415 1995 -3,6408 1,1142 22,6101 -4,0566 13,2554 1996 1,6871 -3,6408 28,3864 -6,1424 2,8463 1997 1,4100 1,6871 0,0768 2,3787 1,9880 Somatória = 76,9971 -11,9765 27,7267 rô ρρρρ = -0,432 Teste t = -1,24 d = 2,777 Cálculo do rô: 432,0 7267,27 9765,11 2 1 2 2 2 )( 1 −= − == ∑ ∑ ⋅ = = − t t n t e ee tt ρ 233 A representação gráfica indica presença de autocorrelação negativa, pois os resíduos de alternam entre valores positivos e negativos, como mostra a Figura 5.9. Figura 5.9. Gráfico de resíduos em função do tempo, indicando presença de autocorrelação negativa. O modelo auto-regressivo de primeira ordem para a demanda de carne de frango é especificado como a seguir (Tabela 5.17). µρ ttt t f t f t ee ePbaQ += ++= −1 5.31 Estatística de Durbin-Watson: d e e e t t t n t t = = = −∑ ∑ − = = 2 2 2 1 2 1 2 5 6 8 8 4 3 1 4 4 0 5 9 5 ( ) , , , Tabela 5.18. Cálculo da estatística de Durbin-Watson para a demanda de frango. Ano ( et ) ( et-1 ) (et-et-1) 2 ( et 2 ) ( et.et-1 ) 1989 0,4454 - - 0,1983 - 1990 0,6264 0,4454 0,0328 0,3924 0,2790 1991 -2,2778 0,6264 8,4346 5,1885 -1,4269 1992 -2,5063 -2,2778 0,0522 6,2814 5,7088 1993 -2,5300 -2,5063 0,0006 6,4007 6,3407 1994 -1,6442 -2,5300 0,7846 2,7033 4,1597 1995 1,9464 -1,6442 12,8919 3,7883 -3,2001 1996 3,4937 1,9464 2,3944 12,2062 6,8001 1997 2,4464 3,4937 1,0970 5,9847 8,5469 Somatória = 25,6880 43,1437 27,2082 d =0,595 ρ=0,7322 t = 2,46 -4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 1990 1991 1992 1993 1994 1995 1996 1997 V A L O R D O E R R O ERRO ( Et ) 234 A regressão estimada é apresentada em seguida: Regressão: 595,0;68,13;66,0 )7,1( 2 )70,3()51,8( 474,20791,30 === −= − dFR PQ gl f t f t Na Figura 5.10, ilustra-se o comportamento dos resíduos da regressão em função do tempo. A análise gráfica sugere que há autocorrelação positiva, porém não permite assegurar se tal evidência suporta o teste estatístico. Figura 5.10. Gráfico de resíduos em função do tempo da demanda de carne de frango, indicando presença de autocorrelação positiva. O teste cai na região inconclusiva para autocorrelação positiva. Mesmo assim, a título de exemplificação, vai-se aplicar o método de Cochrane-Orcurtt apenas para correção da autocorrelação serial de primeira ordem. Em primeiro lugar, faz-se a transformação do modelo para correção de autocorrelação, como a seguir: ePQ t f t f t ba 111 −−− ⋅+⋅+⋅= ρρρρ νρρ t f t f t f t f t PPQQ ba +−+−=− −− )()1()( 11 ν t f t f t PCbaQC ++= ∗ 5.32 Os dados transformados são apresentados na Tabela 5.18. Os resultados obtidos da estimativa dos parâmetros
Compartilhar