Baixe o app para aproveitar ainda mais
Prévia do material em texto
55 ECONOMETRIA Unidade II 5 MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM) O modelo de regressão linear simples (MRLS), no qual a variável Y é explicada pela variável X, foi a base inicial da disciplina. Agora, iremos introduzir o modelo de regressão linear múltipla (MRLM), no qual a variável Y pode ser explicada por mais de uma variável, pressupondo uma relação linear entre cada uma das variáveis independentes e a variável dependente. O modelo de regressão múltipla, por exemplo, com k variáveis independentes, é expresso na equação: yi = α + β1X1i + β2X2i + β3X3i + ... + βkXki + ei, i = 1, ..., n Em que: y é a variável dependente; x1, x2, . . . , xk são as variáveis independentes; k é o número de variáveis independentes no modelo; i denota as n observações da amostra. Os parâmetros β1, β2, β1 ... βk são desconhecidos, e teremos que estimá-los utilizando, novamente, o método dos mínimos quadrados ordinários (MMQO), que busca os valores dos β’s que minimizam a soma dos quadrados dos erros. 5.1 Hipóteses Para estimarmos os parâmetros desconhecidos do nosso modelo em questão, precisamos elaborar algumas hipóteses. São elas: • Linearidade: yi = α + β1X1i + β2X2i + β3X3i + ... + βkXki + ei, i = 1, ..., n • Exogeneidade: E[ei | x11, x21, x31, ... xki] = 0. A exigência de que o erro e a variável explicativa sejam não correlacionados. 56 Unidade II • Homocedasticidade: Var[ei | x11, x21, x31, ... xki] = E[ei 2 | x1i, x2i, x3i, ... xki] = σ 2. A variância do erro é constante, igualdade de variâncias, ou homocedasticidade. Requer que a variância dos erros (ei) seja constante em relação a todos os valores de X, isto é, a variabilidade dos valores de Y é a mesma quando X é um valor baixo ou quando X é um valor elevado. A igualdade das variâncias é importante para se realizar inferências em relação aos parâmetros α, βs. Havendo problemas na não confirmação da hipótese de homocedasticidade, podemos utilizar os modelos de mínimos quadrados ponderados ou as transformações de dados. • Não autocorrelação dos erros: Cov[ei, ej | xi, xj] = E[ei, ej | xi, xj] = 0. O erro de uma observação não pode estar correlacionado com o erro de outra observação. Portanto, covariância é igual a zero (o resultado em qualquer experimento não tem efeito no termo do erro de qualquer outro experimento). Os erros (ei) devem ser independentes entre si. Devemos incluir mais uma hipótese: Não existe colinearidade perfeita entre as variáveis explicativas. Ou seja, uma variável explicativa não é função linear perfeita da outra. Não podemos ter, por exemplo, x1 = 3x2 ou x3 = 2x1 + x2 3 . Observação O pressuposto da normalidade requer que os erros (ei) sejam normalmente distribuídos para cada um dos valores de X. A análise de regressão é relativamente robusta em relação a afastamentos do pressuposto da normalidade, isto é, desde que a distribuição dos erros em cada um dos níveis de X não seja extremamente diferente de uma distribuição normal, inferências em relação aos parâmetros α, βs não serão seriamente afetadas. Ao desenvolvermos um modelo de regressão múltipla, desejamos utilizar somente aquelas variáveis independentes que reduzam significativamente o erro ao prevermos o valor de uma variável dependente. No modelo de regressão linear simples, a inclinação β1 representa a alteração na média aritmética de Y para cada unidade de alteração em X e não leva em consideração nenhuma outra variável. Entretanto, no modelo de regressão linear múltipla com duas variáveis independentes, a inclinação β1 representa a alteração na média aritmética de Y para cada unidade de alteração em X1, levando-se em consideração o efeito de X2. A equação a seguir define o modelo de regressão múltipla com duas variáveis independentes: yi = α + β1X1i + β2X2i + ei, i = 1, ..., n 57 ECONOMETRIA Em que: α = intercepto de Y; β1 = inclinação de Y em relação à variável X1, mantendo-se constante a variável X2; β2 = inclinação de Y em relação à variável X2, mantendo-se constante a variável X1; ei = erro aleatório em Y para a observação i. Observação Os quatro pressupostos de regressão: LINI (Linearidade, Independência dos erros, Normalidade de erros e Igualdade de variâncias). A partir do resultado dos diversos testes, encontramos uma especificação de modelo que resista bem a todos eles e pareça fazer sentido do ponto de vista da teoria e da experiência prévia do pesquisador – nesta etapa atingimos o objetivo de uma representação “exata” da relação entre determinadas variáveis no qual podemos utilizá-lo para fins de controle ou de formulação de políticas. Os procedimentos de teste partem da definição de uma “hipótese nula” a ser testada (estimar a probabilidade, na suposição de que a hipótese nula é verdadeira). Os testes de regressão são de três tipos: de coeficientes, de resíduos e de estabilidade: • Teste de coeficientes: tipos de testes sobre os coeficientes de uma regressão: — Variável omitida: determina se uma ou mais variáveis omitidas de uma regressão deveriam ter sido incluídas ou não (através de uma regressão auxiliar incluindo as variáveis omitidas). — Variável redundante: determina se uma ou mais variáveis da regressão podem ser excluídas sem maiores consequências. A hipótese nula é que os coeficientes das variáveis selecionadas na regressão não são todos estatisticamente diferentes de zero. Se a hipótese for rejeitada, as variáveis não são redundantes, isto é, não podem ser excluídas da regressão sem comprometer o nível de explicação da variável dependente. • Teste de resíduos: tipos de testes sobre os resíduos de uma regressão: — Normalidade: em geral, os testes existentes para modelos de regressão só são válidos em amostras pequenas quando se assume que os distúrbios aleatórios têm distribuição normal, mas há sempre que se ter cuidados com a possibilidade de viés em amostras pequenas. 58 Unidade II — Correlograma do resíduo (do resíduo quadrado): esta opção apresenta as autocorrelações e autocorrelações parciais dos resíduos (ao quadrado) da equação estimada para um número especificado de defasagens. — Heterocedasticidade: uma das hipóteses do modelo de regressão é a de homocedasticidade, isto é, a de que a variância teórica do termo de distúrbio aleatório, condicional em relação às variáveis independentes, seja constante. Caso contrário, se a variância muda ao longo de diferentes intervalos de tempo ou em função de variáveis independentes, temos o caso de heterocedasticidade que acaba invalidando todos os testes de hipóteses baseados em estatísticas t (Student), F (Snedecor) e qui-quadrado. • Teste de estabilidade: tipos de teste para avaliar se os parâmetros da regressão são estáveis ao longo do intervalo de estimativa: — Teste Chow: a estabilidade dos parâmetros é verificada dividindo-se o intervalo da amostra em duas partes e estimando-se novamente os parâmetros em cada subamostra. O teste compara a soma dos quadrados dos resíduos da regressão original com a soma dos quadrados dos resíduos das novas regressões feitas a partir das subamostras. Caso haja uma diferença significativa nas estimativas, pode-se concluir que houve, a partir do ponto de quebra da amostra, uma mudança estrutural no relacionamento entre as variáveis do modelo. — Teste de estabilidade Ramsey RESET: é um teste geral para erros de especificação que podem ter diversas origens, como variáveis independentes omitidas, forma funcional incorreta, erros de medida em variáveis, erros de simultaneidade e inclusão de valores defasados da variável dependente quando os resíduos têm correlação serial. Já discutimos a modelagem e os pressupostos tratados em regressão simples. Na regressão múltipla, devemos atentar para que as variáveis independentes não sejam correlacionadas entre si (a utilização de variáveis que explicam a mesma coisa, o que prejudica a performance do modelo). Isso implica a ocorrência de multicolinearidade, algo indesejável na construção de um modelo econométrico.O problema é que os valores dos βs associados às variáveis independentes podem estar viesados; assim, comprometem as projeções do modelo e as conclusões e até mesmo não permitem realizar os testes de regressão. O procedimento simples e prático de verificar a ocorrência de problemas que envolvem a correlação entre variáveis (multicolinearidade) se dá pela obtenção da matriz de correlação entre as variáveis que compõem o modelo de regressão linear múltipla. A solução desse sistema (modelagem da regressão linear múltipla) se torna mais complexa do que a estimação do parâmetro β do modelo de regressão linear simples. Depois de atendidos os pressupostos (hipóteses) do MRLM pelo MMQO e estando ele já estimado, seguiremos para o processo de concepção do modelo econométrico. Entre os diversos softwares existentes no mercado, contaremos com o apoio da planilha Excel através da ferramenta Análise 59 ECONOMETRIA de Dados, pois não há necessidade de elaborarmos os procedimentos de cálculos algébricos que são complexos. Faz-se necessário, portanto, avaliar a adequação do modelo aos dados. Os parâmetros mais relevantes para diagnóstico de modelos de regressão são R2, estatística t-Student, estatística F-Fisher, p-valor e o coeficiente (β) de cada variável independente. Observação Entre os softwares existentes, encontramos gratuitamente o pacote econométrico que realiza análise de regressão Gretl, porém os mais conhecidos e completos são: EViews, SPSS, SAS, TSP, Minitab, R Statistics e SAP APO. Vamos elaborar tais procedimentos com base em uma regressão múltipla padrão, aquela em que as variáveis independentes são acrescidas uma a uma, cada uma delas sendo avaliada conforme o quanto adiciona ao poder preditivo do modelo – poder de explicação do comportamento, da variação encontrada na variável dependente. De forma direta, é o grau de variação alcançado no coeficiente de determinação R2(∆%R2), decorrente da retirada de uma variável do conjunto de variáveis independentes consideradas no modelo. Veja a seguir um exemplo de análise de regressão – complexo agroindustrial canavieiro – seguindo o passo a passo na sua elaboração. Teoria econômica Modelo econométrico Estimação do modelo Previsão Modelo matemático Dados Teste de hipóteses Aplicação do modelo Figura 18 – Primeiro passo para a elaboração de um modelo econométrico Essa é a análise de regressão de um modelo, em caráter exploratório, utilizando conceitos e técnicas econométricas, para melhor compreender de que maneira está se processando a expansão da indústria açucareira brasileira voltada para o mercado interno e basicamente para o mercado externo, no período entre 2005 e 2015. O complexo agroindustrial canavieiro (cuja matéria-prima é a cana-de-açúcar e os produtos finais são açúcar e álcool) é a mais antiga atividade econômica do Brasil. O governo Collor, em março de 1990, desregulamentou o setor sucroalcooleiro, que por mais de três décadas esteve sob tutela do estado, vindo este a ser o marco inicial para a sua entrada em um regime de livre-mercado (condições mais competitivas, em especial o mercado de açúcar, por ser uma commodity internacional). A expectativa, principalmente pelo aumento acentuado das exportações brasileiras, era de que os preços internos do açúcar no mercado doméstico passassem a ter correlação muito forte com os preços do mercado externo. 60 Unidade II Teoria econômica Modelo econométrico Estimação do modelo Previsão Modelo matemático Dados Teste de hipóteses Aplicação do modelo Figura 19 – Segundo e terceiro passos para a elaboração de um modelo econométrico Utilizando as técnicas de regressão linear pelo método dos mínimos quadrados, vamos analisar as hipóteses com o intuito de extrair o máximo proveito possível dos dados a nossa disposição – neste caso, em especial, a hipótese da sustentabilidade da expansão açucareira e a existência de relações significativas da evolução da produção de açúcar (variável dependente), tendo como variável explicativa (independente) os preços dos mercados externo e interno dos produtos finais da cana-de-açúcar (açúcar e etanol, respectivamente). Contextualizados nesse modelo básico, conduzimos nossa investigação seguindo os procedimentos clássicos metodológicos da Econometria (vide figura da metodologia de pesquisa econométrica anteriormente apresentada). Nossa hipótese básica de trabalho está focada na existência de correlação entre a evolução da produção de açúcar (Y) e as demais variáveis explicativas (X) em questão: a evolução de produção do etanol hidratado e os preços do mercado externo de açúcar. Observação O sucesso de qualquer análise econométrica, segundo Gujarati (2000), depende basicamente da disponibilidade de dados apropriados e confiáveis, com respeito à natureza e fontes adequadas. Após o modelo ter sido ajustado por metodologia adequada de regressão linear, é necessário desenvolver os critérios adequados para que nossas expectativas teóricas estejam satisfeitas (teoria e empiria: inferência estatística ou teste de hipótese do coeficiente de correlação e dos parâmetros do modelo). Teoria econômica Modelo edonometrico Estimação do modelo Previsão Modelo econométrico Dados Teste de hipóteses Aplicação do modelo Figura 20 – Quarto passo para a elaboração de um modelo econométrico Apresentamos na tabela a seguir, elaborada a partir de dados do IBGE, a evolução da produção de açúcar e do etanol hidratado no Brasil e o preço do açúcar VHP no mercado externo. O açúcar VHP – do inglês very high polarization (polarização muito alta) – é utilizado como matéria-prima para a produção de açúcar refinado ou em outros processos de industrialização, podendo ser usado para o consumo, mas geralmente é exportado a vários países a fim de ser transformdo em diferentes tipos de açúcar para consumo. 61 ECONOMETRIA Observação O etanol anidro é misturado em 27% à gasolina. Já o etanol hidratado é usado diretamente no tanque dos veículos. Partimos da premissa verdadeira de que o preço do mercado externo (dólar) é o grande formador de preço do mercado interno. Tabela 10 – Produção de açúcar e etanol hidratado e preços do açúcar VHP (mercado externo) no período de 2005 a 2015 (Brasil) Produção de açúcar Preço do açúcar VHP mil toneladas US$/saca de 50 quilos n Ano Yi Xi 1 2005/06 26.420,0827 8,8975 2 2006/07 30.223,6000 14,4450 3 2007/08 31.279,7000 10,1283 4 2008/09 31.620,2000 11,1508 5 2009/10 33.074,7000 14,5258 6 2010/11 38.168,4000 19,6842 7 2011/12 38.271,8000 25,2400 8 2012/13 38.336,8761 23,3375 9 2013/14 37.878,2633 17,5258 10 2014/15 35.560,1797 16,4067 11 2015/16 33.489,1427 13,1275 A relação da produção de açúcar no Brasil (Y) com o preço do açúcar VHP no mercado externo (X) tende a verificar a sensibilidade do incremento de produção aos preços praticados, isto é, o quanto a variável preço no mercado externo explica a variação ou incremento da produção de açúcar. O que se espera é que aumentos de preço no produto provoquem aumento na produção – como o açúcar para exportação é negociado em dólar, isso representa mais reais para os vendedores no momento da conversão de moedas –, o que explica a prioridade dada ao alimento em detrimento do etanol. Além disso, a alta do açúcar está relacionada à elevação dos custos de produção no país e à queda de produtividade das lavouras ligadas à baixa de investimentos do setor sucroenergético. O comportamento do mercado internacional, pelo lado tanto da oferta como da demanda, influencia o comportamento dos preços – por exemplo, problemas climáticos na Índia, um dos principais produtores mundiais de açúcar, tendem a encarecer os produtos no mercado internacional. Com uma liquidez maior, o etanol terá uma produção elevada, e isso diminui a produção de açúcar, contribuindo com o déficit do mercado internacional. 62 Unidade II A elevação do preço do açúcar afeta diretamente o custo de alimentos como pães e doces,já que o açúcar é o segundo item mais usado como matéria-prima da padaria, pois compõe quase todos os produtos. O aumento na energia elétrica e nos combustíveis é um dos fatores que mais impulsionaram o preço do açúcar. Teoria econômica Modelo econométrico Estimação do modelo Previsão Modelo matemático Dados Teste de hipóteses Aplicação do modelo Figura 21 – Quinto e sexto passos para a elaboração de um modelo econométrico Entre os modelos de regressão que foram testados e analisados, usando o software Excel (opções Análise de Dados e Regressão), conforme metodologia de investigação econométrica, serão apresentados a seguir os procedimentos metodológicos de apenas dois modelos, sendo os mais significativos no que se refere à regressão simples e à regressão múltipla. Repare que a tabela a seguir, apresentada pelo Excel, fornece os mesmos valores já calculados (pelas fórmulas) anteriormente. 63 ECONOMETRIA Ta be la 1 1 – An ál ise d a va riâ nc ia d o m od el o de r eg re ss ão (A no va ): pr od uç ão d e aç úc ar (Y ) Re su m o do s r es ul ta do s IN VF (0 ,0 5; 1; 9) = 5 ,1 2 (c on su lta ta be la F ) Es ta tís tic a de re gr es sã o (V al or c rít ic o de F ) R m úl tip lo 0, 87 78 = ra iz q ua dr ad a de R 2 F( α; g l_ I; gl _I I) R- qu ad ra do 0, 77 05 = c oe fic ie nt e de d et er m in aç ão : R 2 = 1 - (S QE / SQ T) R- qu ad ra do a ju st ad o 0, 74 50 = 1 - (1 - R 2) * (n - 1 ) / (n - k - 1 ) Er ro -p ad rã o 2. 00 5, 91 37 = e rr o- pa dr ão d a re gr es sã o = ra iz q ua dr ad a da v ar iâ nc ia e st im ad a (re sid ua l) Ob se rv aç õe s 11 = n é o n úm er o de o bs er va çõ es ( ta m an ho d a am os tr a) An ov a (a ná lis e de v ar iâ nc ia ) gl SQ M Q F F de si gn ifi ca çã o (g ra us d e lib er da de ) (s om a de q ua dr ad os ) (m éd ia d e qu ad ra do s) (F -F ish er /S ne de co r) Re gr es sã o 1 12 1. 58 1. 70 4, 10 12 1. 58 1. 70 4, 10 30 ,2 2 0, 00 03 82 (v ar ia çã o ex pl ic ad a) (g l I = k : nº v ar iá ve is in de pe nd en te s o u nu m er ad or do te st e F) (S QR ) (M QR = S QR / k) (M QR / M QE ) Pr ob . ( F c rít ic o > F ) Re síd uo 9 36 .2 13 .2 08 ,5 6 4. 02 3. 68 9, 84 (v ar ia çã o in xe pl ic ad a) (g l I I = n -k -1 : de no m in ad or do te st e F) (S QE ) M Q E = SQ E / ( n- k- 1) (v ar iâ nc ia e st im ad a) IN VT (0 ,0 5; 9) = 2 ,2 6 (c on su lta ta be la t) 2, 26 22 To ta l 10 15 7. 79 4. 91 2, 66 (v al or c rít ic o de t- St ud en t) gl I + gl II = k + (n -k -1 ) = n - 1 (S QT ) t ( α; g l_ I) Co efi ci en te s Er ro -p ad rã o St at t va lo r- P 95 % in fe rio re s 95 % su pe rio re s (d os c oe fic ie nt es ) (te st e t- St ud en t c al cu la do ) Pr ob . ( t c rít ic o > t) (li m ite s d o in te rv al o de c on fia nç a) In te rs eç ão (α ) 23 .5 08 ,9 8 2. 00 7, 15 11 ,71 0, 00 00 00 9 18 .9 68 ,5 0 28 .0 49 ,4 6 Pr eç o aç úc ar V HP (X 1) (β ) 66 3, 29 12 0, 67 5, 50 0, 00 03 81 7 39 0, 33 93 6, 26 Y = α + β X + e >> >> > Y = 23 .5 08 ,9 8 + 66 3, 29 X 64 Unidade II Descrição e comentários: Tabela 12 – Resumo dos resultados Estatística de regressão R múltiplo 0,8778 = raiz quadrada de R2 R-quadrado 0,7705 = coeficiente de determinação: R2 = 1 - (SQE / SQT) R-quadrado ajustado 0,7450 = 1 - (1 - R2) * (n - 1) / (n - k - 1) Erro-padrão 2.005,9137 = erro-padrão da regressão = raiz quadrada da variância estimada (residual) Observações 11 = n é o número de observações (tamanho da amostra) 5.2 Covariância e coeficiente de correlação A covariância mede a força do relacionamento entre duas variáveis em termos absolutos através da seguinte equação: ( ) ( ) x média de X (y média de Y) Cov X, Y n 1 − × − = − ∑ Tabela 13 – Covariância (força do relacionamento entre X e Y em termos absolutos) (a) (b) (a) x (b) Seq. Ano Xi Yi (Xi - média de X) (Yi - média de y) (Xi - média de X) x (Yi - média de y) 1 2005/06 8,8975 26.420,0827 -6,96 -7.609,28 52.985,92 2 2006/07 14,4450 30.223,6000 -1,42 -3.805,76 5.388,32 3 2007/08 10,1283 31.279,7000 -5,73 -2.749,66 15.762,42 4 2008/09 11,1508 31.620,2000 -4,71 -2.409,16 11.347,14 5 2009/10 14,5258 33.074,7000 -1,34 -954,66 1.274,47 6 2010/11 19,6842 38.168,4000 3,82 4.139,04 15.824,93 7 2011/12 25,2400 38.271,8000 9,38 4.242,44 39.790,57 8 2012/13 23,3375 38.336,8761 7,48 4.307,52 32.205,87 9 2013/14 17,5258 37.878,2633 1,67 3.848,90 6.408,43 10 2014/15 16,4067 35.560,1797 0,55 1.530,82 835,57 11 2015/16 13,1275 33.489,1427 -2,73 -540,22 1.476,59 Média 15,86 34.029,36 0,00 00 183.300,23 Desvio- padrão 5,2569 3972,3408 ( ) 183.300,23Cov X, Y 18.330,02 10 = = 65 ECONOMETRIA O coeficiente de correlação mede o grau de relação entre duas variáveis. A correlação (representada por r) está sempre entre -1 e 1. O valor -1 corresponde à correlação negativa perfeita e o valor de +1 corresponde à correlação positiva perfeita; já o coeficiente de correlação (zero) indica que as duas variáveis não estão correlacionadas linearmente: X Y Cov(X,Y) 18.330,02 r 0,8778 5,2569 3.972,3408 = = ≅ σ σ × O R múltiplo = 0,8778 representa o coeficiente de correlação múltiplo. Lembre-se de que na regressão linear simples o R múltiplo representa o coeficiente de correlação simples (r), que mede o grau de relacionamento linear entre duas variáveis, e nos modelos de regressão linear múltipla o R múltiplo representa o coeficiente de correlação múltiplo (r), que mede o grau de relacionamento linear entre uma variável e um conjunto de outras variáveis. As técnicas de análise de correlação e regressão estão intimamente ligadas. Vamos descrever e testar a significância da correlação entre duas variáveis quando os dados são apresentados como pares ordenados, onde X é a variável independente ou explicativa e Y é a variável dependente ou resposta. O gráfico de pares ordenados (x, y) é chamado de diagrama de dispersão, que pode ser usado para determinar se existe uma correlação linear entre as duas variáveis. O que se espera é que aumentos de preço no produto provoquem aumento na produção. Veja os dados a seguir, extraídos de pesquisas do IBGE: 41.000 39.000 37.000 35.000 m il to ne la da s 33.000 31.000 29.000 27.000 25.000 0 5 10 15 20 25 US$/saca de 50 kg 30 Figura 22 – Diagrama de dispersão: preço do açúcar VHP X produção do açúcar (período 2005-2015) Para facilitar o cálculo do coeficiente de correlação, podemos utilizar uma tabela: 66 Unidade II Tabela 14 – Produção e preços do açúcar (Brasil) Produção de açúcar Preço do açúcar VHP (mercado) mil toneladas US$/saca de 50 quilos Ano Y X XY X2 Y2 2005/06 26.420,0827 8,8975 235.072,7 79,17 698.020.769,9 2006/07 30.223,6000 14,4450 436.579,9 208,66 913.465.997,0 2007/08 31.279,7000 10,1283 316.811,2 102,58 978.419.632,1 2008/09 31.620,2000 11,1508 352.591,6 124,34 999.837.048,0 2009/10 33.074,7000 14,5258 480.437,6 211,00 1.093.935.780,1 2010/11 38.168,4000 19,6842 751.313,1 387,47 1.456.826.758,6 2011/12 38.271,8000 25,2400 965.980,2 637,06 1.464.730.675,2 2012/13 38.336,8761 23,3375 894.686,8 544,64 1.469.716.069,1 2013/14 37.878,2633 17,5258 663.848,1 307,15 1.434.752.832,5 2014/15 35.560,1797 16,4067 583.424,0 269,18 1.264.526.380,1 2015/16 33.489,1427 13,1275 439.628,7 172,33 1.121.522.677,6 ∑ 374.322,9 174,47 6.120.374,1 3.043,6 12.895.764.620,1 O cálculo será o seguinte: ( ) ( )2 22 2 n xy x y r n x x n y y − = − − ∑ ∑ ∑ ∑ ∑ ∑ ∑ ( ) ( )2 2 11 6.120.374,1 174,47 374.322,9 11 3.043,6 174,47 11 12.895.764.620,1 374.322,9× − × = × − × × − 2.015.998,74 2.015.998,74 0,8778 55,13 41.662,3 2.296.842,6 = = ≅ × 5.3 Teste de hipótese para um coeficiente de correlação populacional Precisamos determinar se existe evidência suficiente para decidir que o coeficiente de correlação populacional ρ é representativo em um nível especificado de significância α (por exemplo, α = 0,01 significa que em 1% das vezes podemos dizer que o coeficiente de correlação populacional é significante quando ele realmente não é, ou seja, é o erro que podemos cometer). Utiliza-se o teste de hipótese para ρ, que pode ser monocaudal ou bicaudal. O nosso interesse é no teste bicaudal, a seguir especificado: 67 ECONOMETRIA H0 : ρ = 0 (não existe correlação significativa) H0 : ρ ≠ 0 (existe correlação significativa){ A estatística de teste padronizada é: 2r r r t 1 r n 2 = = σ − − A distribuição amostral para r é uma distribuição t de Student com n - 2 graus de liberdade. No exemplo que envolve as duas variáveis, utilizamos onze pares de dados para obtermos r = 0,8778. Vamos testar a significância desse coeficiente de correlação utilizando α = 0,01: H0 : ρ = 0 (não existe correlação significativa); H0 : ρ ≠ 0 (existe correlação significativa). A distribuição amostral para r = 0,8778 é uma distribuição t com n - 2 graus de liberdade. Temos 11 - 2 = 9. Uma vez que o teste é bicaudal, α = 0,01 e g. l. = 6, os valores críticos são -2,26 e 2,26 e as regiões de rejeição são t < - 2,26 e t > 2,26. Com base no teste t, a estatística teste padronizada é: ( )2 2r r r 0,8778 0,8778 t 5,55 0,06381 r 1 0,8778 n 2 9 = = = = ≅ σ − − − O gráfico a seguir mostra a posição das regiões de rejeição e a estatística teste padronizada: -tc tc t -2,26 +2,26 α 2 α 2 Figura 23 – Região crítica para o teste t 68 Unidade II Rejeitamos a hipótese nula, visto que t calculado está na região de rejeição. Ao nível de 1%, há evidência suficiente para concluir que existe uma correlação linear significante entre o preço e a produção de açúcar. Observação Correlação e causalidade: é possível que a relação das variáveis tenha sido causada por uma terceira variável, ou por uma combinação de muitas outras variáveis, mas neste caso a causalidade se confirma com a base teórica. 5.4 Coeficiente de determinação (r2) O coeficiente de determinação mede o grau de ajustamento da reta de regressão aos dados observados. Indica a proporção da variação total da variável dependente, que é explicada pela variação da variável independente. A equação que permite calcular o coeficiente de determinação é a seguinte: ( ) ( ) 2 2 2 Y média de Y Variação explicada r Variação totalY média de Y ˆ − = = − ∑ ∑ Veja a tabela, elaborada a partir de dados do IBGE: Tabela 15 – Coeficiente de correlação Seq. Ano Xi Yi Ŷ (Ŷ - média de Y)2 (Y - média de Y) 2 1 2005/06 8,8975 26.420,0827 29.410,6 21.332.649,59 57.901.079,59 2 2006/07 14,4450 30.223,6000 33.090,2 881.931,18 14.483.798,45 3 2007/08 10,1283 31.279,7000 30.227,0 14.457.678,27 7.560.622,37 4 2008/09 11,1508 31.620,2000 30.905,2 9.760.054,52 5.804.045,12 5 2009/10 14,5258 33.074,7000 33.143,9 784.102,72 911.373,03 6 2010/11 19,6842 38.168,4000 36.565,3 6.431.240,57 17.131.663,78 7 2011/12 25,2400 38.271,8000 40.250,5 38.702.492,56 17.998.309,11 8 2012/13 23,3375 38.336,8761 38.988,6 24.593.847,00 18.554.707,08 9 2013/14 17,5258 37.878,2633 35.133,7 1.219.660,35 14.514.067,64 10 2014/15 16,4067 35.560,1797 34.391,4 131.078,22 2.343.413,26 11 2015/16 13,1275 33.489,1427 32.216,4 3.286.969,12 291.833,23 Média 15,86 34.029,36 ∑ 121.581.704,10 157.794.912,66 69 ECONOMETRIA ( ) ( ) 2 2 2 Y média de Y 121.581.704,10 r 0,7705 V157.794.912,66Y média de Y ˆ − = = ≅ − ∑ ∑ Esse resultado nos mostra que 77,05% das variações da variável dependente y podem ser explicadas por variações da variável independente x. A análise de correlação se dedica a inferências estatísticas das medidas de associação linear que se seguem: • coeficiente de correlação simples: mede a “força” ou “grau” de relacionamento linear entre duas variáveis; • coeficiente de correlação múltiplo: mede a “força” ou “grau” de relacionamento linear entre uma variável e um conjunto de outras variáveis. As técnicas de análise de correlação e regressão estão intimamente ligadas. O R-quadrado = 0,7705 é um coeficiente de correlação múltiplo (R múltiplo = 0,8778) ao quadrado. Representa o coeficiente de determinação (r2), é a razão entre a variação explicada (SQR) e a variação total (SQT). Portanto, r2 é uma medida descritiva da qualidade do ajustamento obtido, indicando a proporção real da variância explicada para os preditores usados no modelo em análise: ( ) ( ) 2 egi2 2 oti SQRy y 121.581.704,10 r 0,7705 SQRT 157.794.912,6y y ˆ 6 − = = = ≅ − ∑ ∑ Teremos uma relação de quanto o modelo de regressão está sendo útil para explicar toda a variabilidade que aparece em cada uma das observações (é a porcentagem da variância total de y que é explicada pela variável x). Veja o gráfico com dados do IBGE: 45.000 40.000 m il to ne la da s 35.000 30.000 25.000 0 5 10 15 20 25 US$/saca de 50 kg 30 y = 663,29x + 23509 R2 = 0,7705 Figura 24 – Ajuste da reta de regressão: preço do açúcar VHP X produção do açúcar (período 2005-2015) 70 Unidade II Anteriormente calculamos o coeficiente de correlação (r). O quadrado desse coeficiente é o coeficiente de determinação (r2). Para um número fixo n de observações, quanto melhor for o ajuste dos dados, tanto maior será o valor de r2. Portanto, r2 pode ser visto como uma medida descritiva da qualidade do ajuste obtido – isto é, a variável independente (X: preço) explica 77% das variações da produção de açúcar. O R-quadrado ajustado = 0,7450 é uma medida semelhante ao coeficiente de determinação (r2), porém ajustada para refletir tanto o número de variáveis independentes (k) no modelo quanto o tamanho da amostra (n). Ao considerar modelos de regressão múltipla, esse procedimento evita uma característica do R-quadrado que tende a aumentar sempre que adicionamos novas variáveis independentes, mesmo que a sua contribuição seja pouca para o poder explicativo da regressão. Utilizar o R-quadrado ajustado é de extrema importância quando se está comparando dois ou mais modelos de regressão que estão prevendo a mesma variável dependente, mesmo tendo um número diferente de variáveis independentes. Veja: 2 2 aj n 1 r 1 (1 r ) n k 1 − = − − × − − Onde: n = 11 (número de observações); k = 1 (número de variáveis independentes na equação de regressão). 2 2 aj n 1 10 r 1 (1 r ) 1 1 0,7705) 0,7450 n k 1 9 − = − − × = − − × = − − No erro-padrão = 2.005,9137, quando um valor de ŷ é previsto a partir de um valor de x, a previsão é uma estimativa pontual. Pretendemos, agora, calcular uma estimativa intervalar para um valor previsto y. Primeiramente devemos calcular o erro-padrão da estimativa Se, que é o desvio-padrão dos valores de yi, observados em torno do valor y previsto para um dado valor de xi. Intuitivamente sabemos que quanto maior é a dispersão entre uma série de números ou população, maior será a dificuldade de se ajustar uma reta aos pontos. A dispersão pode ser estimada pela dispersão dos dados amostrais em relação à reta de regressão. O erro-padrão da estimativa (Se) é uma medida que avalia o grau de precisão da reta de regressão. O erro-padrão da estimativa é dado por: ( )2i i e ˆy y s n 2 − = − ∑ em que n é o número de pares ordenados no conjunto de dados. 71 ECONOMETRIA Veja a tabela a seguir, que apresenta dados do IBGE: Tabela 16 – Erro-padrão da estimativa Produção de açúcar Preço do açúcar VHP (mercado) mil toneladas US$/saca de 50 quilos Ano Yi Xi Ŷ (Y - Ŷ)2 (X - X) 2 2005/06 26.420,0827 8,8975 29.410,6 8.943.375,88 48,49 2006/07 30.223,6000 14,4450 33.090,2 8.217.663,21 2,00 2007/08 31.279,7000 10,1283 30.227,0 1.108.107,36 32,86 2008/09 31.620,2000 11,1508 30.905,2511.153,51 22,18 2009/10 33.074,7000 14,5258 33.143,9 4.783,50 1,78 2010/11 38.168,4000 19,6842 36.565,3 2.569.776.79 14,62 2011/12 38.271,8000 25,2400 40.250,5 3.915.219,38 87,97 2012/13 38.336,8761 23,3375 38.988,6 424.714,03 55,90 2013/14 37.878,2633 17,5258 35.133,7 7.532.403,18 2,77 2014/15 35.560,1797 16,4067 34.391,4 1.366.032,30 0,30 2015/16 33.489,1427 13,1275 32.216,4 1.619.979,43 7,47 ∑ 374.322,9 174,47 374.322,9 36.213.208,56 276,35 Usando n = 11 e ∑(yi - ŷi) 2 = 36.213.208,56, o erro-padrão da estimativa é: ( )2i i e y y 36.213.208,56 s 2.005,9137 n 2 9 ˆ− = = = − ∑ 2 Temos como erro-padrão da estimativa 2.006. Isso significa que o desvio-padrão da produção de açúcar para um preço específico no mercado externo é de cerca de 2.006 mil toneladas. Esse valor deve ser interpretado como um desvio-padrão; portanto, é medido na mesma unidade da variável dependente y. Com base nas fórmulas a seguir, podemos calcular, então, os coeficientes de regressão: xy xx S b S = y x a y bx b n n = − = −∑ ∑ 72 Unidade II Em que, com base nos dados da tabela do resumo dos resultados, calculamos: i i i ix 174,47 y 374.322,9 x y 6.120.374,1= = =∑ ∑ ∑ ∑xi 2 = 3.043,6 ∑yi 2 = 12.895.764.620,1 ( ) ( )i i xy i i x y S x y n = − ∑ ∑∑ ( ) xy 174,47 374.322,9 S 6.120.374,1 183.272,61 11 × = − = ( )2i2 xx i x S x n = − = ∑∑ ( )2 xx 174,47 S 3.043,6 276,35 11 = − = ( )2i2 yy i y S y n = − ∑∑ ( )2 yy 374.322,9 S 12.895.764.620,1 157.794.912,7 11 = − = }Yi Ŷi Xi X Y Linha dos mínimos quadrados Ŷ = a + bX Valores ajustados Desvio: Yi - Ŷi X Figura 25 – Plano cartesiano 73 ECONOMETRIA ( ) ( )2 22 n xy x y 11 6.120.374,1 174,47 374.322,9 2.015.998,74 b 663,29 3.039,8211 3.043,6 174,47n x x − × − × = = = ≅ × −− ∑ ∑ ∑ ∑ ∑ y x 374.322,9 174,47 a y bx b 663,29 n n 11 11 34.029,35 10.520,38 23.508,98 = − = − = − × = = − ≅ ∑ ∑ Tabela 17 – Coeficientes estimados Coeficientes Erro-padrão Stat t valor-P 95% inferiores 95% superiores (dos coeficientes) (teste t-Student calculado) Prob. (tcrítico > t) (limites do intervalo de confiança) Interseção (α) 23.508,98 2.007,15 11,71 0,0000009 18.968,50 28.049,46 Preço do açúcar VHP (X1) (β) 663,29 120,67 5,50 0,0003817 390,33 936,26 Y = α + βX + e >>>>> Y = 23.508,98 + 663,29X Portanto, a equação da reta de regressão é: ŷ = 23.508,98 + 663,29X Observação A reta de regressão passa sempre pelo ponto (x , y). A inclinação da reta b deve ter sempre o mesmo sinal que os dados no coeficiente de correlação r. 5.5 Erro-padrão do coeficiente linear (ou do intercepto) O erro-padrão do intercepto (coeficiente linear da reta α) indica aproximadamente a distância entre os coeficientes estimados α̂ e o coeficiente linear populacional α, devido à dispersão dos dados amostrais. Assim, quanto menor for o erro Sα̂, melhor será a precisão da estimativa. Note a equação: ( )2 ˆ e xx média X1 S S n Sα = + 74 Unidade II Onde: Se= erro-padrão da estimativa = 2.005,9137; n = número de observações = 11; média X = média da variável independente X = 15,8609. ( )2i2 xx i x S x n = − = ∑∑ ( )2 xx 174,47 S 3.043,6 276,3472 11 = − = Portanto: 2 2 ˆ e xx 1 (média X) (15,8609) S S 2.005,9137 0,0909 2.007,15 n S 276,3472α = + = × + ≅ 5.6 Erro-padrão do coeficiente angular Analogamente ao Sα̂ , o erro do coeficiente S β̂ é a medida aproximada da distância entre a estimativa β̂ e o coeficiente angular populacional β̂ . Veja: e xx S S Sβ = 2.005,9137 S 120,67 276,3472β = ≅ 5.7 Inferências sobre o coeficiente angular Em algumas situações, mesmo não havendo relacionamento (causalidade) entre as variáveis na população, os dados amostrais podem sugerir a existência de relação. Isso ocorre quando, devido a fatores aleatórios, os dados extraídos da população dispõem-se de forma que seja possível traçar uma reta em que se ajustam esses pontos. Por essa razão, sempre é preciso verificar se o modelo linear obtido é realmente significativo (base teórica, a lógica de causa e efeito). 75 ECONOMETRIA Y β̂ = 0 X α̂ Figura 26 – Reta ajustada (constante) O gráfico mostra o não relacionamento entre X e Y. Portanto, para que possamos verificar se as variáveis na população são mesmo relacionadas, devemos testar as seguintes hipóteses: H0 : β = 0 (não há associação entre X e Y); H1 : β ≠ 0 (teste bilateral). Diferentes tipos de testes podem ser empregados para esse propósito. Uma das maneiras consiste em elaborar um intervalo de confiança para o coeficiente angular β. Esse intervalo é definido como: β̂ - t . S β̂ < β < β̂ + t . S β̂ Onde: β̂ = estimativa do coeficiente angular da reta = 663,29; t = valor crítico, distribuição de probabilidade (t de Student) = 2,26; S β̂ = erro-padrão do coeficiente angular β = 120,67; n = número de observações; k = número de variáveis independentes X. Temos: β̂ = 663,29 t0,05; 9 = 2,26 Sβ̂ = 120,67 n = 11 k = 1 Estabelecendo um grau de confiança de 95%, isto é, um nível de significância de 5% (α = 0,05), e calculando os graus de liberdade, o que é obtido pela expressão n – k – 1 (9), obtemos o valor do t crítico (tα; n – k – 1 = t0,05; 9 = 2,26) usando a distribuição t de Student – veja a tabela da distribuição t-Student (bilateral) no AVA. 76 Unidade II Então podemos calcular o intervalo de confiança para β com 95% de confiança: ICβ (95%): ICβ(95%): 663,29 - 2,26 x 120,67 < β < 663,29 + 2,26 x 120,67 ICβ(95%): 390,33 < β < 936,26 Estimamos que o coeficiente angular β pertence ao intervalo [390,33; 936,26] com um nível de confiança de 95%. Se o intervalo de confiança para β incluir o zero, não poderemos rejeitar a hipótese nula. Caso o intervalo definido não inclua o zero, rejeitamos a hipótese nula, admitindo um de erro (5%), de que há relação significativa entre as variáveis. No nosso cálculo, o intervalo definido não inclui o zero. Podemos, portanto, rejeitar a hipótese nula (H0 : β = 0), concluindo, com um nível de confiabilidade de 95%, que há relação significativa entre as variáveis na população. Outra maneira de testarmos a hipótese nula (β = 0) é analisar a significância do coeficiente de regressão. Para isso, comparamos, em termos relativos, o valor da estimativa β̂ com seu desvio-padrão Sβ̂: t Sβ β − β = Onde: β̂ = estimativa do coeficiente angular β; β = coeficiente angular da população; S β̂ = erro-padrão e β̂. Como a hipótese nula β = 0, essa equação resulta em: t Sβ β = Observação O Excel dispõe da função estatística INVT, por meio da qual pode ser obtido o valor do t crítico. No nosso caso, INVT(α; n - k - 1) = INVT(0,05; 9) retorna o valor 2,26. 77 ECONOMETRIA O valor t de Student pode ser interpretado como o número de desvios-padrões que o estimador β̂ dista do ponto zero. Quanto maior for essa distância, maior será a chance de β̂ ser diferente de 0, portanto, garantindo a existência do modelo de regressão (relação entre X e Y). 663,29 t 5,50 S 120,67β β = = = O valor de t crítico calculado no item anterior é de 2,26. Assim, concluímos que devemos rejeitar a hipótese nula H0, pois o valor em módulo do t teste é maior do que o valor t crítico da tabela (t = |5,50 | = 5,50 > 2,26). -2,26 +2,260 Região de não rejeição ou aceitação Região de rejeição α 2 α 2 Valor crítico Valor crítico Região de rejeição 5,50 t Figura 27 – Região crítica para o teste t Para calcular a probabilidade (valor - P) de obtermos uma estatística t igual ou superior a esse valor, vamos utilizar a função estatística do Excel (DISTT). Para o nosso caso, valor - P = DISTT (teste; graus de liberdade; caudas). Onde: • teste = t teste (Stat-t deve ser inserido com seu valor em módulo, isto é, positivo); • graus de liberdade = n - k - 1 (graus de liberdade dos resíduos, sendo n o número de observações e k o número de variáveis independentes); • caudas = o teste do valor-P bicaudal deve ser sempre igual a 2. 78 Unidade IINível de significância do teste α (erro permitido): • valor - P = DISTT (5,50; 9; 2) retorna o valor 0,0003817, de modo que: — se o valor - P for ≤ α, rejeitaremos a hipótese nula; — se o valor - P for > α, aceitaremos a hipótese nula. O erro permitido é de 5% (α = 0,05). Assim, o valor-P é bem menor que 0,05. Significa rejeitarmos a hipótese nula (H0 : β = 0) de que não há associação entre X e Y. 5.8 Teste de hipótese É importante também aplicarmos o teste de hipótese ao nosso modelo de regressão. A hipótese nula é: os valores de x não têm qualquer relacionamento com os valores de y. Veja: H0 : β = 0; H1 : β ≠ 0 (teste bilateral). A hipótese nula é confirmada pela equação Ŷi = a + bXi + ei, quando se constata que não haverá qualquer relação entre x e y se o verdadeiro valor do coeficiente angular for zero. ( ) ( ) 2 i 2 i b t y y / (n 2) x x ˆ − β = − − − ∑ ∑ A equação tem distribuição t com n - 2 graus de liberdade. Assim, decorre que, se β = 0, então a estatística será: ( ) ( ) 2 i 2 i b t y y / (n 2) x x ˆ = − − − ∑ ∑ Podemos calcular o valor dessa estatística. Testamos a existência do efeito de regressão entre duas variáveis em estudo. A hipótese nula é de não existência de regressão, enquanto a hipótese alternativa é aquela que contempla a regressão. Assim, o teste de hipótese será delineado: 79 ECONOMETRIA Tabela 18 – Teste de hipótese (H0 : β = 0) Hipótese nula H0 : β = 0 Valor da estatística de teste ( ) ( ) obs 2 i 2 i b t y y / (n 2) x ˆ x = − − − ∑ ∑ Hipótese alternativa Intervalo de rejeição (nível α) H1 : β ≠ 0 tobs > tn - 2; No teste para β, calculamos a região crítica (RC) ao nível de significância de 5%. Podemos calcular o valor dessa estatística: ( ) ( ) 2 i 2 i b 663,29 t 5,50 36.213.208,56 / (11 2)y y / (n 2) 276,35x x ˆ = = = −− − − ∑∑ ∑ Para um teste bilateral no nível de significância de 5%, o valor crítico de uma distribuição t com 9 graus de liberdade é 2,26. Como 5,50 está na região de rejeição, bem acima do valor crítico, podemos rejeitar com segurança a hipótese nula de que o coeficiente angular seja zero. -tc tc t -2,26 +2,26 α 2 α 2 Figura 28 – Região crítica para o teste t Teoria econômica Modelo econométrico Estimação do modelo Previsão Modelo matemático Dados Teste de hipóteses Aplicação do modelo Figura 29 – Sétimo e oitavo passos para a elaboração de um modelo econométrico 80 Unidade II Exemplo: podemos usar essa equação para prever a expectativa de produção de açúcar com base no preço a seguir: US$ 15,00. Solução: devemos substituir cada renda em x na equação. Calculando o valor previsto ŷ: ŷ = 23.508,98 + 663,29X = 23.508,98 + 663,29 x 15,00 = 33.458,33 Quando o preço for de US$ 15,00, a produção de açúcar chegará a 33.458 mil toneladas. Os valores previstos têm sentido somente para valores de x no intervalo de dados (8,00 a 25,00 dólares) ou próximos a eles. 5.9 Intervalos de previsão Uma vez que as equações de regressão são determinadas usando dados amostrais e supõe-se que x e y tenham uma distribuição normal bivariada, podemos construir um intervalo de previsão para o verdadeiro valor de y. Observação Duas variáveis terão uma distribuição normal bivariada se, para cada valor fixo de x, os valores correspondentes de y tiverem distribuição normal e, para cada valor fixo de y, os valores correspondentes de x forem normalmente distribuídos. Para construir o intervalo de previsão, usa-se uma distribuição t de Student com n - 2 graus de liberdade. Portanto, dada uma equação de regressão linear ŷ = a + bx e x0, um valor específico de x, podemos construir um intervalo de previsão c para y: ŷ - E < ŷ < ŷ + E Em que: ( ) 2 0 c e 22 n(x x)1 E t S 1 n n x x − = + + −∑ ∑ A estimativa pontual é ŷ, e o erro máximo de estimativa é E. A equação anterior define o intervalo de previsão para uma resposta individual, Y, em um determinado valor, x0. 81 ECONOMETRIA Exemplo: construa um intervalo de previsão de 95% para as mil toneladas de açúcar produzidas quando o preço no mercado externo for de US$ 15,00. Solução: temos que n = 11. O número de graus de liberdade é: g.l. = n - 2 = 11 - 2 = 9 Tendo a equação de regressão e x0 = 15,00 (valor específico de x): ŷ = 23.508,98 + 663,29X Então a estimativa pontual é: ŷ = 23.508,98 + 663,29 x 15,00 = 33.458,33 ŷ = 33.458,33 Com base na distribuição de probabilidade t de Student – veja a tabela da distribuição t-Student (bilateral) no AVA –, o valor crítico é: tc = 2,26 O erro-padrão da estimativa é: se = 2.005,9137 Baseados nesses valores, o erro máximo da estimativa é: ( ) 2 0 c e 22 n(x x)1 E t S 1 n n x x − = + + −∑ ∑ 21 11 (15 15,86) E (2,26 2.005,91) 1 11 3.039,82 × − = × × + + E = 4.850,5 Utilizando ŷ = 33.458,33 e E = 4.850,5, o intervalo de confiança é: ŷ - E < ŷ < ŷ + E 82 Unidade II Limite inferior (ŷ - E) Limite superior (ŷ + E) 33.458,33 + 4.850,5 = 28.607,8 33.458,33 + 4.850,5 = 38.308,8 28.608 < ŷ < 38.309 Portanto, pode-se ter 95% de confiança de que, se o preço do açúcar no mercado externo for de US$ 15, a produção em mil toneladas estará entre R$ 28.608 e 38.309 mil toneladas. Observação Quanto maior for a diferença entre x e x, maior será o intervalo de previsão. 220 y 180 140 100 60 200 160 120 80 40 20 0 2 10 x̂ = 14 Em xp = x̂ a amplitude do intervalo de confiança é menor Os limites de intervalo de confiança dependem de Xp Limite superior Limite inferior ŷ = 60 + 5x 186 14 224 12 208 16 24 26 x Figura 30 – Intervalos de confiança da média de y para determinados valores de x 5.10 Anova (análise de variância) É a análise dos pressupostos básicos e validação dos testes estatísticos no grau de ajustamento de um modelo de regressão. Veja os dados a seguir, extraídos de pesquisas do IBGE: 83 ECONOMETRIA Tabela 19 – Resultado de resíduos Observação Previsto(a) prod. açúcar (Y) Resíduos Resíduos padrão 1 29.410,63 -2.990,55 -1,57 2 33.090,25 -2.866,65 -1,51 3 30.227,03 1.052,67 0,55 4 30.905,25 714,95 0,38 5 33.143,86 -69,16 -0,04 6 36.565,35 1.603,05 0,84 7 40.250,49 -1.978,69 -1,04 8 38.988,58 -651,70 -0,34 9 35.133,74 2.744,52 1,44 10 34.391,41 1.168,77 0,61 11 32.216,36 1.272,78 0,67 Premissas da regressão (MMQO) e o grau de ajuste do modelo econométrico: Quadro 2 – Premissas da regressão Linearidade Teste A relação entre X e Y é linear Independência dos erros ou autocorrelação residual Durbin-Watson Os valores dos erros são estatisticamente independentes. Os resíduos devem estar distribuídos aleatoriamente em torno da reta de regressão e não devem estar correlacionados entre si. Normalidade dos erros Kolmogorov-Smirnov Os erros são normalmente distribuídos para cada valor de X. Igualdade de variâncias ou homocedasticidade Pesaran-Pesaran A variância dos erros é constante para todos os valores de X. Pelo diagrama de dispersão, é possível visualizar se as relações entre as variáveis X e Y são lineares através de uma reta ajustada aos pontos observados. Entre as causas de autocorrelação, se erramos na escolha da equação a ser ajustada aos pontos observados e em vez de escolhermos uma relação não linear optamos por ajustar uma reta, o gráfico dos resíduos irá mostrar uma tendência positiva (ou negativa), significando que uma outra função (não linear) deveria ser escolhida. Outra situação é a seguinte: se por acaso uma variável explicativa (X) de grande importância for omitida do modelo, a tendência dessa variável passará a constar, a refletir no comportamento do resíduo. 84 Unidade II 0 X Resíduos Figura 31 – Diagrama de dispersão dos resíduos Observação A autocorrelação serial se baseia na ideia de que os resíduos contêm mais informação sobre a variável dependente do que aquilo que foi “filtrado” pelas variáveis explicativas. Em termos técnicos, o resíduo ainda pode ser sistematizado. Exemplos de autocorrelação são normalmente encontradosem trabalhos que utilizam séries de tempo como dados de análise. 6 AVALIAÇÃO DO CONTEÚDO INFORMACIONAL DOS RESÍDUOS A análise de resíduos revela: • se a presunção de normalidade da distribuição dos resíduos se confirma; • se a variância dos resíduos é realmente constante, ou seja, se a dispersão dos dados em torno da reta de regressão é uniforme; • se há ou não uma variável não identificada que deve ser incluída no modelo; • se a ordem em que os dados foram coletados (por exemplo, tempo da observação) tem algum efeito sobre os dados, ou se a ordem deve ser incorporada como uma variável no modelo; • se a presunção de que os resíduos não são correlacionados está satisfeita. Premissas dos testes estatísticos em relação: 85 ECONOMETRIA Dados Resíduos São aleatórios com distribuição normal? São independentes entre si? Têm valor esperado = 0? Possuem variância constante? Modelo linear nos parâmetros Figura 32 – Premissas dos testes: dados e resíduos Portanto, antes de utilizarmos o modelo de regressão, é necessário verificarmos se essas premissas são verdadeiras para os dados que estão sendo analisados. Uma vez que os dados foram coletados ao longo de um período consecutivo de 11 anos, além de verificarmos os pressupostos de linearidade, normalidade e igualdade das variâncias, é necessário investigar o pressuposto da independência dos erros (autocorrelação dos resíduos). Inicialmente, iremos ressaltar uma representação gráfica que é obtida plotando os pares (xi, ei). Obtido o gráfico dos resíduos, precisamos saber como identificar possíveis causas que comprometem a confiabilidade do modelo. A situação ideal para os resíduos é estarem distribuídos aleatoriamente em torno do zero, sem nenhuma observação muito discrepante. 0 Bom padrão x y - ŷ Re sí du o Figura 33 – Diagrama de resíduos: situação ideal A análise de resíduos nos permite: • descobrir se as hipóteses do modelo de regressão linear são válidas para o caso em questão; • analisar se a correlação entre as duas variáveis é ou não forte, na qual utilizamos a relação egSQR SQT ou es(1 SQR ) SQT − . 86 Unidade II Tomemos, pois, os resíduos das produções de açúcar em relação ao preço do mercado externo. Podemos analisar a evolução dos resíduos para saber se a variância σ2 é ou não constante ao longo do intervalo x, além de apresentar distribuição normal em torno da reta de regressão. Temos, a seguir, os resíduos para cada valor de x observado e os gráficos de resíduos para analisarmos a consistência das hipóteses do modelo de regressão, a partir de dados do IBGE: Tabela 20 – Variância residual Produção de açúcar Preço do açúcar VHP (mercado) mil toneladas US$/saca de 50 quilos Ano Yi Xi Ŷ (Y - Ŷ)2 (X - X) 2 2005/06 26.420,0827 8,8975 29.410,6 8.943.375,88 48,49 2006/07 30.223,6000 14,4450 33.090,2 8.217.663,21 2,00 2007/08 31.279,7000 10,1283 30.227,0 1.108.107,36 32,86 2008/09 31.620,2000 11,1508 30.905,2 511.153,51 22,18 2009/10 33.074,7000 14,5258 33.143,9 4.783,50 1,78 2010/11 38.168,4000 19,6842 36.565,3 2.569.776,79 14,62 2011/12 38.271,8000 25,2400 40.250,5 3.915.219,38 87,97 2012/13 38.336,8761 23,3375 38.988,6 424.714,03 55,90 2013/14 37.878,2633 17,5258 35.133,7 7.532.403,18 2,77 2014/15 35.560,1797 16,4067 34.391,4 1.366.032,30 0,30 2015/16 33.489,1427 13,1275 32.216,4 1.619.979,43 7,47 ∑ 374.322,9 174,47 374.322,9 36.213.208,56 276,35 Assim, a variância residual (estimada) é: 2 esSQR 36.213.208,56S 4.023.689,84 n 2 9 = = = − Uma maneira simples de obtermos informações importantes sobre um modelo de regressão consiste em elaborarmos um gráfico dos resíduos para cada ponto dos dados observados (Xi, Yi). Portanto, calculamos o resíduo: Outra maneira de obtermos informações preciosas sobre um modelo de regressão consiste em fazer um gráfico dos resíduos. Para cada ponto dos dados (Xi e Yi), calculamos o resíduo. A equação da reta estimada é a seguinte: Ŷ = 23.508,98 + 663,26X 87 ECONOMETRIA Resíduo (ei) = (Y - Ŷ) Resíduo (ei) = (Y - 23.508,98 + 663,29X) A seguir, calculamos a tabela dos resíduos, de acordo com números IBGE: Tabela 21 – Resíduos Seq. Ano Xi Yi Ŷ = 23.508,98 + 663,29X Resíduo(ei) 1 2005/06 8,8975 26.420,0827 29.410,6 -2.990,55 2 2006/07 14,4450 30.223,6000 33.090,2 -2.866,65 3 2007/08 10,1283 31.279,7000 30.227,0 1.052,67 4 2008/09 11,1508 31.620,2000 30.905,2 714,95 5 2009/10 14,5258 33.074,7000 33.143,9 -69,16 6 2010/11 19,6842 38.168,4000 36.565,3 1.603,05 7 2011/12 25,2400 38.271,8000 40.250,5 -1.978,69 8 2012/13 23,3375 38.336,8761 38.988,6 -651,70 9 2013/14 17,5258 37.878,2633 35.133,7 2.744,52 10 2014/15 16,4067 35.560,1797 34.391,4 1.168,77 11 2015/16 13,1275 33.489,1427 32.216,4 1.272,78 Vamos elaborar o gráfico de dispersão, com os valores de Xi dispostos no eixo horizontal e os resíduos ei ao longo do eixo vertical. Temos: -4.000,0 Preço açúcar VHP (x1) -3.000,0 -2.000,0 -1.000,0 5,0 10,0 15,0 20,0 25,0 30,0 0 Re sí du os 1.000,0 2.000,0 3.000,0 4.000,0 Figura 34 – Preço açúcar VHP (x1) plotagem de resíduos Como podemos observar, os resíduos não se concentram acima ou abaixo da linha horizontal. Eles se distribuem aleatoriamente ao longo da reta, pressupondo-se portanto que não há haja autocorrelação. Para verificar se de fato não há correlação, utilizaremos o teste Durbin-Watson. 88 Unidade II Na plotagem dos resíduos, para que os dados atendam às premissas, o gráfico anterior deve mostrar uma faixa horizontal centrada em torno do zero, sem mostrar uma tendência positiva ou negativa, ou seja, os resíduos devem estar distribuídos aleatoriamente em torno de zero, sem nenhuma observação discrepante. Existe um tópico dentro dos estudos econométricos que trata especificamente da análise dos resíduos, um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo de regressão com base nos resíduos. µ 0 x µ 0 x µ 0 x µ 0 x Figura 35 – Plotagem dos resíduos Conhecido como autocorrelação residual, existente nos exemplos dos gráficos anteriores, esse pressuposto é às vezes violado quando os dados são coletados ao longo do tempo (períodos sequenciais), e podem existir concentrações de resíduos com o mesmo sinal (autocorrelação positiva, a mais frequente) ou quando os resíduos tendem a alternar de sinal – de positivo para negativo, depois para positivo, e assim sucessivamente (autocorrelação negativa, mais rara) –, se existe de fato um padrão cíclico. 89 ECONOMETRIA µ 0 x Figura 36 – Resíduos Como podemos observar no gráfico anterior, os resíduos não estão concentrados nem acima nem abaixo da linha horizontal. Eles se encontram distribuídos aleatoriamente ao longo da reta, pressupondo-se portanto que não haja autocorrelação. Para verificar se de fato não há correlação, utilizaremos o teste Durbin-Watson. O modelo pressupõe que: • a correlação entre os resíduos seja zero; • o efeito de uma observação seja nulo sobre a outra; • não haja causalidade entre os resíduos e a variável X e, por consequência, a variável Y. A estatística de Durbin-Watson analisa a dispersão dos resíduos em torno da sua média. É um teste utilizado para detectar se há presença significativa de autocorrelação entre os resíduos em um modelo de regressão. O coeficiente de Durbin-Watson mede a correlação entre cada um dos resíduos e o resíduo da observação anterior: • H0: não existe correlação serial dos resíduos. • H1: existe correlação serial dos resíduos. Segue-se a fórmula: ( )n 2i i 1i 2 n 2 ii 1 e e DW e −= = − = ∑ ∑ onde ei é o resíduo para o período de tempo i. 90 Unidade II Se os resíduos forem correlacionados, significa que as estimativas dos parâmetros não são eficientes e apresentam maior erro-padrão. São possíveis causas em séries temporais: • inércia; • viés de especificação: — falta de variáveis; — forma funcional incorreta. • defasagem nos efeitos das variáveis; • manuseio dos dados: interpolação/extrapolação. A solução é formularcorretamente a relação funcional ou tornar a série estacionária. Construímos a planilha, a partir de dados do IBGE, para proceder aos cálculos: Tabela 22 – Cálculo do teste Durbin-Watson Seq. Ano Xi observado Yi observado Yi previsto ei = (Yi prev - Yiob) ei 2 ei - 1 ei - ei - 1 (ei - ei - 1) 2 1 2005/06 8,8975 26.420,0827 29.410,6 -2.990,55 8.943.375,88 2 2006/07 14,4450 30.223,6000 33.090,2 -2.866,65 8.217.663,21 -2.990,55 123,90 15.351,48 3 2007/08 10,1283 31.279,7000 30.227,0 1.052,67 1.108.107,36 -2.866,65 3.919,31 15.361.018,06 4 2008/09 11,1508 31.620,2000 30.905,2 714,95 511.153,51 1.052,67 -337,72 114.052,62 5 2009/10 14,5258 33.074,7000 33.143,9 -69,16 4.783,50 714,95 -784,11 614.832,96 6 2010/11 19,6842 38.168,4000 36.565,3 1.603,05 2.569.776.79 -69,16 1.672,22 2.796.303,61 7 2011/12 25,2400 38.271,8000 40.250,5 -1.978,69 3.915.219,38 1.603,05 -3.581,74 12.828.887,70 8 2012/13 23,3375 38.336,8761 38.988,6 -651,70 424.714,03 -1.978,69 1.326,99 1.760.903,66 9 2013/14 17,5258 37.878,2633 35.133,7 2.744,52 7.532.403,18 -651,70 3.396,22 11.534.332,52 10 2014/15 16,4067 35.560,1797 34.391,4 1.168,77 1.366.032,30 2.744,52 -1.575,75 2.482.983,50 11 2015/16 13,1275 33.489,1427 32.216,4 1.272,78 1.619.979,43 1.168,77 104,01 10.818,14 ∑ 0,00 36.213.208,56 -1.272,78 4.263,33 47.519.484,24 Quando resíduos sucessivos são positivamente correlacionados, o valor de DW se aproxima de 0. Se os resíduos não forem correlacionados, o valor de DW estará próximo de 2. Se existir uma autocorrelação negativa, caso mais raro, DW será maior do que 2 (podendo aproximar de seu valor máximo, que é 4). Para os dados da produção de açúcar, os resultados mostram que a estatística de Durbin-Watson (DW) é igual a 1,31, conforme fórmula a seguir: 91 ECONOMETRIA ( )n 2i i 1i 2 n 2 ii 1 e e 47.519.484,24 DW 1,31 36.213.208,56e −= = − = = ≅ ∑ ∑ Para determinarmos se a autocorrelação é grande o suficiente para que se conclua que existe uma correlação positiva, devemos comparar o valor de DW calculado (DW = 1,31) aos valores críticos da estatística de Durbin-Watson encontrados na tabela a seguir. Os valores críticos dependem do nível de significância do teste (α) e de (n), o tamanho da amostra, e de (k), o número de variáveis independentes no modelo de regressão. Tabela 23 – Tabela Durbin-Watson K = 1 K = 2 n di du di du 6 0,610 1,400 7 0,700 1,356 0,467 1,896 8 0,763 1,332 0,559 1,777 9 0,824 1,320 0,629 1,699 10 0,879 1,320 0,697 1,641 11 0,927 1,324 0,758 1,604 12 0,971 1,331 0,812 1,579 13 1,010 1,340 0,861 1,562 14 1,045 1,350 0,905 1,551 15 1,077 1,361 0,946 1,543 16 1,106 1,371 0,982 1,539 17 1,133 1,381 1,015 1,536 18 1,158 1,391 1,046 1,535 19 1,180 1,401 1,074 1,536 20 1,201 1,411 1,100 1,537 Tabela 24 – Critérios de avaliação Durbin-Watson Autocorrelação positiva Região não conclusiva Ausência de autocorrelação Região não conclusiva Autocorrelação negativa 0 di du 4 - du 4 - di 4 O primeiro valor, di = 0,927, representa o valor crítico inferior. Caso DW = 1,31 esteja abaixo de di, conclui-se que existem evidências de autocorrelação positiva entre os resíduos (MMQ não é apropriado). O segundo valor, du = 1,324, representa o valor crítico superior de DW, acima do qual se conclui que não existe nenhuma evidência de autocorrelação positiva entre os resíduos. 92 Unidade II Caso DW se posicione entre di e du, fica-se impossibilitado de se chegar a uma conclusão definitiva, que é o nosso caso. Como DW de 1,31 situa-se dentro desse intervalo, podemos aceitar a hipótese da ausência de autocorrelação residual e, consequentemente, utilizar o método dos mínimos quadrados. 6.1 Avaliando a homocedasticidade Se o gráfico da plotagem de probabilidade normal for aproximadamente linear, poderemos assumir que os resíduos tenham distribuição normal. Veja a tabela e o gráfico com dados do IBGE: Tabela 25 – Resultados de probabilidade Percentil Prod. açúcar (Y) 4,55 26.420,08 13,64 30.223,60 22,73 31.279,70 31,82 31.620,20 40,91 33.074,70 50,00 33.489,14 59,09 35.560,18 68,18 37.878,26 77,27 38.168,40 86,36 38.271,80 95,45 38.336,88 41.000 39.000 37.000 35.000 Pr od . a çú ca r ( m il to ne la da s) 33.000 31.000 29.000 27.000 25.000 0 20 40 60 80 Percentil da amostra 100 Figura 37 – Plotagem de probabilidade normal Quando o pressuposto da homocedasticidade está satisfeito, significa que a variância dos resíduos é igual a uma constante para todos os valores de X. A variância dos resíduos é indicada pela largura da dispersão dos resíduos, quando o valor de x aumenta. Se essa largura aumentar ou diminuir quando o valor de x aumentar, a variância não será constante. Esse problema é denominado heterocedasticidade. A violação do pressuposto da homocedasticidade compromete a eficiência das estimativas do modelo de 93 ECONOMETRIA regressão. A seguir, encontram-se dois gráficos que vão demonstrar a diferença entre homocedasticidade e hetorocedasticidade. 0 0 x x Resíduos Resíduos Figura 38 – Resíduos: homocedasticidade e heterocedasticidade No gráfico (à esquerda), os resíduos parecem aleatórios (sem padrão): observamos uma variância constante à medida que x cresce. No gráfico (à direita), observamos que a variância residual está crescendo à medida que a variável x cresce. O teste de Pesaran-Pesaran consiste em detectar a presença de heterocedasticiade com base nos resultados da regressão em que a variável dependente representa os valores dos quadrados dos resíduos (e2) e a variável independente é constituída pelos valores estimados da variável dependente (ŷ). Veja a tabela a seguir, elaborada a partir de dados do IBGE: Tabela 26 – Resíduos Seq. Ano Yi projetado ei 2 1 2005/06 29.410,6 8.943.375,9 2 2006/07 33.090,2 8.217.663,2 3 2007/08 30.227,0 1.108.107,4 4 2008/09 30.905,2 511.153,5 5 2009/10 33.143,9 4.783,5 6 2010/11 36.565,3 2.569.776,8 7 2011/12 40.250,5 3.915.219,4 8 2012/13 38.988,6 424.714,0 9 2013/14 35.133,7 7.532.403,2 10 2014/15 34.391,4 1.366.032,3 11 2015/16 32.216,4 1.619.979,4 94 Unidade II Observação No teste de Pesaran-Pesaran podemos optar por regredir o quadrado dos resíduos padronizados ( ) 2 2 i i i_padronizado i (e média e ) e desvio padrão de e − = − como função do quadrado dos valores estimados padronizados ( ) 2 2 i i i_padronizado i (y média y ) Y desvio padrão de y ˆ ˆˆ ˆ − = − . É uma regressão simples com o quadrado dos resíduos padronizados como variável dependente e o quadrado dos valores estimados padronizados como variável independente. -4.000,000 Yi observado -3.000,000 -2.000,000 -1.000,000 27.00025.000 29.000 31.000 33.000 35.0000 37.000 39.000 41.000 0 Re sí du os 1.000,000 2.000,000 3.000,000 5.000,000 4.000,000 6.000,000 Figura 39 – Yi observado: plotagem de resíduos Graficamente, observamos que os valores estão bem dispersos. Podemos concluir que há homocedasticidade. Usando a ferramenta de regressão do Excel, vamos calcular a regressão desses dados: Tabela 27 – Análise de variância (Anova) Estatística de regressão R múltiplo 0,1363 R-quadrado 0,0186 R-quadrado ajustado -0,0905 Erro-padrão 3.512.278,65 Observações 11 95 ECONOMETRIA Anova gl SQ MQ F F de significação Regressão 1 2.100.943.198.308,7 2.100.943.198.308,7 0,1703 0,689495411 Resíduo 9 111.024.911.656.028,0 12.336.101.295.114,3 Total 10 113.125.854.854.337,0 Coeficientes Erro-padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0% Interseção 7.765.397,31 10.891.091,76 0,7130 0,493914 -16.871.963,94 32.402.758,56 -16871963,94 32402758,56 Yi projetado -131,45 318,53 -0,4127 0,689495 -852,03 589,12 -852,0261707 589,1186329 O coeficiente de determinação, ou R-quadrado, nos diz que há pouca correlação entre as variáveis e o valor-P = 0,3189 ou 31,89% (e o F de significação) > 5%. Portanto, podemos aceitar a hipótese nula (β = 0) e a ausência de heterocedasticidade.6.2 Avaliando a normalidade Os testes de significância e os intervalos de confiança das estimativas do modelo de regressão são baseados no pressuposto da normalidade, isto é, que os resíduos apresentam distribuição normal. A violação da normalidade gera estimativas não eficientes, de maior erro-padrão, e suas causas podem estar ligadas a alguns aspectos relacionados ao modelo, tais como omissão de variáveis explicativas importantes, inclusão de variável explicativa irrelevante para o modelo e utilização de relação matemática incorreta (forma funcional) para análise entre as variáveis do modelo. Utilizaremos o teste não paramétrico do Kolmogorov-Smirnov para avaliar a normalidade e testar a proximidade ou a diferença entre a frequência observada e a esperada. Hipóteses: H0: distribuição normal; H1: distribuição não é normal. A estatística do teste de Kolmogorov-Smirnov usa a distribuição D, cuja estatística de teste é a seguinte: Dn = máx(i / n - Zi) Onde: n = tamanho da amostra, sendo i = 1, 2, 3 ... n; 96 Unidade II Zi = probabilidade acumulada da distribuição normal padronizada, considerando os valores i i e h n = , onde ei são os resíduos ordenados de forma crescente e Se é o desvio-padrão dos ei, onde Zi = DISTNORMP(hi), calculado pela função no Excel. Se Dn ≤ Dcrítico, aceita a hipótese nula. Geralmente, quando Dn for menor que 0,3, isso indica que a distribuição está apropriada (aproxima de uma normal). Para realização do teste, procedemos da seguinte maneira: Dn = máx(D +, D-) O valor do Dcrítico é obtido a partir da tabela a seguir. Os parâmetros são: • o valor do nível significância, que é de 5% (α = 0,05); • o tamanho da amostra. Em nosso caso, n = 11. Se Dn é maior que o valor crítico, rejeitamos a hipótese de normalidade dos dados com (1 - α)100% de confiança. Caso contrário, não rejeitamos a hipótese de normalidade. A tabela de valores críticos para a estatística do teste de Kolmogorov-Smirnov é dada a seguir: Tabela 28 – Teste de Kolmogorov-Smirnov Nível de Significância (α) n 0,2 0,1 0,05 0,01 5 0,45 0,51 0,56 0,67 10 0,32 0,37 0,41 0,49 15 0,27 0,3 0,34 0,4 20 0,23 0,26 0,29 0,36 25 0,21 0,24 0,27 0,32 30 0,19 0,22 0,24 0,29 35 0,18 0,2 0,23 0,27 40 0,17 0,19 0,21 0,25 45 0,16 0,18 0,2 0,24 50 0,15 0,17 0,19 0,23 Valores maiores 1 07, n 122, n 136, n 166, n 97 ECONOMETRIA Construindo a planilha de cálculo, temos: Tabela 29 – Calculo Kolmogorov-Smirnov i Ano ei hi = ei / s Zi i / n D = (i / n - Zi) 1 2005/06 -2.990,55 -1,5715 0,0580 0,0909 0,0329 2 2006/07 -2.866,65 -1,5064 0,0660 0,1818 0,1158 3 2007/08 1.052,67 0,5532 0,7099 0,2727 -0,4372 4 2008/09 714,95 0,3757 0,6464 0,3636 -0,2828 5 2009/10 -69,16 -0,0363 0,4855 0,4545 -0,0310 6 2010/11 1.603,05 0,8424 0,8002 0,5455 -0,2548 7 2011/12 -1.978,69 -1,0398 0,1492 0,6364 0,4871 8 2012/13 -651,70 -0,3425 0,3660 0,7273 0,3613 9 2013/14 2.744,52 1,4422 0,9254 0,8182 -0,1072 10 2014/15 1.168,77 0,6142 0,7305 0,9091 0,1786 11 2015/16 1.272,78 0,6688 0,7482 1,0000 0,2518 ∑ 0,00 Desvio-padrão (s) 1.902,98 Portanto, como o valor de Dn = 0,4871 é maior que o Dcrítico = 0,41 (da tabela) para um nível de confiança de 95%, concluímos que os resíduos não se comportam seguindo uma distribuição normal de probabilidades. Para a identificação da normalidade nos resíduos, compara-se a distribuição dos resíduos com a curva normal através do teste de Jarque-Bera envolvendo a estatística qui-quadrado com 2 graus de liberdade: JB = n . [A2/6 + (C-3)2/24] Onde: A = assimetria; C = curtose. Neste nosso caso, temos: n = número de observações (n = 11); A = assimetria (A = - 0,3757); C = curtose (C = - 0,9185). 98 Unidade II Calcula-se a estatística JB: 2 2 2 2A (C 3) ( 0,3757) ( 0,9185 3) JB n 11 7,3 6 24 6 24 − − − − = × + = × + ≅ Consultando a tabela da distribuição qui-quadrado (vide tabela da distribuição qui-quadrado no AVA), obtemos JBcrítico = estatística qui-quadrado ( 2 0,05; 2 X ) ao nível de significância de 5% e com 2 graus de liberdade = 0,10. Se JBcalculado ≤ JBcrítico, aceitará a hipótese nula. Portanto, rejeitamos a hipótese nula, ou seja, a distribuição dos resíduos não se comporta como uma distribuição de probabilidade normal. Observação Os resíduos devem apresentar distribuição normal. x = x1 x = x2 x y Figura 40 – Resíduos, distribuição de probabilidade normal Observação Os resíduos devem apresentar a mesma variância para cada observação de X. 99 ECONOMETRIA 6.3 Intervalo de confiança para a regressão: duas alternativas Quando calculamos o valor de ŷ considerando um valor para a variável X, há duas alternativas que levam ao mesmo resultado para ŷ, mas que produzem resultados diferentes com relação ao intervalo de confiança. Essas duas alternativas e as fórmulas de cálculo de seus desvios-padrões para o cálculo dos intervalos são as seguintes: Alternativa 1: considerando ŷ como valor médio para dado X: ( )2 média de y e xx x média x1 S S . n S − = + Alternativa 2: considerando ŷ como valor individual para dado X: ( )2 y e xx x média x1 S S . 1 n S − = + + Os intervalos de confiança para essas duas situações estão descritos a seguir: ICŷmédio = ŷ ± t . Smédia de y ICŷindividual = ŷ ± t . Sy Vamos retomar o nosso caso inicial (da produção de açúcar) para demostrarmos o cálculo dos dois intervalos de confiança, estimando ŷ: produção de açúcar a partir de X: preço em dólar no mercado externo. Construamos um intervalo de previsão de 95% para as mil toneladas produzidas de açúcar quando o preço no mercado externo for de US$ 15. Solução: Temos que n = 11. O número de graus de liberdade é: g.l. = n - 2 = 11 - 2 = 9 Tendo a equação de regressão e x0 = 15,00 (valor específico de x): ŷ = 23.508,98 + 663,29X 100 Unidade II Então a estimativa pontual é: ŷ = 23.508,98 + 663,29 x 15,00 = 33.458,33 ŷ = 33.458,33 Com base na distribuição de probabilidade t de Student – veja a tabela da distribuição t-Student (bilateral) no AVA –, o valor crítico é: tc = 2,26 O erro-padrão da estimativa é: se = 2.005,9137 ( )2i2 xx i x S x n = − = ∑∑ ( )2 xx 174,47 S 3.043,6 276,35 11 = − = Alternativa 1: considerando ŷ como valor médio para dado X: 2 2 média de y e xx 1 (x média x) 1 (15 15,86) S S . 2.005,9137 613,66 n S 11 276,35 − − = + = × + = Alternativa 2: considerando ŷ como valor individual para dado X: 2 2 y e xx 1 (x média x) 1 (15 15,86) S S . 1 2.005,9137 1 2.097,68 n S 11 276,35 − − = + + = × + + = Os intervalos de confiança para essas duas situações estão descritos a seguir: ICŷmédio = ŷ ± t . Smédia de y = 33.458,33 ± 1.386,87 ICŷindividual = ŷ ± t . Sy = 33.458,33 ± 4.740,76 101 ECONOMETRIA 6.4 Variação em torno de uma reta de regressão Vamos compreender os três tipos de variação em torno de uma reta de regressão. São eles: Tabela 30 – Tipos de variação em torno da reta Variação total = Variação explicada + Variação inexplicada ∑(yi - y) 2 = ∑(ŷi - y) 2 + ∑(yi - ŷi) 2 Soma do quadrado total = Soma do quadradoda regressão + Soma do quadrado do resíduo SQTot = SQReg + SQRes Syy bSxy = b 2Sxx + Syy - bSxy = Syy - b 2Sxx • Variação total: é a soma dos quadrados das diferenças entre o valor y de cada par ordenado e a média de y. • Variação explicada: é a soma dos quadrados das diferenças entre cada valor previsto de y e a média de y (explicada pela relação X e Y). • Variação inexplicada: é a soma dos quadrados das diferenças entre cada valor de y de cada par ordenado e cada valor de y previsto correspondente (não pode ser explicada pela relação x e y e isso ocorre devido ao acaso ou a outras variáveis). { {{Desvio totalyi - y y x (xi ; y) (xi ; yi) (xi ; ŷi) y Desvio explicado ŷi - y x Desvio inexplicado yi - ŷi Figura 41 – Desvios para cada par de ponto (xi, yi) Uma propriedade importante é a de que a variabilidade total poderá ser decomposta em duas partes: • uma, devidaaos possíveis efeitos aleatórios (não controlados) que recaiam sobre cada experimento, que será definida como variabilidade residual; 102 Unidade II • outra, a variabilidade atribuída ao efeito da regressão, se este realmente existir. Podemos conduzir a análise de variância da regressão linear simples, conforme a tabela a seguir: Tabela 31 – Análise da variância Causas de variação Graus de liberdade Soma de quadrados Quadrados médios Regressão 1 b∑xiyi b∑xiyi Resíduo n - 2 ∑yi 2 - b∑xiyi (∑yi 2 - b∑xiyi) / (n - 2) Total n - 1 ∑yi 2 Considerando o exemplo anterior, obtemos a seguinte tabela de análise de variância: Tabela 32 – Análise de variância Causas de variação Graus de liberdade Soma de quadrados Quadrados médios F Regressão 1 121.581.704,10 121.581.704,10 30,22 Resíduo 9 36.213.208,56 4.023.689,84 Total 10 157.794.912,66 Tabela 33 – Análise de variância (Anova) Anova (análise de variância) gl SQ MQ F F de significação (graus de liberdade) (soma de quadrados) (média de quadrados) (F-Fisher/Snedecor) Regressão 1 121.581.704,10 121.581.704,10 30,22 0,000382 (variação explicada) (gl I = k : nº variáveis independentes ou numerador do teste F) (SQR) (MQR = SQR / k) (MQR / MQE) Prob. (Fcrítico > F) Resíduo 9 36.213.208,56 4.023.689,84 (variação inexplicada) (gl II = n-k-1 : denominador do teste F) (SQE) MQE = SQE / (n-k-1) (variância estimada) 2,2622 Total 10 157.794.912,66 gl I + gl II = k + (n-k-1) = n - 1 (SQT) Ao nível de significância de 5% e para 1 e 9 graus de liberdade, o valor crítico de F é 5,2 (vide tabela da distribuição F de Fisher-Snedecor no AVA). O valor de F calculado (30,22), sendo superior ao valor crítico, é significativo ao nível de 5%. Consequentemente, rejeitamos a hipótese H0 : β = 0 em favor da hipótese alternativa H1 : β ≠ 0 a esse nível de significância. 103 ECONOMETRIA Resumo Esta unidade abordou o modelo de regressão linear múltipla. Nesse modelo, a variável dependente pode ser explicada por mais de uma variável, partindo do princípio de que há uma relação linear entre as variáveis independentes e dependentes. Ainda nesse modelo, os parâmetros são desconhecidos e sua estimativa utiliza o método dos mínimos quadrados ordinários, que procuram os valores dos parâmetros que minimizem a soma dos quadrados dos erros. Aprendemos que, para a estimativa dos parâmetros desconhecidos, é necessário o uso das hipóteses de linearidade, exogeneidade, homocedasticidade, não autocorrelação dos erros e da não existência de colinearidade perfeita entre as variáveis explicativas. A unidade tratou também dos diferentes tipos de testes sobre os coeficientes de uma regressão. São eles o da variável omitida e o da variável redundante. Quanto aos testes dos resíduos, eles estão divididos entre os da normalidade, do resíduo quadrado e da heterocedasticidade. Ainda temos os diferentes testes de estabilidade, que servem para avaliar se os parâmetros da regressão são estáveis ao longo do intervalo de estimativa. Quanto ao modelo de regressão múltipla, um problema deve ser evitado: o da multicolinearidade, em que a obtenção da matriz de correlação entre as variáveis que compõem o modelo de regressão linear múltipla ajuda em sua identificação. Contribuição relevante da unidade foi a apresentação dos passos para a elaboração de um modelo econométrico agora relacionado à análise de regressão múltipla. A elaboração inicia pela teoria econômica, seguida da escolha do modelo matemático e do modelo econométrico. A próxima etapa é a da busca e tratamento dos dados, seguida da estimação do modelo de regressão. O teste de hipótese deve ser efetuado para que se possa passar à próxima etapa – a da previsão – e, por fim, à aplicação do modelo. Para medir a força do relacionamento entre duas variáveis em termos absolutos, aprendemos o que vem a ser covariância e o coeficiente de correlação. O teste de hipótese para um coeficiente de correlação populacional também foi apresentado no sentido de determinar se existe evidência suficiente para que seja possível decidir se o coeficiente de correlação populacional é representativo a determinado nível de significância. De igual importância, temos o coeficiente de determinação, que mede o grau de ajustamento da reta de regressão aos dados observados e indica a proporção da variação total da variável dependente, que é explicada pela variação da variável independente. A unidade avançou para 104 Unidade II o tratamento do erro-padrão do coeficiente linear e do coeficiente angular, bem como das inferências sobre o coeficiente angular. A importância do teste de hipóteses no modelo de regressão também foi objeto de investigação da unidade. Exercícios Questão 1. (Enade 2009) Considere o modelo de regressão linear múltipla, com variável dependente y e variáveis explicativas X1, X2, ..., Xk, que pode ser expresso como: yt = β1 + β2 X2t + β3 X3t + . . .+ βk Xkt + εt no qual εt significa o fator de erro e t = 1, 2, ..., no índice relativo às observações amostrais. É correto afirmar que o modelo clássico de regressão linear ou modelo de Gauss de regressão linear supõe que A) a relação linear entre pelo menos duas variáveis explicativas seja exata. B) a variância dos erros varie na amostra: E E para t zt z� � 2 2� � � � � � C) o valor esperado do fator de erro seja diferente de zero: E t�� � � 0 D) os erros não sejam correlacionados: E para t zt z� �� � � �0 E) os valores das variáveis explicativas, X2, X3,..., Xk variem de amostra para amostra. Resposta correta: alternativa D. Análise das alternativas A) Alternativa incorreta. Justificativa. É pressuposto que a relação entre duas ou mais variáveis explicativas não apresente nenhuma relação linear exata. B) Alternativa incorreta. Justificativa. O modelo supõe que a variância dos erros seja constante, ou seja, que tenhamos erros independentes. 105 ECONOMETRIA C) Alternativa incorreta. Justificativa. É suposto pelo modelo que o valor esperado para o fator de erro seja zero. D) Alternativa correta. Justificativa. Tal como na regressão linear simples, é um pressuposto do modelo que os erros sejam independentes, ou seja, não correlacionados. E) Alternativa incorreta. Justificativa. É esperado que os valores das variáveis explicativas sejam fixos. Questão 2. (Enade 2006) Considere o modelo autorregressivo AR(1) dado por: yt = ρ · yt-1 + vt onde E(v ) Q, var (v )t t� � � � ��v t se E v v s t e E 2 0( ) , (.) a esperança incondicional. É correto afirmar que A) se -1<ρ<1, o processo y é não estacionário. B) se lρl>1, o processo é estacionário. C) a variância incondicional de y é dada por � � � v v2 2 21 � � , se lρl < 1. D) o processo não é autorregressivo, mas de média móvel. E) um ρ negativo significa que yt guarda pouca relação com o seu passado. Resposta correta: alternativa C. Análise das alternativas A) Alternativa incorreta. Justificativa: o modelo pressupõe a condição -1 < ρ < 1 em sua própria especificação, pois tal condição garante que a variância da série de tempo seja um valor positivo e finito. Tal restrição é intuitivamente chamada de condição de estacionariedade. 106 Unidade II B) Alternativa incorreta. Justificativa: na alternativa, apresenta-se a mesma expressão -1 < ρ < 1, mas na forma de módulo. Precisaríamos ter o módulo do coeficiente ρ menor do que 1 para que fosse observada a estacionariedade. C) Alternativa correta. Justificativa: é a correta definição da variância do modelo, valendo ressaltar a mesma advertência feita na análise da alternativa (B) acerca da condição -1 < ρ < 1, agora corretamente observada (|ρ| < 1). D) Alternativa incorreta. Justificativa: na análise de séries de tempo, é aplicável o modelo de médias móveis, que guarda relação com o próprio modelo autorregressivo. Todavia, sua especificação é distinta da apresentada na questão, uma vez que, conforme nas médias móveis a série yt resulta da combinação linear dos choques aleatórios
Compartilhar