Baixe o app para aproveitar ainda mais
Prévia do material em texto
Unidade I ECONOMETRIA Prof. Rubens Arakaki Econometria (análise de regressão) Econometria: combinação adequada da teoria econômica, da matemática e da estatística. Modelo econométrico: estudo de fenômeno econômico, desde que se consigam expressar as formulações teóricas em bases matemáticas e existam dados amostrais suficientes para a criação de um modelo. Regressão é uma importante técnica econométrica para medir ou estimar relações entre variáveis econômicas. Testar as proposições teóricas, explicar o comportamento de variáveis já observadas e/ou prever comportamentos ainda não observados. Econometria (análise de regressão) Séries temporais: conjunto de observações e valores que uma variável assume em diferentes momentos. Em que Y: Consumo das famílias X1: Ano C: Consumo das famílias – Brasil Ano (X1) Consumo (Y) 1978 8,3 1979 9,0 1980 9,8 𝐘 = 𝛂 + 𝜷𝟏𝑿𝟏 + 𝐞 Econometria (análise de regressão) Dados de corte transversal (cross section): dados de variáveis coletadas em um mesmo instante de tempo (em um único momento). Y: Consumo das famílias – Brasil X1: PIB (renda agregada) – Brasil X2: Consumo industrial de energia elétrica – Brasil ANO Y X1 X2 1978 8,3 10,6 52 𝐘 = 𝛂 + 𝜷𝟏𝑿𝟏 + 𝜷𝟐𝑿𝟐 + 𝐞 Em que Y: consumo das famílias X1 : PIB (renda agregada) X2 : Consumo de energia elétrica Econometria (análise de regressão) Dados em painel: consiste na observação de n entidades para dois ou mais períodos de tempo. Y: Consumo das famílias – Brasil X1: PIB (renda agregada) – Brasil X2: Consumo industrial de energia elétrica – Brasil ANO Y X1 X2 1978 8,3 10,6 52 1979 9,0 11,3 55 1980 9,8 12,4 61 𝐘 = 𝛂 + 𝜷𝟏𝑿𝟏 + 𝜷𝟐𝑿𝟐 + 𝐞 Em que Y: consumo das famílias X1 : PIB (renda agregada) X2 : Consumo de energia elétrica Econometria (análise de regressão) Dados em painel: consiste na observação de n entidades para dois ou mais períodos de tempo. Y : Consumo das famílias – Municipal X1 : PIB (renda agregada) – Municipal X2 : Consumo industrial de energia elétrica – Municipal X3 : Dummy (binária) ANO Município Y X1 X2 X3 1978 Campinas 8,3 10,6 52 0 1979 Campinas 9,0 11,3 55 0 1980 Campinas 9,8 12,4 61 0 1978 Ribeirão Preto 6,2 8,7 43 1 1979 Ribeirão Preto 6,8 9,3 47 1 1980 Ribeirão Preto 7,1 10,4 51 1 𝐘 = 𝛂 + 𝜷𝟏𝑿𝟏 + 𝜷𝟐𝑿𝟐 + 𝐃𝑿𝟑 + 𝐞 Y : consumo das famílias X1 : PIB (renda agregada) X2 : consumo industrial de energia elétrica X3 : Dummy (binária) Econometria (análise de regressão) As propriedades desejáveis de um modelo econométrico são: relevância precisão dos coeficientes simplicidade capacidade explicativa plausibilidade teórica capacidade preditiva Modelo econométrico: uma expressão matemática de uma determinada teoria. Econometria (análise de regressão) Modelo estocástico (econométrico): é contingencial, não depende somente dos dados de entrada, mas também de outros fatores, normalmente aleatórios. Assim, para cada valor de X a variável Y pode assumir um intervalo específico. Exemplos: uma lâmpada nova é ligada e conta-se o tempo gasto até queimar. O modelo probabilístico tenta descrever o comportamento “aleatório” das entidades. Y Econometria (análise de regressão) Função Consumo Keynesiana Econometria (análise de regressão) Para estimarmos os parâmetros desconhecidos do nosso modelo em questão, precisamos elaborar algumas hipóteses. São elas: Linearidade: 𝐘𝐢 = 𝛂 + 𝛃𝐗𝐢 + 𝐞𝐢 Significa dizer que não podemos utilizar modelos da forma 𝐘𝐢 = 𝛂 + 𝐗𝐢 𝛃 + 𝐞𝐢. Exogeneidade: 𝐄 𝐞𝐢 | 𝐱𝐢 = 𝟎 A exigência de que o erro e a variável explicativa sejam não correlacionados. Econometria (análise de regressão) Homocedasticidade: Var ei / xi = E ei 2 / xi = σ 2 A variância do erro é constante. Não autocorrelação dos erros: Cov ei , ej / xi , xj = E ei , ej / xi , xj = 0. O erro de uma observação não pode estar correlacionado com o erro de outra observação. Portanto, a covariância é igual a zero (o resultado em qualquer experimento não tem efeito no termo do erro de qualquer outro experimento). Eles devem ser independentes. Econometria (análise de regressão) Método dos Mínimos Quadrados (MMQ) Minimizar i=1 N (Yi − Yi) 2 Método dos Mínimos Quadrados (MMQ) 𝒆𝒊 = Yi − Yi é o termo de perturbação e pode representar todos os fatores que afetam o consumo, mas que não são considerados explicitamente. Minimizar i=1 N (Yi − Yi) 2 Econometria (análise de regressão) Econometria (análise de regressão) Método dos Mínimos Quadrados (MMQ) os três tipos de variação em torno de uma regressão: Minimizar i=1 N (Yi − Yi) 2 Vamos compreender os três tipos de variação em torno de uma regressão: Econometria (análise de regressão) Variação total Variação explicada Variação inexplicada 𝒚𝒊 − 𝒚 𝟐 𝒚𝒊 − 𝒚 𝟐 𝒚𝒊 − 𝒚𝒊 𝟐 Soma do quadrado total Soma do quadrado da regressão Soma do quadrado do resíduo SQTot SQReg SQRes 𝐒𝐲𝐲 𝐛𝐒𝐱𝐲 = 𝐛 𝟐𝐒𝐱𝐱 𝐒𝐲𝐲 − 𝐛𝐒𝐱𝐲 = 𝐒𝐲𝐲 − 𝐛 𝟐𝐒𝐱𝐱 Exemplo: Função Consumo Keynesiana. Consumo das famílias (Y) sendo explicado pela Renda agregada (X). Econometria (análise de regressão) Econometria (análise de regressão) Análise de Variância (ANOVA) É a análise dos pressupostos básicos e validação dos testes estatísticos no grau de ajustamento de um modelo de regressão. Fonte: livro-texto Interatividade Assinale a frase incorreta (falsa). a) O que necessitamos quando elaboramos um modelo é descobrir princípios gerais que proporcionam conhecimentos úteis da realidade econômica. b) Modelo econômico é uma expressão matemática de uma determinada teoria. c) Erro é o termo de perturbação e pode representar todas os fatores que afetam a variável dependente, mas que não são considerados explicitamente no modelo. d) Na análise de regressão, as ideias de causação na relação entre variáveis (X e Y) devem se originar dentro da estatística. e) A utilização do diagrama de dispersão pode nos auxiliar a decidir qual a melhor transformação indicada para cada fenômeno em estudo. Econometria (análise de regressão) Análise de Variância (ANOVA), resultado de Análise de Dados pelo software Excel. Econometria (análise de regressão) Análise de Variância (ANOVA) Econometria (análise de regressão) Análise de Variância (ANOVA) A partir do resultado dos diversos testes, encontramos uma especificação de modelo que resista bem a todos eles e pareça fazer sentido do ponto de vista da teoria e da experiência prévia do pesquisador. Nesta etapa atingimos o objetivo de uma representação “exata” da relação entre determinadas variáveis, que podemos utilizar para fins de controle ou de formulação de políticas. Econometria (análise de regressão) y = 0,6991x - 15,477 R² = 0,9816 100 120 140 160 180 200 220 170 190 210 230 250 270 290 310 330 C o n su m o Renda Renda e consumo – Brasil Ciclo completo do consumo em relação à renda Período: 1996 a 2014 Econometria (análise de regressão) Econometria (análise de regressão) Análise de Variância (ANOVA) Análise residual: heterocedasticidade (variância não é constante) e autocorrelação residual (erros não são independentes). y = 1,0252x + 98,584 R² = 0,9176 0 50 100 150 200 250 0 20 40 60 80 100 120 C O N S U M O Percentil da amostra Plotagemde probabilidade normal y = 0,0026x2 - 1,2805x + 151,09 R² = 0,765 -8,00 -6,00 -4,00 -2,00 0,00 2,00 4,00 6,00 8,00 100 150 200 250 300 350R es íd u o s RENDA RENDA Plotagem de resíduos 2004 2009 Econometria (análise de regressão) Matriz de correlação Xi Yi ei Xi 1 Yi 0,9907 1 ei 0,0000 0,1358 1 Matriz de covariância Xi Yi ei Xi 1.911,73 Yi 1.336,43 951,82 ei 0,00 17,56 17,56 Econometria (análise de regressão) Havendo problemas na não confirmação da hipótese de homocedasticidade, podemos utilizar, por exemplo, as transformações de dados, isto é, utilizar uma segunda variável independente X2 no modelo, assumindo os valores de X1 elevado ao quadrado. Ficaríamos com uma função polinomial de ordem 2 representada pela equação 𝐘 = 𝛂 + 𝛃𝟏𝐗𝟏 + 𝛃𝟐𝐗𝟏 𝟐, conforme apresentado a seguir: β1 β2 1996 - 2014 Yi = 135,61 - 0,5815.X1 + 0,0026.X1 2 R2 = 0,9957 Se = 2,21 (6,24) (-3,27) (7,22) R2ajustado = 0,9951 (estatística t entre parênteses) F= 1.837,28 Análise residual: homocedasticidade (variância residual constante) Econometria (análise de regressão) -6 -4 -2 0 2 4 6 8 150 200 250 300 350 R e sí d u o s RENDA RENDA Plotagem de resíduos 2009 -6 -4 -2 0 2 4 6 8 25.000 45.000 65.000 85.000 105.000 R e sí d u o s RENDA2 RENDA2 Plotagem de resíduos 2009 Os procedimentos de teste partem da definição de uma “hipótese nula” a ser testada (estimar a probabilidade, na suposição de que a hipótese nula é verdadeira). Os testes de regressão são de três tipos: de coeficientes de resíduos e de estabilidade* (*): se os parâmetros da regressão são estáveis ao longo do intervalo de estimativa. Econometria (análise de regressão) Econometria (análise de regressão) Testes de coeficientes Tipos de testes sobre os coeficientes de uma regressão: Variável omitida: determina se uma ou mais variáveis omitidas de uma regressão deveriam ter sido incluídas ou não (através de uma regressão auxiliar incluindo as variáveis omitidas). Variável redundante: determina se uma ou mais variáveis da regressão podem ser excluídas sem maiores consequências. A hipótese nula é que os coeficientes das variáveis selecionadas na regressão não são todos estatisticamente diferentes de zero. Se a hipótese for rejeitada, as variáveis não são redundantes, isto é, não podem ser excluídas da regressão sem comprometer o nível de explicação da variável dependente. Teste de resíduos Tipos de testes sobre os resíduos de uma regressão: Normalidade: em geral, os testes existentes para modelos de regressão só são válidos em amostras pequenas quando se assume que os distúrbios aleatórios têm distribuição normal, mas há sempre que se ter cuidados com a possibilidade de viés em amostras pequenas. Correlograma do resíduo (do resíduo quadrado): esta opção apresenta as autocorrelações e autocorrelações parciais dos resíduos (ao quadrado) da equação estimada para um número especificado de defasagens. Econometria (análise de regressão) Teste de resíduos Tipos de testes sobre os resíduos de uma regressão: Heterocedasticidade: uma das hipóteses do modelo de regressão é a de homocedasticidade, isto é, a de que a variância teórica do termo de distúrbio aleatório, condicional em relação às variáveis independentes, seja constante. Caso contrário, se a variância muda ao longo de diferentes intervalos de tempo ou em função de variáveis independentes, temos o caso de heterocedasticidade, que acaba invalidando todos os testes de hipóteses baseados em estatísticas t (Student), F (Snedecor) e Qui-quadrado. Econometria (análise de regressão) Teste de estabilidade Tipos de teste para avaliar se os parâmetros da regressão são estáveis ao longo do intervalo de estimativa: Teste Chow: a estabilidade dos parâmetros é verificada dividindo-se o intervalo da amostra em duas partes e estimando-se novamente os parâmetros em cada subamostra. O teste compara a soma dos quadrados dos resíduos da regressão original com a soma dos quadrados dos resíduos das novas regressões feitas a partir das subamostras. Caso haja uma diferença significativa nas estimativas, pode-se concluir que houve, a partir do ponto de quebra da amostra, uma mudança estrutural no relacionamento entre as variáveis do modelo. Econometria (análise de regressão) Teste de estabilidade Tipos de teste para avaliar se os parâmetros da regressão são estáveis ao longo do intervalo de estimativa: Teste de estabilidade Ramsey RESET: é um teste geral para erros de especificação que pode ter diversas origens, como variáveis independentes omitidas, forma funcional incorreta, erros de medida em variáveis, erros de simultaneidade e inclusão de valores defasados da variável dependente quando os resíduos têm correlação serial. Econometria (análise de regressão) Interatividade (Petrobrás – Economista Pleno, 2005). O estimador linear não tendencioso de mínimos quadrados ordinários de 𝛽0 é igual a: a) 𝑌 + 𝛽1 𝑋 b) 𝑌 + 𝛽0 𝑋 c) 𝑌 d) 𝑌 − 𝛽1 𝑋 e) 𝑌 − 𝛽0 𝑋 Econometria (análise de regressão) Passos para a elaboração de um Modelo Econométrico Análise de regressão para melhor compreender de que maneira está se processando a expansão da indústria açucareira brasileira voltada ao mercado interno e basicamente para o mercado externo no período entre 2005 e 2015. Econometria (análise de regressão) A variável preço no mercado externo explica a variação ou incremento da produção de açúcar no mercado interno. O que se espera é que aumentos de preço no produto provoquem aumento na produção – como o açúcar para exportação é negociado em dólar, isso representa mais reais para os vendedores no momento da conversão de moedas –, o que explica a prioridade dada ao alimento (açúcar) em detrimento do etanol. Econometria (análise de regressão) Premissas da regressão (MMQO) e o grau de ajuste do modelo econométrico. Hipótese Teste Pressuposto Linearidade Linearidade da função A relação entre X e Y é linear. Independência dos erros ou autocorrelação residual Durbin- Watson Os valores dos erros são estatisticamente independentes, os resíduos devem estar distribuídos aleatoriamente em torno da reta de regressão, não devem estar correlacionados entre si. Normalidade dos erros Kolmogorov- Smirnov Os erros são normalmente distribuídos para cada valor de X. Igualdade de variâncias ou homocedasticidade Pesaran- Pesaran A variância dos erros é constante para todos os valores de X. Econometria (análise de regressão) Análise de Variância (ANOVA) Econometria (análise de regressão) Análise residual: sugere variância constante. Pressupondo que não haja autocorrelação, utilizaremos o teste Durbin-Watson. O modelo pressupõe que: correlação entre os resíduos é zero; o efeito de uma observação é nulo sobre a outra; não há causalidade entre os resíduos e a variável X e, por consequência, a variável Y. -4.000 -2.000 0 2.000 4.000 0 5 10 15 20 25 30R e sí d u o s Preço do açúcar VHP (X1) Preço do açúcar VHP (X1) plotagem de resíduos Econometria (análise de regressão) A estatística de Durbin-Watson analisa a dispersão dos resíduos em torno da sua média. Detectar se há presença significativa de autocorrelação entre os resíduos em um modelo de regressão. O coeficiente de Durbin-Watson mede a correlação entre cada umdos resíduos e o resíduo da observação anterior: H0: não existe correlação serial dos resíduos. H1: existe correlação serial dos resíduos. 𝐃𝐖 = 𝐢=𝟐 𝐧 𝐞𝐢−𝐞𝐢−𝟏 𝟐 𝐢=𝟏 𝐧 𝐞𝐢𝟐 onde 𝐞𝐢 é o resíduo para o período de tempo 𝐢. Se os resíduos forem correlacionados, significa que as estimativas dos parâmetros não são eficientes e apresentam maior erro padrão. Econometria (análise de regressão) Seq. Ano Xi observado Yi observado Yi previsto ei = ( Yi prev - Yi ob) ei 2 ei-1 ei - ei-1 (ei - ei-1) 2 1 2005/06 8,90 26.420,1 29.410,6 -2.990,55 8.943.375,88 2 2006/07 14,45 30.223,6 33.090,2 -2.866,65 8.217.663,21 -2.990,55 123,90 15.351,48 3 2007/08 10,13 31.279,7 30.227,0 1.052,67 1.108.107,36 -2.866,65 3.919,31 15.361.018,06 4 2008/09 11,15 31.620,2 30.905,2 714,95 511.153,51 1.052,67 -337,72 114.052,62 5 2009/10 14,53 33.074,7 33.143,9 -69,16 4.783,50 714,95 -784,11 614.832,96 6 2010/11 19,68 38.168,4 36.565,3 1.603,05 2.569.776,79 -69,16 1.672,22 2.796.303,61 7 2011/12 25,24 38.271,8 40.250,5 -1.978,69 3.915.219,38 1.603,05 -3.581,74 12.828.887,70 8 2012/13 23,34 38.336,9 38.988,6 -651,70 424.714,03 -1.978,69 1.326,99 1.760.903,66 9 2013/14 17,53 37.878,3 35.133,7 2.744,52 7.532.403,18 -651,70 3.396,22 11.534.332,52 10 2014/15 16,41 35.560,2 34.391,4 1.168,77 1.366.032,30 2.744,52 -1.575,75 2.482.983,50 11 2015/16 13,13 33.489,1 32.216,4 1.272,78 1.619.979,43 1.168,77 104,01 10.818,14 0,00 36.213.208,56 -1.272,78 4.263,33 47.519.484,24 DW = i=2 n ei − ei−1 2 i=1 n ei2 = 47.519.484,24 36.213.208,56 ≅ 1,31 Econometria (análise de regressão) Tabela de Durbin-Watson K = 1 K = 2 n di du di du 6 0,610 1,400 7 0,700 1,356 0,467 1,896 8 0,763 1,332 0,559 1,777 9 0,824 1,320 0,629 1,699 10 0,879 1,320 0,697 1,641 11 0,927 1,324 0,758 1,604 12 0,971 1,331 0,812 1,579 13 1,010 1,340 0,861 1,562 14 1,045 1,350 0,905 1,551 15 1,077 1,361 0,946 1,543 16 1,106 1,371 0,982 1,539 17 1,133 1,381 1,015 1,536 18 1,158 1,391 1,046 1,535 19 1,180 1,401 1,074 1,536 20 1,201 1,411 1,100 1,537 Econometria (análise de regressão) O primeiro valor 𝐝𝐢 = 𝟎, 𝟗𝟐𝟕 representa o valor crítico inferior. Se DW = 1,31 estiver abaixo de 𝐝𝐢, conclui-se que existem evidências de autocorrelação positiva entre os resíduos (MMQ não é apropriado). O segundo valor 𝐝𝐮 = 1,324 representa o valor crítico superior de DW, acima do qual conclui-se que não existe nenhuma evidência de autocorrelação positiva entre os resíduos. Caso DW se posicione entre 𝐝𝐢 e 𝐝𝐮, fica-se impossibilitado de chegar a uma conclusão definitiva, que é o nosso caso. Econometria (análise de regressão) O teste de Pesaran- Pesaran consiste em detectar a presença de heterocedasticiade com base nos resultados da regressão em que a variável dependente representa os valores dos quadrados dos resíduos (𝐞𝟐) e a variável independente é constituída pelos valores estimados da variável dependente ( 𝐲). Seq. Ano Yi projetado ei 2 1 2005/06 29.410,6 8.943.375,9 2 2006/07 33.090,2 8.217.663,2 3 2007/08 30.227,0 1.108.107,4 4 2008/09 30.905,2 511.153,5 5 2009/10 33.143,9 4.783,5 6 2010/11 36.565,3 2.569.776,8 7 2011/12 40.250,5 3.915.219,4 8 2012/13 38.988,6 424.714,0 9 2013/14 35.133,7 7.532.403,2 10 2014/15 34.391,4 1.366.032,3 11 2015/16 32.216,4 1.619.979,4 Econometria (análise de regressão) RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,3318 R-Quadrado 0,1101 R-quadrado ajustado 0,0112 Erro padrão 3.344.547,78 Observações 11 ANOVA gl SQ MQ F F de significação Regressão 1 12.451.856.314.319,30 12.451.856.314.319,30 1,113164 0,3189 Resíduo 9 100.673.998.540.018,00 11.185.999.837.779,80 Total 10 113.125.854.854.337,00 Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Interseção 12.851.370,77 9.116.289,57 1,41 0,19223 -7.771.108,99 33.473.850,53 -7.771.108,99 Yi observado -280,91 266,25 -1,06 0,3189 -883,21 321,39 -883,21 O coeficiente de determinação, ou R- Quadrado nos diz que há pouca correlação entre as variáveis e o valor-P = 0,3189 ou 31,89% (e o F de significação) > 5%. Portanto, podemos aceitar a hipótese nula (β = 0) e ausência de hetorocedasticidade. Teste não paramétrico do Kolmogorov-Smirnov para avaliar a normalidade e testar a diferença entre a frequência observada e esperada. Hipóteses: H0: distribuição normal H1: distribuição não é normal A estatística do teste de Kolmogorov-Smirnov usa a distribuição D: 𝐃𝐧 = 𝐦á𝐱 (𝐢/𝐧 − 𝐙𝐢 ) em que Econometria (análise de regressão) 𝐧 = tamanho da amostra, sendo 𝐢 = 𝟏, 𝟐, 𝟑. . . . 𝐧; 𝐙𝐢 = probabilidade acumulada da distribuição normal padronizada, considerando os valores 𝐡𝐢 = 𝐞𝐢 𝐧 , onde 𝐞𝐢 são os resíduos ordenados de forma crescente e 𝐒𝐞 é o desvio padrão dos 𝐞𝐢. (𝐙𝐢 = DISTNORMP(hi) calculado pela função no Excel). Se 𝐃𝐧 ≤ 𝐃𝐜𝐫𝐢𝐭𝐢𝐜𝐨, aceita a hipótese nula. Geralmente, quando 𝐃𝐧 for menor que 0,3, isso indica que a distribuição está apropriada (aproxima de uma normal). Econometria (análise de regressão) Econometria (análise de regressão) Teste de Komolgorov Smirnov Portanto, como o valor de 𝑫𝒏 = 𝟎, 𝟒𝟖𝟕𝟏 é maior que o 𝑫𝒄𝒓í𝒕𝒊𝒄𝒐 = 𝟎, 𝟒𝟏 (da tabela) para um nível de confiança de 5%, concluímos que os resíduos não se comportam seguindo uma distribuição normal de probabilidade. i Ano ei hi = ei / s Zi i / n D = (i / n - Zi) 1 2005/06 -2.990,55 -1,5715 0,0580 0,0909 0,0329 2 2006/07 -2.866,65 -1,5064 0,0660 0,1818 0,1158 3 2007/08 1.052,67 0,5532 0,7099 0,2727 -0,4372 4 2008/09 714,95 0,3757 0,6464 0,3636 -0,2828 5 2009/10 -69,16 -0,0363 0,4855 0,4545 -0,0310 6 2010/11 1.603,05 0,8424 0,8002 0,5455 -0,2548 7 2011/12 -1.978,69 -1,0398 0,1492 0,6364 0,4871 8 2012/13 -651,70 -0,3425 0,3660 0,7273 0,3613 9 2013/14 2.744,52 1,4422 0,9254 0,8182 -0,1072 10 2014/15 1.168,77 0,6142 0,7305 0,9091 0,1786 11 2015/16 1.272,78 0,6688 0,7482 1,0000 0,2518 0,00 desvio padrão (s) 1.902,98 Para a identificação da normalidade nos resíduos, compara-se a distribuição dos resíduos com a curva normal através do Teste de Jarque-Bera envolvendo a estatística qui-quadrado com 2 graus de liberdade, sendo: JB = n . [A2/6 + (C-3)2/24] onde A = assimetria e C= curtose. Neste nosso caso, temos: n = 11; A = Assimetria (A= - 0,3757); C = Curtose (C= - 0,9185) Econometria (análise de regressão) 𝐉𝐁 = 𝐧 × 𝐀𝟐 𝟔 + (𝐂 − 𝟑)𝟐 𝟐𝟒 = 𝟏𝟏 × (−𝟎, 𝟑𝟕𝟓𝟕)𝟐 𝟔 + (−𝟎, 𝟗𝟏𝟖𝟓 − 𝟑)𝟐 𝟐𝟒 ≅ 𝟕, 𝟑 Consultando a tabela da distribuição qui-quadrado obtemos JBcrítico = estatística Qui-quadrado ( 𝑿𝟎,𝟎𝟓; 𝟐 𝟐 ) ao nível de significância de 5% e com 2 graus de liberdade = 0,10. Se 𝐉𝐁𝒄𝒂𝒍𝒄𝒖𝒍𝒂𝒅𝒐 ≤ JBcrítico aceita a hipótese nula. Portanto, rejeitamos a hipótese nula, ou seja, a distribuição dos resíduos não se comporta como uma distribuição de probabilidade normal. Econometria (análise de regressão) Econometria (análise de regressão) Características do modelo de regressão linear simples (MRLS): Yi é uma variável aleatória (Yi = β0 + β1 X1 + ei); E(Yi) = E β0 + β1 X1 + ei = μi = β0 + β1 Xi; σ2(Yi) = σ 2 β0 + β1 X1 + ei = σ 2 ei = σ 2(variância constante); Yie Yj não são correlacionados. O modelo de regressão linear simples mostra que as respostas Yi são oriundas de uma distribuição de probabilidades com média E(Yi) = α + Xi e cujas variâncias são 2, a mesma para todos os valores de X. Além disso,quaisquer duas respostas Yi e Yj não são correlacionadas. Interatividade Na relação entre duas variáveis X e Y, se o coeficiente de correlação amostral for de -0,73. Ao ajustarmos aos dados uma reta de regressão linear, podemos afirmar que a porcentagem da variação total dos dados que não é explicada pela regressão será próximo de: a) 15% b) 27% c) 47% d) 73% e) 85% Econometria (análise de regressão) O modelo de regressão linear múltipla (MRLM), por exemplo, com k variáveis independentes, é expresso na equação: 𝐲𝐢 = 𝛂 + 𝛃𝟏𝐱𝟏𝐢 ++𝛃𝟐𝐱𝟐𝐢 + 𝛃𝟑𝐱𝟑𝐢 +⋯+ 𝛃𝐤𝐱𝐤𝐢 + 𝐞𝐢 , 𝐢 = 𝟏,… . . , 𝐧 em que: y é a variável dependente; x1, x2, . . . , xk são as variáveis independentes; k é o número de variáveis independentes no modelo; i denota as n observações da amostra. Os parâmetros 𝛃𝟏,𝛃𝟐, 𝛃𝟏… . 𝛃𝐤 são desconhecidos e teremos que estimá-los utilizando novamente o método dos mínimos quadrados ordinários (MMQO), que busca os valores dos 𝛃´𝐬 que minimizam a soma dos quadrados dos erros. Econometria (análise de regressão) Linearidade: 𝐲𝐢 = 𝛂 + 𝛃𝟏𝐱𝟏𝐢 ++𝛃𝟐𝐱𝟐𝐢 +⋯+ 𝛃𝐤𝐱𝐤𝐢 + 𝐞𝐢 , 𝐢 = 𝟏,… . . , 𝐧 Exogeneidade: a exigência de que o erro e a variável explicativa sejam não correlacionados. Homocedasticidade: a variância do erro é constante, igualdade de variâncias, ou homocedasticidade. Não autocorrelação dos erros: o erro de uma observação não pode estar correlacionado com o erro de outra observação. Os erros ( 𝐞𝐢 ) devem ser independentes entre si. Devemos incluir mais uma hipótese: Não existe colinearidade entre as variáveis explicativas. Ou seja, uma variável explicativa não é função linear perfeita da outra. Não podemos ter, por exemplo, 𝐱𝟏 = 𝟑 𝐱𝟐 𝐨𝐮 𝐱𝟑 = 𝟐𝐱𝟏 + 𝐱𝟐 𝟑 . De tudo que foi discutido até agora sobre a modelagem, dos pressupostos tratados em regressão simples, na regressão múltipla devemos atentar para que as variáveis independentes não sejam correlacionadas entre si (a utilização de variáveis que explicam a mesma coisa, o que prejudica a performance do modelo). Isso implica na ocorrência de multicolinearidade, algo indesejável na construção de um modelo econométrico. O problema é que os valores dos ’s associados às variáveis independentes podem estar viesados (viciados ou parciais), portanto, comprometendo as projeções do modelo, comprometendo as conclusões e até mesmo não devendo realizar os testes de regressão. Econometria (análise de regressão) O procedimento simples e prático de verificar a ocorrência de problemas que envolvem a correlação entre variáveis (multicolinearidade) se dá pela obtenção da matriz de correlação entre as variáveis que compõem o modelo de regressão linear múltipla. O modelo passa a incluir uma segunda variável X2: produção de etanol hidratado. O novo modelo oferece um grau de explicação maior, isto é, de um coeficiente de determinação (ajustado) de 0,7450 passa para 0,9084 e de um erro padrão de estimação de 2.005,91 passa para 1.202,09, uma queda de 40% em seu valor, apresentando um grau de explicação (r2) de 93%, conforme detalhado na tabela a seguir. Econometria (análise de regressão) Econometria (análise de regressão) Econometria (análise de regressão) Análise de Variância (ANOVA) RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,9627 R-Quadrado 0,9267 R-quadrado ajustado 0,9084 Erro padrão 1.202,09 Observações 11 gl SQ MQ F F de significação Regressão 2 146.234.837,0 73.117.418,5 50,6 0,00002881 Resíduo 8 11.560.075,7 1.445.009,5 Total 10 157.794.912,7 Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Interseção 18.179,93 1.763,9 10,31 0,000007 14.112,4 22.247,5 Preço do Açúcar VHP (X1) 607,23 73,6 8,25 0,000035 437,6 776,9 Prod. Etanol (X2) 0,0004116 0,0001 4,13 0,0032963 0,0002 0,0006 Econometria (análise de regressão) Análise de Variância (ANOVA): Teste F_Snedecor Ao nível de significância de 5% e para 2 e 8 graus de liberdade, o valor crítico de F é 4,6 (vide Tabela A4 - Distribuição F de Fisher-Snedecor, no AVA). O valor de F calculado (50,6), sendo superior ao valor crítico, é significativo ao nível de 5%. O coeficiente de determinação ou R-quadrado, nos diz que há forte correlação entre as variáveis (0,9267) e todos os valores-P (e o F de significação) < 5%. Consequentemente, rejeitamos a hipótese H0: β1 = β2 = 0 em favor da hipótese alternativa H1: β1 ≠ β2 ≠ 0 a esse nível de significância, indicando através do teste F de Snedecor que as variáveis explicativas exercem conjuntamente efeito significativo sobre a variável dependente Y. Econometria (análise de regressão) Análise de Variância (ANOVA) Graficamente observamos que os valores estão bem dispersos. Podemos concluir que há homocedasticidade, isto é, variância constante dos resíduos. Para o modelo de regressão linear simples (MRLS), valem as hipóteses: distribuição normal dos resíduos; homocedasticidade; ausência de autocorrelação; linearidade nos parâmetros. Para os modelos de regressão linear múltipla (MRLM), adicionalmente, devemos incluir a hipótese de multicolinearidade. Ela ocorre com duas ou mais variáveis independentes do modelo explicando o mesmo fenômeno, variáveis contendo informações similares, altamente correlacionadas. Econometria (análise de regressão) A multicolinearidade tende a distorcer os coeficientes (β’s) estimados. Como consequência, apresentam erros padrões maiores, o que significa menor eficiência no modelo e estimativas mais imprecisas, estimadores mais sensíveis a pequenas variações dos dados e até mesmo a dificuldade na separação de seus efeitos. Exemplo: explicar preço de consumo de energia elétrica em uma residência com regressão que tenha como variáveis explicativas a área da casa e o número de cômodos, ou o número de pessoas e o número de camas. Econometria (análise de regressão) Teste de Farrar & Glauber : identificação de multicolinearidade onde n: número de observações; k: número de variáveis independentes; Ln: logaritmo neperiano; Det.: determinante; rij: coeficiente de correlação parcial. Econometria (análise de regressão) 𝐗𝟐𝐭𝐞𝐬𝐭𝐞 = − 𝐧 − 𝟏 − 𝟏 𝟔 × 𝟐 × 𝐤 + 𝟓 × 𝐋𝐧 𝐃𝐞𝐭 𝟏 𝐫𝟏𝟐… . . 𝐫𝟏𝐤 𝐫𝟐𝟏 𝟏… . . 𝐫𝟐𝐤 𝐫𝐤𝟏 𝐫𝐤𝟐… . . 𝟏 Testes para identificação de multicolinearidade Teste de Farrar & Glauber Calculando o valor da estatística 𝑿𝟐𝒕𝒆𝒔𝒕𝒆, temos: 𝑿𝟐𝒕𝒆𝒔𝒕𝒆 = − 𝒏 − 𝟏 − 𝟏 𝟔 × 𝟐 × 𝒌 + 𝟓 × 𝑳𝒏 𝑫𝒆𝒕 𝟏 𝟎, 𝟖𝟕𝟕𝟕𝟖 𝟎, 𝟓𝟓𝟎𝟒𝟑 𝟎, 𝟖𝟕𝟕𝟕𝟖 𝟏 𝟎, 𝟏𝟖𝟒𝟒𝟗 𝟎, 𝟓𝟓𝟎𝟒𝟑 𝟎, 𝟏𝟖𝟒𝟒𝟗 𝟏 Pela tabela, encontramos o valor crítico qui-quadrado, em que: nível de significância de 5% (𝛂 = 𝟎, 𝟎𝟓); graus de liberdade igual a 𝐤. 𝐤−𝟏 𝟐 , 𝒈𝒍 = 𝒌. 𝒌−𝟏 𝟐 = 𝟐 × 𝟏 𝟐 = 𝟏 Portanto: 𝑿𝟐𝒄𝒓í𝒕𝒊𝒄𝒐; 𝟎, 𝟎𝟓; 𝟏 = 𝟎, 𝟎𝟎𝟑𝟗 Econometria (análise de regressão) Testes para identificação de multicolinearidade 𝐗𝟐𝐭𝐞𝐬𝐭𝐞 = − 𝐧 − 𝟏 − 𝟏 𝟔 × 𝟐 × 𝐤 + 𝟓 × 𝐋𝐧 (𝟎, 𝟎𝟕𝟎𝟕𝟔𝟕) 𝐗𝟐𝐭𝐞𝐬𝐭𝐞 = − 𝟖, 𝟓 × −𝟐, 𝟔𝟒𝟖𝟑𝟕 = 𝟐𝟐, 𝟓𝟏 Teste de aceitação – teste de Farrar & Glauber: 𝐇𝟎 : ausência de multicolinearidade 𝐇𝟏 : existe multicolinearidade Portanto, se 𝐗𝟐𝐭𝐞𝐬𝐭𝐞 > 𝐗 𝟐 𝐜𝐫í𝐭𝐢𝐜𝐨, rejeita-se a hipótese nula de ausência de multicolinearidade (há correlação entre as variáveis). Econometria (análise de regressão) Econometria (análise de regressão) Testes para identificação de multicolinearidade Teste da VIF (VarianceInflation Factor) 𝑽𝑰𝑭𝒌 = 𝟏 (𝟏−𝒓𝒌𝟐) em que 𝒓𝒌 = coeficiente de correlação da variável 𝒌 com as demais variáveis. 𝑽𝑰𝑭𝒌 = 𝟏 (𝟏 − 𝟎, 𝟏𝟖𝟒𝟒𝟗𝟐) = 𝟏 𝟎, 𝟗𝟔𝟔𝟎 = 𝟏, 𝟎𝟑𝟓𝟐 Regra de decisão VIF: Econometria (análise de regressão) Testes para identificação de multicolinearidade Teste da Tolerance (𝑻𝑳𝒌) 𝑻𝑳𝒌 = (𝟏 − 𝒓𝒌 𝟐) onde 𝒓𝒌 = coeficiente de correlação da variável 𝒌 com as demais variáveis. Calculando o índice 𝑻𝑳𝒌 = 𝟏 − 𝟎, 𝟏𝟖𝟒𝟒𝟗 𝟐 = 𝟎, 𝟗𝟔𝟔𝟎 Regra de decisão 𝑻𝑳𝒌: Interatividade Se considerarmos o modelo de regressão linear simples: 𝒀𝒊 = 𝜶 + 𝜷𝑿𝒊 + 𝒆𝒊 podemos afirmar que: I. A covariância mede a força de relacionamento entre duas variáveis em termos percentuais. II. Os parâmetros e β não são variáveis aleatórias, são constantes. III. A variância de β diminui conforme aumenta a variância de X. IV. O Método dos Mínimos Quadrados (MMQ) consiste em tornar mínima a soma dos desvios em torno da reta estimada. V. Modelo Estocástico é contingencial, depende somente dos dados de entrada. Interatividade a) Somente as afirmações I, II, III e IV são verdadeiras. b) Somente as afirmações II, III e V são verdadeiras. c) Somente as afirmações II, III e IV são verdadeiras. d) Somente as afirmações III e IV são verdadeiras. e) Somente as afirmações III, IV e V são verdadeiras. ATÉ A PRÓXIMA!
Compartilhar