Baixe o app para aproveitar ainda mais
Prévia do material em texto
A Previsão com o Modelo de Regressão.................................................................................... 1 1. Introdução ao Modelo de Regressão .............................................................................. 1 2. Exemplos de Modelos Lineares ..................................................................................... 2 3. Derivação dos Mínimos Quadrados no Modelo de Regressão ...................................... 6 4. A Natureza Probabilística do Modelo de Regressão...................................................... 9 5. Propriedades Estatísticas dos Estimadores................................................................... 13 6. Critérios de Avaliação dos Estimadores....................................................................... 14 7. Obtenção da Média e o Desvio Padrão dos Melhores Estimadores Lineares Não Tendenciosos ou “Best Linear Unbiased Estimators” (BLUEs) .......................................... 16 8. Aplicação de Testes de Hipóteses e Intervalos de Confiança aos EstimadoresErro! Indicador não definido. 9. O Coeficiente de Ajustamento ou Determinação: Erro! Indicador não definido. 10. Interpretação da Variação em Y em termos da Análise de VariânciaErro! Indicador não definido. 11. O Modelo de Regressão Múltipla......................... Erro! Indicador não definido. 12. Considerações Adicionais: a Correlação Parcial.................................................34 13. Teste de Chow: um Teste para a Estabilidade Estrutural dos Modelos ................36 14. O Modelo de Regressão Múltipla com Variáveis Explanatórias Estocásticas......36 15. Violação dos Pressupostos Básicos do Modelo de Regressão Clássico..............37 16. O Problema da Multicolinearidade .....................................................................38 17. O Problema de Heteroscedasticidade..................................................................40 18. O Problema da Correlação Serial ......................... Erro! Indicador não definido. 19. A Previsão com o Modelo de Regressão.............. Erro! Indicador não definido. Leituras recomendadas (Pindyck e Rubinfeld(1976)): 1. Variáveis instrumentais e mínimos quadrados em dois estágios (Leitura recomendada) (Pindyck e Rubinfeld) 2. Tópicos avançados em estimação de uma equação singular (Leitura recomendada) 3. Modelos de escolha qualitativa (Leitura recomendada) (Pindyck e Rubinfeld) Referências Bibliográficas: • Kmenta, Jan, “Elementos de Econometria”, Ed. Atlas. • Thomas, J. J. (1978), “Introdução à Análise Estatística para Economistas”, Zahar Editores. • Pindyck, R. S. e Rubinfeld, D. L. (1976), “Econometric Models and Economic Forecasts”, McGraw-Hill Kogakusha Ltd., Tokyo. • Pindyck, R.S. e Rubinfeld, D.L. (1991), “Econometric Models and Economic Forecasts”, Mcgraw-Hill International Editors. • Bowerman, B.L. e O`Connel, R.T. (1987), “Times Series Forecasting-Unified Concepts and Computer Implementation”, Duxbury Press, Boston. • Levenbach, H. e Cleary, J.P. (1984), “ The Modern Forecaster: The Forecasting Process Through Data Analysis”, Lifetime Learning Publications, Belmonnt, Califórnia. 1 A Previsão com o Modelo de Regressão 1. Introdução ao Modelo de Regressão A teoria da Regressão permite que se estabeleçam relações entre variáveis que se interrelacionam cujas informações estão disponíveis (dados pré-coletados), relações às quais associam-se os modelos de regressão. Dessa forma, os economistas e os administradores procuram compreender a natureza e o funcionamento de sistemas econômicos que são descritos por meio dessas variáveis. Por exemplo, o volume do comércio internacional pode ser modelado como uma função linear do produto interno bruto dos países. As vendas de um produto podem ser estimadas por uma relação entre a variável que as representa e variáveis relativas aos preços desse produto e de seus concorrentes no mercado e aos respectivos gastos relativos com propaganda. Uma vez estabelecida essa relação pelo modelo de regressão, é preciso avaliar a confiança que nela se pode colocar, realizando testes estatísticos. Temos dois tipos básicos de informação a considerar: (1) • Informação descrevendo as mudanças assumidas por uma variável através do tempo (dados de séries temporais) (2) • Informação descrevendo as atividades de pessoas, firmas etc. num dado instante de tempo (dados de corte transversal) Para esses dois tipos de informação é possível estabelecer relações que descrevem as situações observadas por meio de modelos de regressão. Ou seja, dado um conjunto finito de observações X e Y, por meio do modelo de regressão é buscado estabelecer relações entre X e Y. Esse conjunto finito de observações corresponde a uma amostra representativa do universo de informações ou população, a qual permitiria estabelecer a verdadeira relação entre X e Y (Figura 1). Amostra População (verdadeira relação entre X e Y) Figura 1- Relação entre a amostra e a população ou universo de informações 2 Tome-se por hipótese que exista a relação linear li entre X e Y. No diagrama de dispersão da Figura 2 são representadas as linhas l1 e l2 que se procurou ajustar ao conjunto de pares ordenados (X, Y) do conjunto amostral, assim como os desvios (positivos e negativos) em relação a l2 . Figura 2 - Diagrama de dispersão e desvios em relação à linha ajustada Definem-se desvios como os valores, segundo Y, das diferenças entre os valores observados e os valores sobre a linha li ajustada ao conjunto de pares (X, Y). Como regra estabelece-se que a melhor linha li corresponde àquela cujo somatório dos desvios tende a zero (é minimizado). A melhor linha ajustada define o modelo de regressão e pode ser obtida pela derivação de mínimos quadrados ordinários, apresentada mais à frente. 2. Exemplos de Modelos Lineares (A) Modelagem de Tendência e Sazonalidade através de Funções do Tempo Seja por exemplo o modelo Yt = St + Tt , onde Tt representa a tendência no período t. Por outro lado, St representa a sazonalidade no período t, sendo L o comprimento da sazonalidade. Exemplos de situações onde a tendência é modelada, em que β0, β1 e β2 são os parâmetros do modelo, são: 3 Modelo ∗ Tendência inexistente, ou constante horizontal Tt = β0 ∗ Tendência linear Tt = β0 + β1t ∗ Tendência quadrática (Figura 3) Tt = β0 + β1t + β2t2 Tt t Tt t que se transforma em: Tt = β0 + β1t + β2v, fazendo v=t2, o que torna possível transformação do grau da relação. Tt t Tt t Figura 3- Gráficos de dados com tendência quadrática Em algumas situações observa-se sazonalidade ou seja, os valores observados variam de forma característica por período de tempo t ao longo do comprimento da sazonalidade. Assim, pode-se escrever que: St = t1),(L1)(Lt2,2t1,1 SSSSSS Xβ...XβXβ −−+++ Variáveis “dummies” Define-se cada variável “dummy” por: t1,S X = t2,S X = t1),-(LSX = 1 se t é o período sazonal 2 0 senão 1 se t é o período sazonal 1 0 senão 1 se t é o período sazonal (L-1) 0 senão 4 Observa-se que o período sazonal L corresponde ao período base da representação de St (poderia ser outro qualquer, definindo-o a priori). (B) Exemplos de Transformação Linear Seja o modelo: • y = ea+bx ⇒ = (a + bx) ⇒ y = a + bx (transformação linear). Substituindo-se x = 1/t, obtém-se a curva S ou curva do aprendizado (Figura 4): Figura 4- Gráfico da curva do aprendizado • Modelo recíproco bxa 1Y += ⇒ Y 1 = a + bx ⇒ y=a+bx(transformação linear) • Modelo semilogarítmico Y = a + b log x ⇒ Y = a + bv (transformação linear) Da mesma forma: Y = α0 + α1 x12 + α2 log x2 ⇒ Y = α0 + α1 V1 + α2 V2 V1 V2 Seja a equação não linear nas variáveis independentes: Y = α0 x1α1 x2α2 Esta equação é não linear nos coeficientes, mas linearizável, por meio de aplicação de logaritmos. y logey 1 logee v t 5 Seja o exemplo das vendas de um produto introduzido no mercado e com vendas, posteriormente, em expansão. Esta situação é típica do modelo que representa a curva do aprendizado do tipo Y = ea – (b/t), pois observa-se o começo lento, crescimento forte e período de saturação (Figura 5). Resultados do ajuste do modelo ao conjunto de observações: Parâmetros (a) 20.7867 (b) -21.0389 R2 = 0.953, Fteste = 442.6 Dados tempo(t) vendas(Y) 1/t Loge(vendas) 1 0.023 1 -3.77226 2 0.157 0.5 -1.851151 3 0.329 4 0.48 5 1.205 6 1.748 7 1.996 8 2.509 9 2.366 10 2.94 11 2.8714 12 2.9346 13 3.1346 14 3.24 15 3.148 16 3.522 17 3.54 18 3.31 19 3.547 20 3.374 21 3.3745 22 3.401 23 3.6971 24 3.493 Figura 5- Exemplo de situação típica da curva do aprendizado (vendas de T.V. a cores, Makridakis e Wheelwright, Forecasting, pág. 203) (C) Uso do tempo como uma das variáveis explanatórias Situações-Exemplo: 1) Qt = γ Ltα Ktβ A(t) εt 2) Inclusão da variável tempo em modelo “pouco aderente” Yt = β1 + β2 x2t + β3t + εt, sendo que o termo β3t modela o efeito líquido de conjunto de variáveis excluídas. O efeito da inclusão desse termo é estatístico. Y = e1,478 – (5,786/t) função de produção mudança técnica funcional de t ex.: A(t) = eδt 6 3. Derivação dos Mínimos Quadrados no Modelo de Regressão A derivação dos mínimos quadrados permite testes estatísticos sobre o ajustamento entre X e Y, da forma Y = a + bX, sendo, por hipótese, Y a variável dependente e X a variável independente. Y = a + bX ⇓ ⇓ Variável dependente Variável independente Figura 6 – Linha de mínimos quadrados ajustada ao conjunto amostral Define-se o resíduo ou desvio (εi) como εi = iY – iYˆ , onde iYˆ = a + bXi , e N corresponde ao número de observações amostrais. Busca-se obter Min ∑ −− = N 1i 2 ii )bXa(Y ou seja, a minimização do somatório dos N desvios ao quadrado (Figura 6). Dessa forma, define-se o sistema de equações normais: 0)bXa(Y a 2 ii =−−∑∂ ∂ ⇒ ... ⇒ ∑ Yi = a N + b∑Xi (I) 0)bXa(Y b 2 ii =−−∑∂ ∂ ⇒ ... ⇒ ∑ Xi Yi = a ∑Xi + b∑Xi2 (II) que multiplicadas, respectivamente, por ∑ Xi e N, são reescritas: equações normais εi -2 ∑iεi = 0 -2 ∑Xiεi = 0 7 (I) ∗ ∑ Xi ⇒ equações ⇒ (∗∑Xi) ∑Yi = (∗∑Xi) (a N + b ∑Xi) (II) ∗ N normais (∗ N) ∑Xi Yi = (∗ N) (a ∑Xi + b ∑Xi2) Fazendo (II) – (I), pode-se obter os parâmetros (a e b) do modelo de regressão: b = 2 i 2 i iiii )X(XN YXYXN ∑−∑ ∑∑−∑ a = N Xb N Y ii ∑−∑ onde se definem as médias amostrais Y e X . Se Y = X = 0 isto significa a = 0, e b = 2 2 N)( N)(... ÷ ÷ ⇒ b = 2 i 2 i iiii /N)X(Σ N X /N)Y(Σ/N)X(ΣN)/YX( −∑ −∑ , que pode ser escrito: b = 2 2 i ii X- N X YX/N)YX( ∑ −∑ Tomando-se a situação onde X = Y = 0 ⇒ b = /N)X( /N)YX( 2 i ii ∑ ∑ . Esses resultados sugerem a conveniência de escrever a estimativa de mínimos quadrados por meio de variáveis que representam desvios em relação às médias, sejam essas nulas ou não. Dessa forma, deve-se obter a transformação: xi = Xi - X e yi = Yi - Y , pois x = N Σxi = 0 = y (são nulas as médias das variáveis que correspondem à uma transformação de defasagem em relação às médias das variáveis originais, pois: 0 N XN N X N )X(Xx ii =−∑=−∑= ). Assim, reescrevem-se as estimativas dos parâmetros de mínimos quadrados da relação linear ajustada entre X e Y, antes da transformação, como: X Y “inclinação” “coeficiente linear” “intercepto” “constante” Y X X 8 onde o significado dessas estimativas de a e b é: b → dX dY razão da variação (marginal) em Y com a variação em X. a → Y = a, quando Xi = 0 ⇒ tal conclusão em geral não diz muita coisa sobre o evento observado, sendo apenas um valor para o intercepto da relação linear do ajuste feito. Para que essa informação tenha significado para a situação modelada, deve-se ter informação próxima de X = 0. Na Tabela 1 a seguir exemplifica-se a obtenção dos valores de a e b, sendo os gráficos da linha ajustada representados na Figura 7. Tabela 1- Obtenção das estimativas dos parâmetros (introduzir planilha EXCEL) Y X 4.0 21.0 3.0 15.0 3.5 15.0 2.0 9.0 3.0 12.0 3.5 18.0 2.5 6.0 2.5 12.0 Calcula-se: X = 13.5 e Y = 3.0 ∑xi = 0 ∑yi = 0 ∑xiyi = 19.50 ∑xi2 = 162.00 b = 2 i ii Σx yΣx = 0,120 a = 1,375 Yˆ = 1,375 + 0,12 X (R2 = 0.77; F1,6 = 21.2) b = 2 i ii Σx yΣx a = XbY − 9 Regressão transformada Figura 7- Exemplo do ajustamento da linha de regressão e da linha de regressão transformada Exercício (casa) Prove que a linha de regressão estimada passa sobre o ponto de média ( X , Y ). Sugestão: mostre que X e Y satisfazem à equação Y = a + bX, sendo a e b definidos como: b = 2 i 2 i iiii )X(XN YXYXN ∑−∑ ∑∑−∑ e a = N Xb N Y ii ∑−∑ 4. A Natureza Probabilística do Modelo de Regressão Para que se possa avaliar a qualidade da relação linear ajustada às informações amostrais das variáveis, é preciso realizar testes estatísticos no modelo de regressão. Por exemplo, como realizar esses testes estatísticos no modelo de regressão de mínimos quadrados com uma variável independente e uma variável dependente? Para isso, é preciso, em primeiro lugar, reconhecer a natureza probabilística do modelo de regressão. Seja o exemplo da Figura 8, no qual observa-se que para um mesmo valor de X (renda) existem vários valores de Y (gastos com alimentação). Isto se explica porque, embora a renda de grupos de indivíduos esteja, por exemplo, em torno de R$ 60.000/ano, o meio e fatores aleatórios fazem existir uma significativa oscilação nos gastos com alimentação nessa faixa de renda. 10 Renda dos Indivíduos Meio/ Fatores aleatórios Gastos com alimentação Figura 8- Relação entre amostra de renda dos indivíduos e seus gastos com alimentação Dessa forma, definem-se as variáveis aleatórias Yi e Xi e, por hipótese, a verdadeira relação linear entre elas, como Yi = α + βXi + εi (Figura 9). Yi = α + β Xi + εi “TRUE MODEL” (população) erro aleatório variável aleatória “Fixados” (distribuição de probabilidade) (omissão de variáveis explicativas) (erro de coleta de dados) Figura 9- A verdadeira relação linear ou “true model” entre as variáveis aleatórias O valor esperado E(Yi) = E(α + βXi + εi) = α + βX corresponde ao verdadeiro modelo, representado na Figura 10 a seguir. Embora Xi ´s tenham seus valores fixados, são variáveis aleatórias com distribuição de probabilidades. Figura 10 – Natureza probabilística das variáveis do modelo de regressão X observados Y εi 11 Assim, são pressupostos básicos do modelo clássico de regressão linear a duas variáveis:(i) Relação linear entre Y e X como descrita em Yi = α + βXi + εi (ii) Xi`s não-estocásticos e fixados (será relaxado mais tarde) (iii) a) O erro εi tem (zero) e E(εi)2 = σ2 (constante), para todas as observações. b) εi`s não correlacionados estatisticamente, de forma que: E (εi εj) = 0, para i ≠ j. No caso de (iii), supondo-se E (εi) = α`, sendo α` um valor constante qualquer, pode-se escrever: Yi = α + βXi + εi + (α` - α`) = (α + α`) + βXi + (εi - α`), definindo-se assim um novo coeficiente α*. Obtém-se E (εi*) como: E (εi - α`) = E (εi ) – E (α`) = E (εi ) - α` = 0 (!), constante α` ou seja: E (εi*) = 0, mantendo válidas as suposições do modelo de regressão clássico. As suposições (ii) (a) e (b) tratam de garantir a homocedasticidade (variância do erro aleatório constante) e a ausência de correlação serial. No caso contrário, tem-se a presença de heteroscedasticidade e correlação serial (Figuras 11 e 12): 1) Presença de heteroscedasticidade: E(εi2) não é constante e igual a σ2 2) Erros correlacionados → correlação serial ou autocorrelação, onde E (εi εj) ≠ 0 (existe um padrão na disposição dos dados em relação à linha ajustada) E (εi) = 0 εi* α* 12 Variância decresce ou cresce (heteroscedasticidade) Figura 11- Exemplos de heteroscedasticidade Correlação serial negativa Correlação serial positiva Figura 12- Exemplos de correlação serial Às afirmações acima deve-se acrescentar as seguintes observações: * Corolário de (ii) e iii (a) E (Xi εi) = Xi E (εi) = 0, ou seja: erro aleatório não correlacionado com Xi, onde Xi`s são valores fixados. * E (∑ εi) = ∑ E (εi) = 0, que se refere a uma amostra de erros de uma população, sendo que esses erros são não-correlacionados. Além disso, são válidas as seguintes suposições do modelo de regressão em termos da distribuição de probabilidade da variável Y: 13 (iii) (a`) Y → E (Yi) = α + βX VAR (Yi) = σ2 , sendo α, β e σ2 a determinar. (b`) Yi`s → não correlacionados 5. Propriedades Estatísticas dos Estimadores Assume-se que: (iii) c) O termo do erro é normalmente distribuído (erros de medida e omissão de variáveis pequenos e independentes entre si). Yi → combinação dos εi`s, normalmente distribuída, sendo: Yi = α + βXi +εi. Assim, a linha de regressão estimada XβˆαˆYˆ += deve estar próxima ao verdadeiro modelo Y = α + βX, onde as estimativas de α e β, os estimadores βˆeαˆ , são variáveis aleatórias ou seja, tem E ( αˆ ), VAR( αˆ ), E ( βˆ ) e VAR ( βˆ ) (Figura 13). Para que se possa entender melhor este ponto supõe-se que se tenha N valores fixados de Xi, em uma determinada amostra (A1), de forma que se tenha Yi valores associados a esses N valores de Xi. Com esses valores de X e Y, estima-se β → )βˆ( . E )βˆ( e VAR )βˆ( , E )αˆ( e VAR )αˆ( . Figura 13- A natureza probabilística dos estimadores βˆeαˆ β / )βˆ( α / )αˆ( A1 A2 X1 população Yi Yi ↔ Xi N 14 Toma-se outra amostra de pares de valores Xi e Yi, obtendo novos N valores de Yi associados aos N valores de Xi, com os quais estima-se um novo β → )βˆ( . Note-se que os εi`s são diferentes, sempre. Com esse procedimento, pode-se obter uma distribuição de estimativas de β )βˆ( , sendo: βˆ = 2 i ii x yx ∑ ∑ com respectivos valor esperado e variância, aos quais aplica-se os testes estatísticos. O mesmo raciocínio se estende ao estimador αˆ . 6. Critérios de Avaliação dos Estimadores São exemplicados a seguir quatro critérios de avaliação dos estimadores. 1) Ausência de tendenciosidade (viés = 0) Define-se o viés como: Viés = E )βˆ( - β, onde β é o verdadeiro parâmetro (Figura 14). Figura 14- Exemplo de viés Quando N → número grande, N Xi∑ é estimador não-viesado da verdadeira média da população. Da mesma forma, observa-se que: 1N )X(X 2i − ∑ − é estimador não-viesado da verdadeira variância da população, em cujo denominador tem-se N-1, pois X foi fixado para estabelecer os desvios. 2) Eficiência 15 βˆ é um estimador não-viesado eficiente se a VAR )βˆ( é menor que a variância de qualquer outro estimador não-viesado. Maior eficiência implica que são mais fortes as afirmações estatísticas sobre os estimadores. Quando a variância é igual a zero (0), isto implica que se está tratando do parâmetro verdadeiro da regressão. 3) Erro Quadrático Médio Mínimo (MSE) MSE )βˆ( = E 2β)-βˆ( = E [ 2β)]βˆ()βˆ-βˆ( −+ = ... = VAR )βˆ( + [viés )βˆ( ]2, sendo E )βˆ( = βˆ . Observa-se uma interrelação (“trade-off”) entre viés e variância para se obter maior precisão ou seja, o “trade-off” de maior precisão entre o viés e a variância implicando pequena variância e algum viés. 4) Consistência Este critério diz respeito a quando o tamanho da amostra N tender a ser grande (Figura 15) verificar-se propriedades assintóticas, definidas pelo limite em probabilidade de βˆ ou p lim βˆ : p lim βˆ ⇔ lim Prob 1 δ) |)βˆ-β| (( =< , de forma que: p lim βˆ = β. N → ∞ δ > 0, pequeno Figura 15- Exemplo das propriedades assintóticas com aumento do tamanho amostral Na prática, o critério de estimação é a consistência ou seja: estimador viesado mas consistente pode não ser igual ao valor de β na média mas aproxima-se dele para N muito Prob βˆ βˆβ N muito grande Pequeno N 16 grande. Como exemplo, usa-se N no denominador para obter estimador da variância populacional, de forma a ter ∑ − N )X(X 2i como um estimador viesado mas consistente da variância populacional (base das estimações robustas). Como alternativa para a consistência pode-se ter por critério: MSE → 0 quando N → ∞, o que significa que se tem um estimador não-viesado assintóticamente cuja variância → 0 quando N → ∞. 7. Obtenção da Média e o Desvio Padrão dos Melhores Estimadores Lineares Não Tendenciosos ou “Best Linear Unbiased Estimators” (BLUEs) Considerando-se que βˆeαˆ são os estimadores de mínimos quadrados do modelo de regressão Yi = α + βXi + εi, pelo Teorema de Gauss-Markov se estabelece que “ βˆeαˆ são os melhores (mais eficientes) estimadores lineares não tendenciosos de α e β” no sentido de que esses estimadores tem variância mínima em relação aos estimadores não tendenciosos de α e β, ou seja: βˆeαˆ são BLUEs. O Teorema não se aplica a estimadores não-lineares. É possível que existam estimadores não-lineares não tendenciosos e com variância menor que a dos estimadores de mínimos quadrados. Além disso, um estimador tendencioso pode ter variância menor que os estimadores de mínimos quadrados. Estimadores ditos robustos, não-lineares e tendenciosos, com mínimos MSE, tem sido estudados e utilizados em aplicações práticas (embora não sejam objeto do presente estudo). Como já visto, os estimadores βˆeαˆ são variáveis aleatórias, com respectivas média e variância. Considerando-se que XXx ii −= e YYy ii −= , pode-se escrever E (yi) = βxi e βˆ = ∑ ∑ 2iii x/yx , onde é definida a constante ci = ∑ 2i i x x de forma que βˆ = ∑ = N 1i iiyc . Assim: βˆ = ∑ ∑ ∑+∑=+= iiiiiiiii εcβxc)εβx(cyc (I) Obtém-se: 17 E )βˆ( = )E(εcβxc iiii ∑+∑ * E )βˆ( = βxcββxc iiii =∑=∑ , logo βˆ é estimador não tendencioso, onde 1x x xxc i2 i i ii =⎥⎦ ⎤⎢⎣ ⎡ ∑∑=∑ (II) De modo similar: VAR )βˆ( = E 2 β) -βˆ( Substituindo (I) em VAR )βˆ( , tem-se que VAR )βˆ( = E 2iiii ]βεcβxc[ −∑+∑ . β -βˆ Observa-se que β -βˆ = =−∑+∑ βεcβxc iiii ( iiii εcβ1)xc ∑+−∑ De (II) tem-se que 1xc ii =∑ , logo β -βˆ = iiεc∑ , sendo ( β -βˆ )2 = ( iiεc∑ )2 ∴ VAR )βˆ( = E ( β -βˆ )2= E [ iiεc∑ ]2 VAR )βˆ( = E [( 11εc ) 2 + ( 22εc ) 2 + ...] + E [(2c1c2ε1ε2) + ...] Ora, E (εiεj) = 0, i ≠ j, assim: VAR )βˆ( = E ( 11εc ) 2 + E ( 22εc ) 2 + ... = = c12 E (ε1)2 + c22 E (ε2)2 + ... = = c12 σ12 + c22 σ22 + ... = σ2∑ci2, pois, na presença de homocedasticidade, E (εi)2 = cte = σi2 = σ2. Ora, ∑ci2 = ∑=∑ ∑ 2 i 22 i 2 i x 1 )x( x , logo: VAR )βˆ( = σ2 / ∑xi2 , xi = Xi - X De forma similar pode-se obter que: E )αˆ( = α 0 18 VAR )αˆ( = ⎥⎦ ⎤⎢⎣ ⎡ −∑ ∑ 2 i 2 i2 )X(XN X σ COV ( βˆ,αˆ ) = 2 i 2 x σX ∑ − É preciso remarcar que se βˆ =∑ iiyc é uma combinação linear de variáveis yi e se yi é normalmente distribuída, βˆ é uma variável aleatória normalmente distribuída, o que implica que os testes de hipótese são válidos para βˆ . Além disso, observa-se que, de acordo com o Teorema do Limite Central, se o tamanho da amostra cresce, a distribuição da média amostral de uma variável independentemente distribuída tende para a normalidade. Com isso pode-se afirmar que, mesmo no caso dos yi não serem normalmente distribuídos, a distribuição de βˆ é, ainda assim, assintóticamente normal. Ou seja, para amostras de grande tamanho: ⎥⎦ ⎤⎢⎣ ⎡ ∑ 2i 2 x σ β,N~βˆ , de onde extrai-se o critério amostral: maior variância na amostra de Xi leva a menor variância de βˆ . ⎥⎦ ⎤⎢⎣ ⎡ ∑ ∑ 2 i 2 i2 xN X σα,N~αˆ , cuja variância reduz-se a σ2/N se X = 0 na amostra. 2 i 2 x σX )βˆ,αˆ( COV ∑−= , onde se observa que, se X > 0, superestimar αˆ corresponde a subestimar βˆ e vice-versa. Observa-se que: 2σ é o verdadeiro valor da variância do erro. Utiliza-se S2 como estimador não-viesado 2σˆ de 2σ ou seja: S2 = 2σˆ = 2N )Xβˆαˆ(Y 2N εˆ 2ii 2 i − −−∑=− ∑ . 8. Aplicação de Testes de Hipóteses e Intervalos de Confiança aos Estimadores Define-se o intervalo de confiança como o intervalo de valores que contém, com uma determinada probabilidade (1-n.s.), ou um nível de significância estatística (n.s.), os verdadeiros parâmetros da regressão. Nele se baseiam os testes de hipóteses estatísticas. 19 Em geral estabelece-se a hipótese nula ou seja, de que o efeito não está presente. Para o modelo ser explicativo, a hipótese nula deve ser rejeitada. Ao associar-se ao conjunto amostral um modelo de regressão, é objetivo analisar os dados de forma a testar o modelo ajustado e avaliar a adequação de novos modelos. Desta forma, realizam-se os testes de hipóteses, tendo resultados que podem levar a uma seqüência de testes de modelos. Ou seja: (a) Informação inconsistente com o modelo: Rejeição do modelo; novo modelo é considerado. (b) Informação consistente com o modelo: Modelo aceito até que novas hipóteses ou nova informação permitam novos testes. Os testes são aplicados a um nível de significância (n.s.). Por exemplo, o que significa: nível de significância de 5%? Significa que, se a hipótese nula for rejeitada neste nível, é fato que ela estava correta pelo menos 5% das vezes. O nível de significância pode ser compreendido como o índice de erro aceito ao estabelecer o modelo de regressão (ou erro Tipo 1). O teste estatístico para rejeitar a hipótese nula associada ao coeficiente da regressão baseia-se usualmente na distribuição t de “Students”. Essa distribuição é relevante pois nela utiliza-se a estimativa amostral da variância do erro, ao invés de seu valor verdadeiro (na população). Para compreender a formação dos intervalos de confiança e o procedimento do teste, inicialmente obtém-se a estatística t com N-2 graus de liberdade (considerando-se o modelo com dois estimadores) como: tN-2 = 1/22 iβˆ )xS/( ββˆ S ββˆ ∑ −=− , com a qual se obtém a padronização do valor estimado βˆ . Constrói-se em torno de estatística tN-2 um intervalo de confiança tal que: -tc < tN-2 < tc , que tem (1-n.s.)% de probabilidade de conter o verdadeiro valor do parâmetro, onde tc corresponde ao valor tabelado da estatística t de “Students” para um nível de significância (n.s.) ou probabilidade (1-n.s.), com N-2 graus de liberdade (N é o tamanho da amostra e 2 representa o número de estimadores). 20 Assim, seja por exemplo a probabilidade de 95% de que o valor padronizado pertença ao intervalo de confiança: Prob (- tc < tN-2 < tc) = 0,95 por exemplo, onde tc = 1,96, com N – 2 graus de liberdade, N tendendo a um número grande. Prob 0,95t )xS/( ββˆt c1/22 i c =⎥⎥⎦ ⎤ ⎢⎢⎣ ⎡ <∑ −<− significa que há 95% de probabilidade de que β está contido no intervalo entre βˆ ± tc 1/22 i )x( S ∑ = βˆ ± tc S βˆ . Da mesma forma, estabelece-se o intervalo: αˆ ± tc S αˆ = αˆ ± tc ∑ ∑ 1/22 i 1/22 i )x(N )X(S O teste de hipótese é definido de forma que: Ho = hipótese nula β = 0, Hipótese alternativa β ≠ 0. Nesse caso, sendo o valor padronizado: βˆ S ββˆ− , se β = 0 ⇒ c βˆ t S βˆ ≥ , sendo tc = 1,96, por exemplo. 1.96 condição de rejeição de Ho Como regra prática: a 5% n.s., se 2 Sˆ βˆ β > → rejeito Ho. Deve ser remarcado que não rejeitar Ho não significa aceitá-la. O procedimento de teste nos fala sobre a situação de rejeitar a hipótese nula (e aceitar a estimativa de β) quando na verdade a hipótese nula é verdadeira em n.s. % das vezes. São exemplos de testes de hipóteses para situações com presença de sazonalidade: Caso 1 21 Ct = β1 + β2 Yt + εt não há variação do tipo sazonal, logo não há teste de hipótese para avaliar a presença de sazonalidade. Caso 2 Ct = β1 + β2 Yt + α Dt + εt , onde Dt representa a variação sazonal. E (Ct) = β1 + β2 E (Yt) ou E (Ct) = (β1 + α) + β2 E (Yt) Caso 3 Ct = β1 + β2 Yt + γ (Dt Yt) + εt E (Ct) = β1 + β2 Yt ou E (Ct) = β1 + (β2 + γ) Yt Caso 4 Ct = β1 + β2 Yt + α Dt + γ (Dt Yt) + εt 9. O Coeficiente de Ajustamento ou Determinação: Os resíduos de uma regressão dão uma medida da qualidade do ajustamento. Como regra, tem-se que: 0 paz 1 guerra σ2 constante teste: α=0, verifica se a mudança é significativa entre diferentes períodos. Os testes para α=0 e para γ=0 avaliam se há mudança significativa entre diferentes períodos sazonais. teste: γ=0, verifica se a mudança é significativa e altera a taxa de mudança em Ct associada a Yt. 22 Grandes resíduos → ajuste ruim Pequenos resíduos → bom ajuste Observe-se que os resíduos têm unidade relativa ao problema. Intuitivamente, ao obter-se 2 y 2 σ )resíduo( tem-se a geração de parâmetros para comparações. É esse raciocínio que inspira a definição de uma medida de qualidade do ajustamento ou aderência, o coeficiente de ajustamento R2 (ou coeficiente de determinação). Seja a Figura 16 a seguir, onde se tem a representação da linha ajustada a um conjunto de observações de X e Y. Figura 16- Obtenção dos desvios entre a variável observada, a linha ajustada e o seu valor médio Analisando o valor Y, pode-se obter a variação total de Y como o somatório do quadrado dos desvios das observações em relação à média amostral: Variação (Y) = ∑ − 2i )Y(Y , onde: )YYˆ()Yˆ(YYY iiii −+−=− , De forma que: 23 ∑ ∑ ∑ −−+−+−=∑ − )YYˆ()Yˆ(Y2)YYˆ()Yˆ(Y)Y(Y iii2i2ii2i De forma simbólica, escreve-se: TSS = ESS + RSS Regressão Erro Total Dividindo-se os dois lados da equação por TSS (a variação total de Y): 1 = TSS RSS TSS ESS + Define-se o coeficiente de ajustamento R2 como a relação entre a variação de Y explicada pela regressãoe a variação total. Assim, , sem , 0 ≤ R2 ≤ 1. Observe-se que R2 é função dos parâmetros estimados. Na Figura 17 são representadas duas situações-limite para o valor de R2: ajustamento perfeito (a), e caso em que a relação linear não se ajusta aos dados amostrais (b). Figura 17 – Exemplos de situações-limite do ajustamento iyˆ 0 ⇓ variação residual de Y (não explicada) (ESS) ⇓ variação total de Y (TSS) ⇓ variação explicada de Y (RSS) ii xβˆyˆ = iiεxβˆ2∑ iεˆ R2 = 1 - TSS RSS TSS ESS = 24 Uma outra maneira de se obter R2 é mostrada a seguir. Seja: XXx;YYy iiii −=−= ii xβˆyˆ = iii εˆyˆy += ∑ ∑ ∑ ∑++= ii2i2i2i εˆyˆ2εˆyˆy ⇓ ⇓ = 0 (nas equações normais da regressão) ∑ 2iy = + 2iεˆ∑ + ( 00βˆ2 = ), onde 2 i 2 xβˆ ∑ = ∑ 2iy - 2iεˆ∑ . Lembrando que o coeficiente de ajustamento é função de 2i 2 i yeyˆ , ou seja, as variações 2i )YYˆ( − e 2i )Y(Y − , e considerando-se a relação anterior obtida: R2 = ∑ ∑=∑ ∑= 2 i 2 i2 2 i 2 i y x βˆ y yˆ TSS RSS => R2 = 1 - ∑ ∑ 2 i 2 i y εˆ 10. Interpretação da Variação em Y em termos da Análise de Variância As medidas relativas a TSS, RSS e ESS devem ser convertidas em variâncias, por sua divisão pelos graus de liberdade associados ao processo de sua obtenção. Assim, Variância total em Y = 1N TSS − Variância explicada em Y = 1 RSS (explicado) (total) média Resíduo da regressão ∑ ii εˆxβˆ2 ∑ ii εˆxβˆ2 2 i 2 xβˆ ∑ 25 Variância residual em Y = 2N ESS − βˆ,Xouβˆ,αˆ Define-se a relação de variâncias: explicadanãovariância explicadavariância − , como uma boa medida (complementar ao coeficiente de determinação) da qualidade do ajustamento, permitindo que se avalie a existência de relação linear em Y e X. Essa medida permite que se aplique o teste estatístico da equação de regressão. O teste da equação de regressão que testa a existência de relação linear entre Y e X baseia-se na estatística F de “Snedecor” associada à essa relação de variâncias. Assim, obtém-se a estatística F1,N-2, com 1 e N-2 graus de liberdade, como: F1,N-2 = explicadanãovariância explicadavariância − = 2ESS/N RSS/1 − , que segue a distribuição F com 1, N-2 graus de liberdade no numerador e no denominador, respectivamente. F1, N-2 = 2 2 i 2 S xβˆ ∑ ⇔ F1, N-2 = 0 → somente quando 01 RSS = , onde S2 = 2-N εˆ 2i∑ Como orientação, Dessa forma, estabelece-se o teste da equação de regressão onde: Hipótese Nula (H0): Relação linear não explicada (F1, N-2 = 0) Xi S2 F1, N-2 pequenos Relação linear fraca Relação linear forte F1, N-2 grandes 26 Os valores da distribuição F estão tabelados, onde se obtém valores de Fcrítico (Fc). Dessa forma, Tabela F1, N-2 → Fc n.s. % 1, N-2 graus de liberdade 11. O Modelo de Regressão Múltipla O caso geral de modelo de regressão múltipla significa que existem várias variáveis Xi explicativas da variação em uma outra (Yi). Assim, escreve-se o modelo de regressão múltipla a k variáveis ou parâmetros: Yi = β1 X1i + β2 X2i + ... + βk Xki + εi onde X1i = 1 i = 1,2,…, N β1, β2, ... βk são os coeficientes parciais da regressão. São válidas as seguintes suposições para o modelo: i) A especificação do modelo é linear ii) X`s não-estocásticos. Não há relação linear exata entre os X`s (senão: multicolinearidade). iii) E (εi) = 0 E (εi)2 = σ2 E (εi . εj) = 0, i ≠ j εi ~ N [0, σ2] Por simplicidade, considere-se o modelo a 2 variáveis independentes: Yi = β1 + β2 X2i + β3 X3i + εi ⇒ 3i32i21i XβˆXβˆβˆYˆ ++= E (Yi) = β1 + β2X2i + β3X3i E (Yi)2 = σ2 Os coeficientes da regressão podem ser obtidos por: 22 Sσˆ = se F1, N-2 > Fc rejeito Ho se F1, N-2 < Fc não posso rejeitar 27 33221 XβˆXβˆYβˆ −−= ∑ ∑ ∑ ∑ ∑ ∑ ∑ − −= 2 3i2i 2 3i 2 2i 3i2ii3i 2 3ii2i 2 )xx()x()x( )xx()yx()x()yx( βˆ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − −= 2 3i2i 2 3i 2 2i 3i2ii2i 2 2ii3i 3 )xx()x()x( )xx()yx()x()yx( βˆ sendo que as estimativas das variâncias podem ser obtidas por: ...S2 jβˆ = =− −=− ∑ ∑ ∑ ∑ ∑ ∑ ∑ 22 3i2i 2 3i 2 2i 2 3i2i 2 3i 2 2i 2 3i 2 2 22 ])xx(x.x[ ])xx(xx[xσ ])βE[(b j = 1, ..., k k = 3 ∑ ∑ ∑ ∑ −= 23i2i23i22i 2 3i 2 )xx(xx xσ 22 bβˆ = E[(b3 - β3)2] = ... ∑ ∑ ∑ ∑ −= 23i2i23i22i 2 2i 2 )xx(xx xσ 33 bβˆ = Pode-se demonstrar também que: , ])xx(xx[ N )XX(XX[σ ])βE[(b 2 3i2i 2 3i 2 2i 2 3i2i 2 3i 2 2i 2 2 11 ∑−∑∑ ∑−∑∑=− sendo .βˆb 11 = Cov (b2, b3) = 2 3i2i 2 3i 2 2i 3i2i 2 )xx(xx xxσ ∑−∑∑ ∑− (a) A Significância dos Coeficientes do Modelo de Regressão Múltipla A derivação das estatísticas dos estimadores no modelo de regressão múltipla é obtida através da Álgebra Matricial. Apresenta-se a seguir sumário dos resultados mais relevantes: i) Os estimadores de mínimos quadrados de βj, j = 1, ... , k são BLUEs Quando o erro ~ N (0, σ2), estes estimadores são também os estimadores de máxima verossimilhança. 28 ii) S2 = kN εˆ 2i − ∑ é uma estimativa consistente e não-viesada de σ2. iii) Quando o erro é normalmente distribuído, testes t podem ser aplicados pois os valores padronizados dos parâmetros βj seguem essa distribuição de probabilidade de forma que: jβˆ jj S ββˆ − ~ tN-k, j = 1, ..., k (b) Avaliação da Qualidade do Ajustamento: Teste F, R2 e R2 Corrigido Seja: Yi = β1 + β2 X2i + ... + εi, com k variáveis ou k parâmetros Yi - Y = )YYˆ()Yˆ(Y ii −+− ⇓ Total = Residual + Explicada ∑ 2i2ii2i )YYˆ()Yˆ(Y)Y-(Y −∑+−∑= ⇒ O coeficiente de ajustamento: R2 = )Y(Y εˆ 1 )Y(Y )YYˆ( TSS RSS i 2 i 2 i 2 i −∑ ∑−=−∑ −∑= mede a qualidade do ajustamento Algumas questões se impõem ao uso isolado do R2 como medida do ajustamento. Entre elas: 1) Em sua obtenção parte-se do pressuposto da boa especificação 2) R2 → depende do número de variáveis independentes. A adição de variável independente pode não ser adequada, mas não deve baixar R2 Além disso, o uso isolado do R2 tem valor limitado, pois pode ocorrer bom ajustamento (leia-se aqui: bom R2) do modelo global porque variáveis independentes estão fortemente correlacionadas entre si, com baixos valores de t e altos desvios padrão individuais. TSS = ESS + RSS 29 Para avaliar a significância do R2 realiza-se o teste F k-1, N-k , com k-1 e N-k graus de liberdade no numerador e denominador, respectivamente, representando o número de variáveis independentes e o grau de variação não explicada. Para realizar o teste de hipótese Fk-1, N-k, obtém-se: Define-se medida complementar da qualidade do ajustamento: R2 corrigido ou 2R , que é obtido, por definição, em função de variâncias. kN εˆ S 2 i2 −= ∑ 2R = 1 - var(Y) )εˆvar( 1N )Y(Y 2i − ∑ − Note-se que: Variação não explicada R2 = 1 - ∑ − ∑ 2 i 2 i )Y(Y εˆ é igual a 1 - 1)-(N var(Y) k)(NS2 − Variação total Assim, pode-se derivar a relação entre R2 e 2R : 2R = 1 – (1 – R2) kN 1N − − (N>k), para a qual: 1. k = 1 ⇔ R2 = 2R 2. k > 1, R2 ≥ 2R , sendo que 2R pode ser negativo. 2R é sensível à informação usada para estimar k parâmetros. Fk-1, N-k = 1k kN R1 R2 2 − − − 30 (c) Comparando Modelos de Regressão Seja o 2R obtido por: 2R = 1 - Var(Y) )εˆVar( -, onde (1 - 2R ) = 2 Y 2 S S e S2 = (1 - 2R ) 2YS . A equação de S2 permite concluir que S2 decresce se 2R aumenta, pois 2YS (variância de Y) depende de Yi e Y e independe do modelo formulado. Neste ponto são necessárias algumas considerações. Por exemplo, R2 ≈ 1 indica bom modelo explicativo. Mas qual é seu valor na previsão? Para nortear essa resposta, deve ser destacado que R2 deve aumentar ao adicionar- se uma variável explicativa pouco importante ao modelo, mas se esse aumento ocorrer com um decréscimo em 2R e um aumento em S2 (impacta a variância do erro de previsão; significa perda de precisão do modelo de previsão), essa variável não deve constar da formulação definitiva do modelo. Nota-se que a adição de uma variável explicativa (k cresce) irá diminuir a variação não explicada em Y (ESS = ∑ − = N 1i 2 i ))Yˆ(Y , entretanto a variância S 2 = kN ESS − poderá diminuir ou aumentar (depende da variação do numerador e do denominador). (d) Construindo Modelos de Regressão com o Método de Máxima Melhoria em R2 (MAXR) O Método da Máxima Melhoria em R2 é composto de etapas sucessivas para ajustar modelo composto de n variáveis explicativas aos dados: Y ↔ Xi ... Xn S2 2 YS 31 Etapas: 1) Avaliação dos coeficientes de ajustamento dos modelos a 2 variáveis: 11,11 XbˆaˆYˆ += → 21R . . . 21,22 XbˆaˆYˆ += → 22R . . . nn1,n XbˆaˆYˆ += → 2nR Assim, t1xbˆaˆYˆ += modelo a duas variáveis 2) Modelos a 3 variáveis: pp2,t1 XbˆXbˆaˆYˆ ++= , novo modelo, onde Xp é a variável associada ao maior R2 (valor abaixo do R2 do modelo escolhido na etapa anterior). Estratégia: “Troca-se” cada variável no modelo (Xt e Xp) com cada variável fora do modelo, de forma a saber se haverá uma troca de variável (entre as dentro e as fora do modelo) que irá melhorar o R2 do modelo. Resultado: Novo modelo a três variáveis. 3) Modelos a 4 variáveis: Toma-se o melhor modelo a três variáveis e adiciona-se uma nova variável (aquela associada ao maior R2 na etapa 1, por exemplo). Procede-se à troca entre as três variáveis de dentro com as de fora do modelo. A composição com maior R2 ⇒ novo modelo a 4 variáveis. 4) Repete-se o procedimento, até obter o modelo a n variáveis. Busca do maior R2: t1XbˆaˆYˆ += t1,1 bˆbˆ = do modelo com o maior R2 32 Exercício 1 - Regressão Estabeleça, com suas palavras, um paralelo entre o método MAXR e o processo de comparação de modelos a partir de R2, R 2 e S2, considerando-se o modelo de vendas do detergente Fresh (30 observações semanais) (Bowerman e O´Connel, 1987), onde: Yt ≡ centenas de milhares de embalagens vendidas em cada período de observações t; xt1 ≡ preço (US$) do detergente Fresh no período t; xt2 ≡ o preço médio dos detergentes competidores (US$); xt3 ≡ o gasto em propaganda no período t (em centenas de milhares de US$); xt4 ≡ xt2 – xt1 ≡ diferença de preços entre a média do mercado e o Fresh; xt5 ≡ t1 t2 x x ≡ razão entre preços (alternativa a xt4). O modelo a quatro variáveis independentes (ou a 5 variáveis): Yt = βo + β1xt4 + β2xt3 + β3 x2t3 + β4 xt4xt3 + εt tem as seguintes estatísticas associadas: 1. ESS = 1,0644 2. Variação Explicada = 12,3942 3. R2 = 9209,0 4586,13 3942,12 TotalVariação ExplicadaVariação == 4. S2 = 0426,0 25 0644,1 530 0644,1 kN ESS ==−=− 5. =⎥⎦ ⎤⎢⎣ ⎡ − −⎥⎦ ⎤⎢⎣ ⎡ − −−= kN 1N 1N 1kRR 22 = 9083,0 530 130 130 159029,0 =⎥⎦ ⎤⎢⎣ ⎡ − −⎥⎦ ⎤⎢⎣ ⎡ − −− O mesmo que kN 1N)R(11R 22 − −−−= N > k Adicionando-se a variável independente xt4 x2t3 v3 v1 (⇒ linearizado) ...) v2 33 Yt = βo + β1xt4 + β2xt3 + β3 x2t3 + β4 xt4xt3 + β5 xt4 x2t3 + εt 1. ESS decresce para 1,0425 2. Variação explicada pelo modelo cresce para 12,4161 3. R2 (cresce) = 9225,0 4586,13 4161,12 = 4. S2 (cresce) = 0,0434 630 1,0425 npN ESS =−=− 5. 0,8701R 2 = Embora R2 cresça, S2 cresce e 2R diminui, logo o poder preditivo decresce, desaconselhando a manter a nova variável independente no modelo. 34 Exemplo: DATA (QUATERLY, 1954-1 até 1971-4, em US$) Função de con.s.umo (Ct) Variáveis independentes: yt renda disponível, Ct-1 con.s.umo no período anterior. Modelo III → St = Yt - Ct ⇒ variável dependente representando renda disponível após con.s.umo (“savings function”). St = α3 + β3Yt + ε3t Coeficientes Valores Estatístico t Modelo I 1αˆ 1βˆ R2 = 0,9977 14,51 0,88 ESS = 966,50 7,03 173,06 SER = 3,72 Modelo II 2αˆ 2βˆ 2yˆ R2 = 0,9989 5,52 0,31 0,65 ESS = 440,70 3,06 4,85 8,78 SER = 2,55 Modelo III 3αˆ 3βˆ R2 = 0,8961 -14,51 0,12 ESS = 966,5 -7,03 24,57 SER = 3,72 12. Considerações Adicionais: a Correlação Parcial As correlações parciais variam no intervalo [-1,1]. Elas são medida de importância relativa das variáveis independentes no modelo. Seja: i3i32i21i εXβXββY +++= . σ Cresceu pois não há multicoli- nearidade disposição ao con.s.umo Abaixou em relação ao R2 mod. I )65,01( 31,0 − = 0,88 significante mod I Ct = α1 + β1 yt + ε1t mod II Ct = α2 + β2 yt + γ2Ct-1 + ε2t 35 O coeficiente de correlação parcial entre Y e X2 mede o efeito de X2 em Y sem levar em conta outra variável do modelo. Os passos para sua obtenção são: 1. Regressão Y em X3 321 XαˆαˆYˆ += 2. Regressão X2 em X3 3212 XγˆγˆXˆ += 3. Remover influência de X3 em Y e X2 Assim, obtém-se: Y* = Y – Yˆ X2* = X2 - 2Xˆ 4. A correlação parcial entre X2 e Y é a correlação simples entre Y* e X2*. Conhecendo-se a definição de correlação parcial, pode-se derivar a relação entre a correlação parcial e a correlação simples ( 2YX r , 3YX r , 3YX r ), de forma que: 32 .XYX r 2YX r 32 .XYX r = 1/22 YX 1/22 XX XXYXYX )r(1)r(1 r.rr 332 3232 −− − , onde: 3YX r 32 .XYX r é o coeficiente de correlação parcial 32 .XX r É possível também derivar a seguinte relação entre o coeficiente de ajustamento R2, que mede a múltipla correlação no modelo, e a correlação parcial: 32 X 2 YX .r = 3 3 YX 2 YX 22 r1 rR − − ou 1-R2 = )r(1)r(1 323 .XYX2YX2 −− Observa-se uso freqüente do coeficiente de correlação parcial como apoio nas escolhas do procedimento de composição do modelo de regressão denominado “Stepwise” (as variáveis adicionadas ao modelo devem maximizar 2R ). Esse coeficiente dá medida do impacto de cada variável independente sobre a variável dependente, sendo particularmente útil com grande número de variáveis independentes. 36 13. Teste de Chow: um Teste para a Estabilidade Estrutural dos Modelos É importante saber se a estabilidade estrutural do modelo se mantém ao longo do tempo em que se obtém informações de suas variáveis. O teste de Chow é um teste da estatística F que permite avaliar se um modelo adequado a um conjunto de informações continua válido para valores mais recentes amostrais. O procedimento do teste é o seguinte: • Combinar todas as (N1 + N2) informações e ajustar um modelo de regressão a esse conjunto amostral. Calcular a soma do quadrado dos resíduos (ESS0) com N1 + N2– k graus de liberdade, onde k é o número de parâmetros estimados (incluindo o termo constante). • Ajustardois modelos aos N1 e N2 subconjuntos amostrais, que não precisam ser de mesmo tamanho, calculando as respectivas somas do quadrado dos resíduos (ESS1 e ESS2), com graus de liberdade N1-k e N2-k. • Adicionar as somas do quadrado dos resíduos desses dois subconjuntos amostrais e subtrair essa adição do valor ESS0 inicialmente calculado (modelo ajustado ao conjunto total de dados). • Calcular a estatística F: )2N N/()( /)}({ 2121 210 kESSESS kESSESSESS F −++ +−= , com k e N1 + N2– k graus de liberdade. • Se o valor da estatística F for significativo a n.s. % , a hipótese de que não existe significativa diferença entre os modelos deve ser rejeitada e pode-se concluir que o modelo completo é estruturalmente instável. Observe-se que: S2 = kN ESS − , onde ESS é soma do quadrado dos resíduos e S 2 é a estimativa amostral da variância do erro para amostras de tamanho N. 14. O Modelo de Regressão Múltipla com Variáveis Explanatórias Estocásticas Suposição: X´s ~ distribuição de probabilidade. São pressupostos: 1. A distribuição de cada variável explanatória é independente dos verdadeiros parâmetros de regressão. 37 2. Cada variável explanatória é distribuída independente dos verdadeiros erros no modelo. Pode-se afirmar que as propriedades dos estimadores de mínimos quadrados ordinários (MQO) de consistência e eficiência permanecem para grandes amostras, não sendo afetadas na condição de que os valores das variáveis independentes e os erros sejam independentes um do outro. Os parâmetros de regressão estimados são estimados condicionados a determinados valores de X`s. Sob os pressupostos acima, continuam a ser estimadores de máxima verossimilhança. 15. Violação dos Pressupostos Básicos do Modelo de Regressão Clássico É preciso determinar quando os pressupostos são violados e quais os procedimentos de estimação são adequados nesses casos. Sejam exemplos de violação: 1) Em relação à forma funcional: Yi = β1 + β2X2i + ... + βk Xki + εi erro de especificação erro de construção do modelo 2) Em relação às variáveis explanatórias: X`s média e variância finitas não correlacionadas com erros (variável estocástica) erros de medida solução através de variáveis instrumentais não existe relação linear entre X´s forte relação linear entre variáveis explanatórias (multicolinearidade) 3) Em relação ao pressuposto de normalidade dos resíduos: εi ~ N (0, σ2) e distribuídos independentemente E (εi) ≠ 0 muda intercepto (α*) ausência de normalidade: os estimadores de MQO permanecem não- viesados e consistentes mas nada se pode dizer sobre a verossimilhança. 38 Nesse caso diz-se que os testes são aproximadamente válidos ou seja, são válidos quando o tamanho da amostra N → ∞. Outras violações são os casos de heteroscedasticidade e correlação serial, discutidos a seguir. 16. O Problema da Multicolinearidade Uma forma de detectar multicolinearidade é através da porcentagem de variação explicada (RSS/TSS) associada a alguma variável sendo introduzida no modelo de regressão. Se a porcentagem RSS/TSS decrescer, a multicolinearidade explica este fato. Como regra prática, quando o coeficiente de correlação simples entre duas variáveis aleatórias independentes for ≥ 0,7, isso significa indício de problema de multicolineariedade. A multicolinearidade é um problema associado à amostra de dados. A presença da multicolinearidade implica que há pouca informação na amostra para dar confiança na interpretação da situação em análise. Se existe multicolineariedade, os resultados da regressão podem estar errados. Passos para avaliar a multicolineariedade: Passo no 1: Testar nova amostra de dados. Há indicação de multicolineariedade, por exemplo, quando o teste t indica insignificância estatística dos estimadores e R2 ou estatística F são altos. Passo no 2: Nessa situação, a matriz de correlação deve ser investigada. Todas as variáveis independentes altamente correlacionadas devem ser retiradas exceto uma. Embora essa seja uma solução, há perda de valor dos estimadores dos parâmetros. É importante ressaltar que: 1. É possível haver variáveis independentes altamente correlacionadas (altos coeficientes de correlação) e a regressão não ter problemas de multicolinearidade. 2. Se o teste t indicar significância do estimador, é sinal que a multicolinearidade não é séria para fins de previsão. 39 Entretanto na presença de multicolinearidade os parâmetros individuais não são valores satisfatórios. O exame dos desvios padrão dos coeficientes pode indicar se a multicolinearidade está causando problemas. Assim, se vários coeficientes tem altos desvios padrão e, ao retirar-se duas ou mais variáveis do modelo, observa-se baixarem os desvios padrão, a multicolinearidade é provavelmente a origem disto. Uma outra regra prática, válida para o caso de duas variáveis independentes: Se a correlação simples entre duas variáveis independentes for maior que a correlação de pelo menos uma delas com a variável dependente, a multicolinearidade é um problema. A multicolinearidade é um problema computacional que se amplia quando duas ou mais variáveis independentes estão altamente correlacionadas (nos cálculos aparece a indeterminação 0/0). (a) Explicação do Problema Considere-se o modelo: i3i32i21i εXβXββY +++= , i = 1, ..., N No caso extremo, por exemplo, tem-se: 3i2i δXγX += , uma relação exata. Se essa relação for conhecida: não há problema. Essa relação pode ser reescrita: 3i2i δxx = , fazendo 22i2i XXx −= e 33i3i XXx −= , por exemplo. Dessa forma, 0 0 )x(δ)x(δ xxyδxxyδ βˆ 22 3i 222 3i 2 2 3i3ii 2 3i3ii 2 =∑−∑ ∑∑−∑∑= e 0 0...βˆ3 == indeterminação. Var )βˆ( 2 = )r(1x σ )xx(xx xσ 23 22 2i 2 2 3i2i 2 3i 2 2i 2 3i 2 −∑=∑−∑∑ ∑ , onde r23 é o coeficiente de correlação simples entre X2 e X3, de forma que: r23 = 2 1 2 3 2 2 32 )xx( xx ∑ ∑ (Thomas, (1978), págs. 132, 217). 40 Como r23 → ± 1 (alta correlação), e Var )βˆ( 2 → ∞ e Var )βˆ( 3 → ∞, a aplicação dos mínimos quadrados falha neste caso. O problema da multicolinearidade é razoavelmente fácil de reconhecer, mas difícil de resolver, pois exige soluções como a retirada de variáveis explicativas do modelo, o que não deve ser feito sob risco de retirar-se importante variável por causa de seu baixo valor de t. Quando o modelo é projetado para a previsão, muitas vezes é preferível manter no modelo as variáveis que a teoria indica que explicam a variável independente e que sejam fáceis de prever. Uma vez que a multicolinearidade tenha sido resolvida, deve-se verificar se outros pressupostos do modelo clássico foram violados. 17. O Problema de Heteroscedasticidade A heteroscedasticidade ocorre quando as variâncias são variáveis. Seja por exemplo os gastos de indivíduos de renda baixa e alta. É esperado que exista uma impossibilidade de variar no caso de renda baixa e uma grande variabilidade nos gastos de indivíduos de renda alta, com excedente em relação aos gastos obrigatórios mensais (Figura 18). Figura 18- Variabilidade nos gastos de indivíduos de acordo com a renda Em conjuntos de dados de séries temporais, é raro observar-se a heteroscedasticidade, pois a relação é com tempo. Entretanto, ela é frequente em conjuntos de dados de corte transversal, como o exemplo citado acima. Na presença de heteroscedasticidade, assume-se; εi ~ N (0, σ2i) Var(εi) = E(εi2) = σ2i Gastos de indivíduos de renda baixa alta41 Em presença de σ2i, o procedimento de MQO dá maior peso, naturalmente, às observações com maiores variâncias, o que leva a estimadores não-viesados e consistentes, mas que não são eficientes (variâncias do MQO não são as mínimas). Na derivação de βˆ , onde ii XβˆαˆYˆ += ou, com a transformação de variáveis, ii xβˆyˆ = , iii εβxy += , logo iii εyˆy += , 2 i ii x yx βˆ ∑ ∑= ⇒ β + 2 i ii x εx ∑ ∑ E )βˆ( = β + β x )εxE( 2 i ii =∑ ∑ , logo 2iσ não importa na derivação do valor esperado. Entretanto, na derivação de Var )βˆ( = 2 i 2 x σ ∑ , σ 2 não pode ser concluído. O uso da expressão Var )βˆ( = 2 i 2 x σ ∑ para obtenção da variância do estimador leva a estimativas tendenciosas das verdadeiras variâncias e a aplicação dos testes a resultados incorretos. Dessa maneira são definidos procedimentos para a correção e teste da heteroscedasticidade. (a) Procedimentos para correção da heteroscedasticidade Caso 1: Variâncias são conhecidas Var(εi) = σi2 conhecidas a priori. Uso dos Mínimos Quadrados Ponderados (caso especial dos mínimos quadrados generalizados). Seja o modelo a duas variáveis: ii XβˆαˆYˆ += min 2 i ii σ XβˆαˆY ⎥⎥⎦ ⎤ ⎢⎢⎣ ⎡ −−∑ ou min 2 i ii σ xβˆy ⎥⎥⎦ ⎤ ⎢⎢⎣ ⎡ −∑ ∴ βˆ = 2* i * i * i )(x yx ∑ ∑ , i i* i σ xx = e i i* i σ yy = , onde primeiro obtém-se a transformação das variáveis dividindo-as por σi, para em seguida subtraí-las dos seus valores médios. 42 No caso do modelo de regressão múltipla, obtém-se: i i* i σ YY = , i ji* ji σ X X = , i i* i σ ε ε = , j = 1, ..., k * i * 2i2 * 1i1 * i ε...XβXβY +++= , onde i * 1i σ 1X = ou seja, a equação ajustada não tem intercepto, sendo que: Var(εi*) = Var ⎥⎦ ⎤⎢⎣ ⎡ i i σ ε = 1 σ σ σ )Var(ε 2 i 2 i 2 i i == . Caso 2: Variâncias desconhecidas mas estimadas nas amostras Seja a Tabela 2, onde são tabulados os gastos com a casa de indivíduos, agrupados em grupos de acordo com a variação nesses gastos, com as faixas de renda familiar variando entre R$ 5.000,00 e R$20.000,00. Após proceder à análise dos dados em que observa-se que os gastos variam diferentemente por cada uma das faixas de renda, obtém- se as variâncias desses gastos por grupo, o que é apresentado na Tabela 3. Tabela 2 Grupos (Yi) gastos com a casa ($1.000) (Xi) renda familiar ($1.000) 1 1,8 2,0 2,0 2,0 2,1 5,0 2 3,0 3,2 3,5 3,5 3,6 10,0 iii εβXαY ++= 3 4,2 4,2 4,5 4,8 5,0 15,0 4 4,8 5,0 5,7 6,0 6,2 20,0 Yi = 890,0 + 0,237 Xi (4,4) (15,9) estimativa de MQO R2 = 0,93 F = 252,7 Análise do Dados (plotar) Heteroscedasticidade As variâncias estimadas por grupo representam uma possibilidade de correção para o Caso 2. A correção sugerida sege a correção do Caso 1, por exemplo. Tabela 3- Variâncias estimadas por grupo 1 9.800 2 50.400 3 102.400 4 302.400 A correção sugerida segue a correção do Caso 1. 43 Caso 3: Variâncias do erro variam diretamente com uma variável independente Assume-se: Var(εi) = C Xi2 uma das variáveis independentes ≠ 0 Por exemplo: Var(εi) = 22iXC em ikik2i21i εXβ...XββY ++++= onde a transformação das variáveis do modelo define o novo intercepto: 2 2i 2i2 β X Xβ = . Aplica-se os mínimos quadrados ponderados com as variáveis: 21 i* i X YY = 21 ji* ji X X X = 21 i* i X ε ε = onde: Var(εi*) = Var 2i i X ε = C X )Var(ε 2 2i i = A estimação com dados do exemplo do Caso 2 permite obter: * i i ** i i ε X 1 αβ X Y ++= ii i X 1752,90,249 X Y += R2 = 0,76 F = 58,7 Houve transformação na variável dependente (R2 não deve ser comparado ao anterior). (b) Testes para Verificar Heteroscedasticidade Hipótese Nula (Ho): σ12 = σ22 = ... = σN2, em N observações (Homocedasticidade) Hipótese Alternativa: Heteroscedasticidade Teste 1: Teste de Bartlett (a partir dos dados amostrais). Passos do teste: 44 1. Estima-se Sg2 = ⎥⎥⎦ ⎤ ⎢⎢⎣ ⎡ gN 1 ∑ − = Ng 1i 2 i )Y(Y para cada grupo de observações, g = 1, 2, ..., G, onde: Sg2 = 2gσˆ 2. Teste S, sendo S = ∑ −−+ ∑ ∑− = = = G 1g g G 1g G 1g 2 gg 2 gg (1/N)])(1/N[]1)(G[1/31 SlogN]S/N)(N[logN 3. Na situação de homocedasticidade ⇒ S ~ Qui-quadrado com (G-1) graus de liberdade Hipótese Nula: Variâncias iguais em todos os grupos Se S > Scrítico (tabela χ2) ⇒ rejeito Ho 4. Rejeição de Ho ⇒ modificação de MQO No exemplo do Caso 2: S = 10,7 Scrítico, 3 graus de liberdade = 7,81, 5% n.s. Teste 2: Teste de Goldfeld-Quandt Hipótese Nula: Homocedasticidade Hipótese Alternativa: σi2 = C Xi2 45 Procedimentos gerais do teste: Linha de regressão com dados associados às baixas variâncias * Cálculo de duas linhas de regressão + linha de regressão com dados associados às grandes variâncias Assim: 1. Ordenação dos dados de acordo com a magnitude de uma das variáveis independentes (relacionada à magnitude da variância do erro). 2. Omite-se d informações centrais (d ≈ 1/5 N), e ajusta-se 2 regressões aos 2 dN − dados e k 2 d)(N −− graus de liberdade. 3 Calcula-se ESS1 (menores valores) e ESS2. 4. Pressupõe-se 1 2 ESS ESS ⇒ distribuição F[N-d-2k)/2 graus de liberdade no numerador e no denominador] Se 1 2 ESS ESS > Fcrítico ⇒ rejeito Ho Ao utilizar-se maiores valores de d, melhora-se o teste. Erros normalmente distribuídos Erros não correlacionados serialmente 46 Seja o mesmo exemplo anterior (em que d = 0): 1. Rendas menores ($5.000 e $10.000) Yi = 600,00 + 0,276 Xi (3,1) (11,3) R2 = 0,94 ESS1 = 3,0 x 105 2. Rendas maiores ($15.000 e $20.000) Yi = 1.540,0 + 0,20 Xi (1,4) (3,1) R2 = 0,55 ESS2 = 20,2 x 105 Teste 3: Teste de White O procedimento do teste de White determina que, em um primeiro passo, se avalie o ajustamento entre os resíduos da regressão original estimada e as variáveis explanatórias formuladas conforme o modelo: ε 2i = γ+ φ X 2i + δ Z 2i + θ Xi Zi + νi, que permite não-linearidades e para o qual se obtém o coeficiente de ajustamento ou determinação R2, sendo que Zi e Xi correspondem às variáveis explanatórias da regressão original das quais se suspeita serem a origem da heteroscedasticidade. Em seguida é obtida a estatística Qui-quadrado para o teste, em que se calcula o valor: χ 2 = N R2, onde N é o tamanho da amostra que ajustou a regressão que deu origem aos resíduos ε 2i . Se N R2 for um valor significativo com p graus de liberdade e (1-n.s.)% de probabilidade significa que o modelo sugerido para relacionar o quadrado dos resíduos e as p variáveis explanatórias indica heteroscedasticidade (no modelo formulado, p=3). 6,7 ESS ESS 1 2 = Fcrítico = 6,03 (8,8) graus de liberdade 6,7 > 6,3, logo, rejeito Ho 47 Por exemplo, se Xi for a única variável da qual se suspeita ser a origem da heteroscedasticidade, deve-se calcular a estatística χ 2 para o modelo: a) ε 2i = γ+ φ X 2i + νi , e avaliar sua significância com 1 grau de liberdade, ou b) Sugere-se que o modelo inclua as variáveis explanatórias X i e X 2 i , e o teste seja feito com 2 graus de liberdade. 48 Exemplo Considere-se o modelo de regressão estimado: 1t61t51t41t36t21t PβˆEβˆIβˆISβˆDIβˆβˆDSˆ −−−−− +++++= (highly trended time-series). N = 88 grausde liberdade = 82 S = 263,4 R2 = 0,93 0,92R 2 = Soma dos (Resíduos2) = 5,7 x 106 F5,82 = 220,6 Coeficiente Valor Desvio Padrão t Média Coeficientes parciais (de correlação) 1βˆ 12.091,0 2.321,0 5,2 1,0 2βˆ 0,109 0,06 1,8 15.507,9 0,19373 3βˆ -1.690,3 483,6 -3,5 1,96 -0,36010 4βˆ -76,2 65,6 -1,2 5,28 -0,12719 5βˆ 5.585,6 974,4 5,7 2,96 0,53486 6βˆ -175,6 34,4 -5,1 105,1 -049147 (coef. corr. parcial)2 = (0,53)2 = 0,28 da variância da variável dependente SD. Exercício: Questão 1 escolher uma série sazonal e estimar seus parâmetros, R2, testes, ... 49 18. O Problema da Correlação Serial Na análise de dados de séries temporais, principalmente, é freqüente a correlação entre os termos de erro em períodos de tempo adjacentes. A presença de correlação serial de 1ª ordem significa que os erros em um período estão correlacionados diretamente aos erros no período seguinte. Por exemplo, a previsão superestimada de taxa de vendas para um período provavelmente induz a superestimativas dos períodos seguintes (exemplo de correlação serial positiva). A correlação serial entre termos de erro é positiva, na maioria das séries temporais. Isto deve-se, por exemplo, ao efeito de variáveis omitidas ou erros de medida. Como regra geral, a presença de correlação serial não afeta a não-tendenciosidade e a consistência dos estimadores de mínimos quadrados (MQO) mas afeta a eficiência (variância). No caso de correlação serial positiva a “perda” de eficiência é mascarada pelo fato de que as estimativas dos desvios padrão obtidas (pelo MQO) são menores que os verdadeiros desvios padrão (desvio padrão viesado para menos). Com isso os parâmetros da regressão podem ser considerados mais precisos do que realmente são. Além disso, o intervalo de confiança é mais estreito, fazendo com que a hipótese nula seja rejeitada quando ela não deveria sê-lo. Intuitivamente, as duas situações da Figura 19 ocorrem: Figura 19- Exemplos de ajustamentos de modelos de regressão a dados serialmente correlacionados (positivamente) No caso de correlação serial positiva, R2 é melhor do que deveria ser. Como representado na Figura 19, são observadas duas situações de ajustamento ao longo do 50 conjunto amostral: (a) βˆ < β e (b) βˆ > β . Na média, entretanto, há ausência de viés (ou seja, os estimadores estão corretos). Entretanto, a medida do sucesso da estimação estará super avaliada se a variância estimada for utilizada em testes. Desta forma, devem ser introduzidas medidas de correção e de teste sobre a presença da correlação serial dos erros ou autocorrelação. a) Correção para a autocorrelação: Assume-se erros ~ N (0, σε2) mas E (εt εt-1) ≠ 0 T...,1,t,εXβ...XββY tktk2t21t =++++= Assume-se que os erros correlacionem-se serialmente conforme: 1ρ0,vερε t1tt ≤≤+= − Processo autoregressivo de 1ª ordem, onde 0)vE(v);σN(0,~v 1tt 2 vt =− e 0)εE(v tt = . O efeito do erro num determinado instante de tempo sobre os demais períodos decresce no tempo. Isto é fácil de observar por meio das covariâncias dos erros. Assim, se: Var (εt) = E (ε2t) = E [(ρ εt-1 + vt)2] = = E[ρ2ε2t-1 + v2t + 2 (ρεt-1 . vt)] = ρ2 Var (εt-1) + Var (vt) = ρ2 Var (εt) + Var (vt) Var (εt) = σ2ε = 2v 2 ρ1 σ − , Cov (εt, εt-1) = E (εt, εt-1) = = E [(ρ εt-1 + vt) . εt-1] = E [ρ ε2t-1 + vt . εt-1] = ρ E (ε2t-1) = ρ Var(εt) = ρ σ2ε , de forma similar obtém-se: Cov (εt, εt-2) = E (εt, εt-2) = ρ2 σ2ε Cov (εt, εt-3) = E (εt, εt-3) = ρ3 σ2ε São válidas as seguintes observações adicionais no estudo de correlação serial: 1. Sobre o termo de erro para o primeiro período: Não há dados sobre valores anteriores que o influenciaram. Assim, assume-se: ε1 ~ N (0, ) ρ1 σ 2 v 2 − 51 2. Assume-se a seguinte expressão para obtenção de ρ: ρ = ε 2 1tt σ )ε,(εCov − , sendo 2 1 1t 2 1 tε 2 )Var(ε)Var(εσ −= (I) Correção na hipótese: ρ conhecido a priori Neste caso, é feito um ajustamento do procedimento de regressão por mínimos quadrados, aplicando o método das diferenças generalizadas para recálculo das variáveis, de forma que: 1tt * t YρYY −−= Assim: Yt = .... Yt-1 = β1 + β2 X2t-1 + ... + βk Xkt-1 + εt-1 Essa equação é multiplicada por ρ x (-1), de forma que se obtém: * tY = β1(1-ρ) + β2 X*2t + ... + βk X*kt + vt , onde vt não são correlacionados entre si, sendo: Y*t = Yt - ρYt-1, X*2t = X2t - ρX2t-1, vt = εt - ρεt-1 var(εt) = 2v 2 ρ1 σ − 0 ≤ ρ < 1 . Observa-se que o intercepto do modelo original (β1) deve ser calculado a partir do intercepto obtido para a equação transformada *tY . Quando: ρ = 1 ⇒ “primeira diferença”. Obtém-se. ∑−= k 2 ii1 XβˆYβˆ , pois nessa situação o intercepto é nulo. Ou seja: Y*t = β2 X*2t + ... + βkX*kt + vt Y*t = Yt – Yt-1, X*2t = X2t – X2t-1, vt = εt - εt-1 (II) Correção na hipótese: ρ não é conhecido a priori Neste caso são sugeridos três procedimentos alternativos: - O Procedimento de Cochrane - Orcutt 52 1º passo: Estimação do modelo original por mínimos quadrados. Definição de “erros estimados” (resíduos) 2º passo: Utilização dos resíduos como dados de base para a estimação. t1tt vεˆρεˆ += − parâmetro estimado )ρˆ( 3º passo: Uso do parâmetro estimado )ρˆ( para compor as diferenças generalizadas. 1tt * t YρˆYY −−= 1ktkt * kt XρˆXX −−= 4º passo: Estimar parâmetros da equação transformada Y*t = β1(1- ρˆ ) + β2X*2t + ... + vt k321 βˆ,...,βˆ,βˆ,βˆ 5º passo: Definir e obter: ktk2t21tt Xβˆ...XβˆβˆYεˆˆ −−−−= 6º passo: Estimar parâmetro da regressão. t1tt εˆˆρεˆˆ v+= − Nova estimativa de ρ 7º passo: Pare o procedimento ou continue até que, 1º, 2º estimativas de ρ foram obtidas por exemplo: ρ - ρanterior ≤ 0,01 ou 0,005 Problema: valor obtido pela minimização da soma dos quadrados dos resíduos pode ser mínimo local (x mínimo global). - O Procedimento de Hildreth-Lu 53 Os passos do procedimento são os seguintes: 1º passo: Escolha de valores alternativos para ρ ⇒ escolhido em um conjunto de valores entre 0 e 1. Por exemplo ρ= ρ 2º passo: Para cada ρ , estimar Y*t = β1 (1- ρ ) + β2X*2t + ... + vt e calcular a soma dos quadrados dos resíduos 3º passo: ρ ótimo ⇒ menor soma dos quadrados dos resíduos. 4º passo: Pare o procedimento (estabelecendo critério de parada) ou continue estabelecendo nova variação de valores em torno do ρ ótimo, recomeçando no 1º passo. Esse procedimento pode garantir máxima verossimilhança. Como precaução, no entanto, deve-se ter atenção na escolha de valores dos coeficientes para definir ρ ótimo de forma que sejam bem espaçados e deve-se também variar o conjunto inicial. - O Procedimento de Durbin 1º passo: A partir das diferenças generalizadas do modelo linear: Yt - ρ Yt-1 = β1 (1-ρ) + β2 (X2t - ρX2t-1) + ... + vt, que permite obter: Yt = β1 (1-ρ) + ρ Yt-1 + β2X2t - ρβ2X2t-1 +...+ βkXkt - ρβkXkt-1 + vt, estima-se ρˆ aplicando a estimação de mínimos quadrados (ρˆ é o coeficiente estimado para a variável Yt-1). 2º passo: Substitui-se ρˆ na equação: Yt - ρˆ Yt-1 = β1 (1- ρˆ ) + β2 (X2t - ρˆ X2t-1) +...+ βk (Xkt - ρˆ Xkt-1) + vt 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 54 Com esse conjunto de variáveis estima-se novo conjunto de parâmetros (mais eficiente que o anteriormente obtido). (b) Testes para correlação serial Hipótese nula ⇒ ρ = 0 Hipótese Alternativa ⇒ ρ ≠ 0 (ou ρ > 0 ou ρ < 0) O teste mais popular para a correlação serial é o teste de Durbin-Watson. Existem testesalternativos, como o teste de Durbin, que se aplicam a situações específicas observados na amostra e modeladas (ver Durbin, J. (1970), “Testing for Serial Correlation in Least-Squares Regression When Some of the Regressors are Lagged Variables”, Econometrica, vol. 38, pp.410-421; Siegel, S. (1956), “Nonparametric Statistics for the Behavioral Sciences”, Mc Graw-Hill e Theil. H. (1965), “The Analysis of Disturbances in Regression Analysis”, Journal of the American Statistical Association, Vol. 60, pp. 1067-1079). (b1) Teste de Durbin-Watson No teste de Durbin-Watson, é calculada a estatística DW, cujo valor permite concluir sobre a presença ou não de significativa correlação serial. São procedimentos do teste: Sejam 1tt εˆ,εˆ − ⇒ resíduos da aplicação de MQO Calcula-se: DW = ∑ ∑ − = = − T 1t 2 t T 2t 2 1tt εˆ )εˆεˆ( , situando essa estatística de acordo com valores tabelados conforme a Figura 20. O teste não pode ser usado (por definição) quando o modelo de regressão inclui, como variável explanatória, a variável dependente defasada. Observa-se que, quando(Figura 20): tεˆ próximos a 1-tεˆ (autocorrelação positiva) ⇒ baixos DW Nova Variável Dependente Nova Variável Independente Nova Variável Independente 55 tεˆ opostos a 1-tεˆ (autocorrelação negativa) ⇒ altos DW Caso DW = 2 ⇒ correlação serial de 1ª ordem: ausente. dL e dU ⇒ obtidos na Tabela DW, a 5% n.s, k’ variáveis, onde k’= k-1 (exclui-se o intercepto) e de acordo com o tamanho (T) da amostra. 4 – dL < DW < 4: rejeito Ho; há correlação serial negativa. 4 – dU < DW < 4 – dL: inconclusivo. 2 < DW < 4 - dU: não há. dU < DW < 2: não há. dL < DW < dU: inconclusivo. 0 < DW < dL: há correlação positiva. Figura 20- Variação de valores para a avaliação da presença de correlação serial As regiões de indeterminação do teste devem-se à seqüência de resíduos ser influenciada pelas variáveis independentes. Por outro lado, a análise do modelo de regressão a duas variáveis leva à conclusão que DW ≈ 2 (1 - ρˆ ) podendo este resultado ser obtido a partir da relação DW = ∑ ∑ = = −− T 1t 2 t T 2t 2 1tt εˆ )εˆεˆ( inicial. Exemplo: COAL = 12,262 + 92,34 FIS + 118,57 FEU- 48,90 PCOAL + 118,91 PGAS (Demanda) (3,51) (6,46) (7,14) (-3,82) (3,18) R2 = 0,692 F(4,91) = 51,0 DW = 0,95 (DW< dL, logo há correlação positiva) Hildreth-Lu ⇒ ρ = 0,6 56 COAL* = 16,245 + 75,29 FIS* + 100,26 FEU*- 38,98 PCOAL* + 105,99 PFAS* (3,3) (4,4) (3,7) (-2,0) (2,0) DW = 2,07 ⇒ Ho aceita (2<DW< 4-dU) nas condições: 5% n.s., 96 observações e 4 variáveis independentes, para os valores de dL = 1,58 e dU = 1,75 tabelados. (b2) O teste de Durbin Este teste aplica-se ao caso em que a variável dependente defasada é variável independente no modelo. Para isto calcula-se a estatística h que vai testar a presença de correlação serial no caso citado. Essa estatística é definida por: h = ρˆ { N/(1-N VAR ( βˆ )}1/2 para N VAR ( βˆ ) <1, onde: ρˆ = (1-1/2 DW), VAR ( βˆ ) é a variância estimada do coeficiente da variável defasada Y t-1. O teste é válido para amostras de grande tamanho (N>30) (embora na prática seja aplicado também em amostras pequenas). A estatística é testada como um desvio da distribuição normal. Se h > 1,645, rejeita-se a hipótese nula de que os resíduos não tem correlação serial a 5 % de nível de significância. 19. A Previsão com o Modelo de Regressão O modelo de regressão de uma equação (singular) é base para dois tipos de previsão: (a) as previsões pontuais, às quais associam-se intervalos de confiança, dando origem a (b) previsões de intervalos de confiança da previsão, construídos de forma a que se observe uma margem de erro em torno da previsão pontual, definindo bandas de (1- n.s.)% de confiança (n.s. é o nível de significância). As previsões são guias para as decisões e dão orientação para a (re)construção do modelo de regressão, na medida que se tenha informação atual da situação em análise. Elas se distinguem em ex “post” e ex “ante”, conforme o período previsto se baseie ou não no conjunto de dados amostrais correntes das variáveis independentes (Figura 21): 57 (a) Período das previsões ex “post”: usado para a avaliação do modelo de previsão. Essas são previsões ditas incondicionais (valores das variáveis independentes conhecidos). (b) Período das previsões ex “ante”: essas previsões podem ser incondicionais ou condicionais. Seja por exemplo: Figura 21- Distinção entre previsão ex “post” e ex “ante” Pode-se definir como sendo a melhor previsão aquela com variância mínima em seu erro de previsão. Pode-se afirmar que as estimativas de MQO levam às melhores previsões não tendenciosas com modelos lineares (BLUEs). O erro do procedimento de previsão está associado aos seguintes pontos: 1. Natureza aleatória do termo aditivo do erro. 2. O processo de estimação envolve erro ao estimar parâmetros que tendem aos verdadeiros parâmetros, mas diferindo deles. 3. Previsão condicional introduz erros ao calcular valores esperados para as variáveis independentes ou explanatórias. 4. Erro de especificação do modelo (≠ do modelo real). O erro de previsão é, aqui, avaliado em três situações: (A) previsão incondicional, (B) previsão incondicional com erros serialmente correlacionados e (C) previsão condicional, que traz inerente maior dificuldade. Períodos de previsão T1 ex“post” estimação Período da Tempo T ex “ante” T2 T3 (atual) S(t) = ao + b1 X(t-3) + b2 Y(t-4) Incondicional até 3 períodos no futuro S(t) = ao t b1 X(t) + b2 Y(t) condicional 58 (A) Previsão Incondicional Na previsão incondicional os valores assumidos pelas variáveis independentes são conhecidos no período da previsão. Nesse caso diz-se que os valores são previstos quase – perfeitamente. Cita-se como exemplo de variáveis explanatórias: mês do ano e população no mês do ano, em um período de previsão (mensal) total de 1 ano. Os modelos para previsão incondicional são desejáveis pois removem erros do processo de previsão, ao serem construídos com base em variáveis explanatórias de previsão fácil e precisa. Seja: Yt = α + β Xt + εt, t = 1, 2, ..., T εt ~ N (0, σ2), a variável independente XT+1 conhecida. Pressuposto: α e β conhecidos ∴ Yˆ T+1 = E (YT+1) = α + β XT+1 erro de previsão: êT+1 = Yˆ T+1 – YT+1 Nesse caso, são válidas as seguintes propriedades do erro de previsão: 1. E ( 1Teˆ + ) = E ( 1TYˆ + - 1TY + ) = 0 = E (-εT+1) , ou seja: a previsão de YT+1 é um valor não-enviesado (isto é: correto na média). 2. A variância do erro de previsão (σp2 ) σp2 = E [( 1Teˆ + )2] = E [( 1Tε + )2] = σ2 ou seja, é a variância de MQO. Assim: erro de previsão ~ N (0, σ2) Para a avaliação da significância estatística dos valores previstos deve ser obtido o erro normalizado: λ = σ YYˆ 1T1T ++ − , onde λ ~ N (0, 1). Constrói-se o intervalo de confiança em torno do erro normalizado com 5% de nível de significância (Figura 22), de forma que: - λ0,0 5 ≤ σ YYˆ 1T1T ++ − ≤ λ0,05, onde λ0,05 é o valor de λcrítico que se obtém segundo a tabela da distribuição normal. 59 Figura 22- A previsão pontual e o intervalo de previsão com bandas de 95 % de confiança para a previsão incondicional Pode ser feita a avaliação do modelo de previsão após obter-se YT+1 e comparar-se seu valor
Compartilhar