Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Erros Na˜o Esfe´ricos no Modelo de Regressa˜o Linear, Casos Especiais Caso 1: Heteroscedasticidade Comum em regresso˜es cross-section. Implica que a variaˆncia do erro, condi- cional nos regressores, difere entre as observac¸o˜es. Ω = E [εε0|X] = V (ε1|X) cov (ε1, ε2|X) · · · cov (ε1, εn|X) cov (ε1, ε2|X) V (ε2|X) · · · cov (ε2, εn|X) ... ... ... cov (ε1, εn|X) cov (ε2, εn|X) · · · V (εn|X) = σ21 0 · · · 0 0 σ22 · · · 0 ... ... ... 0 0 · · · σ2n Para ser mais preciso, dever´ıamos nos referir a ela como heteroscedasticidade condicional. Exemplo 1: Uma regressa˜o cross-section de consumo das famı´lias em renda familiar, ci = α + βyi + εi. Famı´lias com uma renda e consumo mais altos provavelmente teˆm uma variaˆncia maior do erro. Assumindo a mesma variaˆncia para todas as famı´lias implica que, na me´dia, o erro quadra´tico me´dio teria que ter a mesma magnitude para algue´m com yi = $1.000.000 ou para algue´m com yi = $100. Exemplo 2: Dados agrupados. Suponha que tenhamos dados agrupados para um dado nu´mero de famı´lias dentro de cada um dos estados brasileiros e que o modelo verdadeiro seja yij = x0ijβ + εij onde i indexa os estados e j as famı´lias. Todos os ε0ijs na˜o sa˜o correlacionados e teˆm variaˆnca condicional σ2. Suponha que decidamos agrupar os dados por estado e rodar a seguinte regressa˜o yi = x0iβ + εi onde yi = 1nj Pnj j=1 yij , xi = 1 nj Pnj j=1 xij , εi = 1 nj Pnj j=1 εij e nj e´ o nu´mero de observac¸o˜es do estado j. 1 εi sera´ heterosceda´stico se o nu´mero de famı´lias diferir por estado: V (εi) = V µ 1 nj Pnj j=1 εij ¶ = 1 nj σ2 Portanto, agrupar os dados induz heteroscedasticidade. Estimac¸a˜o eficiente Quando Ω e´ conhecido Me´todo 1: Mı´nimos quadrados generalizados O estimador Ω−1 = 1 σ21 0 · · · 0 0 1σ22 · · · 0 ... ... ... 0 0 · · · 1σ2n ⇒ P = 1√ σ21 0 · · · 0 0 1√ σ22 · · · 0 ... ... ... 0 0 · · · q 1 σ2n Pre´ multiplique o modelo de regressa˜o linear por P : Py = PXβ + Pε ou y∗ = X∗β + ε∗ onde y∗ = y1 σ1y2 σ2 ... yn σn n×1 , X∗ = x11 σ1 x12 σ1 . . . x1Kσ1 x21 σ2 x22 σ2 . . . x2Kσ2 ... ... ... xn1 σn xn2 σn . . . xnKσn n×K , ε∗ = ε1 σ1 ε2 σ2 ... εn σn n×1 Portanto, GLS corresponde a uma regressa˜o de mı´nimos quadrados ordina´rios de y∗i = yi/σi em x ∗ i = xi/σi. Essa regressa˜o e´ a forma mais simples de mı´nimos quadrados ponderados. Note como essa transformac¸a˜o torna os erros ε∗ ho- mosceda´sticos. O estimador de mı´nimos quadrados generalizados nesse caso e´ dado por βˆGLS = (X ∗0X∗)−1X∗0y∗ = ¡ X 0Ω−1X ¢−1 X 0Ω−1y = µ nP i=1 1 σ2i xix0i ¶−1µ nP i=1 1 σ2i xiyi ¶ A variaˆncia de βˆGLS e´ V ³ βˆGLS ´ = (X∗0X∗)−1 = ¡ X 0Ω−1X ¢−1 = µ nP i=1 1 σ2i xix 0 i ¶−1 2 que, por sua vez, e´ menor que V ³ βˆOLS ´ = (X 0X)−1X 0ΩX (X 0X)−1 = µ nP i=1 xix 0 i ¶−1µ nP i=1 σ2ixix 0 i ¶µ nP i=1 xix 0 i ¶−1 como sabemos. Intuic¸a˜o Por que a ponderac¸a˜o produz um estimador mais eficiente? Voceˆ tem n observac¸o˜es de x e y, relacionadas por yi = x0iβ + εi. Voceˆ deseja inferir β. O erro adiciona perturbac¸a˜o adicional a` relac¸a˜o, tornando o seu trabalho mais dif´ıcil. Que observac¸o˜es de xi e yi conteˆm mais informac¸o˜es sobre β? Aquelas para as quais as equac¸o˜es contenham menor perturbac¸a˜o, isto e´, aquelas para as quais a variaˆncia do erro seja menor. Dando um peso maior a essas observac¸o˜es, voceˆ obte´m um estimador mais preciso (com menor variaˆncia). Exemplo Suponha que as diferenc¸as em σ2i entre as observac¸a˜o na˜o tendem a ser correlacionadas com as diferenc¸as em xi. Enta˜o e´ aproximadamente verdade para n grande que V ³ βˆGLS ´ = µ nP i=1 1 σ2i xix0i ¶−1 ' µµ 1 n nP i=1 1 σ2i ¶µ nP i=1 xix0i ¶¶−1 = µ nP i=1 xix 0 i ¶−1µ 1 n nP i=1 1 σ2i ¶−1 V ³ βˆOLS ´ = µ nP i=1 xix 0 i ¶−1µ nP i=1 σ2ixix 0 i ¶µ nP i=1 xix 0 i ¶−1 ' µ nP i=1 xix 0 i ¶−1µ 1 n nP i=1 σ2i ¶µ nP i=1 xix 0 i ¶µ nP i=1 xix 0 i ¶−1 = µ nP i=1 xix0i ¶−1µ 1 n nP i=1 σ2i ¶ Portanto, V ³ βˆOLS ´ V ³ βˆGLS ´ = µ 1 n nP i=1 σ2i ¶ µ 1 n nP i=1 1 σ2i ¶−1 = µ 1n nPi=1σ2i ¶µ 1 n nP i=1 1 σ2i ¶ ≥ 1 3 pois, pela desigualdade de Jensen, E h 1 σ2i i ≥ 1 E[σ2i ] ⇔ E £ σ2i ¤ E h 1 σ2i i ≥ 1. Note como MQO se torna progressivamente mais ineficiente a` medida que σ2i difere mais entre as observac¸o˜es. Assumindo uma dada distribuic¸a˜o para σ2i na populac¸a˜o, e´ poss´ıvel calcular exatamente a eficieˆncia relativa de mı´nimos quadra- dos generalizados com relac¸a˜o a mı´nimos quadrados ordina´rios. A matriz de variaˆncia de MQO calculada incorretamente e´ maior ou menor do que a matriz correta? Quando as diferenc¸as em σi entre as observac¸o˜es na˜o tendem a ser rela- cionadas com as diferenc¸as em xi, ela na˜o e´ sistematicamente menor ou maior. Mas se as diferenc¸as em σi entre as observac¸o˜es estiverem relacionadas com as diferenc¸as em xi, sera´ importante calcularmos os desvios-padro˜es corretos dados pela fo´rmula de White. Me´todo 2: Ma´xima verossimilhanc¸a. Mesmo que mı´nimos quadrados gener- alizados Quando Ω e´ desconhecido Me´todo 1: Mı´nimos quadrados generalizados fact´ıveis (FGLS) Como discutido anteriormente, no´s precisamos impor alguma estrutura em Ω a fim de estima´-la consistentemente. Considere os seguintes exemplos de mı´nimos quadrados generalizados fact´ıveis. Exemplo: Assuma que a heteroscedasticidade tenha a seguinte forma: σ2i = E £ ε2i |X ¤ = E £ ε2i |xi ¤ = α0+α1zi = z¯0iα, para z¯i = · 1 zi ¸ , α = · α0 α1 ¸ z e´ uma varia´vel aleato´ria que pode coincidir ou na˜o com um dos regressores. Para implementar mı´nimos quadrados generalizados fact´ıveis, procedemos da seguinte maneira: 1. Estime o modelo yi = x0iβ + εi usando MQO e compute os res´ıduos εˆi. 2. Use εˆ2i para obter estimativas consistentes de α0 e α1 (e, portanto, de σ2i ) atrave´s de uma regressa˜o por MQO de εˆ 2 i em uma constante e zi. Enta˜o calcule Ωˆ e o estimador de mı´nimos quadrados generalizados fact´ıveis βˆFGLS =³ X 0Ωˆ−1X ´−1 X 0Ωˆ−1y. 4 Como no´s sabemos que o segundo passo produz estimativas consistentes de α0 e α1 e, portanto, de σ2i ? αˆ = ³X z¯iz¯0i ´−1 ³X z¯0iεˆ 2 i ´ εˆi = yi − x0iβˆOLS = yi − x0iβ − x0i ³ βˆOLS − β ´ = εi − x0i ³ βˆOLS − β ´ Portanto, εˆ2i = ε 2 i + ³ x0i ³ βˆOLS − β ´´2 − 2εix0i ³ βˆOLS − β ´ Como ε2i = E £ ε2i |xi ¤ + ¡ ε2i −E £ ε2i |xi ¤¢ = α0 + α1zi + ui, ui = ε 2 i −E £ ε2i |xi ¤ segue-se que εˆ2i = α0+α1zi+ui+ ³ x0i ³ βˆOLS − β ´´2 −2εix0i ³ βˆOLS − β ´ = z¯0iα+ui+v1i+v2i Os dois u´ltimos termos na˜o importam para a distribuic¸a˜o assinto´tica de αˆ pela consisteˆncia de mı´nimos quadrados ordina´rios no primeiro esta´gio. A dis- tribuic¸a˜o assinto´tica de √ n (αˆ− α) e´, portanto, igual a` distribuic¸a˜o assinto´tica de ¡ 1 n P z¯iz¯0i ¢−1 ³ 1√ n P z¯0iui ´ . Assuma que µ 1 n X z¯iz¯0i ¶−1 = µ Z¯0Z¯ n ¶−1 p→ QZ¯0Z¯ por uma lei dos grandes nu´meros apropriada e que 1√ n X z¯0iui = 1√ n Z¯0u d→ N (0, B) (e, portanto, Z¯ 0u n p→ 0) por um teorema central do limite apropriado. As observac¸o˜es teˆm uma distribuic¸a˜o heterogeˆnea, pois ui e´ heterosceda´stico: E (ui|xi) = 0 mas V (ui|xi) = E h¡ ε2i −E £ ε2i |xi ¤¢2 |xii = E £ε4i |xi¤− ¡E £ε2i |X¤¢2 = E £ ε4i |xi ¤ − ¡ σ2i ¢2 Enta˜o, αˆ e´ consistente e assintoticamente normal: √ n (αˆ− α) d→ N ¡ 0, QZ¯0Z¯BQ 0¯ Z0Z¯ ¢ 5 Importante Embora mı´nimos quadrados generalizados fact´ıveis assintoticamente seja mais eficiente do que mı´nimos quadrados ordina´rios, e´ poss´ıvel que a variaˆncia do estimador de MQO seja menor do que a variaˆncia do estimador de FGLS em amostras pequenas. Isso porque FGLS requer a estimac¸a˜o de mais paraˆmetros. Suponha, por exemplo, que a variaˆncia dos primeiros n/2 termos de erro seja σ2a e que avariaˆncia dos u´ltimos n/2 termos de erro seja σ 2 b . No´s sabemos duas coisas: 1) Do teorema de Gauss-Markov, se σ2a = σ 2 b , MQO e´ eficiente. Portanto, se σ2a = σ 2 b , FGLS, permitindo que σ 2 a 6= σ2b , e´ ineficiente. 2) Da eficieˆncia assinto´tica de FGLS, se σ2a 6= σ2b , para n suficientemente grande, a variaˆncia do estimador de FGLS e´ menor do que a variaˆncia do esti- mador de MQO. Portanto, a questa˜o e´ qua˜o diferente σ2a e σ 2 b devem ser para que a variaˆncia de FGLS seja menor do que a variaˆncia de MQO para uma dada amostra finita. Isso dependera´ de como σ2i depende dos x 0s Me´todo 2: Ma´xima verossimilhanc¸a. A func¸a˜o de log-verossimilhanc¸a, assumindo normalidade dos erros com Ω = Ω (θ), era dada por lnL (y, β, θ) = −n 2 ln (2π)− 1 2 ln |Ω (θ)|− 1 2 (y −Xβ)0 (Ω (θ))−1 (y −Xβ) e, no caso de heteroscedasticidade, mas auseˆncia de autocorrelac¸a˜o, podia ser simplificada para lnL (y, β, θ) = −n 2 ln (2π)− 1 2 nP i=1 µ lnσ2i (θ) + 1 σ2i (θ) (yi − x0iβ) (yi − x0iβ) ¶ No exemplo anterior, σ2i = E £ ε2i |X ¤ = E £ ε2i |xi ¤ = α0 + α1zi. Portanto, lnL (y, β, θ) = −n 2 ln (2π)− 1 2 nP i=1 (ln (α0 + α1zi) + 1 α0 + α1zi (yi − x0iβ) (yi − x0iβ) ¶ que e´ enta˜o maximizada a fim de obter βˆMLE , αˆ0MLE e αˆ1MLE . No presente caso, ε2i = E £ ε2i |X ¤ = E £ ε2i |xi ¤ = α0 + α1zi na˜o depende de β. Portanto, mı´nimos quadrados generalizados e mı´nimos quadrados gener- alizados fact´ıveis sa˜o assintoticamente equivalentes a` ma´xima verossimilhanc¸a e, consequ¨entemente, assintoticamente eficientes. Isso pode ser comprovado 6 calculando-se a matriz de informac¸a˜o I = −E h ∂2 lnL(y,β,α0,α1) ∂ϕ∂ϕ0 i (ϕ0 = β, α0, α1) e invertendo-a. O elemento no canto superior esquerdo de I−1 e´ precisamente a variaˆncia de mı´nimos quadrados generalizados e de mı´nimos quadrados gen- eralizados fact´ıveis para esse exemplo. Testes de Heteroscedasticidade Teste de White H0 : σ2i = σ 2, ∀i H1 : H0 e´ falso a) Estime o modelo yi = x0iβ + εi por OLS e compute os res´ıduos εˆ 2 i b) Regresse εˆ2i em uma constante e em todas as combinac¸o˜es de xi ⊗ xi, excluindo-se a constante. Denote o nu´mero de regressores, excluindo-se a con- stante, por P e compute o R2. Sob H0, nR2 d→ χ2P Rejeite H0 se o valor observado de nR2 e´ maior do que o valor cr´ıtico. Teste de Goldfeld-Quandt Assume normalidade dos erros e divide os dados em dois grupos, com n1 e n2 observac¸o˜es. H0 : σ21 = σ 2 2 H1 : σ21 > σ 2 2 (inverta os subscritos se suspeita-se que a variaˆncia do grupo 2 seja maior). a) Estime o modelo yi = x0iβ + εi por OLS separadamente para cada grupo e compute os res´ıduos εˆ21 e εˆ 2 2. b) Sob H0, F = εˆ01εˆ1/ (n1 − k) εˆ02εˆ2/ (n2 − k) ∼ Fn1−k,n2−k Rejeite H0 se o valor observado de F e´ maior do que o valor cr´ıtico. Teste de Breusch-Pagan H1 : σ2i = σ 2f (α0 + z0iα1) (heteroscedasticidade), com p varia´veis em zi. H0 : α1 = 0 (homoscedasticidade) a) Estime o modelo yi = x0iβ + εi por OLS e compute os res´ıduos εˆ 2 i . 7 b) Regresse εˆ2i εˆ0εˆ n em uma constante e zi e compute a soma dos quadrados explicados. Sob H0, LM = 1 2 (soma dos quadrados explicados) d→ χ2P Rejeite H0 se o valor observado da estat´ıstica e´ maior do que o valor cr´ıtico. Teste LR para heteroscedasticidade entre grupos Assume normalidade dos erros e divide os dados em G grupos, com n1, ..., nG observac¸o˜es. Assume normalidade dos erros e divide os dados em dois gupos, com n1 e n2 observac¸o˜es. H0 : σ21 = ... = σ 2 G H1 : H0 e´ falso Sob H0 : lnL0 = −n2 ln (2π)− n 2 ln ¡ σ2 ¢ − 12σ2 Pn i=1 ε 2 i (modelo restrito) Sob H1 : lnL1 = −n2 ln (2π) − 1 2 PG g=1 ng ln ¡ σ2g ¢ − 12 PG g=1 ³ 1 σ2g Png i=1 ε 2 ig ´ (modelo irrestrito) Portanto, sob H0, LR = −2 (lnL0 − lnL1) = n ln σˆ2 − PG g=1 ng ln σˆ 2 g d→ χ2G−1 onde σˆ2 = εˆ 0εˆ n (σˆ 2 MLE do modelo restrito) e σˆ 2 g = εˆ0g εˆg ng (σˆ2g,MLE do modelo irrestrito) RejeiteH0 se o valor observado de LR e´ maior do que o valor cr´ıtico da χ2G−1. Podemos utilizar βˆ da regressa˜o utilizando todas as observac¸o˜es para calcular tanto εˆ quanto εˆg, ∀g, a fim de aumentar o poder do teste. Caso 2: Correlac¸a˜o serial Ω = E [εε0|X] = V (ε1|X) cov (ε1, ε2|X) · · · cov (ε1, εn|X) cov (ε1, ε2|X) V (ε2|X) · · · cov (ε2, εn|X) ... ... ... cov (ε1, εn|X) cov (ε2, εn|X) · · · V (εn|X) = σ21 σ12 · · · σ1n σ21 σ22 · · · σ2n ... ... ... σn1 σn2 · · · σ2n 8 Para o modelo AR(1), no´s temos yt = x0tβ + εt, εt = ρεt−1 + ut, ut ∼ N ¡ 0, σ2u ¢ , |ρ| < 1, t = 1, ..., T Nesse caso, σ2ε = γ0 = σ2u 1−ρ2 , γj = E [εtεt−j ] = ρ j σ 2 u 1−ρ2 , j > 1. Portanto, Ω = E [εε0|X] = σ21 σ12 · · · σ1n σ21 σ22 · · · σ2n ... ... ... σn1 σn2 · · · σ2n = σ2u 1− ρ2 1 ρ · · · ρT−1 ρ 1 · · · ρT−2 ... ... ... ρT−1 ρT−2 · · · 1 Derivac¸a˜o de σ2ε e γj para um processo AR(1). Xt = c+ ρXt−1 + εt onde εt e´ um ru´ıdo branco. Por substituic¸a˜o, Xt = c+ ρ (c+ ρXt−2 + εt−1) + εt = c+ ρc+ ρ 2Xt−2 + εt + ρεt−1 = c+ ρc+ ρ2 (c+ ρXt−3 + εt−2) + εt + ρεt−1 = c+ ρc+ ρ2c+ ρ3Xt−3 + εt + ρεt−1 + ρ 2εt−2 = c+ ρc+ ρ2c+ ...+ εt + ρεt−1 + ρ 2εt−2 + ... O termo do lado direito envolvendo X converge para 0 a` medida que con- tinuamos substituindo se |ρ| < 1. Portanto, E [Xt] = c 1− ρ γ0 = V [Xt] = σ2 1− ρ2 γj = cov (Xt,Xt−j) = E [(Xt − µ) (Xt−j − µ)] = E £¡ εt + ρεt−1 + ρ 2εt−2 + ... ¢ ¡ εt−j + ρεt−j−1 + ρ 2εt−j−2 + ... ¢¤ = ρjσ2 + ρj+2σ2 + ρj+4σ2 + ... = ρjσ2 1− ρ2 9 Estimac¸a˜o eficiente Quando Ω e´ conhecido Me´todo 1: Mı´nimos quadrados generalizados O estimador Ω−1 = 1 σ2u 1 −ρ 0 · · · 0 −ρ 1 + ρ2 −ρ ... 0 −ρ . . . 0 ... 1 + ρ2 −ρ 0 · · · 0 −ρ 1 + ρ2 ⇒ P = Ω−1/2 = 1 σu p 1− ρ2 0 0 · · · 0 −ρ 1 0 ... 0 −ρ 0 ... 1 0 0 · · · 0 −ρ 1 Pre´ multiplique o modelo de regressa˜o linear por P : Py = PXβ + Pε ou y∗ = X∗β + ε∗ onde y∗ = p 1− ρ2y1 y2 − ρy1 ... yT − ρyT−1 n×1 , X∗ = p 1− ρ2x01 x02 − ρx01 ... x0T − ρx0T−1 n×K , ε∗ = p 1− ρ2ε1 ε2 − ρε1 ... εT − ρεT−1 n×1 Note como essa transformac¸a˜o torna os erros ε∗ na˜o auto correlacionados. O estimador de mı´nimos quadrados generalizados e´ calculado da maneira usual por βˆGLS = (X ∗0X∗)−1X∗0y∗ = (X 0P 0PX)−1X 0P 0Py = ¡ X 0Ω−1X ¢−1 X 0Ω−1y 10 Intuic¸a˜o Por que esse procedimento produz um estimador mais eficiente que MQO? βˆOLS = argmin β ε0ε = argmin β ¡ ε21 + ...+ ε 2 T ¢ βˆGLS = argmin β (y∗ −X∗β)0 (y∗ −X∗β) = argmin β (y −Xβ)0Ω−1 (y −Xβ) = argmin β ε0Ω−1ε = argmin β ³¡ 1− ρ2 ¢ ε21 + (ε2 − ρε1) 2 + ...+ (εT − ρεT−1)2 ´ Portanto, MQO tenta escolher β de modo que cada um dos ε0ts seja zero. Se yt e xt, para uma observac¸a˜o particular, sa˜o tais que εt seria grande, a menos que β estivesse pro´ximo de um determinado valor, isso fara´ com que MQO escolha como estimativa de β um valor βˆ pro´ximo dessa observac¸a˜o particular. Esse e´, no entanto, um uso sub o´timo da informac¸a˜o dispon´ıvel. Suponha que ρ seja positivo e que εt−1 tambe´m seja positivo. Enta˜o E [εt|εt−1] = ρεt−1 > 0 e o valor verdadeiro de β satisfaz E [yt − x0tβ|εt−1] = ρεt−1. Portanto, no´s devemos tentar escolher βˆ de modo que εt = yt−x0tβ seja pro´ximo de ρεt−1, na˜o de zero. Isso e´ precisamente o que GLS faz, exceto para a primeira observac¸a˜o. Me´todo 2: Ma´xima verossimilhanc¸a. Mesmo que mı´nimos quadrados gener- alizados Quando Ω e´ desconhecido Me´todo 1: Mı´nimos quadrados generalizados fact´ıveis (FGLS) Na pra´tica, ρ e´ desconhecido. O seguinte procedimento de mı´nimos quadra- dos generalizados fact´ıveis e´ denominado Prais-Winsten (Cochrane-Orcutt se excluirmos a primeira observac¸a˜o). 1. Estime o modelo yt = x0tβ + εt usando MQO e compute os res´ıduos εˆt. 2. Estime o modelo εˆt = ρεˆt−1+vt usando MQO e compute ρˆ = PT t=2 εˆtεˆt−1PT t=2 εˆ 2 t−1 3. Transforme os dados da seguinte forma: y∗1 = q 1− ρˆ2y1, x∗1 = q 1− ρˆ2x1 y∗t = yt − ρˆyt−1, x∗t = xt − ρˆxt−1, t= 2, ..., T 11 4. Regresse y∗ em X∗ e obtenha βˆFGLS Se os erros forem AR(1), o primeiro passo e´ justificado pelo fato de que MQO e´ ainda consistente. Isso implica que ρ no segundo passo tambe´m e´ con- sistente e isso e´ tudo que e´ necessa´rio para implementar mı´nimos quadrados generalizados fact´ıveis. A exclusa˜o da primeira observac¸a˜o na˜o afeta as pro- priedades assinto´ticas do estimador, mas as propriedades em amostras finitas podem ser afetadas severamente se os regressores apresentarem uma tendeˆncia. Me´todo 2: Ma´xima verossimilhanc¸a. Se ε ∼ N (0,Ω (ρ)) (condicional em X), no´s podemos estimar β, ρ e σ2u por ma´xima verossimilhanc¸a. A func¸a˜o de log-verossimilhanc¸a e´ dada por lnL (y, β, ρ) = −T 2 ln (2π)− 1 2 ln |Ω (ρ)|− 1 2 ε0 (Ω (ρ))−1 ε = −T 2 ln (2π)− 1 2 ln |Ω (ρ)|− 1 2 (y −Xβ)0 (Ω (ρ))−1 (y −Xβ) Na˜o e´ conveniente maximizar a func¸a˜o de log-verossimilhanc¸a nessa forma. Reescreva-a como f (yt, ..., y1) = f (yt|yt−1, ..., y1) f (yt−1, ..., y1) = f (yt|yt−1, ..., y1) f (yt−1|yt−2..., y1) f (yt−2, ..., y1) = Qt s=2 f (ys|ys−1..., y1) f (y1) Como a distribuic¸a˜o conjunta de (y1, ..., yT ) , condicional em X, e´ normal, as distribuic¸o˜es condicionais na fo´rmula acima tambe´m sa˜o normais. Se |ρ| < 1 no modelo AR(1) , a distribuic¸a˜o de εt e´ independente de t e dada por εt ∼ N ³ 0, σ 2 u 1−ρ2 ´ , t=1,...,T Portanto, para t = 1 y1 = x 0 1β + ε1, ε1 ∼ N µ 0, σ2u 1− ρ2 ¶ ⇒ y1 = x01β + ε1 ∼ N µ x01β, σ2u 1− ρ2 ¶ Para t ≥ 2 yt − ρyt−1 = x0tβ − ρx0t−1β + εt − ρεt−1, εt − ρεt−1 ∼ N ¡ 0, σ2u ¢ ⇒ yt|yt−1, ..., y1 = yt|yt−1 = ρyt−1 + x0tβ − ρx0t−1β + εt − ρεt−1 ∼ N ¡ ρyt−1 + x0tβ − ρx0t−1β, σ2u ¢ Portanto, f (y1) = 1p 2πσ2u/ (1− ρ) exp à −1 2 (y1 − x01β) 2 σ2u/ (1− ρ) ! 12 f (yt|yt−1, ..., y1) = 1p 2πσ2u exp à −1 2 ¡ yt − ρyt−1 + x0tβ − ρx0t−1β ¢2 σ2u ! e, consequ¨entemente, a func¸a˜o de log-verossimilhanc¸a pode ser escrita como lnL (y, β, ρ) = à −1 2 ln (2π)− 1 2 lnσ2u + 1 2 ¡ 1− ρ2 ¢ − 1 2 (y1 − x01β) 2 σ2u/ (1− ρ) ! −T − 1 2 ln (2π)− T − 1 2 lnσ2u − 1 2σ2u PT t=2 ¡ y1 − ρyt−1 + x0tβ − ρx0t−1β ¢2 Assintoticamente, na˜o importa se no´s ignorarmos o primeiro termo. Se no´s simplesmente rodarmos MQO no modelo transformado, obteremos estimadores consistentes de ρ, β e ρβ, mas no´s temos uma restric¸a˜o entre os coeficientes (pois ρ vezes β e´ igual a ρβ). Para impor essa restric¸a˜o, no´s devemos estimar atrave´s de mı´nimos quadrados na˜o lineares. Testes de Autocorrelac¸a˜o Teste de Durbin-Watson Assume normalidade dos erros. Na˜o e´ va´lido se a regressa˜o incluir varia´veis dependentes defasadas entre os regressores. Va´lido para testar autocorrelac¸a˜o de primeira ordem mesmo se correlac¸o˜es de ordem superior estiverem presentes. H0 : Auseˆncia de autocorrelac¸a˜o H1 : Autocorrelac¸a˜o positiva de primeira ordem (e´ poss´ıvel testar autocor- relac¸a˜o de primeira ordem negativa utilizando 4−DW ) a) Estime o modelo yt = x0tβ + εt por OLS e compute os res´ıduos εˆt b) Estat´ıstica do teste: DW = PT t=2 (εˆt − εˆt−1) 2PT t=1 εˆ 2 t (≈ 2(1− r), 0 ≤ DW ≤ 4) onde r e´ a autocorrelac¸a˜o amostral de primeira ordem. Rejeite H0 se DW < dL,T,k,α. Na˜o rejeite H0 se DW > dU,T,k,α. O teste e´ inconclusivo se dL,T,k,α ≤ DW ≤ dU,T,k,α. α e´ o n´ıvel de significaˆncia e dL,T,k,α e dU,T,k,α sa˜o tabulados. 13 Teste de Breusch-Godfrey H0 : Auseˆncia de autocorrelac¸a˜o H1 : εt e´ AR(p) ou MA(p) a) Estime o modelo yt = x0tβ + εt por OLS e compute os res´ıduos εˆt b) Regresse εˆt em xt e εˆt−1, ..., εˆt−p e compute o R2. A estat´ıstica do teste e´ dada por nR2 d→ χ2p sob H0. Note a similaridade com o teste de White para heteroscedasticidade. 14
Compartilhar