Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Mı´nimos Quadrados Ordina´rios, Intervalos de Confianc¸a, Testes de Hipo´tese e Previsa˜o Comenta´rios gene´ricos x = (x1, ..., xn) : amostra de dados, realizac¸a˜o de um vetor aleato´rio X = (X1, ...,Xn) com distribuic¸a˜o conjunta Pθ, membro de uma famı´lia parame´trica P = {Pθ : θ ∈ Θ} . No problema de estimac¸a˜o pontual, no´s derivamos um estimador pontual δ (X) de um paraˆmetro θ. O estimador pontual era uma varia´vel aleato´ria. No´s consideramos maneiras de comparar os estimadores usando o conceito de func¸a˜o risco para medir quais estimadores estavam “pro´ximos” do valor verdadeiro “em me´dia”. Suponha que θ seja um escalar. No problema de estimac¸a˜o por intervalo, no´s derivamos um intervalo de confianc¸a£ θ (X) , θ¯ (X) ¤ O estimador e´ aleato´rio, pois os extremos sa˜o varia´veis aleato´rias. Uma probabilidade de cobertura, definida como Pθ £ θ (X) ≤ θ ≤ θ¯ (X) ¤ esta´ associada a cada intervalo. Se Pθ £ θ (X) ≤ θ ≤ θ¯ (X) ¤ = 1− α no´s nos referimos a £ θ (X) , θ¯ (X) ¤ como um intervalo de confianc¸a de 100(1− α) porcento. A probabilidade de cobertura nos da´ a probabilidade, antes da amostra ser observada, de que a estimativa do intervalo que sera´ constru´ıda a partir da amostra contera´ o valor desconhecido de θ. Para um dado n´ıvel de confianc¸a, um bom estimador produz um intervalo £ θ (X) , θ¯ (X) ¤ estreito. Se θ for um vetor, no´s achamos uma regia˜o R (X) para a qual Pθ [θ ∈ R (X)] = 1− α Essa regia˜o e´ denominada regia˜o de confianc¸a de 100(1− α) porcento. Uma maneira simples de construir essa regia˜o e´ atrave´s da desigualdade de Bonferroni Pθ £ θ1 ∈ £ θ1 (X) , θ¯1 (X) ¤ , ..., θK ∈ £ θK (X) , θ¯K (X) ¤¤ ≥ 1− KP j=1 Pθ £ θj /∈ £ θj (X) , θ¯j (X) ¤¤ 1 Prova: Considere dois eventos A e B. Enta˜o 1− P (A ∪B) = P ((A ∪B)c) = P (Ac ∩Bc) e 1− P (A ∪B) = 1− P (A)− P (B)− P (A ∩B) Logo, P (Ac ∩Bc) = 1− P (A)− P (B)− P (A ∩B) ≥ 1− P (A)− P (B) Portanto, o problema se reduz a encontrar intervalos £ θj (X) , θ¯j (X) ¤ tais que Pθ £ θj /∈ £ θj (X) , θ¯j (X) ¤¤ ≤ α K Enta˜o, a probabilidade de cobertura da regia˜o sera´ de no mı´nimo 1 − α. Regio˜es de confianc¸a de Bonferroni sa˜o retaˆngulos para K = 2, cubos para K = 3, etc Def: Func¸a˜o pivotal: func¸a˜o de θ e dos dados, v (X, θ) , cuja distribuic¸a˜o de probabilidade na˜o depende de θ. A construc¸a˜o de intervalos de confianc¸a baseia-se em func¸o˜es pivotais. Definic¸o˜es Seja θ o valor verdadeiro do paraˆmetro e θ∗ um outro valor. a) Considere duas regio˜es de confianc¸a R e R0 para θ ao n´ıvel de 1 − α. Enta˜o, R e´ dito preferido a` R0, ou mais preciso do que R0, se ∀θ, θ∗, P (θ∗ ∈ R (X)) ≤ P (θ∗ ∈ R0 (X)) b) Uma regia˜o de confianc¸a ao n´ıvel de 1 − α para θ e´ dita uniformemente mais poderosa (UMP) ao n´ıvel de 1 − α se ela e´ mais precisa do que qualquer outra regia˜o de confianc¸a ao n´ıvel de 1− α para θ. c) Uma regia˜o de confianc¸a ao n´ıvel de 1− α para θ e´ dita na˜o viesada se ∀θ, θ∗, P (θ ∈ R (X)) ≥ P (θ∗ ∈ R (X)) d) Uma regia˜o de confianc¸a ao n´ıvel de 1 − α para θ e´ dita uniformemente mais precisa e na˜o viesada (UMPU) se ela e´ na˜o viesada e mais precisa do que qualquer outra regia˜o de confianc¸a ao n´ıvel de 1− α. Nem sempre uma regia˜o de confianc¸a uniformemente mais poderosa ex- iste. Quando ela na˜o existe, no´s introduzimos crite´rios adicionais e procuramos regio˜es de confianc¸a uniformemente mais precisas dentro dessa classe. 2 Intervalos de confianc¸a para βj , j = 1, ...,K Sob (OLS0,s)-(OLS4,s): βˆ|X ∼ N ³ β, σ2 (X 0X)−1 ´ Em particular, βˆj |X ∼ N ³ βj , σ 2 (X 0X)−1jj ´ e βˆj − βjq σ2 (X 0X)−1jj |X ∼ N (0, 1) σ2 conhecido βˆj−βjt σ2(X0X)−1jj ¯¯¯¯ ¯X ∼ N (0, 1) e´ uma func¸a˜o pivotal para θ que no´s podemos utilizar para construir o intervalo de confianc¸a da seguinte maneira. Comece com P Φα/2 ≤ βˆj − βjq σ2 (X 0X)−1jj ≤ Φ1−α/2 = 1− α onde Φα/2 e Φ1−α/2 sa˜o os percentis α/2 e 1 − α/2 da distribuic¸a˜o normal padra˜o. Isso implica que P · βˆj − Φ1−α/2 q σ2 (X 0X)−1jj ≤ βj ≤ βˆj − Φα/2 q σ2 (X 0X)−1jj ¸ = 1− α e, portanto, usando −Φα/2 = Φ1−α/2,· βˆj − Φ1−α/2 q σ2 (X 0X)−1jj , βˆj +Φ1−α/2 q σ2 (X 0X)−1jj ¸ constitui um intervalo de confianc¸a de 100(1− α) para βj se σ2 e´ conhecido. σ2 desconhecido A distribuic¸a˜o t e´ definida da seguinte forma: se Z ∼ N (0, 1) e W ∼ χ2n e´ independente de Z, enta˜o a raza˜o Z√ W/n e´ distribu´ıda como t com n graus de liberdade. Sob (OLS0,s)-(OLS4,s), (n−K) s2/σ2|X ∼ χ2n−K e s2 e βˆ sa˜o independentes, dado X. Portanto, t ≡ βˆj − βjr \ V h βˆj i = βˆj − βjq s2 (X 0X)−1jj = βˆj−βjt σ2(X0X)−1jj ∼ N (0, 1)q (n−K)s2/σ2 n−K ∼ q χ2n−K n−K ∼ tn−K 3 o que implica que P £ tα/2,n−K ≤ t ≤ t1−α/2,n−K ¤ = 1− α onde tα/2,n−K e t1−α/2,n−K sa˜o os percentis α/2 e 1−α/2 da distribuic¸a˜o t com n−K graus de liberdade. Portanto, P · βˆj − t1−α/2,n−K q s2 (X 0X)−1jj ≤ βj ≤ βˆj + t1−α/2,n−K q s2 (X 0X)−1jj ¸ = 1−α o que implica que· βˆj − t1−α/2,n−K q σ2 (X 0X)−1jj , βˆj + t1−α/2,n−K q σ2 (X 0X)−1jj ¸ constitui um intervalo de confianc¸a de 100(1− α) para βj Regio˜es de confianc¸a para Rβ, R e´ 1×K Rβ e´ uma combinac¸a˜o linear dos paraˆmetros β e e´ 1× 1. Exemplo: Como βˆ|X ∼ N ³ β, σ2 (X 0X)−1 ´ , sob (OLS0,s)-(OLS4,s), no´s sabemos que Rβˆ|X ∼ N ³ Rβ, σ2R (X 0X)−1R0 ´ e, portanto, Rβˆ −Rβq σ2R (X 0X)−1R0 |X ∼ N (0, 1) σ2 conhecido Repetindo o procedimento anterior, temos que· Rβˆ − Φ1−α/2 q σ2R (X 0X)−1R0, Rβˆ +Φ1−α/2 q σ2R (X 0X)−1R0 ¸ constitui um intervalo de confianc¸a de 100(1− α) para Rβ se σ2 e´ conhecido. σ2 desconhecido Rβˆ−Rβ√ σ2R(X0X)−1R0 |X ∼ N (0, 1) , (n−K) s2/σ2|X ∼ χ2n−K e s2 e βˆ indepen- dentes, dado X, implicam que t ≡ Rβˆ −Rβr \ V h Rβˆ i = Rβˆ −Rβq s2R (X 0X)−1R0 = Rβˆ−Rβ√ σ2R(X0X)−1R0 ∼ N (0, 1)q (n−K)s2/σ2 n−K ∼ q χ2n−K n−K ∼ tn−K 4 Portanto· Rβˆ − t1−α/2,n−K q s2R (X 0X)−1R0, Rβˆ + t1−α/2,n−K q s2R (X 0X)−1R0 ¸ constitui um intervalo de confianc¸a de 100(1− α) para Rβ Regio˜es de confianc¸a para Rβ, R e´ p×K Rβ sa˜o p combinac¸o˜es lineares dos paraˆmetros β e e´ p× 1. Como βˆ|X ∼ N ³ β, σ2 (X 0X)−1 ´ , sob (OLS0,s)-(OLS4,s), no´s sabemos que Rβˆ|X ∼ N ³ Rβ, σ2R (X 0X)−1R0 ´ . Seja Σ = σ2R (X 0X)−1R0. Enta˜o,³ Rβˆ −Rβ ´0 Σ−1 ³ Rβˆ −Rβ ´ ∼ χ2p Prova: Decomposic¸a˜o spectral de uma matriz sime´trica Se A e´ sime´trica, enta˜o AC = CΛ C: autovetores de A como colunas Λ: matriz diagonal com os autovalores de A na diagonal C 0C = I pois os autovetores de matrizes sime´tricas sa˜o ortogonais. Portanto, C 0 = C−1 e A = ACC−1 = CΛC−1 = CΛC0 Se A e´ positiva definida, enta˜o todos seus autovalores sa˜o positivos e Λ−1 existe. Logo, A−1 = (CΛC 0)−1 = (C 0)−1 Λ−1C−1 = ¡ C−1 ¢−1 Λ−1C−1 = CΛ−1C0 ou, alternativamente, A−1 = CΛ−1/2Λ−1/2C 0 = Q0Q para Q = Λ−1/2C0 e Λ−1/2 = diag ³ λ −1/2 i ´ . Consequ¨entemente, A = Q−1 (Q0)−1 e QAQ0 = I No presente caso: 5 - Σ e´ sime´trica Σ0 = σ2R h (X 0X)0 i−1 R0 = σ2R (X 0X)−1R0 = Σ - Σ e´ positiva definida a0R (X 0X)−1R0a = q0 (X 0X)−1 q > 0 pois q0 = a0R 6= 0 para todo a 6= 0 pelo posto completo de R e (X 0X)−1 e´ positiva definida pois (X 0X) e´ positiva definida pelo posto completo de X. Enta˜o, QΣQ0 = I para Q = Λ−1/2C0 Portanto, Q ³ Rβˆ −Rβ ´ ∼ N (0, Ip) pois E µ Q ³ Rβˆ −Rβ ´³ Rβˆ −Rβ ´0 Q0 ¶ = QΣQ0 = Ip Logo,h Q ³ Rβˆ −Rβ ´i0 h Q ³ Rβˆ −Rβ ´i = ³ Rβˆ −Rβ ´0 Q0Q ³ Rβˆ −Rβ ´ = ³ Rβˆ −Rβ ´0 Σ−1 ³ Rβˆ −Rβ ´ ∼ N (0, Ip)0N (0, Ip) ∼ χ2p σ2 conhecido Uma regia˜o de confianc¸a conjunta ao n´ıvel de 100(1− α) porcento para Rβ e´ dada pelos valores que satisfazem³ Rβˆ −Rβ ´0 h σ2R (X 0X)−1R0 i−1 ³ Rβˆ −Rβ ´ ≤ χ21−α,p Essa regia˜o sera´ um elipso´ide em Rp. σ2 desconhecido A distribuic¸a˜o F e´ definida da seguinte forma: se x1 e x2 sa˜o duas varia´veis aleato´rias independentes com distribuic¸a˜o de qui-quadrado com n1 e n2 graus de liberdade, respectivamente, a raza˜o Fn1,n2 = x1/n1 x2/n2tem distribuic¸a˜o F com n1 e n2 graus de liberdade. A distribuic¸a˜o derivada acima para ³ Rβˆ −Rβ ´0 Σ−1 ³ Rβˆ −Rβ ´ , conjun- tamente com (n−K) s2/σ2|X ∼ χ2n−K e o fato de que, condicional em X, s2 e βˆ sa˜o independentes, implica que F ≡ ³ Rβˆ −Rβ ´0 h σ2R (X 0X)−1R0 i−1 ³ Rβˆ −Rβ ´ /p (n−K)s2/σ2 n−K = ³ Rβˆ −Rβ ´0 h s2R (X 0X)−1R0 i−1 ³ Rβˆ −Rβ ´ /p ∼ Fp,n−K 6 Portanto, uma regia˜o de confianc¸a conjunta de 100(1− α) para Rβ e´ dada por aqueles valores que satisfazem³ Rβˆ −Rβ ´0 h s2R (X 0X)−1R0 i−1 ³ Rβˆ −Rβ ´ /p ≤ F1−α,p,n−K Essa regia˜o e´ tambe´m um elipso´ide em Rp. Testes de hipo´tese No´s agora desejamos testar uma hipo´tese particular Hipo´tese nula: H0 : θ ∈ Θ0 ⊂ Θ Hipo´tese alternativa: H1 : θ ∈ Θ1 ⊂ Θ, Θ1 = (Θ0)c Dado um modelo, um teste δ e´ uma regra de decisa˜o que especifica como o espac¸o amostral de X e´ dividido em dois subconjuntos, um para o qual na˜o se rejeita H0 e outro para o qual H0 e´ rejeitada. Regia˜o cr´ıtica C: regia˜o do espac¸o amostral para o qual H0 e´ rejeitada. Rejeitamos H0 se x ∈ C. Caso contra´rio, na˜o rejeitamos H0. Quatro possibilidades H0 verdadeira H1 verdadeira Na˜o rejeita H0 Nenhum erro Erro tipo II Rejeita H0 Erro tipo I Nenhum erro Idealmente, gostar´ıamos que a probabilidade de ambos os tipos de erros fossem pequenas. Definic¸o˜es: 1) A func¸a˜o poder do teste e´ definida como π (θ|δ) = P (X ∈ C|θ) para θ ∈ Θ isto e´, a probabilidade de se rejeitar H0 quando o valor verdadeiro do paraˆmetro e´ θ. A func¸a˜o poder do teste ideal seria π (θ|δ) = ½ 0 para θ ∈ Θ0 1 para θ ∈ Θ1 Nesse caso, no´s tomar´ıamos a decisa˜o correta com probabilidade 1. Para θ ∈ Θ0, a func¸a˜o poder do teste da´ a probabilidade do erro tipo I. 2) O tamanho de um teste, denotado por α, e´ o menor limite superior da probabilidade de se cometer um erro do tipo I. α = sup θ∈Θ0 π (θ|δ) 7 3) Frequ¨entemente, no´s especificamos um limite superior α0, 0 < α0 < 1, e consideramos somente os testes para os quais π (θ|δ) ≤ α0 ∀θ ∈ Θ0, isto e´, consideramos apenas testes com tamanho α ≤ α0. Nos referimos a α0 como o n´ıvel de significaˆncia desses testes. 4) Um teste δ∗ e´ dito uniformemente mais poderoso (UMP) ao n´ıvel de significaˆncia α0 se α (δ ∗) ≤ α0 e para qualquer outro teste δ para o qual α (δ) ≤ α0, π (θ|δ∗) ≥ π (θ|δ) ∀θ ∈ Θ1 5) Um teste δ e´ na˜o viesado se π ¡ θ0|δ¢ ≥ π (θ|δ) ∀θ0 ∈ Θ1,∀θ ∈ Θ0 isto e´, se a func¸a˜o poder do teste ao longo de Θ1 e´ pelo menos ta˜o grande quanto ao longo de Θ0. 6) Um teste δ∗ e´ uniformemente mais poderoso e na˜o viesado (UMPU) se ele e´ na˜o viesado e uniformemente mais poderoso. Teste de um u´nico coeficiente Teste de H0 : βj = βj0 contra H1 : βj 6= βj0 ao n´ıvel de significaˆncia de 100α porcento, para σ2 desconhecido. Sob H0 : t = βˆj−βj0t s2(X0X)−1jj ∼ tn−K Portanto, rejeite H0 se |t| = ¯¯¯¯ ¯¯ βˆj − βj0q s2 (X 0X)−1jj ¯¯¯¯ ¯¯ ≥ t1−α/2,n−K Teste de H0 : βj ≤ βj0 contra H1 : βj > βj0 ao n´ıvel de significaˆncia de 100α porcento, para σ2 desconhecido (teste unicaudal). Rejeite H0 se t = βˆj − βj0q s2 (X 0X)−1jj ≥ t1−α,n−K Se σ2 e´ conhecido, substitua s2 por σ2 e t por Φ. Teste de uma combinac¸a˜o linear de coeficientes Teste de H0 : Rβ = q0 contra H1 : Rβ 6= q0 ao n´ıvel de significaˆncia de 100α porcento, para σ2 desconhecido. R tem dimensa˜o 1×K. Sob H0, Rβˆ−q0√ s2R(X0X)−1R0 ∼ tn−K 8 Portanto, rejeite H0 se |t| = ¯¯¯¯ ¯¯ Rβˆ − q0q s2R (X 0X)−1R0 ¯¯¯¯ ¯¯ ≥ t1−α/2,n−K Se σ2 e´ conhecido, substitua s2 por σ2 e t por Φ. Teste de mu´ltiplas restric¸o˜es lineares Teste de H0 : Rβ = q0 contra H1 : Rβ 6= q0 ao n´ıvel de significaˆncia de 100α porcento, para σ2 desconhecido e posto(R) = p. Sob H0,³ Rβˆ − q0 ´0 h s2R (X 0X)−1R0 i−1 ³ Rβˆ − q0 ´ /p ∼ Fp,n−K Portanto, rejeite H0 se F = ³ Rβˆ − q0 ´0 h s2R (X 0X)−1R0 i−1 ³ Rβˆ − q0 ´ /p ≥ F1−α,p,n−K Se σ2 e´ conhecido, substitua s2 por σ2, remova a divisa˜o por p e use χ21−α,p ao inve´s de F1−α,p,n−K . Uma formulac¸a˜o alternativa do teste F Defina β˜ como a soluc¸a˜o do seguinte problema: Min β (y −Xβ)0 (y −Xβ) sujeito a Rβ = q0 β˜ : estimador de mı´nimos quadrados restrito. ε˜ = y −Xβ˜ : res´ıduos da regressa˜o de mı´nimos quadrados restrito. βˆ = (X 0X)−1X 0y e εˆ = y − yˆ ainda se referem ao estimador de mı´nimos quadrados irrestrito. Resultado F = ³ Rβˆ − q0 ´0 h s2R (X 0X)−1R0 i−1 ³ Rβˆ − q0 ´ /p = ¡ ε˜0ε˜− εˆ0εˆ ¢ /p εˆ0εˆ/ (n−K) ε˜0ε˜ : soma dos quadrados dos res´ıduos do modelo restrito εˆ0εˆ : soma dos quadrados dos res´ıduos do modelo irrestrito p : nu´mero de restric¸o˜es n−K : nu´mero de observac¸o˜es menos nu´mero de paraˆmetros estimados no modelo irrestrito 9 Prova: Considere a soma dos quadrados dos res´ıduos do modelo restrito. ε˜0ε˜ = ³ y −Xβ˜ ´0 ³ y −Xβ˜ ´ = ³ y −Xβˆ −X ³ β˜ − βˆ ´´0 ³ y −Xβˆ −X ³ β˜ − βˆ ´´ = ³ εˆ−X ³ β˜ − βˆ ´´0 ³ εˆ−X ³ β˜ − βˆ ´´ = εˆ0εˆ+ ³ β˜ − βˆ ´0 X 0X ³ β˜ − βˆ ´ − εˆ0X =0 ³ β˜ − βˆ ´ − ³ β˜ − βˆ ´0 X 0εˆ =0 Em seguida, derive uma expressa˜o para ³ β˜ − βˆ ´ da seguinte forma. O la- grangiano e´ L = min β (y −Xβ)0 (y −Xβ) + λ0 (Rβ − q0) λ : vetor px1 de multiplicadores de Lagrange As condic¸o˜es de primeira ordem sa˜o: ∂L ∂β = −2X 0 ³ y −Xβ˜ ´ +R0λ = 0 ∂L ∂λ = Rβ˜ − q0 = 0 Consequ¨entemente, X 0y −X 0Xβ˜ − 1 2 R0λ = 0⇒ β˜ = (X 0X)−1 µ X 0y − 1 2 R0λ ¶ ⇒ β˜ = βˆ − 1 2 (X 0X)−1R0λ o que implica que Rβ˜ = Rβˆ − 1 2 R (X 0X)−1R0λ = q0 Portanto, λ = 2 h R (X 0X)−1R0 i−1 ³ Rβˆ − q0 ´ Logo, β˜ = βˆ − (X 0X)−1R0 h R (X 0X)−1R0 i−1 ³ Rβˆ − q0 ´ Substituindo β˜ − βˆ em ε˜0ε˜, no´s obtemos ε˜0ε˜ = εˆ0εˆ+ ³ Rβˆ − q0 ´0 h R (X 0X)−1R0 i−1 ×R (X 0X)−1X 0X (X 0X)−1R0 h R (X 0X)−1R0 i−1 ³ Rβˆ − q0 ´ = εˆ0εˆ+ ³ Rβˆ − q0 ´0 h R (X 0X)−1R0 i−1 ³ Rβˆ − q0 ´ 10 Portanto, ¡ ε˜0ε˜− εˆ0εˆ ¢ /p εˆ0εˆ/ (n−K) = ³ Rβˆ − q0 ´0 h R (X 0X)−1R0 i−1 ³ Rβˆ − q0 ´ /p s2 = ³ Rβˆ − q0 ´0 h s2R (X 0X)−1R0 i−1 ³ Rβˆ − q0 ´ /p Resultado: Se tanto a regressa˜o restrita quanto a regressa˜o irrestrita con- tiverem uma constante, denotando por R e R˜ os coeficientes de determinac¸a˜o, temos F = R2 − R˜2 1−R2 n−K p Prova: F = ¡ ε˜0ε˜− εˆ0εˆ ¢ /p εˆ0εˆ/ (n−K) = £ εˆ0εˆ− ε˜0ε˜ ¤ / £ (y − y¯ι)0 (y − y¯ι) ¤ εˆ0εˆ/ £ (y − y¯ι)0 (y − y¯ι) ¤ n−K p = ³ 1− R˜2 ´ − ¡ 1−R2 ¢ 1−R2 n−K p = R2 − R˜2 1−R2 n−K p Aplicac¸o˜es do teste F Testando se todos os β 0 s, com excec¸a˜o do intercepto, sa˜o iguais a zero Modelo irrestrito: y = Xβ + ε H0 : Rβ = q0, com R (K−1)×K = · 0 (K−1)×1 : IK−1 ¸ e q0 (K−1)×1 = [0, ..., 0] 0 H1 : Rβ 6= q0 Modelo restrito: y = ιβ1 + ε, ι e´ um vetor de 1’s de dimensa˜o nx1 A estimativa de MQO de β1 no modelo restrito e´ (ι 0ι)−1 ι0y = 1 n Pn i=1 yi = y¯. Portanto, ε˜0ε˜ = Pn i=1 (yi − y¯) 2 e F = ¡ ε˜0ε˜− εˆ0εˆ ¢ /p εˆ0εˆ/ (n−K) = R2 1−R2 n−K p pois R˜2 = 0. Teste para mudanc¸a estrutural em β (Teste de Chow) Modelo irrestrito: yj nj×1 = Xj nj×K βj K×1 + εj nj×1 , j = 1, 2 11 No´s podemos estimar β1 e β2 atrave´s de apenas uma regressa˜o, utilizando o seguinte modelo· y1 y2 ¸ (n1+n2)×1 = · X1 0 0 X2 ¸ (n1+n2)×K · β1 β2 ¸ 2K×1 + · ε1 ε2 ¸ (n1+n2)×1 ⇒ εˆ = · εˆ1 εˆ2 ¸ (n1+n2)×1 H0 : β1 = β2, isto e´, Rβ = q0, com R K×2K = [IK : −IK ] e q0 K×1 = [0, ..., 0]0 H0 : β1 6= β2, isto e´, Rβ 6= q0 Modelo restrito y (n1+n2)×1 = X (n1+n2)×K β K×1 + ε (n1+n2)×1 , isto e´, · y1 y2 ¸ = · X1 X2 ¸ β + · ε1 ε2 ¸ ⇒ ε˜ = · ε˜1 ε˜2 ¸ Portanto, no´s temos toda a informac¸a˜o necessa´ria para calcular F = ¡ ε˜0ε˜− εˆ0εˆ ¢ /K εˆ0εˆ/ (n1 + n2 − 2K) - Uma condic¸a˜o suficiente para derivar o resultado da distribuic¸a˜o F e´ que (OLS1,s)-(OLS4,s) sejam va´lidas para o modelo. Isso requer que os erros na˜o sejam correlacionados entre e dentro das duas subamostras e que tenham a mesma variaˆncia, ou seja, V (εj) = σ 2Inj , j = 1, 2. - OLS no modelo irrestrito e´ equivalente a rodar duas regresso˜es de MQO separadas, pois min β1,β2 (y −X1β1 − 0β2) 0 (y −X1β1 − 0β2)+(y − 0β1 −X2β2) 0 (y − 0β1 −X2β2) = min β1 (y −X1β1) 0 (y −X1β1) +min β2 (y−X2β2) 0 (y −X2β2) Teste para mudanc¸a estrutural em β com variaˆncias diferentes Se a hipo´tese de variaˆncias iguais dos erros para as duas subamostras na˜o for plaus´ıvel, enta˜o (OLS3,s) e´ violada para os modelos restrito e irrestrito e a derivac¸a˜o da distribuic¸a˜o do teste F na˜o e´ va´lida. Ao inve´s do teste F, no´s podemos empregar o seguinte teste de Wald: W = ³ βˆ1 − βˆ2 ´0 ·\ V h βˆ1 i + \ V h βˆ2 i¸−1 ³ βˆ1 − βˆ2 ´ cuja distribuic¸a˜o aproxima-se de uma χ2K para n grande. Esse teste de Wald e´ apenas va´lido assintoticamente, ao contra´rio dos outros resultados derivados ate´ o momento. 12 Poder dos testes No´s definimos o poder de um teste δ como π (θ|δ) = P (X ∈ C|θ) para θ ∈ Θ, isto e´, como a probabilidade de se rejeitar H0 quando o valor verdadeiro do paraˆmetro e´ θ. As regio˜es cr´ıticas nos exemplos considerados eram os valores de X nos quais a estat´ıstica t assumia valores pequenos ou grandes ou nos quais estat´ısticas F ou qui-quadrado assumiam valores grandes. Exemplo 1: O poder do teste H0 : βj = βj0 versus H0 : βj 6= βj0 ao n´ıvel de significaˆncia 100α, para σ2 conhecido. Sob H0, isto e´, quando o valor verdadeiro e´ βj0, t = βˆj−βj0t σ2(X0X)−1jj ∼ N (0, 1) , e no´s rejeitamos H0 se |t| > Φ1−α/2, onde Φ1−α/2 e´ o percentil 1 − α/2 da distribic¸a˜o normal padra˜o. Para derivar a func¸a˜o poder do teste, no´s precisamos considerar a distribuic¸a˜o de βˆj−βj0t σ2(X0X)−1jj para cada poss´ıvel valor de βj . Denote Φ1−α/2 por k para na˜o confundir a notac¸a˜o. π ¡ βj |δ ¢ = P ¡|t| ≥ Φ1−α/2|βj¢ = P ¯¯¯¯ ¯¯ βˆj − βj0q σ2 (X 0X)−1jj ¯¯¯¯ ¯¯ ≥ k|βj = P βˆj − βjq σ2 (X 0X)−1jj + βj − βj0q σ2 (X 0X)−1jj ≥ k|βj +P βˆj − βjq σ2 (X 0X)−1jj + βj − βj0q σ2 (X 0X)−1jj ≤ −k|βj Condicional em X, no´s sabemos que βˆj−βjt σ2(X0X)−1jj ∼ N (0, 1) e βj−βj0t σ2(X0X)−1jj e´ uma constante. Portanto, a soma tem distribuic¸a˜o N à βj−βj0t σ2(X0X)−1jj , 1 ! e, consequ¨entemente, π ¡ βj |δ ¢ = 1− Φ k − βj − βj0q σ2 (X 0X)−1jj +Φ −k − βj − βj0q σ2 (X 0X)−1jj Exemplo 2: O poder do teste Rβ = q0 versus H0 : Rβ 6= q0 ao n´ıvel de significaˆncia 100α, para σ2 conhecido e posto(R) = p. Sob H0, isto e´, quando o valor verdadeiro de Rβ e´ q0 (correspondendo ao valor verdadeiro de β igual a β0, digamos),³ Rβˆ − q0 ´0 h σ2R (X 0X)−1R0 i−1 ³ Rβˆ − q0 ´ ∼ χ2p 13 Portanto, no´s rejeitamos H0 se³ Rβˆ − q0 ´0 h σ2R (X 0X)−1R0 i−1 ³ Rβˆ − q0 ´ ≥ χ21−α,p Denote χ21−α,p por k para na˜o confundir a notac¸a˜o. O poder do teste e´ π (q|δ) = P µ³ Rβˆ − q0 ´0 h σ2R (X 0X)−1R0 i−1 ³ Rβˆ − q0 ´ ≥ k|q ¶ = 1− χ2p,λ (k) onde χ2p,λ (k) e´ a func¸a˜o de distribuic¸a˜o da distribuic¸a˜o de qui-quadrado na˜o centrada com p graus de liberdade e paraˆmetro λ = (q − q0)0Σ−1 (q − q0) . Prova: Para Rβ = q, no´s sabemos que Rβˆ ∼ N ³ q, σ2R (X 0X)−1R0 ´ . A matriz Σ = σ2R (X 0X)−1R0 tem dimensa˜o pxp, e´ sime´trica e positiva definida. Para qualquer matriz Σ sime´trica positiva definida, existe uma matriz sime´trica na˜o singular B tal que BB = Σ . B e´ denotada por Σ−1/2 e satisfaz I = B−1ΣB−1 ou I = Σ−1/2ΣΣ−1/2. Portanto, Σ−1/2 ³ Rβˆ − q ´ ∼ N (0, Ip) e, consequ¨entemente, Σ−1/2 ³ Rβˆ − q0 ´ = Σ−1/2 ³ Rβˆ − q + (q − q0) ´ ∼ N ³ Σ−1/2 (q − q0) , Ip ´ Como ³ Rβˆ − q0 ´0 h σ2R (X 0X)−1R0 i−1 ³ Rβˆ − q0 ´ = ³ Σ−1/2 ³ Rβˆ − q0 ´´0 ³ Σ−1/2 ³ Rβˆ − q0 ´´ O resultado e´ consequ¨eˆncia da definic¸a˜o da distribuic¸a˜o de qui-quadrado na˜o centrada. A func¸a˜o poder do teste associada aos dois testes, com σ2 desconhecido, podem ser calculadas de maneira similar. As distribuic¸o˜es relevantes sera˜o a t e a F na˜o centradas. Previsa˜o Considere o modelo de regressa˜o linear y = Xβ + ε 14 para o qual (OLS1,s)-(OLS4,s) sa˜o satisfeitas. Suponha que no´s desejemos pr- ever o valor de y, y0, para valores dados dos regressores, x0. Se β e σ 2 fossem conhecidos, nossa previsa˜o seria E [y0|x0] = x00β com o erro de previsa˜o satisfazendo E [ε0] = 0, V [ε0] = σ 2 O erro de previsa˜o seria constru´ıdo da seguinte forma: - E [y0|x0] = x00β : constante - x00β − y0 = −ε0 ∼ N ¡ 0, σ2 ¢ Portanto, a estat´ıstica pivotal seria x00β−y0√ σ2 ∼ N (0, 1) , o que implicaria que um intervalo de previsa˜o de 100(1− α) para y0 seria dado por£ x00β − Φ1−α/2σ, x00β +Φ1−α/2σ ¤ Na pra´tica, no´s na˜o sabemos o valor de β. Entretanto, pelo Teorema de Gauss Markov, no´s sabemos que x00βˆ e´ o melhor estimador linear na˜o viesado para x 0 0β. Portanto, x00βˆ minimiza o erro quadra´tico me´dio de previsa˜o 1 n h (y0 − yˆ0)2 i entre todos os previsores lineares em y. Sob (OLS1,s)-(OLS4,s) - −x00βˆ ∼ N ³ x00β, σ 2x00 (X 0X)−1 x0 ´ o que implica que x00βˆ − y0 ∼ N ³ 0, σ2x00 (X 0X)−1 x0 + σ2 ´ pois βˆ e´ baseado numa amostra que na˜o inclui a observac¸a˜o que estamos ten- tando prever. - (n−K) s2 σ2 ∼ χ2n−K Portanto, x00βˆ − y0r s2 ³ 1 + x00 (X 0X) −1 x0 ´ ∼ tn−K 15 o que implica que um intervalo de previsa˜o de 100(1− α) porcento para y0 e´ dado por" x00βˆ − t1−α/2,n−K r s2 ³ 1 + x00 (X 0X) −1 x0 ´ , x00βˆ + t1−α/2,n−K r s2 ³ 1 + x00 (X 0X) −1 x0 ´# Intuic¸a˜o O erro de previsa˜o εˆ0 = y0 − yˆ0, condicional em x0, satisfaz E [εˆ0] = E [y0 − yˆ0] = E h x00β + ε0 − x00βˆ i = x00β + 0− x00E h βˆ i = 0 V [εˆ0] = V [y0] + V [yˆ0]− 2Cov (y0, yˆ0) = σ2 + V ³ x00βˆ ´ − 0 = σ2 + x00V ³ βˆ ´ x0 = σ 2 + σ2x00 (X 0X)−1 x0 > σ2 porque no´s tivemos que estimar β. Se X incluir uma constante, V [εˆ0] = σ 2 + σ2 n + σ2 (x0 − x¯)0 (X 0X)−1 (x0 − x¯) Enta˜o, quanto mais longe x0 estiver da me´dia da amostra, mais incerta sera´ a previsa˜o. 16
Compartilhar