Baixe o app para aproveitar ainda mais
Prévia do material em texto
Econometria Aula de Revisão Marta AreosaMarta Areosa marta@econ.puc-rio.br Regressão Linear na População Modelo: Yi = β0 + β1Xi + ui, i = 1,…, n • X é a variável independente ou regressor • Y é a variável dependente • β0 = intercepto 2 • β0 = intercepto • β1 = inclinação • ui = o termo de erro da regressão • O termo de erro consiste em fatores omitidos (que influenciam Y, além de X) na regressão, ou em erros de medida em Y. Estimador de Mínimos Quadrados Ordinários (MQO) Como estimamos β0 e β1 usando dados? Mínimos Quadrados Ordinários (MQO): ( )[ ]∑ +−n xy 2ˆˆmin ββ 3 { } ( )[ ]∑ = +− i ii xy 1 2 10 ˆ , ˆ ˆˆmin 10 ββ ββ Definindo: (valor predito) (resíduo) Podemos reescrever como: −≡ +≡ iii ii yyu xy ˆˆ ˆˆ ˆ 10 ββ { }∑ = n i iu 1 2 ˆ , ˆ ˆmin 10 ββ Estimador de Mínimos Quadrados Ordinários (MQO): CPOs ( )[ ] ( )[ ] =+− =+− ∑ ∑ = = 0ˆˆ 0ˆˆ 1 10 1 10 n i iii n i ii xyx xy ββ ββ =+ =+ ⇒ ∑∑∑ ∑∑∑ === === n i ii n i i n i i n i i n i i n i yxxx yx 11 2 1 1 0 11 1 1 0 ˆˆ ˆˆ ββ ββ 4 ∑ =1i ∑∑∑ === iii 111 ∑∑∑ ∑∑ === == = + = + n i ii n i i n i i n i i n i i yxxx yxn 11 2 1 1 0 1 1 1 0 ˆˆ ˆˆ ββ ββ ⇒ Estimador de Mínimos Quadrados Ordinários (MQO): Interpretação das CPOs Primeira CPO: YXy n x n yxn n i i n i i n i i n i i =+⇒ = +⇒= + ∑∑∑∑ ==== 10 1 1 1 0 1 1 1 0 ˆˆ 1 ˆ 1 ˆˆˆ ββββββ 5 Interpretação: está sobre a reta de MQO nn iiii ==== 1111 ( )YX , Segunda Equação: Estimador de Mínimos Quadrados Ordinários (MQO): Interpretação das CPOs [ ] ( ) ( ) ( )( ) ( )( )−+−=−+−⇒ −= −⇒ = + − ∑∑ ∑∑∑∑∑ ===== n ii n ii n i ii n i ii n i ii n i i n i i YyXXxXxXXx YyxXxxyxxxXY 1 11 1 11 2 1 1 1 ˆ ˆˆˆ β βββ Interpretação: 6 ( )( ) ( )( ) ( ) ( ) ( )( ) ( ) ( ) ( )( )⇒−−=−⇒ −+−−= −+−⇒ −+−=−+−⇒ ∑∑ ∑∑∑∑ ∑∑ == ==== == n i ii n i i n i i n i ii n i i n i i i ii i ii YyXxXx YyXYyXxXxXXx YyXXxXxXXx 11 2 1 1111 2 1 11 1 ˆ ˆ β β β ( )( ) ( ) ( ) 0, ˆ 1 2 1 2 1 1 ≠− − −− = ∑ ∑ ∑ = = = n i in i i n i ii Xxse Xx YyXx β 0,ˆ 221 ≠= x x xy sse s sβ Resultado 1: Interpretação: A soma dos resíduos é zero. Estimador de Mínimos Quadrados Ordinários (MQO): Consequências da CPOs ( )[ ] ( ) 0ˆ0ˆ0ˆˆ 111 10 =⇒=−⇒=+− ∑∑∑ === n i i n i ii n i ii uyyxy ββ Interpretação: A soma dos resíduos é zero. Resultado 2: Interpretação: a covariância amostral entre o regressor e o resíduo é zero ( ). 7 ( )[ ] 0ˆ0ˆˆ 11 10 =⇒=+− ∑∑ == n i ii n i iii uxxyx ββ 0=xys Medidas de Ajuste Uma pergunta natural seria quão bom é o ajuste da linha de regressão aos dados. Há duas estatísticas que provém esta resposta (medem a qualidade do ajuste): 8 • O R2 da regressão mede a proporção da variência de Y que é explicada por X; não tem unidades e varia entre zero (nenhum ajuste) e um (ajuste perfeito). • O erro padrão da regressão (EPR) que mede a magnitude do resíduo típico da regressão em unidades de Y. Soma de Quadrados Podemos definir três conceitos: ∑ ∑ = −= n n i i yySTQ 1 2)( 9 Temos que SQT = SQE +SQR ∑∑ ∑ == = =−= −= n i i n i ii n i i uyySQR yySQE 1 2 1 2 1 2 ˆ)ˆ( )ˆ( R-quadrado O R2 da regressão mede a fração da variância amostral de Yi “explicada” pela regressão. −== nn STQSQRSTQSQER2 /1/ 10 • R2 = 0 significa SQE = 0 • R2 = 1 significa SQE = STQ • 0 ≤ R2 ≤ 1 ∑∑ == −−= n i i n i i yyyy 1 2 1 2 )(/)ˆ( Os Pressupostos de MQO Yi = β0 + β1Xi + ui, i = 1,…, n 1. A distribuição condicional de u dado X tem média zero, isso é, E(u|X = x) = 0. 2. (X ,Y ), i =1,…,n, são i.i.d. 11 2. (Xi,Yi), i =1,…,n, são i.i.d. • Verdadeiro se X, Y foram coletados por uma amostra aleatória simples 3. Grandes outliers em X e/ou Y são raros. • Tecnicamente, X e Y têm quarto momento finito • Outliers podem resultar em estimações de 1ˆβ que não fazem sentido • Condições de momento: • Forma amostral das condições de momento Pressuposto No. 1: E(u|X = x) = 0 [ ] [ ] [ ][ ] [ ] 00| , ==== xxxxuu ExuEEuEuE [ ] [ ][ ] [ ][ ] [ ] 00.|| , ==== xExuxEExuxEEuxE xuxuxxu • Forma amostral das condições de momento 12 ( ) ( ) ∑∑∑∑∑∑ ====== +=⇒+=⇒=−⇒= n i i n i i n i i n i i n i ii n i i xnyxyyyu n 1 10 11 10 111 ˆˆˆˆ0ˆ0ˆ1 ββββ ( ) ( ) ∑∑∑∑∑ ∑∑ ===== == +=⇒+=⇒ =−⇒= n i i n i i n i ii n i ii n i ii n i iii n i ii xxyxxxyx yyxux n 1 2 1 1 0 11 10 1 11 ˆˆˆˆ 0ˆ0ˆ1 ββββ Distribuição Amostral de • O que é E( 1ˆβ )? • Se E( 1ˆβ ) = β1, então MQO é não viesado • O que é var( 1ˆβ )? (medida da incerteza amostral) • Qual é a distribuição de ˆβ em amostras pequenas? 1 ˆβ 13 • Qual é a distribuição de 1ˆβ em amostras pequenas? • Pode ser complicada em geral • Qual é a distribuição de 1ˆβ em amostras grandes? • Relativamente simples – 1ˆβ é distribuído como uma Normal. Média e Variância de Algebra preliminar: Yi = β0 + β1Xi + ui Y = β0 + β1X + u então Yi – Y = β1(Xi – X ) + (ui – u ) 1 ˆβ 14 Sabemos que 1 ˆβ = 1 2 1 ( )( ) ( ) n i i i n i i X X Y Y X X = = − − − ∑ ∑ Média e Variância de Podemos usar Yi – Y = β1(Xi – X ) + (ui – u ) em 1 ˆβ = 1 2 ( )( ) ( ) n i i i n i X X Y Y X X = − − − ∑ ∑ = 1 1 2 ( )[ ( ) ( )] ( ) n i i i i n i X X X X u u X X β = − − + − − ∑ ∑ 1 ˆβ 15 1 ( )i i X X = −∑ 1 ( )i i X X = −∑ então 1 ˆβ – β1 = 1 2 1 ( ) ( ) n i i i n i i X X u X X = = − − ∑ ∑ Agora podemos calcular E( ) e var( ): 1 ˆβ 1 ˆβ – β1 = 1 2 1 1 n i i X v n n s n = − ∑ , onde vi = (Xi – X )ui 1 ˆβ 16 E( 1ˆβ – β1) = 2 1 1 1n i X i nE v s n n = − ∑ = 2 1 1 1 n i i X vn E n n s = − ∑ = 2 1 1 1 n i i X vn E n n s = − ∑ Agora podemos calcular E( ) e var( ): 1 ˆβ Agora E(vi/ 2Xs ) = E[(Xi – X )ui/ 2Xs ] = 0 Já que E(ui|Xi=x) = 0 (pressuposto MQO) v 1 ˆβ 17 Logo, E( 1ˆβ – β1) = 2 1 1 1 n i i X vn E n n s = − ∑ = 0 então E( 1ˆβ ) = β1 Isso é, 1ˆβ é um estimador não-viesado de ββββ1. Agora a var( ):1 ˆβ Podemos escrever 1 ˆβ – β1 = 1 2 1 ( ) ( ) n i i i n i i X X u X X = = − − ∑ ∑ = 1 2 1 1 n i i X v n n s n = − ∑ 18 onde vi = (Xi – X )ui. Se assumimos que n é grande, simplificamos o cálculo, 2Xs ≈ 2 Xσ e 1n n − ≈ 1, então 1 ˆβ – β1 ≈ 12 1 n i i X v n σ = ∑ , 1 ˆβ – β1 ≈ 12 1 n i i X v n σ = ∑ então var( 1ˆβ – β1) = var( 1ˆβ ) = 2 2 var( ) / ( )X v n σ assim 19 var( 1ˆβ – β1) = 4var[( ) ]1 i x i X X u n µ σ − × . Resumo até agora • 1 ˆβ é não-viesado unbiased: E( 1ˆβ ) = β1 • var( 1ˆβ ) é inversamente proporcional a n Qual é a Distribuição Amostral de ?1 ˆβ Lembremos o TLC: suponha {vi}, i = 1,…, n é i.i.d. com E(v) = 0 e var(v) = σ2. Então, quando n é grande, 1 n v∑ é aproximadamente distribuido 20 Então, quando n é grande, 1 i i v n = ∑ é aproximadamente distribuido como N(0, 2 /v nσ ). Qual é a Distribuição Amostral de ? • Então, para n grande, 1ˆβ é aproximadamente distribuido: 1 ˆβ ~ 2 1 4, vX N n σβ σ , onde vi = (Xi – µX)ui 1 ˆβ 21 Resumo: Inferência Estatística sobre β0 e β1 Testes: • H0: β1 = β1,0 v. β1 ≠ β1,0 (β1,0 é o valor de β1 na H0) • t = ( ˆβ – β )/EP( ˆβ ) 22 • t = ( 1ˆβ – β1,0)/EP( 1ˆβ ) • p-valor = área abaixo da normal padrão fora do tact (n grande) Resumo: Inferência Estatística sobre β0 e β1 Intervalos de Confiança: • Intervalo de confiança de 95% para β1 é { 1ˆβ ± 1.96×EP( 1ˆβ )} 23 • Conjunto de β1 que não é rejeitado ao nível de 5%. • O IC de 95% contém o valor verdadeiro de β1 em 95% do todas as amostras. Resumo: regressões quando Xi é binário Yi = β0 + β1Xi + ui • β0 = média de Y quando X = 0 • β0 + β1 = media de Y quando X = 1 • β1 = diferença na media dos grupos, X =1 menos X = 0 24 • β1 = diferença na media dos grupos, X =1 menos X = 0 • EP( 1ˆβ ), estatística t, e intervalos de confiança construídos da forma usual. • Outra maneira de fazer a análise de diferenças em média (fácil porque o EP da diferença de médias já sai direto da regressão). • Útil quando temos regressores adicionais Unidades de Medida Salário_CEOi = β0 + β1 Retornoi + ui Salário_CEOi = 963.19 + 18.5 Retorno 25 Salário CEO está medido em $1000 e o Retorno está medido em X% (ou seja Retorno=10 significa 10%). Como interpretamos β1? Unidades de Medida: Variando Y Salário_CEOi = β0 + β1 Retornoi + ui Suponha agora o salário está medido em $ e não mais em $1000. O que acontece com os valores estimados? 26 Unidades de Medida: Variando Y Salário_CEOi = β0 + β1 Retornoi + ui Suponha agora o salário está medido em $ e não mais em $1000. O que acontece com os valores estimados? 27 Salário_CEOi = 963.191 + 18.501 Retornoi + ui Ou seja, simplesmente temos que multiplicar β0 e β1 por 1000! Sempre que multiplicarmos a valor da variável dependente por c, o valor de β0 e β1 será multiplicado por c. Unidades de Medida: Variando X Salário_CEOi = β0 + β1 Retornoi + ui O que acontece quando mudamos as unidades de medida de X? 28 Suponha agora que o Retorno está medido em decimais, ou seja, um retorno de10% agora está medido como 0,10. O que acontece com os valores estimados? Unidades de Medida: Variando X Salário_CEOi = 963,19 + 1850,1 Retornoi + ui Ou seja, coeficiente de β1 é 100 maior que o original! 29 Unidades de Medida: Variando X Salário_CEOi = 963,19 + 1850,1 Retornoi + ui Ou seja, coeficiente de β1 é 100 maior que o original! 30 Mudar Retorno em 1 ponto percentual é o equivalente a mudar o novo Retorno em 0,01. Então o efeito sobre salário é de 1850,1*0,01=18,501 Unidades de Medida: Variando X Salário_CEOi = 963,19 + 1850,1 Retornoi Ou seja, coeficiente de β1 é 100 maior que o original! 31 Mudar Retorno em 1 ponto percentual é o equivalente a mudar o novo Retorno em 0,01. Então o efeito sobre salário é de 1850,1*0,01=18,501 Quando a variável independente é dividida ou multiplicada por uma constante c, o coeficiente β1 será multiplicado ou dividido por c (respectivamente). Funções Logarítmicas de Y e X • Tranformações logarítmicas nos permitem modelar relações em termos “percentuais” (como elasticidades). Propriedade: ln(x+∆x) – ln(x) = ln 1 x x ∆ + ≅ x x ∆ 32 x x (cálculo: ln( ) 1d x dx x = ) Especificações de Regressões com Logs Caso Função de regressão populacional I. linear-log Yi = β0 + β1ln(Xi) + ui 33 II. log-linear ln(Yi) = β0 + β1Xi + ui III. log-log ln(Yi) = β0 + β1ln(Xi) + ui • A interpretação do coeficiente da inclinação difere para cada caso. I. Linear-log Y = β0 + β1ln(X) (b) Variando X: Y + ∆Y = β0 + β1ln(X + ∆X) (a) Subtraindo (a) – (b): ∆Y = β1[ln(X + ∆X) – ln(X)] 34 Subtraindo (a) – (b): ∆Y = β1[ln(X + ∆X) – ln(X)] Agora ln(X + ∆X) – ln(X) ≅ X X ∆ , então ∆Y ≅ β1 XX ∆ ou β1 ≅ / Y X X ∆ ∆ (∆X pequeno) I. Linear-log Yi = β0 + β1ln(Xi) + ui para pequenas ∆X, β1 ≅ / Y X X ∆ ∆ 35 Agora 100× X X ∆ = variação percentual em X, então: um aumento de 1% em X (multiplicar X por 1.01) está associado com uma variação de 0,01ββββ1 em Y. (1% de aumento em X ⇒ 0,01β1 aumento em Y) II. Log-linear ln(Y) = β0 + β1X (b) Variamos X: ln(Y + ∆Y) = β0 + β1(X + ∆X) (a) 36 Subtraímos (a) – (b): ln(Y + ∆Y) – ln(Y) = β1∆X então Y Y ∆ ≅ β1∆X ou β1 ≅ /Y YX ∆ ∆ (∆X pequeno) II. Log-linear ln(Yi) = β0 + β1Xi + ui Para ∆X pequeno, β1 ≅ /Y Y X ∆ ∆ • Então 100× Y Y ∆ = variação percentual em Y, assim a variação 37 Y em X de uma unidade (∆∆∆∆X = 1) está associada com uma variação em Y de 100ββββ1%. • Aumento de 1 unidade de X ⇒ 100β1% aumento em Y III. Log-log ln(Yi) = β0 + β1ln(Xi) + ui (b) Variamos X: ln(Y + ∆Y) = β0 + β1ln(X + ∆X) (a) 38 Subtraímos: ln(Y + ∆Y) – ln(Y) = β1[ln(X + ∆X) – ln(X)] então Y Y ∆ ≅ β1 XX ∆ ou β1 ≅ // Y Y X X ∆ ∆ (∆X pequeno) III. Log-log ln(Yi) = β0 + β1ln(Xi) + ui para ∆X pequena, β1 ≅ // Y Y X X ∆ ∆ 39 /X X∆ agora 100× Y Y ∆ = variação percentual em Y, e 100× X X ∆ = variação percentual em X, então uma variação de 1% em X está associada com ββββ1% de variação em Y. • Na especificação log-log ββββ1 tem a interpretação de uma elasticidade. Heterocedasticidade e Homocedasticidade • O que significa? • Consequências de homocedasticidade • Implicação para o cálculo de erros padrão 40 O que significa? Se var(u|X=x) é constante – ou seja, se a variância da distribuição condicional de u dado X não depende de X – dizemos que u é homocedástico. Caso contrário, u é heterocedástico. E se o erro for homocedástico? • A fórmula da variância de 1ˆβ e do erro padrão de MQO fica mais simples: se var(ui|Xi=x) = 2uσ , então var( 1ˆβ ) = 2 2var[( ) ]( ) i x i X X u n µ σ − = 2 2 2 2 [( ) ] ( ) i x i X E X u n µ σ − 2σ 41 = 2 2 u Xn σ σ Nota: var( 1ˆβ ) é inversamente proporcional a var(X), como discutimos anteriormente. • Modelo Verdadeiro: onde • Modelo estimado: Viés de Variável Omitida iiii uXXY +++= ,22,110 βββ [ ] 0,| ,2,1 =iii XXuE iii vXY ++= ,110 ββ • Parâmetro estimado: 42 iii vXY ++= ,110 ββ ( ) ( ) ( )( ) ( )∑ ∑ ∑ ∑ − +++− = − − = 2 1 ,1 ,22,1101,1 2 1 ,1 1 ,1 1 ~ XX uXXXX XX YXX i iiii i ii ββββ Viés de Variável Omitida Podemos calcular o viés para grandes amostras… [ ] ( )( )( ) ( ) ( )21 ,1 1 ,1 2 1 ,1 2 ,21,1 211 ~ i ii i ii XX uXX E XX XXXX EE βββ − − + − −− += ∑ ∑ ∑ ∑ 43 [ ] 2,211 1 21~ X XXEviés σ σβββ ≈−= ( ) ( ) 2 , 21 1 ,11,1 1 21 X XX ii XXXX σ σββ +≈ − − ∑∑ Resumo da Direção do Viés Corr(x1, x2) > 0 Corr(x1, x2) < 0 β > 0 Viés positivo Viés Negativo 44 β2 > 0 Viés positivo Viés Negativo β2 < 0 Viés Negativo Viés positivo Modelo de Regressão Multipla Considere o caso de dois regressores: Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n • Y é a variável dependente 45 • X1, X2 são as duas variáveis independentes (regressores) • β0 = intercepto populacional desconhecido • β1 = efeito em Y de uma variação em X1, dado X2 constante • β2 = efeito em Y de uma variação em X2, dado X1 constante • ui = o erro da regressão (variáveis omitidas) Interpretando os coeficientes em regressões múltiplas Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n Considere a variação em X1 de ∆X1 mantendo X2 constante: A linha de regressão populacional antes da variação: 46 A linha de regressão populacional antes da variação: Y = β0 + β1X1 + β2X2 A linha de regressão populacional depois da variação: Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2 Antes: Y = β0 + β1 X1 + β2X2 Depois: Y + ∆Y = β0 + β1(X1+ ∆X1) + β2X2 Diferença: ∆Y = β1∆X1 Então: β = Y∆ , mantendo X constante 47 β1 = 1 Y X ∆ ∆ , mantendo X2 constante β2 = 2 Y X ∆ ∆ , mantendo X1 constante β0 = valor predito de Y quando X1 = X2 = 0. { } ( )∑∑ == −−−−= n i kikii n i i XXYu k 1 2 110 1 2 ,,, minmin 10 βββ ββββ L K Regressão Múltipla • O problema de MQO: ( ) ( ) { }kjXXXY XXY ji n i kikii n i kikii ,,1,02 02 1 110 1 110 KL L ∈∀=−−−−− =−−−−− ∑ ∑ = = βββ βββ • CPOs { } [ ] [ ] [ ] [ ][ ] [ ]ββββββ ββ ββ βββββ XXXYYXYYXYXY XYXY u u uuu TTTTTTTTT T n n n i i k +−−=−−= −−= =∑ = minmin minminmin 1 1 1 2 ,,, 10 ML K Regressão Múltipla: forma matricial • O problema de MQO: 49 ( ) YXYX TTT = ∂ ∂ ββ ( ) ( ) YXXYXY T TTT == ∂ ∂ ββ ( ) ( ) ( ) ( ) ( ) ( )ββββββββ XXXXXXXXXXXX TTT TTTTT 2=+=+= ∂ ∂ ( ) ( ) ( ) YXXXYXXXXXYX TTTTTT 1022 −=⇒=⇒=+− βββ • Derivações • CP0 Pressupostos de MQO em Regressões Múltiplas Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n 1. A distribuição condicional de u dado os X’s tem média zero, ou seja, E(u|X1 = x1,…, Xk = xk) = 0. 50 2. (X1i,…,Xki,Yi), i =1,…,n, são i.i.d. 3. Outliers são raros: X1,…, Xk, e Y tem quarto momento finito: E( 41iX ) < ∞,…, E( 4kiX ) < ∞, E( 4iY ) < ∞. 4. Não há multicolinearidade perfeita. Pressuposto 4: Não há multicolinearidade perfeita multicolinearidade perfeita acontece quando um regressor é exatamente uma função linear de outro(s) regressor(es). Com estes pressupostos, podemos agora derivar a distribuição amostral de 1ˆβ , 2ˆβ ,…, ˆkβ . 51 amostral de 1ˆβ , 2ˆβ ,…, ˆkβ . Armadilha da variável dummy Suponha que temos uma série de variáveis binárias (dummy), que são mutuamente exclusivas e exaustivas Ou seja, há categorias múltiplas e toda observação cai em uma e somente uma categoria (analfabeto, primário completo, 52 e somente uma categoria (analfabeto, primário completo, secundário completo, universitário ou mais). Se incluímos todas estas dummies e a constante teremos multicolinearitdade perfeita– as vezes este problema é chamado de armadilha das dummies. Armadilha da variável dummy Se incluímos todas estas dummies e a constante teremos multicolinearitdade perfeita– as vezes este problema é chamado de armadilha das dummies. • Por que teríamos multicolinearidade neste exemplo? 53 A Distribuição Amostral do Estimador de MQO Já vimos que... onde é aproximadamente constante (para grandes amostras) e ( ) VXXT n 11ˆ −+=ββ ( ) [ ]XXEXX TT n ≈ 1 54 (para grandes amostras) e e [ ]TV VVE=Σ( ) ( )Vnd TCL n i iikn n i iin n i in T n N uX uX u uXV Σ == → ∑ ∑ ∑ = = = 1 1 , 1 1 ,1 1 1 1 1 ,0 M A Distribuição Amostral do Estimador de MQO Ou seja: onde ( )βββ ΣnN 1,~ˆ [ ] ( )XXQXXEQ T nXestimado T X 1ˆ = →= ( ) ( ) 111 −− Σ=Σ XVXn QQβ 55 sendo Conceitualmente, não há nada de novo! Queremos, agora, testar hipóteses... [ ] ( )XXQXXEQ nXestimadoX ˆ = →= [ ] ( )( ) 1 ˆˆ ˆˆ 1 1 ˆ −− = −− =Σ →=Σ kn XuuX uXuX kn VVE TT TTT Vestimado T V Homocedasticidade E como fica a matriz de variâncias? Portanto, ( )( )[ ] [ ] [ ][ ] ( )[ ] [ ]XXEXIXEXXuuEXEXuuXEuXuXE TuuTTTTTTTTV 22| σσ =====Σ 56 Estimamos e ( ) ( ) [ ]( ) [ ]( ) [ ]( ) [ ]( ) ( ) 121212111 −−−−−− ===Σ=Σ XuTuTTuTxVx QXXEXXEXXEXXEQQ σσσβ ( )XXQ T nX 1ˆ = ( )∑ =−− == n i iknuu us 11 122 ˆσˆ Homocedasticidade • O que muda se acrescentamos a hipótese de homocedasticidade? • Uma única coisa: o cálculo da variância de fica mais simples! • Relembrando: no caso de um único regressor, essa hipótese era escrita como [ ]βˆVar 57 • No caso de k regressores, temos onde u é um vetor nx1, X é uma matriz nx(k+1) e I é a matriz identidade de dimensão k+1 [ ] 2| uii xXuVar σ== [ ] IXuVar u2| σ= Inferência: resumo • Quando temos mais de um regressor, a variância dos estimadores de MQO ( ) é expressa como uma matriz (matriz de variâncias e covariâncias) • Para calcular esta matriz, utiliza-se o mesmo procedimento βˆ 58 • Para calcular esta matriz, utiliza-se o mesmo procedimento usado na regressão simples: expressar uma parte como uma constante e utilizar o TCL (Teorema Central do Limite). • Para fazer teste de hipótese sobre um único coeficiente: procedimento padrão Inferência: resumo • Para fazer teste de hipótese sobre uma combinação linear dos coeficientes: procedimento padrão, utilizando também as covariâncias. Alternativamente, pode-se redefinir o regressores. • Para fazer teste sobre um conjunto de hipóteses: utilizar a 59 • Para fazer teste sobre um conjunto de hipóteses: utilizar a estatística F • Sob a hipótese de homocedasticidade: variância mais simples. Cuidado: se a hipótese não é válida, a inferência não é válida. Solução: utilize a matriz robusta. Estimando β1 regressão residual • Apesar de vocês não terem que decorar a fórmula de MQO, ela serve para algumas coisas importantes. • Uma aplicação importante é a regressão residual-- uma forma alternativa de obter o coeficiente β1. 60 alternativa de obter o coeficiente β1. • Considere a seguinte regressão: Yi = β0 + β1X1i + β2X2i + ui Estimando β1 regressão residual • Dissemos que β1 corresponde ao efeito de X1 em Y, depois que controlamos ou limpamos X2. Outra maneira de ver que isto é usando uma regressão residual. 61 Estimando β1 regressão residual • Dissemos que β1 corresponde ao efeito de X1 em Y, depois que controlamos ou limpamos X2. Outra maneira de ver que isto é usando uma regressão residual. • Podemos fazer uma regressão de X1 em X2 e obter os resíduos, 62 • Podemos fazer uma regressão de X1 em X2 e obter os resíduos, ou seja: X1i = γ1X2i + ri Estimando β1 regressão residual • Dissemos que β1 corresponde ao efeito de X1 em Y, depois que controlamos ou limpamos X2. Outra maneira de ver que isto é usando uma regressão residual. • Podemos fazer uma regressão de X1 em X2 e obter os resíduos, 63 • Podemos fazer uma regressão de X1 em X2 e obter os resíduos, ou seja: X1i = γ1X2i + ri • O resíduo desta regressão (r) é a parte de X1 que não é correlacionada com X2 ou dito de outra forma r é X1 depois que os efeitos de X2 foram levados em consideração. Estimando β1 regressão residual • Podemos recuperar o estimador de β1 fazendo uma regressão de Y no resíduo (r) da regressão de X1 em X2: ∑ = 1ˆˆ ii yrβ 64 ( )∑ ∑ = 2 1 1 1 ˆ ˆ ˆ i ii r yrβ ( ) ( ),21 2 ˆ ˆ jRjSTQ jep − = σβ Acrescentando uma hipótese A distribuição foi obtida para grandes amostras. O que fazer se este pressuposto não for válido? A distribuição para pequenas amostras fica MUITO complicada. Para simplificar, devemos fazer outra hipótese: 65 Esta hipótese é mais forte que a hipótese de hocedasticidade. Agora, impomos uma forma funcional para a distribuição dos erros. Esta hipótese define o Modelo Linear Clássico. ( )INu u2,0~ σ Acrescentando uma hipótese Como explicar esta hipótese? O termo de erro, u, é a soma de muitos fatores diferentes não observados que afetam Y. Portanto, pelo TCL, ele deveria estar próximo de uma normal. Esta hipótese é realista? Para muitos casos, NÃO. Exemplo: suponha que Y só assuma valores inteiros (1, 2, 3,...) ou 66 Exemplo: suponha que Y só assuma valores inteiros (1, 2, 3,...) ou que Y esteja limitado a um intervalo. Nesses casos, não é factível supor que a parte não explicada de Y tenha distribuição normal. Mas como fica a inferênciasob a hipótese de normalidade dos erros? . Distribuição Normal Homocedástica y f(y|x) 67 . . x1 x2 E(y|x) = β0 + β1x Distribuição Normal Normalidade dos Estimadores • A normalidade de u implica que a distribuição amostral dos estimadores de MQO também será normal: )]ˆ(,ˆ[~ˆ jjj VarN βββ 68 • Que pode ser padronizado, como mostramos antes, para: )](,[~ jjj VarN βββ )1,0(~)ˆ(dp/)ˆ( Njjj βββ − Variância Continua valendo que Agora, não faz sentido supor que Porém, já vimos que sob homocedasticidade a variância é ( ) [ ]XXEXX TT n ≈ 1 ( ) 12 −=Σ σ ( ) ( )uXXX T n T n 111ˆ −+=ββ [ ]= 69 dada por onde Portanto, ( ) 1211 −=Σ Xunn Qσβ ( ) ( ) 11111211 1 ˆ1 1 ˆ1 ˆ ˆ ˆ − = − = − −− = −− ==Σ ∑∑ XX kn u XX nkn u n Q T n i iT n i i Xunn σβ [ ]XXEQ TX = Testando Hipóteses para um único coeficiente • H0: • H1: • Que estatística utilizar? Esta é a estatística mostrada quando se roda uma regressão ( )j jj SE t β ββ ˆ ˆ 0,− = 0, 0, ˆ ˆ jj jj ββ ββ ≠ = 70 Esta é a estatística mostrada quando se roda uma regressão (calculada pelo software) • De onde está vindo? Da diagonal principal da matriz ( )jSE βˆ βΣˆ1n Testando Hipóteses para um único coeficiente • Porém t ~ tn-k-1 (distribuição t de Student com n-k-1 graus de liberdade). ( ) p pp t W Z W NZ ~ ~ 1,0~ 1 ⇒ χ 71 • Por que isso ocorre? Intuição: e Lembrar: A distribuição t se parece muito com uma normal, mas tem caudas mais pesadas. ( ) 12 2 ~1 −− −− kn u uskn χ σ ( )INu u ,0~ 2σ Testando Combinações Lineares de Parâmetros • Muitas vezes queremos testar hipóteses sobre UMA relação que envolva mais de um parâmetro. • Exemplo: queremos testar H0: β1=β2 contra H1: β1<β2 72 • O que devemos fazer? Como na aula passada, devemos reescrever esta relação como uma variável interesse (no exemplo acima, testar H0: β1- β2=0) e calcular o desvio-padrão desta variável (levando em consideração as covariâncias). • Alternativamente, podemos redefinir nossa regressão. • O que muda? A distribuição utilizada: tn-k-1. Testando Combinações Lineares de Parâmetros: Exemplo • Queremos saber se o retorno salarial de quem se forma na graduação é menor de quem faz um mestrado. Log(salário) = β0 + β1Grad + β2Mest + β3Exper + u 73 • Estatística: ( ) 1~2ˆ1ˆ 2 ˆ 1 ˆ −− − − = kntEP t ββ ββ ( ) 122221 2)]ˆ(EP[)]ˆ(EP[2ˆ1ˆEP s−+=− ββββ Alternativamente… • Definimos um novo parâmetro: θ1 = β1 - β2 • Queremos, então, testar: H0: θ1=0 contra H1: θ1<0 74 Podemos re-escrever β1 = θ1 + β2 Substituindo na equação original temos que: Log(salário) = β0 + (θ1 + β2)Grad + β2Mest + β3Exper + u Log(salário) = β0 + θ1 Grad + β2 (Mest+Grad) + β3Exper + u Testando hipóteses conjuntas em Amostras Finitas • Na aula passada demos um exemplo do teste F em amostras grandes. Agora iremos derivar o teste F em amostras finitas. • Que distribuição utilizar? A distribuição Fq,n-k-1. 75 q,n-k-1 • Como calcular a estatística? Teste F com erros homocedásticos • Quando os erros são homocedásticos, temos uma fórmula simples para calcular a estatística F (somente válida para erros homocedásticos): • Estimamos duas regressões, uma sob a hipótese nula (a 76 regressão “restrita”) e outra sob a hipótese alternativa (a regressão “irrestrita”). • Comparamos o ajuste das regressões, se o modelo “irrestrito” tem um ajuste suficientemente melhor, rejeitamos a hipótese nula. Como medimos suficientemente melhor? Regressões “restritas” e “irrestritas” Examplo: coeficientes de educação e desigualdade são zero? Regressão populacional irrestrita (sob H1): Crime_pc= β0 + β1 Policiais_pc + β2 Renda_pc + β3 Educ 77 Crime_pc= β0 + β1 Policiais_pc + β2 Renda_pc + β3 Educ + β4 Desig + u Regressão populacional restrita (sob H0): Crime_pc= β0 + β1 Policiais_pc + β2 Renda_pc + u Teste F com erros homocedásticos )1/( /)( 1, −− − = −− knirSQR qirSQRrSQRF knq 78 • Onde SQRr é a soma dos quadrados dos resíduos no modelo restrito e SQRir é a quadrados dos resíduos no modelo irrestrito. • q é o número de restrições • k é o número de regressores no modelo irrestrito. • Estatística mede o aumento relativo em SRQ quando passamos do modelo irrestrito para o modelo restrito. Testando a Hipótese com Teste F • Vamos comparar o valor calculado da estatística F com o valor crítico c, levando em consideração os graus de liberdade (q, n-k- 1). • Para valores grandes de F, rejeitamos a hipótese nula. 79 • Para valores grandes de F, rejeitamos a hipótese nula. • Ou seja, concluímos que os coeficientes são conjuntamente significativos ao nível de 5% (por exemplo). Fórmula com R2 • Por que podemos fazer a tranformação e usar esta fórmula? )1/()1( /)( 2 22 1, −−− − = −− knR qrRirRF ir knq 80 Lembremos que STQ=SRQ+SQE (Soma resíduos total=soma resíduos quadráticos + soma quadrática explicada) • A fórmula homocedástica de F rejeita quando adicionamos variáveis e o R2 aumenta o “suficiente”– ou seja, quando adicionamos variáveis e o ajuste da regressão aumenta o “suficiente”. 81
Compartilhar