Baixe o app para aproveitar ainda mais
Prévia do material em texto
Econometria Aula 10 Marta AreosaMarta Areosa marta@econ.puc-rio.br Modelo de Regressão Multipla Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n Matricialmente: Y=Xββββ + u 1. A distribuição condicional de u dado os X’s tem média zero, 22 ou seja, E(u|X1 = x1,…, Xk = xk) = 0. (ou E(u|X) = 0) 2. (X1i,…,Xki,Yi), i =1,…,n, são i.i.d. 3. Outliers são raros: X1,…, Xk, e Y tem quarto momento finito: E( 41iX ) < ∞,…, E( 4kiX ) < ∞, E( 4iY ) < ∞. 4. Não há multicolinearidade perfeita. (ou (XTX)-1 existe) Multicolinearidade Perfeita • Multicolinearidade perfeita geralmente reflete algum erro na definição dos regressores, ou algo esquisito nos dados. • Nesse caso, o software estatístico deixará claro o problema – 3 não conseguirá estimar o modelo ou dará uma mensagem “dropando” uma das variáveis arbitrariamente. • A solução neste caso é modificar os regressores. Incluindo variáveis irrelevantes • Já falamos sobre o viés de variáveis omitidas—o viés causado pela ausência de uma variável X2, determinante de Y e correlacionada com X1. • Mas o que acontece se incluímos no modelo uma variável 4 • Mas o que acontece se incluímos no modelo uma variável irrelevante (que não deveria determinar Y)? Isto é chamado, as vezes, de sobre-especificação do modelo. Incluindo variáveis irrelevantes • Suponha que especificamos o seguinte modelo: Y = β0 + β1X1 + β2X2 + β3X3 +u Na regressão populacional (desconhecida), a variável X3 não determina Y depois de controlarmos por X e X . 5 determina Y depois de controlarmos por X1 e X2. Incluindo variáveis irrelevantes • Suponha que especificamos o seguinte modelo: Y = β0 + β1X1 + β2X2 + β3X3 +u Na regressão populacional (desconhecida), a variável X3 não determina Y depois de controlarmos por X e X . Ou seja, 6 determina Y depois de controlarmos por X1 e X2. Ou seja, E(Y|X1, X2, X3)= E(Y|X1, X2)= β0 + β1X1 + β2X2 Incluindo variáveis irrelevantes • Suponha que especificamos o seguinte modelo: Y = β0 + β1X1 + β2X2 + β3X3 +u Na regressão populacional (desconhecida), a variável X3 não determina Y depois de controlarmos por X e X . Ou seja, 7 determina Y depois de controlarmos por X1 e X2. Ou seja, E(Y|X1, X2, X3)= E(Y|X1, X2)= β0 + β1X1 + β2X2 • O que acontece com os coeficientes β1 e β2 quando incluímos uma variável irrelevante (X3) na regressão (sem saber)? Incluindo variáveis irrelevantes • Nada ! 8 Incluindo variáveis irrelevantes • Nada ! • Então podemos incluir tudo o que quisermos sempre numa regressão? 9 Incluindo variáveis irrelevantes • Nada ! • Então podemos incluir tudo o que quisermos sempre numa regressão? 10 • Não. Vamos ver mais adiante que a inclusão de variáveis irrelevantes afeta a precisão de β1 e β2 (o erro padrão). Incluindo variáveis irrelevantes • Nada ! • Então podemos incluir tudo o que quisermos sempre numa regressão? 11 • Não. Vamos ver mais adiante que a inclusão de variáveis irrelevantes afeta a precisão de β1 e β2 (o erro padrão). Estimando β1 regressão residual • Apesar de vocês não terem que decorar a fórmula de MQO, ela serve para algumas coisas importantes. • Uma aplicação importante é a regressão residual-- uma forma alternativa de obter o coeficiente β1. 12 alternativa de obter o coeficiente β1. • Considere a seguinte regressão: Yi = β0 + β1X1i + β2X2i + ui Estimando β1 regressão residual • Dissemos que β1 corresponde ao efeito de X1 em Y, depois que controlamos ou limpamos X2. Outra maneira de ver que isto é usando uma regressão residual. 13 Estimando β1 regressão residual • Dissemos que β1 corresponde ao efeito de X1 em Y, depois que controlamos ou limpamos X2. Outra maneira de ver que isto é usando uma regressão residual. • Podemos fazer uma regressão de X1 em X2 e obter os resíduos, 14 • Podemos fazer uma regressão de X1 em X2 e obter os resíduos, ou seja: X1i = γ1X2i + ri Estimando β1 regressão residual • Dissemos que β1 corresponde ao efeito de X1 em Y, depois que controlamos ou limpamos X2. Outra maneira de ver que isto é usando uma regressão residual. • Podemos fazer uma regressão de X1 em X2 e obter os resíduos, 15 • Podemos fazer uma regressão de X1 em X2 e obter os resíduos, ou seja: X1i = γ1X2i + ri • O resíduo desta regressão (r) é a parte de X1 que não é correlacionada com X2 ou dito de outra forma r é X1 depois que os efeitos de X2 foram levados em consideração. Estimando β1 regressão residual • Podemos recuperar o estimador de β1 fazendo uma regressão de Y no resíduo (r) da regressão de X1 em X2: ∑ n ˆ 16 ∑ ∑ = = = n i i n i ii r yr 1 2 1 1 ˆ ˆ ˆβ é viesado? Sabemos que: = (XTX)-1XTY = (XTX)-1XT(Xββββ +u)= ββββ +(XTX)-1XTu Mas, por hipótese, E(u|X) = 0. Portanto: βˆ βˆ 1717 = E[ββββ +(XTX)-1XTu] = ββββ + E[(XTX)-1XTE[u|X]] = ββββ Ou seja, não é viesado! ( ) [ ]βˆE βˆ [ ] ββ =ˆE Consequências das CPOs… Resultado 1: Interpretação: A soma dos resíduos é zero. Resultado 2: ( )[ ] ( ) 0ˆ0ˆ0ˆˆˆ 111 ,,110 =⇒=−⇒=+++− ∑∑∑ === n i i n i ii n i ikkii uyyxxy βββ L 1818 Resultado 2: Interpretação: a covariância amostral entre cada regressor e o resíduo é zero ( ). Matricialmente, podemos escrever estas condições como: ( )[ ] ( ) 0ˆ0ˆ0ˆˆˆ 1 , 1 , 1 ,,110, =−⇒=⇒=+++− ∑∑∑ === n i ijij n i iij n i ikkiiij uxxuxxxyx βββ L 0=xys 0ˆ =uX T é proximo de uma constante… ( ) = ∑∑∑∑ ∑∑∑∑ ∑∑∑ ==== ==== === 1 ,,21 2 ,21 ,2,11 ,2 1 ,,11 ,2,11 2 ,11 ,1 1 ,1 ,21 ,1 1111 1111 1111 1 n i iki n i i n i ii n i i n i iki n i ii n i i n i i n i ik n i i n i i T XX n X n XX n X n XX n XX n X n X n X n X n X n XX n L L L • Para grandes amostras… ( )XX T n 1 [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] ≈ ∑ ∑∑∑∑ ∑∑∑∑ = ==== ==== 2 121 1 ,,2 2 2212 121 2 11 21 1 2 ,1 ,,21 ,,11 , 1 ,,21 ,21 ,2,11 ,2 1 1111 kkkk n i iki K k n i ik n i iki n i iki n i ik i ikii ii iii i XEXXEXXEXE XXXEXXEXE XXEXXEXEXE XEXEXE X n XX n XX n X n XX n X n XX n X n n L MOMMM L L L L MOMMM L A Distribuição Amostral do Estimador de MQO Com estes quatro pressupostos , • A distribuição exata (amostra finita) de 1ˆβ tem média β1, var( 1ˆβ ) que é inversamente proporcional a n; também para 2ˆβ . • Além da média e variância, a distribuição finita de 1ˆβ é bastante complicada; mas para n grande… 20 bastante complicada; mas para n grande… A Distribuição Amostral do Estimador de MQO Já vimos que... onde é aproximadamente constante (para grandes amostras) , ( ) VXXT n 11ˆ −+=ββ ( ) [ ]XXEQXX TXTn =≈1 21 sendo [ ]TiiV VVE=Σ ( ) ( )Vnd TCL n i V iik ii i n n i iikn n i iin n i in T n N uX uX u uX uX u uXV i Σ = == →∑ ∑ ∑ ∑ = = = = 1 1 , ,11 1 , 1 1 ,1 1 1 1 1 ,0 43421 MM A Distribuição Amostral do Estimador de MQO Ou seja: onde ( )βββ ΣnN 1,~ˆ [ ] ( )XXQXXEQ T nXestimado T X 1ˆ = →= ( ) ( ) 111 −− Σ=Σ XVXn QQβ 22 sendo Conceitualmente, não há nada de novo! Queremos, agora, testar hipóteses... [ ] ( )XXQXXEQ nXestimadoX ˆ = →= [ ] ( )( ) 1 ˆˆ ˆˆ 1 1 ˆ −− = −− =Σ →=Σ kn XuuX uXuX kn VVE TT TTT Vestimado T iiV Testes de Hipóteses Conjuntas Considere o seguinte modelo de regressão populacional: Notai = β0 + β1Tamanhoi + β2Gastopai + β3EscProfi +ui 23 A hipótese nula que “recursos na escola não importam,” e a hipótese alternativa que importam, correspondem a: H0: β1 = 0 e β2 = 0 vs. H1: β1 ≠ 0 ou β2 ≠ 0 ou ambos Testes de Hipóteses Conjuntas H0: β1 = 0 e β2 = 0 vs. H1: β1 ≠ 0 ou β2 ≠ 0 ou ambos • Uma hipótese conjunta especifica o valor para dois ou mais coeficientes, ou seja, impõe restrições em dois ou mais 24 coeficientes, ou seja, impõe restrições em dois ou mais coeficientes. • Em geral, a hipótese conjunta envolve q restrições. No exemplo acima, q = 2, e as duas restrições são β1 = 0 e β2 = 0. Testes de Hipóteses Conjuntas H0: β1 = 0 e β2 = 0 vs. H1: β1 ≠ 0 ou β2 ≠ 0 ou ambos • Intuição do “bom senso” seria de rejeitar se alguma das estatísticas-t fosse maior que 1.96 em valor absoluto. 25 estatísticas-t fosse maior que 1.96 em valor absoluto. • Mas este tipo de teste, feito com um coeficiente de cada vez, rejeitaria nossa hipótese com mais freqüência do que gostaríamos (mais de 5%, assumindo hip. Nula verdadeira)! Por que não podemos testar um coeficiente da cada vez? Calculemos a probabilidade de rejeitar a hipótese nula incorretamente usando o “bom senso” com estatísticas-t individuais. Suponhamos que ˆβ e ˆβ são independentemente distribuídos. 26 Suponhamos que 1ˆβ e 2ˆβ são independentemente distribuídos. Sejam t1 e t2 as estatísticas-t: Por que não podemos testar um coeficiente da cada vez? Calculemos a probabilidade de rejeitar a hipótese nula incorretamente usando o “bom senso” com estatísticas-t individuais. Suponhamos que ˆβ e ˆβ são independentemente distribuídos. 27 Suponhamos que 1ˆβ e 2ˆβ são independentemente distribuídos. Sejam t1 e t2 as estatísticas-t: t1 = 1 1 ˆ 0 ˆ( )SE β β − and t2 = 2 2 ˆ 0 ˆ( )SE β β − Por que não podemos testar um coeficiente da cada vez? O teste seqüencial implica: rejeitar H0: β1 = β2 = 0 se |t1| > 1.96 e/ou |t2| > 1.96 28 Qual é a probabilidade que este teste “sequencial” rejeite H0, quando H0 é de fato verdadeira? (deveria ser 5%.) Suponha que t1 e t2 fossem independentes A probabilidade de rejeitar a hipótese nula incorretamente usando o teste seqüencial é: = 0 PrH [|t1| > 1.96 e/ou |t2| > 1.96] 29 = 0 PrH [|t1| > 1.96, |t2| > 1.96] + 0PrH [|t1| > 1.96, |t2| ≤ 1.96] + 0 PrH [|t1| ≤ 1.96, |t2| > 1.96] Suponha que t1 e t2 fossem independentes A probabilidade de rejeitar a hipótese nula incorretamente usando o teste seqüencial é: = 0 PrH [|t1| > 1.96 e/ou |t2| > 1.96] = 0 PrH [|t1| > 1.96, |t2| > 1.96] + 0PrH [|t1| > 1.96, |t2| ≤ 1.96] 30 = 0 PrH [| 1| > 1.96, | 2| > 1.96] + 0PrH [| 1| > 1.96, | 2| ≤ 1.96] + 0 PrH [|t1| ≤ 1.96, |t2| > 1.96] = 0 PrH [|t1| > 1.96] × 0PrH [|t2| > 1.96] + 0 PrH [|t1| > 1.96] × 0PrH [|t2| ≤ 1.96] + 0 PrH [|t1| ≤ 1.96] × 0PrH [|t2| > 1.96] (assumindo t1, t2 independentes) Suponha que t1 e t2 fossem independentes = 0 PrH [|t1| > 1.96] × 0PrH [|t2| > 1.96] + 0 PrH [|t1| > 1.96] × 0PrH [|t2| ≤ 1.96] + 0 PrH [|t1| ≤ 1.96] × 0PrH [|t2| > 1.96] = .05×.05 + .05×.95 + .95×.05 31 = .05×.05 + .05×.95 + .95×.05 = .0975 = 9.75% Suponha que t1 e t2 fossem independentes = 0 PrH [|t1| > 1.96] × 0PrH [|t2| > 1.96] + 0 PrH [|t1| > 1.96] × 0PrH [|t2| ≤ 1.96] + 0 PrH [|t1| ≤ 1.96] × 0PrH [|t2| > 1.96] = .05×.05 + .05×.95 + .95×.05 32 = .05×.05 + .05×.95 + .95×.05 = .0975 = 9.75% Que não é 5% !!! Teste sequencial não é o correto: o que fazer? A probabilidade de rejeitar uma hipótese nula incorretamente depende da correlação entre t1 e t2 (e conseqüentemente na correlação entre 1ˆβ e 2ˆβ ). 33 Solução: Temos que usar uma estatística que teste β1 e β2 simultaneamente: a estatística F. A Estatística F A estatística F testa todas as partes de uma hipótese simultaneamente. A fórmula para o caso especial da hipótese conjunta β1 = β1,0 e β2 = β numa regressão com dois regressores é: 34 = β2,0 numa regressão com dois regressores é: F = 1 2 1 2 2 2 1 2 , 1 2 2 , ˆ21 ˆ2 1 t t t t t t t tρ ρ + − − onde 1 2, ˆt tρ estima a correlação entre t1 e t2. Testando β1 e β2 com F F = 1 2 1 2 2 2 1 2 , 1 2 2 , ˆ21 ˆ2 1 t t t t t t t tρ ρ + − − • A estatística F é grande quando t1 e/ou t2 é grande 35 • A estatística F é grande quando t1 e/ou t2 é grande • A estatística F corrige pela correlação entre t1 e t2. • A fórmula para mais de dois β’s é horrível sem usar matrizes (algebra linear). Testando β1 e β2 com F F = 1 2 1 2 2 2 1 2 , 1 2 2 , ˆ21 ˆ2 1 t t t t t t t tρ ρ + − − • A estatística F é grande quando t1 e/ou t2 é grande 36 • A estatística F é grande quando t1 e/ou t2 é grande • A estatística F corrige pela correlação entre t1 e t2. • A fórmula para mais de dois β’s é horrível sem usar matrizes (algebra linear). • Tudo isso faz com que a estatística F tenha uma aproximação para amostras grandes dada por… Distribuição da Estatística-F em Amostras Grandes Considere o caso especial em que t1 e t2 são independentes, assim 1 2, ˆt tρ p → 0; em amostras grandes a fórmula seria: F = 1 2 2 2 1 2 , 1 2 2 ˆ21 ˆ t tt t t tρ ρ + − − ≅ 2 21 2 1 ( )t t+ 37 F = 1 2 2 , ˆ2 1 t tρ − ≅ 1 2( )2 t t+ Distribuição da Estatística-F em Amostras Grandes F = 1 2 1 2 2 2 1 2 , 1 2 2 , ˆ21 ˆ2 1 t t t t t t t tρ ρ + − − ≅ 2 21 2 1 ( ) 2 t t+ 38 • Na hipótese nula, t1 e t2 tem distribuições normal padrão que neste caso especial seriam independentes Distribuição da Estatística-F em Amostras Grandes F = 1 2 1 2 2 2 1 2 , 1 2 2 , ˆ21 ˆ2 1 t t t t t t t tρ ρ + − − ≅ 2 21 2 1 ( ) 2 t t+ 39 • Na hipótese nula, t1 e t2 tem distribuições normal padrão que neste caso especial seriam independentes • A distribuição em amostras grande da estatística F é a distribuição da média de duas variáveis aleatórias que estão dadas pelo quadrado da normal padronizada. A distribuição chi-quadrado com q graus de liberdade ( 2qχ ) é definida como a distribuição da soma de q normais padronizadas independentes ao quadrado. 40 A distribuição chi-quadrado com q graus de liberdade ( 2qχ ) é definida como a distribuição da soma de q normais padronizadas independentes ao quadrado. Em amostras grandes (n grande), F está distribuída como 2 qχ /q. 41 Alguns valores de 2qχ /q q valor critico 5% 1 3.84 2 3.00 3 2.60 4 2.37
Compartilhar