Baixe o app para aproveitar ainda mais
Prévia do material em texto
Lista 5 - Heterocedasticidade e Erro de Medida Econometria I Monitoras: Carolina Nour e Isabela I. Gomes Maio, 2021 1 Heterocedasticidade Questão 1. Considere o seguinte modelo populacional: Yi = xiβ + εi Onde β é o vetor K × 1 de parâmetros de MQO, e x1 é o vetor de variáveis explicativas de dimensão 1×K. Assuma que E [εi | xi] = 0 a) Explique o que é "Heteroscedasticidade" e como você definiria um εi (ou a matriz �,N×1) heterocedástico. Sob esta condição, o estimador de MQO é viesado? Heterocedasticidade é o fenômeno estatístico que ocorre quando o modelo de regressão ap- resenta variâncias para Y e X ou (X1, X2, X3, . . . , Xn) não iguais para todas as observaçōes, contrariando a hipótese de que: V [εi | X] = σ2 i = 1, 2, · · · , n Podemo que se no nosso modelo estamos olhando para a população de um país, a hetero- cedasticidade entre as observações pode vir de diferentes estados. Nesse caso, as observações dentro de um estado são homocedásticas. Em termos algébricos podemos escrever εie = u+ηe, em que o primeiro componente do erro representa a parte constante entre os indivíduos e o segundo componente varia para os indivíduos de estados diferentes. 1 O estimador de MQO continuará não viesado sob as hipóteses assumidas no enunciado. Lembre-se de que para termos não viés não precisamos de homocedasticidade. b) Mostre "como" o estimador usual da variância de β̂MQO é prejudicado nesse caso. (Dica: abra as continhas ate o passo em que utilizávamos a hipótese de homoscedasticidade para entender). Qual o estimador do erro padrão "robusto" à heterocedasticidade? Quando este estimador (do erro padrão) é consistente? Primeiro, vamos abrir a variância do estimador: V [bMQO | X] = V [ (X ′X) −1 X ′y | X ] = V [ β + (X ′X) −1 X ′� | X ] = V [ (X ′X) −1 X ′� | X ] Considerando o caso em que X = (x1i . . . xNi) ′, ou seja, 1 variável explicativa só. V [ (X ′X) −1 X ′� | X ] = V [∑ N (xi − x̄) εi∑ N (xi − x̄) 2 | X ] = 1{∑ N (xi − x̄) 2}2V [∑ N (xi − x̄) εi | X ] Q problema aqui é que não temos mais a hipótese de que εi é i.i.d (pode tanto ser de- pendente entre i ’s e certamente não é idêntico entre i ’s.), então não podemos "abrir" V [ ∑ N (xi − x̄) εi | X]. Se nossa amostra é grande (N →∞), podemos nos preocupar com a variância assintótica apenas: Avar [bMQO − β] = 1 {V (xi)}2 V [(xi − E [xi]) εi] Assim precisamos apenas de um estimador "robusto" para V [(xi − E [xi]) εi] . Este estimador é facilmente encontrando usando o análogo amostral, com os resíduos ao quadrado: 1 n ∑ N {(xi − x̄) ei}2 p→ V [(xi − E [xi]) εi] Note que como este estimador é apenas consistente (mas pode ser enviesado), precisamos de uma amostra grande para usar o estimador dos erros "robusto". c) Explique, intuitivamente, os testes de heteroscedasticidade de Breusch-Pagan, White e Goldfeld - Quandt. Heterocedasticidade é quando a variância do erro condional ao nosso vetor X não é constante. 2 Isso quer dizer que para um dado valor de X, a variância do erro não é a mesma entre todas as observações. Dessa forma, todos os três testes mencionados tentam verificar a relação entre a variação do erro e o vetor X. Considere que estamos em um modelo em que queremos ver o efeito de renda (X) nos gastos com alimentação (Y). Nesse modelo nós temos que a medida que a renda aumenta, os gastos com alimentação começam a ter uma variância grande. Isso acontece porque existem indiví- duos ricos que gastam uma parcela alta de sua renda com alimentação, mas ao mesmo tempo alguns indivíduos ricos gastam pouco com alimentação. Isso pode ser observado no gráfico abaixo em que cada ponto verde é uma observação. Vamos supor que a variância do erro começa a aumentar a partir de um certo nível de renda que, segundo o gráfico, seria de 2 mil reais. Dessa forma, o teste de Goldfeld - Quandt consiste em testar se a variação dos erros do lado direito dos 2mil (grupo 1) é a mesma do lado esquerdo (grupo 2). A ideia é que se essa variação for diferente (como de fato aparenta o gráfico) o modelo será heterocedástico. Dessa forma, a hipótese nula é H0 : U21 = U22 . Para realizar esse teste utilizamos a estatística F. O teste Breusch-Pagan já considera um modelo com mais de uma variável explicativa e a ideia é testar se alguma dessas variáveis possui relação com a variação do erro. Ou seja, vamos testar se os coefientes da regressão abaixo são conjuntamente significantes: U2 = α0 + α1X1 + · · ·+ αnXn + � 3 Queremos testar se qualquer uma das variáveis possui relação com a variação do erro, então temos um teste conjunto cuja hipótese nula é H0 : α1 = 0, . . . , αn = 0 contra a alternativa H1 : αi 6= 0 para i = 1, . . . , n. E por fim o teste de White segue a mesma lógica só que considerando a possibilidade de um comportamento não linear entre a variação do erro e as variáveis explicativas. Isso é feito incluindo os termos quadráticos de cada variável explicativa e todas as possíveis interações entre elas na regressão acima. Questão 2. Considere o seguinte modelo populacional: Yi = xiβ + εi Onde β é o vetor K × 1 de parâmetros de MQO, ex1 é o vetor de variáveis explicativas de dimensão 1×K. A versão matricial deste modelo é: Y = Xβ + � Assuma que E[� | X] = 0, mas V[� | X] = σ2 · Ω, onde Ω é uma matriz N × N invertível e conhecida (ou seja, não precisa ser estimada). a) Mostre que bOLS é não-viesado e calcule V [bOLS | X]. Sabemos que bOLS = (X ′X) −1X ′y = (X ′X)−1X ′Xβ + (X ′X)−1X ′e. Tomando a esperança: E [bOLS | X] = β + (X ′X)−1X ′E[� | X] = β Este estimador continua não-vieasado! Agora calculando a variância: V [bOLS | X] = V ( β + (X ′X)−1X ′� | X ) = V ( (X ′X)−1X ′� | X ) = = (X ′X)−1X ′V(� | X)X (X ′X)−1 = σ2 (X ′X)−1X ′ΩX (X ′X)−1 b) Mostre que o estimador de Mínimos Quadrados Generalizados (MQG ou GLS) bGLS = ( X ′Ω−1X )−1 X ′Ω−1y 4 é não-viesado e calcule V [bGLS | X] Primeiro, vamos pré-multiplicar o modelo por Ω−1/2 : Ω−1/2Y = Ω−1/2Xβ + Ω−1/2� É fácil de ver que o estimador de GLS é OLS deste modelo, ou seja: bGLS = ( X ′Ω−1X )−1 X ′Ω−1y = ( X ′Ω−1X )−1 X ′Ω−1Xβ + ( X ′Ω−1X )−1 X ′Ω−1� bGLS = β + ( X ′Ω−1X )−1 X ′Ω−1� Tomando a esperança: E [bGLS | X] = β + ( X ′Ω−1X )−1 X ′Ω−1E[� | X] = β Mas a variância agora está corrigida: V [bGLS | X] = V ( β + (X ′Ω−1X) −1 X ′Ω−1� | X ) = V ( (X ′Ω−1X) −1 X ′Ω−1� | X ) = (X ′Ω−1X) −1 X ′Ω−1V(� | X)Ω−1X (X ′Ω−1X)−1 = σ2 (X ′Ω−1X)−1 c) Mostre que bGLS é BLUE. (Dica: mostre que os erros do modelo transformado, Ω−1/2y, são homocedásticos. Isso é o bastante para a aplicação do Teorema de Gauss-Markov.) Mais uma vez, é suficiente é mostrar que, com o modelo transformado Ω−1/2Y = Ω−1/2Xβ + Ω−1/2� Note que isso é possível assumindo uma vez que a matriz Ω é positiva semi-definida, então ela pode ser decomposta unicamente em Ω = Ω−1/2Ω−1/2, os erros terão formatos homocedás- ticos. Dessa forma − no modelo transformado − temos todas as hipóteses para aplicar o Teorema de Gauss-Markov: Ω−1/2y = Ω−1/2Xβ + Ω1/2� =⇒ Var ( Ω−1/2y | X ) = V ( Ω−1/2� ) = σ2Ω−1/2ΩΩ−1/2 = σ2I 5 Os erros são homoscedásticos já que sua variância não depende de X. d) Assuma agora que Ω tem um formato especifico: Ω = diag (ω1, ω2, . . . , ωn) . O que essa hipótese implica considerando os termos de erro? Perceba que se Ω é uma matriz diagonal, isso significa que V(� | X) também é uma matriz diagonal. Lembre-se que as entradas diagonais de uma matriz de variância-covariância repre- sentam as variâncias, enquanto as entradas fora da diagonal representam as covariâncias Se a matriz só tem a diagonal, as covariâncias entre os termos de erro são iguais a zero. Dessa forma, estamos assumindo que a variância depende de X, mas cada observação (erro) ainda é independente entre si. e) Sabemos que o estimador de MQO minimiza a soma quadrada dos resíduos, e′e, onde e = (y − Xb). O estimador de GLS, por sua vez, minimiza a seguinte expressão (tome isso como verdadeiro): min b S(b) = e′Ω−1e = (y −Xb)′Ω−1(y−Xb) Deduza os pesos atribuídos a cada observação numa estimação por GLS, assumindo que Ω é uma matriz diagonal. Qual o significado desses pesos? Considere o termo e′Ω−1e. Se considerarmos que Ω é diagonal, então Ω−1 também é uma diagonal, ou ainda Ω = diag (ω1, . . . , ωn) então, Ω−1 = diag ( ω−11 , ω −1 2 , . . . , ω −1 n ) Ademais, lembre-se de que e′e = n∑ i=1 e2i Logo, concluímos que e′Ω−1e = n∑ i=1 e2i ωi Ou seja, a minimização de resíduos esta usando o peso ωi para cada observação i. Para descobrir o que é esse peso, lembre-se que V [ Ω−1/2� ] = σ2I. Considerando apenas um elemento i dessa matriz, teremos que V ( εi√ ωi ) = σ2 ⇒ ωi = V (εi) σ2 6 Intuitivamente, cada observaçăo i é ponderada por ω−1i , de forma que erros com maior var- iância são ponderados com erros menores. Questão 3. Suponha que queremos avaliar o efeito de um programa de inovação tecnológica em firmas. Considere o seguinte modelo populacional, com i ∈ Nj indivíduos (funcionários) dentro de cada firma j ∈ J : Yij = β0 + β1Tj + uij Nesse modelo, Yij representa a produtividade de cada funcionário e Tj é uma dummy indi- cando se a firma foi selecionada (aleatoriamente) para o grupo de tratamento (1) ou controle (0). Podemos assumir que uij | Tj ∼ N (0, σ2)− ou seja, o erro individual é homocedástico. No entanto, imagine que não seja possível coletar dados individuais, e acabamos restritos pelos dados ao seguinte modelo agregado: Yj = β0 + β1Tj + vj Onde Yj = Ȳj = ∑ Nj Yij Nj , ou seja, a produtividade média em cada firma. Da mesma forma, vj = ūj = ∑ Nj uij Nj . Temos uma amostra independente de firmas. O número de funcionários por firma (Nj) é conhecido e varia entre as firmas, e o número de firmas não é grande. (J <∞) a) Primeiro, mostre que o estimador de MQO usando o modelo agregado é numericamente igual ao estimador usando o modelo individual. No modelo individual ( Tj − T̄ ) é constante em cada j e sabemos que Ȳ pode não ser incluido nessa conta: bOLS = ∑ Nj×J ( Tj − T̄ ) Yij∑ Nj×J ( Tj − T̄ )2 = ∑ J ( Tj − T̄ )∑ Nj (Yij) Nj ∑ J ( Tj − T̄ )2 = ∑ J ( Tj − T̄ ) (∑ Nj Yij ) Nj ∑ J ( Tj − T̄ )2 Como Yj = ∑ Nj Yij Nj , temos que ∑ J ( Tj − T̄ ) (∑ Nj Yij ) Nj ∑ J ( Tj − T̄ )2 = ∑J ( Tj − T̄ ) Yj∑ J ( Tj − T̄ )2 = bagregadoOLS 7 b) Mostre que temos heterocedasticidade no modelo agregado. Qual é a variância de vj e como ela depende de cada j ? Sabemos que V [vj | T ] = V [∑ Nj uij Nj | T ] = 1 N2j V ∑ Nj uij | T = 1 N2j Njσ 2 = σ2 Nj depende j via Nj Usando o fato de que (i) Nj é uma constante ("sai ao quadrado") e (ii) de que V [uij | T ] = σ2, ou seja, teríamos uma amostra i.i.d entre ij ’s, isso quer dizer que a variância de (∑ Nj uij ) e igual a soma das variâncias de cada uij. c) Conhecendo V [uij | Tj], como você corrigiria o modelo e estimaria β̂ e V̂[β̂|T]? Mostre estes estimadores. O valores estimados seriam diferentes do modelo nao corrigido? Queremos aplicar uma correção que faça com que V [vj | Tj] = σ 2 Nj seja constante. Se multi- plicarmos cada vj por √ Nj, temos que: V [√ Nj · vj | Tj ] = Nj σ2 Nj = σ2 Logo, se usarmos o modelo transformado como: √ Nj · Yj = √ Nj · β0 + β1 √ Nj · Tj + √ Nj · vj Teríamos a variância desse erro constante. Dessa forma: btransf. = ∑ J √ Nj ( Tj − T̄ )√ Nj · Yj∑ J √ Nj 2 ( Tj − T̄ )2 = bOLS Assim a esperança é a mesma que a do OLS, e também o valor numérico seria igual. Mas o estimador da variância usual agora pode ser empregado, pois: V [bt | T ] = V [∑ J √ Nj(Tj−T̄) √ Njvj∑ J Nj(Tj−T̄) 2 | T ] = = 1{∑ J Nj(Tj−T̄) 2 }2V [∑J√Nj (Tj − T̄)√Njvj | T ] 8 Note que a amostra "se torna" i.i.d. com a transformação! 1{∑ J Nj ( Tj − T̄ )2}2 ∑ J V [√ Nj ( Tj − T̄ )√ Njvj | T ] = ∑ J Nj ( Tj − T̄ )2{∑ J Nj ( Tj − T̄ )2}2×V [√Njvj | T] E sabemos que V [√ Njvj | T ] = σ2 é constante! V [bt | T ] = σ2{∑ J Nj ( Tj − T̄ )2} d) Assuma agora que J →∞. Há outra maneira, que nao envolva correções, de se obter um estimador para o erro padrão do modelo agregado? Por quê? Sim, como vimos antes podemos usar a o estimador dos erros padrões rubustos se a amostra (J) é grande 2 Erro de Medida Questão 4. Você está tentando avaliar os determinantes da taxa de poupança individual através do seguinte modelo Poupança j = α + β1 Renda j + β2 Escolaridade j + β3 Mulher j + β4 Casado j + εj Você assume as seguintes hipóteses: 1. E [εj | Xj] = 0 2. rank ( E [ X ′jXj ]) = k 3. E [ ε2j | Xj ] = σ2ε Onde Xj é a representação matricial de todos as variáveis incluídas no modelo. Você de- scobriu que a variável Poupança foi obtida através de uma pesquisa de campo e obtida com grande erro de medida. Poupançaj = Poupança ∗ j + uj 9 Você assume inicialmente: i uj tem distribuição assimptótica normal, N (0, σ2n). ii Cov (uj, Xj) = 0 Avalie as seguintes perguntas: a) Derive a distribuição assimptótica do estimador de MQO sob todas as hipóteses acima.1 Com a descoberta do erro de medida na coleta de dados temos que o modelo populacional verdadeiro é: Poupança ∗j = α + β1 Renda j + β2 Escolaridade j + β3 Mulher j + β4 Casado j + εj Porém, o pesquisador não observa Poupança ∗j então só consegue estimar os seguinte modelo: Poupança j = α + β1 Renda j + β2 Escolaridade j + β3 Mulher j + β4 Casado j + εj + uj Assim, temos que o estimador do modelo acima é dado por: β̂ = β + (X ′X) −1 X ′(ε+ u) ⇒ √ n(β̂ − β) = ( X ′X n )−1 ︸ ︷︷ ︸ (1) 1√ n X ′(ε+ u)︸ ︷︷ ︸ (2) Para derivar a distribuição assintótica de √ n ( β̂ − β ) , vamos fazer (1) convergir em prob- abilidade, (2) convergir em distribuição e, finalmente, juntar os dois resultados através de Slutsky. Começando com o passo (1), temos: ( X ′X n )−1 = ( n∑ i=1 XjX ′ j n )−1 p−−−−→ E [ XjX 1 j ]−1 =: Q−1X 1Você pode adicionalmente assumir que Cov (uj , εj) = 0 10 Note que acima usamos LGN, teorema do mapeamento contínuo e as hipóteses de estabili- dade. No passo (2) temos: 1√ n X ′(ε+ u) = 1√ n n∑ j=1 Xj (εj + uj) d−−−−→ ( 0, ( σ2ε + σ 2 u ) QX ) Veja que acima usamos TCL e as hipóteses de estabilidade. Além disso, veja como chegamos aos parâmetros da distribuição: E [Xj (εj + uj)] = E [Xjεj]︸ ︷︷ ︸ =0( por 1.) +E [Xjuj]︸ ︷︷ ︸ =0 (por i.) = 0 Var [Xj (εj + uj]] = E [ X ′j (εj + uj) 2Xj ] = E [ X ′jXjE [ (εj + uj) 2 | Xj ]] = ( σ2ε + σ 2 u ) E [ X ′jXj ] = ( σ2ε + σ 2 u ) QX Finalmente, podemos juntar o passo (1) e (2) através de slutsky. Vamos usar o fato de que quando temos duas variáveis aleatórias multiplicadas, sendo que uma converge em probabil- idade e outra converge em distribuição, a convergência em distribuição domina. √ n(β̂ − β) d−→ N ( 0, ( σ2ε + σ 2 u ) Q−1X ) b). A hipótese (ii) é plausível? Explique porque no atual exemplo ela poderia falhar. Pode não ser uma hipótese válida. O erro de medida pode estar correlacionado à renda, já que as pessoas podem mentir mais para evitar impostos, por exemplo. Pode também estar relacionado à educação, já que pessoas com baixa escolaridade podem ter dificuldade em reportar os números correctamente. c) Derive a distribuição assimptótica do estimador de MQO se a hipótese 11 (ii) falhar. Perceba que o passo (2), muda quando violamos essa hipótese: 1√ n X ′(ε+ u) d−→ N ( QXu, ( σ2ε + σ 2 u ) QX +Q ′ XuQXu ) Veja como chegamos nesses parâmetros da distribuição: E [Xj (εj + uj)] = E [Xjεj]︸ ︷︷ ︸ =0( por 1.) +E [Xjuj] = E [Xjuj] =: QXu Var [Xj (εj + uj]] = E [ X ′j (εj + uj) 2Xj ] + E [Xjuj] ′E [Xjuj] = ( σ2ε + σ 2 u ) QX +Q ′ XuQXu Juntando essa convergência em distribuição com o passo (1) que tínhamos antes, temos: √ n(β̂ − β) d−→ N ( Q−1X QXu, Q −1 X ( σ2ε + σ 2 u ) +Q−1X Q ′ XuQXuQ −1 X ) Assuma agora que a variável Renda foi obtida com erro de medida. Renda obsj = Renda j + νj Você então estima o seguinte modelo: Poupança j = α + β1 Renda obs j + β2 Escolaridade j + β3 Mulher j + β4 Casado j + εj d) Calcule o plim de β̂1.2 O modelo populacionalverdadeiro é: Poupança j = α + β1 Renda j + β2 Escolaridade j + β3 Mulher j + β4 Casado j + εj 2Você também pode assumir que νj tem distribuição assimptótica normal, N ( 0, σ2ν ) 12 Assim, substituindo a equação do erro de medida, temos: Poupança j = α + β1 Renda obs j + β2 Escolaridade j + β3 Mulher j + β4 Casado j + εj − νj Temos então que o estimador é dado por β̂ = β + (X ′X) −1 X ′ε− (X ′X)−1X ′νβ onde temos,ν := [ ~0 νj ~0 ~0 ~0 ]′ . Logo a convergência do estimador em probablilidade é dada por: plim β̂ = β + plim ( X ′X n )−1 ︸ ︷︷ ︸ Q−1X plim ( X ′ε n )−1 ︸ ︷︷ ︸ =0 − plim ( X ′X n )−1 ︸ ︷︷ ︸ Q−1n plim ( X ′v n ) ︸ ︷︷ ︸ (∗) ·β Desenvolvendo (*), temos: plim ( X ′v n ) = E [Xjvj] = Cov [Xj, vj] = Cov [vj, vj] + Cov [ X∗j , vj ]︸ ︷︷ ︸ =0 por hipótese = V ar [vj] = Ωv Assim temos: plim β̂ = β −Q−1x Ωvβ = ( I −QX−1Ωv ) β e) Discuta a diferença entre erro de medida da variável Poupança e da variável renda. Quando temos erro de medida na variável dependente, sob algumas hipóteses, temos o es- timador de OLS é consistente porém com variância assintótica maior. Já quando o erro de medida está nas explicativas temos um estimador inconsistente, com viés assintótico de atenuação. Questão 5. Considere o modelo com erros de medida, onde duas variáveis econômicas y∗ e x∗ são, por suposicão, relacionadas de forma y∗ = α+βx∗ (perceba que a relação não contém termo de erro). As variáveis y∗ e x∗, no entanto, não são observáveis. São observadas apenas 13 y = y∗ + �y e x = x∗ + �x onde os erros de medida tem variância σ2y e σ2x, respectivamente. Assuma que �y e �x não tem correlação entre si, e que ambas não são correlacionadas com y∗ e x∗. A variância de x∗ é denotada σ2. Por fim, assuma que obtemos uma amostra iid (xi, yi) n i=1 , e também que �y, �x e x ∗ são iid. a) Escreva o modelo no formato y = α0 + α1x+ �, onde � é escrito em termos de �x e �y. Comece por y∗ = α + βx∗, substituindo para y − �y = α + β (x− �x), ou seja, temos y = α + βx+ �y − β�x b) Mostre que o estimador de MQO é inconsistente se σ2x 6= 0 e β 6= 0. Sabemos que plim(b)− β = Cov(�, x) Var(x) = Cov(�, x) σ2x + σ 2 ∗ Dessa forma, Cov(�, x) = Cov (�y − β�x, x) = Cov (�y, x)︸ ︷︷ ︸ =0 −β Cov (�x, x) = −β Cov (x− x∗, x) = −β Var(x) + β Cov (x∗, x). Então, plim(b)− β = −β Var(x) + β Cov (x ∗, x) Var(x) = −β + β σ 2 ∗ σ2x + σ 2 ∗ = β ( σ2∗ σ2x + σ 2 ∗ − 1 ) Uma vez que Cov (x∗, x) = Cov (x∗, x∗ + �x) = σ2∗. c) Expresse a magnitude da inconsistência (isso é, plim(b)−β) em termos da razão var (x∗) / var (�x) = σ2∗/σ 2 x. Explique intuitivamente o resultado. A partir do resultado do item anterior, temos que plim(b)−β = −β+β σ 2 ∗ σ2x+σ 2 2 . Ou seja, última igualdade é útil para avaliarmos a magnitude do viés, que é igual a: β ( σ2∗ σ2x + σ 2 ∗ − 1 ) Portanto, o viés é sempre negativo nesse caso e deve diminuir conforme o "barulho" diminui, isso é, a variância do erro de medida em x diminui. No limite, veja que se σ2∗ for muito maior relativamente à σ2x, então o viés será próximo de zero. 14 Heterocedasticidade Erro de Medida
Compartilhar