Buscar

Tópico 3

Prévia do material em texto

Tópico 3– Heterocedasticidade
Bibliografia:
WOOLDRIDGE, J.M. Introdução à Econometria: uma abordagem moderna. 4ª 
ed. São Paulo: Pioneira Thomson Learning, 22015. (capítulo 8).
Exercício
1. Considera que, um modelo de corte transversal:
𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝛾𝑍𝑖 + 𝜀𝑖
Em particular, você está preocupado com os dados que podem
apresentar heterocedasticidade.
a) Explique o que é heteroscedasticidade e porque é provável de
ocorrer neste tipo de modelo. Formalize a
heteroscedasticidade.
b) Quais as características da heteroscedasticidade?
c) Diga qual será o efeito sobre as estimativas de MQO.
Exercício
a) Explique o que é heteroscedasticidade e porque é provável de
ocorrer neste tipo de modelo. Formalize a heteroscedasticidade.
Uma das hipóteses importante do modelo clássico de regressão linear é
que: a variância de cada termo de erro u, condicional aos valores
selecionados das variáveis explicativas é constante igual a 𝜎2, essa é a
hipótese de homocedasticidade. Assumindo variâncias iguais temos:
𝐸 𝑢2 = 𝜎2.
É provável de ocorrer neste tipo de modelo porque são dados de corte
transversal.
Formalização da heteroscedasticidade: 𝑉𝑎𝑟 𝑢𝑖 𝑥𝑖 = 𝐸 𝑢𝑖
2 = 𝜎𝑖
2.
Exercício
b) Quais as características da heteroscedasticidade?
1. Heteroscedasticidade não causa viés ou inconsistência nos
estimadores de MQO, ao passo que algo como a omissão de uma
variável importante teria esse efeito.
2. R2 e R2 ajustado também não é afetada pela presença de
heterocedasticidade.
3. Como os erros-padrão dos estimadores MQO são baseados
diretamente nessas variâncias, eles não são mais válidos para
construirmos intervalos de confiança e estatísticas t. As
estatísticas t habituais dos estimadores MQO não tem
distribuições t na presença de heterocedasticidade e o problema
não será resolvido com o uso de amostras de tamanho grande 
Se o 𝑉𝑎𝑟 (𝑢|𝑥1…𝑥𝑘) não for constante, os estimadores MQO
não mais serão BLUE.
Exercício
c) Diga qual será o efeito sobre as estimativas de MQO.
As estimativas dos MQO não sofrem, mas os seus erros não são
mais válidos e os procedimentos de inferências não serão
válidos.
Inferência robusta
É possível ajustar os erros-padrão, estatísticas t, F e LM de
forma a torná-las válidas na presença de heteroscedasticidade
de forma desconhecida.
Isso significa que é possível descrever novas estatísticas que
funcionam independentemente do tipo de heteroscedasticidade
presente na população.
Esses métodos são os procedimentos robustos em relação à
heteroscedasticidade, já que são válidos mesmo que a variância
dos erros não seja constante.
É possível então estimar variâncias consistentes na presença de
heteroscedasticidade.
Erros – padrão usuais e robustos
Geralmente, os erros-padrão robustos são frequentemente maiores do
que os erros-padrão usuais.
Os erros-padrão robustos podem ser estimados mesmo sem que se
saiba se a heteroscedasticidade está presente.
Os novos erros-padrão são válidos (assimptoticamente) haja ou não
presença de heteroscedasticidade.
Com frequência, as diferenças entre os erros-padrão usuais e os
robustos são pequenas.
Erros-padrão usuais podem ser usados se a hipótese de
homoscedasticidade se mantiver e erros forem normalmente
distribuídos, já que estatísticas t usuais terão distribuições t.
Em amostras pequenas, as estatísticas t robustas podem ter
distribuições que não sejam próximas da distribuição t.
Em amostras grandes, sempre podemos levar em conta somente os
erros-padrão robustos.
Banco de dados
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge.ht
ml
Estatísticas F e LM robusta em relação à 
heterocedasticidade
É possível obter estatísticas F e LM robustas em relação à
heteroscedasticidade de forma desconhecida.
A estatística F robusta em relação à heteroscedasticidade é
chamada de estatística de Wald robusta em relação à
heterocedasticidade.
O cálculo do teste F robusto não tem uma forma simples,
mas pode ser computado por alguns programas estatísticos.
Exemplo 8.2: Estatística F Robusta em relação à 
heterocedasticidade
Não 
 
 _cons 1.470065 .2298031 6.40 0.000 1.018135 1.921994
 white -.0587217 .1409896 -0.42 0.677 -.3359909 .2185475
 black -.1282837 .1473701 -0.87 0.385 -.4181009 .1615335
 female .3034333 .0590203 5.14 0.000 .1873643 .4195023
 tothrs .002504 .000731 3.43 0.001 .0010664 .0039415
 hsperc -.0085664 .0012404 -6.91 0.000 -.0110058 -.006127
 sat .0011407 .0001786 6.39 0.000 .0007896 .0014919
 
 cumgpa Coef. Std. Err. t P>|t| [95% Conf. Interval]
 
 Total 131.893686 365 .361352564 Root MSE = .46929
 Adj R-squared = 0.3905
 Residual 79.062328 359 .220229326 R-squared = 0.4006
 Model 52.831358 6 8.80522634 Prob > F = 0.0000
 F( 6, 359) = 39.98
 Source SS df MS Number of obs = 366
. reg cumgpa sat hsperc tothrs female black white if term==2
. * Primeiro passo: Regredindo o MQO 
*Variável dependente:
Nota média no curso 
superior de atletas 
universitários (cumgpa)
*Variáveis independentes:
- Nota obtida no exame de 
ingresso em curso superior 
(sat),
- Percentil da classificação 
no ensino médio (hsperc),
- Total de horas do curso 
superior (tothrs),
- Mulheres (female),
- Negros (black),
- Brancos (white),
- Hispânicos (grupo de 
referência)
 Prob > F = 0.5075
 F( 2, 359) = 0.68
 ( 2) white = 0
 ( 1) black = 0
. test black white
. *Teste-F original
Não é possível rejeitar a hipótese 
nula
*Variável dependente:
Nota média no curso 
superior de atletas 
universitários (cumgpa)
*Variáveis independentes:
- Nota obtida no exame de 
ingresso em curso superior 
(sat),
- Percentil da classificação 
no ensino médio (hsperc),
- Total de horas do curso 
superior (tothrs),
- Mulheres (female),
- Negros (black),
- Brancos (white),
- Hispânicos (grupo de 
referência)
Exemplo 8.2: Estatística F Robusta em relação à 
heterocedasticidade
 
 _cons 1.470065 .2206802 6.66 0.000 1.036076 1.904053
 white -.0587217 .111392 -0.53 0.598 -.2777846 .1603411
 black -.1282837 .1192413 -1.08 0.283 -.3627829 .1062155
 female .3034333 .0591378 5.13 0.000 .1871332 .4197334
 tothrs .002504 .0007406 3.38 0.001 .0010475 .0039605
 hsperc -.0085664 .0014179 -6.04 0.000 -.0113548 -.0057779
 sat .0011407 .0001915 5.96 0.000 .0007641 .0015174
 
 cumgpa Coef. Std. Err. t P>|t| [95% Conf. Interval]
 Robust
 
 Root MSE = .46929
 R-squared = 0.4006Prob > F = 0.0000
 F( 6, 359) = 39.30
Linear regression Number of obs = 366
. reg cumgpa sat hsperc tothrs female black white if term==2, robust
. * Segundo passo: Regredindo o MQO robusto
 Prob > F = 0.4809
 F( 2, 359) = 0.73
 ( 2) white = 0
 ( 1) black = 0
. test black white
. *Teste-F robusto
Não é possível rejeitar a hipótese 
nula
Estatística LM robusta em relação à 
heterocedasticidade
𝑦𝑖 = 𝛽𝑜 + 𝛽1𝑥𝑖 +⋯+ 𝛽𝑘𝑥𝑘 + 𝑢𝑖
Suponha que queiramos testar: 𝐻0: 𝛽1 = 0, β2 = 0)
1. Estimamos o modelo restrito (modelo sem 𝑥1 e 𝑥2) para obter os
resíduos ෤𝑢.
2. Faça a regressão de cada uma das variáveis independentes
excluídas, conforme a hipótese nula, sobre todas as variáveis
independentes incluídas; se houver q variáveis excluídas, isso
levará a 𝑞 conjuntos de resíduos ෤𝑟1, ෤𝑟2, … , ෤𝑟𝑞 . A cada vez,
guardamos os resíduos.
3. Encontre os produtos entre cada ෤𝑟𝑗 e ෤𝑢 (para todas as observações).
4. Faça a regressão de 1 sobre ෤𝑟1𝑢, ෤𝑟2𝑢,… , ෤𝑟𝑞𝑢, sem um intercepto
(definimos uma variável dependente com valor um para todas as
observações
Estatística LM robusta em relação à 
heterocedasticidade
5. A estatística l robusta é 𝑛 − 𝑆𝑄𝑅, em que 𝑆𝑄𝑅1 é exatamente a soma
dos quadrados dos resíduos desta última regressão. Sob 𝐻0, a estatística
LM é distribuída aproximadamente como 𝜒𝑞
2.
Uma vez que a estatística 𝐿𝑀 robusta tenha sido obtida, a regra de
rejeição e o cálculo dos 𝑝 − 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 são as mesmas da estatística
𝐿𝑀 ususal.
Exemplo 8.3: Estatística LM robusta em relação a
heterocedasticidade
Testes para existência de heterocedasticidade
Os erros-padrão robustos em relação à heterocedasticidade oferecem um
método simples para calcular estatísticas 𝑡 que sejam assimptoticamente
distribuídas como 𝑡, haja ou não presença de heterocedasticidade.
 Vimos que as estatísticas F e LM robustas em relação a heterocedasticidade
estão disponíveis.
No entanto, há razões para saber se realmente há presença de
heteroscedasticidade, antes de estimar erros-padrão
robustos:
i. As estatísticas t usuais são preferíveis se não há
heteroscedasticidade.
ii. É possível obter um estimador melhor que o MQO
quando a forma da heteroscedasticidade é conhecida.
Testes para existência de heterocedasticidade
Iniciando como o modelo linear:
𝑦 = 𝛽𝑜 + 𝛽1𝑥𝑖 +⋯+ 𝛽𝑘𝑥𝑘 + 𝑢
Em que as Hipótese RLM. 1 A RLM.4 são mantidas. Presumimos
que 𝐸 𝑢 𝑥1, 𝑥2, … , 𝑥𝑘 = 0 → MQO seja não viesado e
consistente.
Considerando como hipótese nula que a Hipótese RLM.5 é
verdadeira. Ou seja, Queremos testar se:
𝐻0: 𝑉𝑎𝑟 𝑢 𝑥1, 𝑥2, … , 𝑥𝑘 = 𝜎
2
Se não rejeitamos 𝐻0 em num nível de significância pequeno
→ a heretrocedasticidade não será problema.
Testes para existência de heterocedasticidade
Como supomos que 𝑢 tem um esperança condicional zero,
𝑉𝑎𝑟 𝑢 𝑥 = 𝐸(𝑢2|𝑥). Que é equivalente a:
𝐻0: 𝐸 𝑢
2 𝑥1, 𝑥2, … , 𝑥𝑘 = 𝐸(𝑢
2) = 𝜎2
Objetivo: verificar se 𝑢2 está relacionado (em valor esperado) a
uma ou mais das variáveis explicativas.
Se 𝐻0 for falsa, o valor esperado de 𝑢
2, dadas as variáveis
independentes, pode ser virtualmente qualquer função de 𝑥𝑗.
Teste de Breusch-Pagan
Não observamos o erro, mas podemos utilizar suas estimativas: 
os resíduos da regressão por MQO.
Os erros são normalmente distribuídos.
Essencialmente queremos testar, que é equivalente a:
𝐻0: 𝐸 𝑢
2 𝑥1, 𝑥2, … , 𝑥𝑘 = 𝐸(𝑢
2) = 𝜎2
Teste de Breusch-Pagan
1. Estimar o modelo original por MQO. Obtenha os quadrados
dos resíduos de MQO, ො𝑢2 (um para cada observação).
2. Execute a regressão:
ො𝑢2 = 𝛿𝑜 + 𝛿1𝑥𝑖 +⋯+ 𝛿𝑘𝑥𝑘 + 𝑒𝑟𝑟𝑜.
Isso significa testar 𝐻0 = 𝛿1 = 𝛿2 = ⋯ = 𝛿𝐾 = 0 → modelo é
homocedástico.
Depois de regredir o quadrado dos resíduos para todos os 𝑥,
podemos usar o 𝑅2 dessa regressão para formar os testes F e
LM.
Exemplo 8.4: Heterocedasticidade nas equações de 
preços de imóveis
Estimar o modelo original por MQO: 
reg price lotsize sqrft bdrms
Em que:
𝑝𝑟𝑖𝑐𝑒 = preço do terreno;
𝑙𝑜𝑡𝑠𝑖𝑧𝑒 = tamanho do terreno;
𝑠𝑞𝑟𝑓𝑡 = área construída;
𝑏𝑑𝑟𝑚𝑠 = número de quartos.
Exemplo 8.4: Heterocedasticidade nas equações 
de preços de imóveis
 Estimar o modelo original por MQO
Salve os resíduos ao quadrado deste modelo estimado.
 
 _cons -21.77031 29.47504 -0.74 0.462 -80.38466 36.84405
 bdrms 13.85252 9.010145 1.54 0.128 -4.065141 31.77018
 sqrft .1227782 .0132374 9.28 0.000 .0964541 .1491022
 lotsize .0020677 .0006421 3.22 0.002 .0007908 .0033446
 
 price Coef. Std. Err. t P>|t| [95% Conf. Interval]
 
 Total 917854.506 87 10550.0518 Root MSE = 59.833
 Adj R-squared = 0.6607
 Residual 300723.805 84 3580.0453 R-squared = 0.6724
 Model 617130.701 3 205710.234 Prob > F = 0.0000
 F( 3, 84) = 57.46
 Source SS df MS Number of obs = 88
. reg price lotsize sqrft bdrms
Exemplo 8.4: Heterocedasticidade nas equações 
de preços de imóveis
Salve os resíduos ao quadrado deste modelo estimado (por 
exemplo, num objeto chamado uhat)!!!
 predict uhat, resid
 gen uhatsq = uhat^2
 reg uhatsq lotsize sqrft bdrms
Exemplo 8.4: Heterocedasticidade nas equações 
de preços de imovéis
1. Execute a regressão:
ො𝑢2 = 𝛿𝑜 + 𝛿1𝑥𝑖 +⋯+ 𝛿𝑘𝑥𝑘 + 𝑒𝑟𝑟𝑜.
Podemos usar o 𝑅2 dessa regressão para formar os testes F e LM.
 
 _cons -5522.795 3259.478 -1.69 0.094 -12004.62 959.0348
 bdrms 1041.76 996.381 1.05 0.299 -939.6526 3023.173
 sqrft 1.691037 1.46385 1.16 0.251 -1.219989 4.602063
 lotsize .2015209 .0710091 2.84 0.006 .0603116 .3427302
 
 uhatsq Coef. Std. Err. t P>|t| [95% Conf. Interval]
 
 Total 4.3787e+09 87 50330276.7 Root MSE = 6616.6
 Adj R-squared = 0.1301
 Residual 3.6775e+09 84 43780003.5 R-squared = 0.1601
 Model 701213780 3 233737927 Prob > F = 0.0020
 F( 3, 84) = 5.34
 Source SS df MS Number of obs = 88
. reg uhatsq lotsize sqrft bdrms
Exemplo 8.4: Heterocedasticidade nas equações 
de preços de imovéis
Estatística F:
𝐹 =
𝑅෥𝑢2
2 /𝑘
(1 − 𝑅෥𝑢2
2 )/(𝑛 − 𝑘 − 1)
𝐹 =
0.1601/3
(1 − 0.1601)/(88 − 3 − 1)
≈ 5,34
Estatística LM:
𝐿𝑀 = 𝑛𝑅෥𝑢2
2
𝐿𝑀 = 88(0.1601) ≈ 14.09
𝑘 é o 
número de 
regressores.
𝑛 é o 
número de 
observaçõe
s.
A estatística 𝐹 tem (aproximadamente) uma 
distribuição 𝐹𝑘,𝑛−𝑘−1 sob a hipótese nula de 
homocedasticidade. 
Exemplo 8.4: Heterocedasticidadenas equações 
de preços de imóveis
 
 _cons -5522.795 3259.478 -1.69 0.094 -12004.62 959.0348
 bdrms 1041.76 996.381 1.05 0.299 -939.6526 3023.173
 sqrft 1.691037 1.46385 1.16 0.251 -1.219989 4.602063
 lotsize .2015209 .0710091 2.84 0.006 .0603116 .3427302
 
 uhatsq Coef. Std. Err. t P>|t| [95% Conf. Interval]
 
 Total 4.3787e+09 87 50330276.7 Root MSE = 6616.6
 Adj R-squared = 0.1301
 Residual 3.6775e+09 84 43780003.5 R-squared = 0.1601
 Model 701213780 3 233737927 Prob > F = 0.0020
 F( 3, 84) = 5.34
 Source SS df MS Number of obs = 88
. reg uhatsq lotsize sqrft bdrms
• O p-valor associado é 0.002, o que é forte evidência contra a hipótese nula → p-valor < 
0.05: Heterocedasticidade. Rejeitamos a hipótese nula de homocedasticidade.
• A estatística LM é 88(0.1601) = 14.09. Isso dá um p-valor de 0.0028 (usando a 
distribuição 𝜒3
2).
• Produzindo a mesma conclusão da estatística F. 
• Isso significa que os erros-padrão usuais informados na equação não são confiáveis. 
Exemplo 8.4: Heterocedasticidade nas equações 
de preços de imóveis
Um dos benefícios de usar a forma funcional logarítmica da
variável dependente é que a heterocedasticidade é muitas vezes
reduzida
 _cons -1.297042 .6512836 -1.99 0.050 -2.592191 -.001893
 bdrms .0369584 .0275313 1.34 0.183 -.0177906 .0917074
 lsqrft .7002324 .0928652 7.54 0.000 .5155597 .8849051
 llotsize .1679667 .0382812 4.39 0.000 .0918404 .244093
 
 lprice Coef. Std. Err. t P>|t| [95% Conf. Interval]
 
 Total 8.01760352 87 .092156362 Root MSE = .1846
 Adj R-squared = 0.6302
 Residual 2.86256324 84 .034078134 R-squared = 0.6430
 Model 5.15504028 3 1.71834676 Prob > F = 0.0000
 F( 3, 84) = 50.42
 Source SS df MS Number of obs = 88
. reg lprice llotsize lsqrft bdrms
Exemplo 8.4: Heterocedasticidade nas equações 
de preços de imóveis
Um dos benefícios de usar a forma funcional logarítmica da variável
dependente é que a heterocedasticidade é muitas vezes reduzida
• Fazendo a regressão do quadrado dos resíduos de MQO desta regressão sobre log gera 
R2 da regressão dos resíduos gera 0.0480. 
• Assim, F = 1.41 (p-valor = 0.245) e LM = 4.22 (p-valor = 0.239). 
• P-valor > 0.05 -> não rejeitamos a hipótese nula: homocedasticidade
 
 _cons .509994 .257857 1.98 0.051 -.0027829 1.022771
 bdrms .0168407 .0109002 1.54 0.126 -.0048356 .038517
 lsqrft -.0627368 .0367673 -1.71 0.092 -.1358526 .0103791
 llotsize -.0070156 .0151563 -0.46 0.645 -.0371556 .0231244
 
 uhatsq2 Coef. Std. Err. t P>|t| [95% Conf. Interval]
 
 Total .471337362 87 .005417671 Root MSE = .07309
 Adj R-squared = 0.0140
 Residual .448717194 84 .005341871 R-squared = 0.0480
 Model .022620168 3 .007540056 Prob > F = 0.2451
 F( 3, 84) = 1.41
 Source SS df MS Number of obs = 88
. reg uhatsq2 llotsize lsqrft bdrms
Teste de Breusch-Pagan
Construa a estatística F ou a estatística LM e calcule o p-valor.
Se o p-valor for suficientemente pequeno, isto é, abaixo do
nível de significância selecionado, então rejeitamos a hipótese
nula de homocedasticidade.
Obs: Se o teste BP resultar em um p-valor suficientemente
pequeno, alguma medida corretiva deve ser tomada. Uma
possibilidade é usar os erros-padrão robutos em relação à
heterocedasticidade e as estatísticas de testes discutidos
anteriormente.
O teste de White para heteroscedasticidade
A hipótese de homoscedasticidade 𝑉𝑎𝑟 𝑢1 𝑥1, … , 𝑥𝑘 = 𝜎
2pode ser
substituída pela hipótese mais fraca de que o erro ao quadrado (𝑢2) é
não-correlacionado com:
➢Todas as variáveis independentes (𝑥𝑗);
➢Os quadrados das variáveis independentes (𝑥𝑗
2);
➢ Todos os produtos cruzados (𝑥𝑗𝑥ℎ para 𝑗 ≠ ℎ).
White sugeriu um teste para a heteroscedasticidade que invalidem os
erros-padrão e as estatísticas de testes habituais, adiciona quadrados
e produtos cruzados de todas as variáveis independentes .
O teste é utilizado para testar formas de heterocedasticidade que
invalidem os erros-padrão e as estatísticas habituais, estimados por
MQO.
O teste de White para heteroscedasticidade
O teste de Breusch-Pagan irá detectar quaisquer formas lineares de
heterocedasticidade.
O Teste de White é permitido para não linearidade utilizando os quadrados e
produtos cruzados de todos os 𝑥.
Para um modelo com três variáveis independentes, temos:
෤𝑢2 = 𝛿0 + 𝛿1𝑥1 + 𝛿2𝑥2 + 𝛿3𝑥3 + 𝛿4𝑥1
2 + 𝛿5𝑥2
2 + 𝛿6𝑥3
2 + δ7𝑥1𝑥2 +
+δ8𝑥1𝑥3 + 𝛿9𝑥2𝑥3 + 𝑒𝑟𝑟𝑜
O teste de White para a heteroscedasticidade é a estatística LM para testar se
todos 𝛿𝑗 na equação sejam zero, exceto 𝛿0.
Problema: muitos regressores.
O teste de White para heteroscedasticidade
O teste de White usa muitos graus de liberdade para modelos com um
número moderado de variáveis independentes.
É possível obter um teste que seja mais facilmente implementado que o teste
de White.
Uma sugestão é usar os valores estimados MQO para verificar a existência
de heteroscedasticidade.
Os valores estimados são apenas funções lineares das variáveis
independentes.
Se eles forem elevados ao quadrado, estamos na prática obtendo uma função
particular de todos os quadrados e produtos cruzados das variáveis
independentes:
ො𝑢2 = 𝛿𝑜 + 𝛿1 ො𝑦 + 𝛿2 ො𝑦
2 + 𝑒𝑟𝑟𝑜
Podemos usar as estatísticas F ou LM para a hipótese nula: 𝐻0: 𝛿1 = 0,
𝛿2 = 0.
Resumindo o teste White
Estime o modelo MQO em que 𝑦 é a variável dependente e
obtenha os resíduos (𝑢) e os valores estimados de 𝑦.
Calcule o quadrado dos resíduos de ො𝑢2 e os valores ajustados
ො𝑦2.
 Estime o modelo em que ො𝑢2 é a variável dependente e ෤𝑦 e
෤𝑦2sejam as variáveis independentes para obter o R2 .
Utilize o 𝑅2 dessa regressão para formar os testes F e LM e
calcule o p-valor.
 Se o p-valor ficar abaixo do nível de significância
selecionados, então rejeitamos a hipótese nula de
homoscedasticidade.
Exemplo 8.5: Forma especial do Teste de White na Equação
Log dos Preços de Imóveis.
Exercício
1. Explique, detalhadamente, os testes de
heterocedasticidade de Breush-Pagan e de White.

Continue navegando