Aula 11 - Regressão Múltipla Problemas Adicionais Cap 6

•

UFU

0

João das Couves Souza

14/08/2019

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 47 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 47 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 47 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada

24.049 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Chapter 6
Regressão Múltipla: tópicos adicionais
Capítulo 06, Wooldridge
1
Resumo
2
2
Unidades de medida
3
Unidades de medida
4
Unidades de medida
5
Unidades de medida
6
Unidades de medida
Exemplo (continuação)
Vamos aproveitar para usar o comando outreg que gera tabelas com comparações entre modelos.
Para instalar o comando outreg:
ssc install outreg2
Depois é só usar outreg2 após cada estimação:
reg y x1 x2 ... xk
outreg2 using "nome do arquivo que quiser", excel replace
ou
outreg2 using "nome do arquivo que quiser", excel append
7
Unidades de medida
Exemplo: BWGHT.dta
Rodamos os seguintes comandos (colar em um do file)
** Mudança de unidades de medida
use "BWGHT.dta", clear
* rodamos a regressão do peso em onças sobre o número de cigarros fumados (cigs)
* e a renda da família (faminc) – a opção replace do comando, cria um arquivo novo, caso outro já exista
reg bwght cigs faminc
outreg2 using "Resultados\Unidades", excel replace
* agora usamos o peso em kg (mudança em y) – a opção append, adiciona o resultado desta regressão a
* um arquivo excel que já existe
gen pesokg = bwght * 0.0283495
reg pesokg cigs faminc
outreg2 using "Resultados\Unidades", excel append
* para ficar mais fácil, comparamos com peso em g (mudança em y)
gen pesog = pesokg * 1000
reg pesog cigs faminc
outreg2 using "Resultados\Unidades", excel append
8
Unidades de medida
9
Unidades de medida
Exemplo: BWGHT.dta
Abrir o arquivo Unidades:
Podemos adicionar outras estatísticas como o teste F à tabela.
(1)
(2)
(3)
VARIABLES
bwght
pesokg
pesog
cigs
-0.463***
-0.0131***
-13.14***
(0.0916)
(0.00260)
(2.596)
faminc
0.0928***
0.00263***
2.630***
(0.0292)
(0.000827)
(0.827)
Constant
117.0***
3.316***
3,316***
(1.049)
(0.0297)
(29.74)
Observations
1,388
1,388
1,388
R-squared
0.030
0.030
0.030
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1
1 cigarro a mais diminui o peso médio dos recém nascidos em 13.14 grama ou 0.0131 kg ou 0.463 onças.
Cada 1 a mais em faminc (medida em milhares de dólares por ano) ou seja, a cada 1000 dólares a mais que uma família ganha por ano, o peso médio dos recém nascidos aumenta em 2.630 g ou 0.00263 kg ou 0.0928 onças
Os desvios-padrão se alteram conforme a mudança de unidade.
10
Unidades de medida
11
Unidades de medida
Usando pacotes em vez de cigarros
(1)
(2)
(3)
(4)
VARIABLES
bwght
pesokg
pesog
pesog
cigs
-0.463***
-0.0131***
-13.14***
(0.0916)
(0.00260)
(2.596)
faminc
0.0928***
0.00263***
2.630***
2.630***
(0.0292)
(0.000827)
(0.827)
(0.827)
packs
-262.7***
(51.92)
Constant
117.0***
3.316***
3,316***
3,316***
(1.049)
(0.0297)
(29.74)
(29.74)
Observations
1,388
1,388
1,388
1,388
R-squared
0.030
0.030
0.030
0.030
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1
1 cigarro a mais diminui o peso médio dos recém nascidos em 13.14 grama.
1 pacote a mais de cigarro diminui o peso previsto do bebê em 262.7 .
As interpretações são consistentes:
20*13.14 = 262.8
Arredondamentos devem justificar a pequena diferença na casa decimal.
12
Unidades de medida
13
Unidades de medida
Lição geral:
Nada inesperado acontece ao modificarmos a unidade de medida.
Não é possível mudar a importância de um efeito, o ajuste do modelo ou a inferência estatística quando mudamos a unidade de medida tanto da variável independente quanto das variáveis dependentes.
Já que o efeito do modelo em log aproxima a mudança relativa ou percentual, ele é livre de medida. Mudar as unidades em um modelo em log apenas afeta o intercepto.
Em particular, elasticidades são adimensionais, então mudar as medidas do peso de nascimento ou na renda da família é irrelevante quando usamos um modelo de elasticidade constante (log em log).
14
Unidades de medida
15
Unidades de medida
Exemplo: desempenho em exames na universidade (ATTEND.dta)
680 observações de nota dos alunos em exame, notas antes de entrar na universidade, nota em teste de aptidão, dados em nº médio de aulas perdidas por semana...
1. attend: classes attended out of 32
2. termgpa: GPA for term
3. priGPA: cumulative GPA prior to term
4. ACT: ACT score
5. final: final exam score
6. atndrte: percent classes attended
7. hwrte: percent homework turned in
8. frosh: =1 if freshman
9. soph: =1 if sophomore
10. missed: number of classes missed
11. stndfnl: (final - mean)/sd
16
Unidades de medida
O coeficiente de priGPA é quase 5 vezes maior do que o coeficiente de ACT . Isto significa que priGPA tem um efeito mais importante do que ACT?
Um aumento em 1 desvio-padrão no priGPA aumenta o valor previsto da nota em 0.222 desvios padrão da nota final. Enquanto um aumento de 1 desvio-padrão em ACT equivale a 0.297 desvios padrão da nota final.
O efeito de ACT é na verdade maior do que o efeito de priGPA.
17
Formas funcionais
Agora vamos estudar:
o modelo logarítmico com mais detalhes
o modelo quadrático
o modelo com termos de interação.
Todas estas formas podem melhorar o ajuste e até a interpretação de modelos de regressão múltipla.
18
Formas funcionais
Uma das formas funcionais mais utilizadas é o logaritmo natural (que é representado por log, ln ou simplesmente l).
A especificação logarítmica tem algumas particularidades
Vantagens:
Interpretação de efeito em % (elasticidade)
Coeficiente de inclinação de variáveis em log não dependem da escala de medida
Aplicar o log pode eliminar ou mitigar problemas com outliers
Aplicar o log pode ajudar a garantir a normalidade ou homocedasticidade do termo de erro
Cuidados:
Para a interpretação é preferível não aplicar log sobre: (1) variáveis explicativas medidas em inteiros (ex: anos) (2) variáveis explicativas medidas em percentagens
Obviamente, logs não podem ser usados se a variável assume valor zero ou valores negativos
É difícil inverter a operação de log quando fazemos previsões
19
Formas funcionais
Exemplo: Efeito da poluição em preços das casas (HPRICE2.dta)
Dados para 506 comunidades.
Variáveis:
price crime nox rooms dist radial proptax stratio lowstat lprice lnox lproptax
1. price: median housing price, $
2. crime: crimes committed per capita
3. nox: nitrous oxide, parts per 100 mill.
4. rooms: avg number of rooms per house
5. dist: weighted dist. to 5 employ centers
6. radial: accessibiliy index to radial hghwys
7. proptax: property tax per $1000
8. stratio: average student-teacher ratio
9. lowstat: % of people 'lower status'
10. lprice: log(price)
11. lnox: log(nox)
12. lproptax: log(proptax)

20
20
Formas funcionais
21
Formas funcionais
22
Formas funcionais
23
Formas funcionais
Função quadrática (côncava) de experiência.
24
24
Formas funcionais
25
25
Formas funcionais
Salário máximo com relação a experência de trabalho:
Isso significa que o retorno a experiência se torna negativo após 24.2 anos?
Não necessariamente. Depende de quantas observações na amostra caem além do ponto de máximo.
No exemplo, aproximadamente 28% da amostra tem exper maior do que 24.4. Esse percentual é muito alto para ser ignorado. Pode existir um problema de especificação (ex. Variáveis omitidas).
26
26
Formas funcionais
27
27
Formas funcionais
Calculando o ponto de mínimo
Esta área pode ser ignorada, já que afeta menos do que 1% das observações
28
28
Formas funcionais
Saída do stata:
Nº de observações com menos de 4.4 quartos: 5 obs em 506
29
Formas funcionais
30
30
Formas funcionais
31
31
Forma funcionais
Diminui de cada x a sua média amostral.
32
32
R2 ajustado
R2 da população
33
33
R2 ajustado
Desvantagem do R2 ajustado:
ele pode até ser negativo!!
34
34
R2 ajustado
R2 ajustado (cont.)
Podemos usar o R2 ajustado para comparar modelos quenão são aninhados, desde que tenham a mesma variável dependente. Dois modelos são não aninhados se nenhum deles é um caso particular do outro.
Exemplo: relação entre intesidade de pesquisa e desenvolvimento e vendas das empresas de produtos químicos (RDCHEM.dta)
A variável dependente é: rdintens (rd como percentual das vendas na empresa), que mede a intensidade de pesquisa e desenvolvimento feita na empresa
Vamos testar dois modelos não lineares para captar o efeito das vendas na intensidade de pesquisa e desenvolvimento
Modelo 1: usa apenas lsales como variável explicativa. 1 unidade a mais de vendas aumenta em quantos % a intensidade de P&D?
Modelo 2: usa sales e sales ao quadrado como variáveis explicativas. O efeito parcial vai depender do nível de vendas.
35
35
R2 ajustado
R2 ajustado (cont.)
Exemplo: relação entre intesidade de pesquisa e desenvolvimento e vendas das empresas de produtos químicos (RDCHEM.dta)
Sales e rd são medidas em milhões
36
36
R2 ajustado
Uma comparação entre R quadrados dos modelos seria injusta com o modelo 1, pois ele usa menos variáveis explicativas.
Neste exemplo, mesmo após ajustar para o nº de graus de liberdade dos modelos, o modelo quadrático é o preferido!
37
37
Modelagem
38
38
Modelagem
Comparando modelos com diferentes variáveis dependentes
Exemplo: remuneração de CEOs e desempenho das firmas (CEOSAL1)
39
39
Modelagem
Comparando modelos com diferentes variáveis dependentes
Exemplo: remuneração de CEOs e desempenho das firmas (CEOSAL1)
40
40
Modelagem
Existe bem menos variação em ln(salário) que precisa ser explicada pelo modelo do que em salário
(ver soma dos quadrados totais SQT)
41
41
Modelagem
42
42
Modelagem
Estes são os R2 da previsão do modelo em nível para a variável salário (0.201) e da previsão de y do modelo em logaritmo (0.243), mesmo que o modelo original tenha sido feito para ln(y). Estes R quadrados agora podem ser comparados!
43
43
Modelagem
Controlando por fatores demais em uma regressão
Em alguns casos, certas variáveis não devem ser mantidas fixas
Numa regressão múltipla para explicar o efeito do imposto na cerveja em acidentes no trânsito não devemos controlar diretamente para o consumo de cerveja.
Numa regressão para medir os efeito do uso de pesticidas em gastos com saúde em famílias de fazendeiros, não devemos controlar diretamente para o número de visitas dos médicos.
Regressões podem ter propósitos diferentes
Em uma regressão do preço de casas nas características das casa, só faz sentido levar em conta o valor estimado da casa se desejamos estudar sua validade; caso contrário não vale a pena controlar pelo valor estimado.
44
44
Modelagem
Adicionando var. explicativas para reduzir a variância do erro
Adicionar var. explicativas pode exacerbar o problema de multicolinearidade.
Por outro lado, adicionar regressores reduz a variância do erro.
Variáveis que são não correlacionadas com outros regressores devem ser adicionadas, pois reduzem a variância do erro sem aumentar a multicolinearidade.
No entanto, pode ser difícil encontrar var. não correlacionadas com as demais var. explicativas.
Exemplo: em quanto muda o consumo individual de cerveja, quando o perço da cerveja aumenta em 1%?
Incluir características dos indivíduos na regressão do log do consumo de cerveja no log do preço de cerveja leva a estimativas mais precisas da elasticidade do preço.
45
45
Resumo
46
Exercícios
Capítulo 6 do Wooldridge, versão em inglês.
Problemas: 6.3, 6.4, 6.5, 6.7, 6.8
Exercícios de Computador: C1, C2, C3, C4, C5, C11, C13
47