Baixe o app para aproveitar ainda mais
Prévia do material em texto
Chapter 6 Regressão Múltipla: tópicos adicionais Capítulo 06, Wooldridge 1 Resumo 2 2 Unidades de medida 3 Unidades de medida 4 Unidades de medida 5 Unidades de medida 6 Unidades de medida Exemplo (continuação) Vamos aproveitar para usar o comando outreg que gera tabelas com comparações entre modelos. Para instalar o comando outreg: ssc install outreg2 Depois é só usar outreg2 após cada estimação: reg y x1 x2 ... xk outreg2 using "nome do arquivo que quiser", excel replace ou outreg2 using "nome do arquivo que quiser", excel append 7 Unidades de medida Exemplo: BWGHT.dta Rodamos os seguintes comandos (colar em um do file) ** Mudança de unidades de medida use "BWGHT.dta", clear * rodamos a regressão do peso em onças sobre o número de cigarros fumados (cigs) * e a renda da família (faminc) – a opção replace do comando, cria um arquivo novo, caso outro já exista reg bwght cigs faminc outreg2 using "Resultados\Unidades", excel replace * agora usamos o peso em kg (mudança em y) – a opção append, adiciona o resultado desta regressão a * um arquivo excel que já existe gen pesokg = bwght * 0.0283495 reg pesokg cigs faminc outreg2 using "Resultados\Unidades", excel append * para ficar mais fácil, comparamos com peso em g (mudança em y) gen pesog = pesokg * 1000 reg pesog cigs faminc outreg2 using "Resultados\Unidades", excel append 8 Unidades de medida 9 Unidades de medida Exemplo: BWGHT.dta Abrir o arquivo Unidades: Podemos adicionar outras estatísticas como o teste F à tabela. (1) (2) (3) VARIABLES bwght pesokg pesog cigs -0.463*** -0.0131*** -13.14*** (0.0916) (0.00260) (2.596) faminc 0.0928*** 0.00263*** 2.630*** (0.0292) (0.000827) (0.827) Constant 117.0*** 3.316*** 3,316*** (1.049) (0.0297) (29.74) Observations 1,388 1,388 1,388 R-squared 0.030 0.030 0.030 Standard errors in parentheses *** p<0.01, ** p<0.05, * p<0.1 1 cigarro a mais diminui o peso médio dos recém nascidos em 13.14 grama ou 0.0131 kg ou 0.463 onças. Cada 1 a mais em faminc (medida em milhares de dólares por ano) ou seja, a cada 1000 dólares a mais que uma família ganha por ano, o peso médio dos recém nascidos aumenta em 2.630 g ou 0.00263 kg ou 0.0928 onças Os desvios-padrão se alteram conforme a mudança de unidade. 10 Unidades de medida 11 Unidades de medida Usando pacotes em vez de cigarros (1) (2) (3) (4) VARIABLES bwght pesokg pesog pesog cigs -0.463*** -0.0131*** -13.14*** (0.0916) (0.00260) (2.596) faminc 0.0928*** 0.00263*** 2.630*** 2.630*** (0.0292) (0.000827) (0.827) (0.827) packs -262.7*** (51.92) Constant 117.0*** 3.316*** 3,316*** 3,316*** (1.049) (0.0297) (29.74) (29.74) Observations 1,388 1,388 1,388 1,388 R-squared 0.030 0.030 0.030 0.030 Standard errors in parentheses *** p<0.01, ** p<0.05, * p<0.1 1 cigarro a mais diminui o peso médio dos recém nascidos em 13.14 grama. 1 pacote a mais de cigarro diminui o peso previsto do bebê em 262.7 . As interpretações são consistentes: 20*13.14 = 262.8 Arredondamentos devem justificar a pequena diferença na casa decimal. 12 Unidades de medida 13 Unidades de medida Lição geral: Nada inesperado acontece ao modificarmos a unidade de medida. Não é possível mudar a importância de um efeito, o ajuste do modelo ou a inferência estatística quando mudamos a unidade de medida tanto da variável independente quanto das variáveis dependentes. Já que o efeito do modelo em log aproxima a mudança relativa ou percentual, ele é livre de medida. Mudar as unidades em um modelo em log apenas afeta o intercepto. Em particular, elasticidades são adimensionais, então mudar as medidas do peso de nascimento ou na renda da família é irrelevante quando usamos um modelo de elasticidade constante (log em log). 14 Unidades de medida 15 Unidades de medida Exemplo: desempenho em exames na universidade (ATTEND.dta) 680 observações de nota dos alunos em exame, notas antes de entrar na universidade, nota em teste de aptidão, dados em nº médio de aulas perdidas por semana... 1. attend: classes attended out of 32 2. termgpa: GPA for term 3. priGPA: cumulative GPA prior to term 4. ACT: ACT score 5. final: final exam score 6. atndrte: percent classes attended 7. hwrte: percent homework turned in 8. frosh: =1 if freshman 9. soph: =1 if sophomore 10. missed: number of classes missed 11. stndfnl: (final - mean)/sd 16 Unidades de medida O coeficiente de priGPA é quase 5 vezes maior do que o coeficiente de ACT . Isto significa que priGPA tem um efeito mais importante do que ACT? Um aumento em 1 desvio-padrão no priGPA aumenta o valor previsto da nota em 0.222 desvios padrão da nota final. Enquanto um aumento de 1 desvio-padrão em ACT equivale a 0.297 desvios padrão da nota final. O efeito de ACT é na verdade maior do que o efeito de priGPA. 17 Formas funcionais Agora vamos estudar: o modelo logarítmico com mais detalhes o modelo quadrático o modelo com termos de interação. Todas estas formas podem melhorar o ajuste e até a interpretação de modelos de regressão múltipla. 18 Formas funcionais Uma das formas funcionais mais utilizadas é o logaritmo natural (que é representado por log, ln ou simplesmente l). A especificação logarítmica tem algumas particularidades Vantagens: Interpretação de efeito em % (elasticidade) Coeficiente de inclinação de variáveis em log não dependem da escala de medida Aplicar o log pode eliminar ou mitigar problemas com outliers Aplicar o log pode ajudar a garantir a normalidade ou homocedasticidade do termo de erro Cuidados: Para a interpretação é preferível não aplicar log sobre: (1) variáveis explicativas medidas em inteiros (ex: anos) (2) variáveis explicativas medidas em percentagens Obviamente, logs não podem ser usados se a variável assume valor zero ou valores negativos É difícil inverter a operação de log quando fazemos previsões 19 Formas funcionais Exemplo: Efeito da poluição em preços das casas (HPRICE2.dta) Dados para 506 comunidades. Variáveis: price crime nox rooms dist radial proptax stratio lowstat lprice lnox lproptax 1. price: median housing price, $ 2. crime: crimes committed per capita 3. nox: nitrous oxide, parts per 100 mill. 4. rooms: avg number of rooms per house 5. dist: weighted dist. to 5 employ centers 6. radial: accessibiliy index to radial hghwys 7. proptax: property tax per $1000 8. stratio: average student-teacher ratio 9. lowstat: % of people 'lower status' 10. lprice: log(price) 11. lnox: log(nox) 12. lproptax: log(proptax) 20 20 Formas funcionais 21 Formas funcionais 22 Formas funcionais 23 Formas funcionais Função quadrática (côncava) de experiência. 24 24 Formas funcionais 25 25 Formas funcionais Salário máximo com relação a experência de trabalho: Isso significa que o retorno a experiência se torna negativo após 24.2 anos? Não necessariamente. Depende de quantas observações na amostra caem além do ponto de máximo. No exemplo, aproximadamente 28% da amostra tem exper maior do que 24.4. Esse percentual é muito alto para ser ignorado. Pode existir um problema de especificação (ex. Variáveis omitidas). 26 26 Formas funcionais 27 27 Formas funcionais Calculando o ponto de mínimo Esta área pode ser ignorada, já que afeta menos do que 1% das observações 28 28 Formas funcionais Saída do stata: Nº de observações com menos de 4.4 quartos: 5 obs em 506 29 Formas funcionais 30 30 Formas funcionais 31 31 Forma funcionais Diminui de cada x a sua média amostral. 32 32 R2 ajustado R2 da população 33 33 R2 ajustado Desvantagem do R2 ajustado: ele pode até ser negativo!! 34 34 R2 ajustado R2 ajustado (cont.) Podemos usar o R2 ajustado para comparar modelos quenão são aninhados, desde que tenham a mesma variável dependente. Dois modelos são não aninhados se nenhum deles é um caso particular do outro. Exemplo: relação entre intesidade de pesquisa e desenvolvimento e vendas das empresas de produtos químicos (RDCHEM.dta) A variável dependente é: rdintens (rd como percentual das vendas na empresa), que mede a intensidade de pesquisa e desenvolvimento feita na empresa Vamos testar dois modelos não lineares para captar o efeito das vendas na intensidade de pesquisa e desenvolvimento Modelo 1: usa apenas lsales como variável explicativa. 1 unidade a mais de vendas aumenta em quantos % a intensidade de P&D? Modelo 2: usa sales e sales ao quadrado como variáveis explicativas. O efeito parcial vai depender do nível de vendas. 35 35 R2 ajustado R2 ajustado (cont.) Exemplo: relação entre intesidade de pesquisa e desenvolvimento e vendas das empresas de produtos químicos (RDCHEM.dta) Sales e rd são medidas em milhões 36 36 R2 ajustado Uma comparação entre R quadrados dos modelos seria injusta com o modelo 1, pois ele usa menos variáveis explicativas. Neste exemplo, mesmo após ajustar para o nº de graus de liberdade dos modelos, o modelo quadrático é o preferido! 37 37 Modelagem 38 38 Modelagem Comparando modelos com diferentes variáveis dependentes Exemplo: remuneração de CEOs e desempenho das firmas (CEOSAL1) 39 39 Modelagem Comparando modelos com diferentes variáveis dependentes Exemplo: remuneração de CEOs e desempenho das firmas (CEOSAL1) 40 40 Modelagem Existe bem menos variação em ln(salário) que precisa ser explicada pelo modelo do que em salário (ver soma dos quadrados totais SQT) 41 41 Modelagem 42 42 Modelagem Estes são os R2 da previsão do modelo em nível para a variável salário (0.201) e da previsão de y do modelo em logaritmo (0.243), mesmo que o modelo original tenha sido feito para ln(y). Estes R quadrados agora podem ser comparados! 43 43 Modelagem Controlando por fatores demais em uma regressão Em alguns casos, certas variáveis não devem ser mantidas fixas Numa regressão múltipla para explicar o efeito do imposto na cerveja em acidentes no trânsito não devemos controlar diretamente para o consumo de cerveja. Numa regressão para medir os efeito do uso de pesticidas em gastos com saúde em famílias de fazendeiros, não devemos controlar diretamente para o número de visitas dos médicos. Regressões podem ter propósitos diferentes Em uma regressão do preço de casas nas características das casa, só faz sentido levar em conta o valor estimado da casa se desejamos estudar sua validade; caso contrário não vale a pena controlar pelo valor estimado. 44 44 Modelagem Adicionando var. explicativas para reduzir a variância do erro Adicionar var. explicativas pode exacerbar o problema de multicolinearidade. Por outro lado, adicionar regressores reduz a variância do erro. Variáveis que são não correlacionadas com outros regressores devem ser adicionadas, pois reduzem a variância do erro sem aumentar a multicolinearidade. No entanto, pode ser difícil encontrar var. não correlacionadas com as demais var. explicativas. Exemplo: em quanto muda o consumo individual de cerveja, quando o perço da cerveja aumenta em 1%? Incluir características dos indivíduos na regressão do log do consumo de cerveja no log do preço de cerveja leva a estimativas mais precisas da elasticidade do preço. 45 45 Resumo 46 Exercícios Capítulo 6 do Wooldridge, versão em inglês. Problemas: 6.3, 6.4, 6.5, 6.7, 6.8 Exercícios de Computador: C1, C2, C3, C4, C5, C11, C13 47
Compartilhar