Buscar

4) Análise de regressão múltipla

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Econometria I
Exercícios para revisão e autoteste
“Introdução à Econometria”, Jefrey M. Wooldridge 
ANÁLISE DE REGRESSÃO MÚLTIPLA
Obs.: os exercícios que indicam ‘arquivos’ para serem resolvidos são do livro do Wooldridge. Os arquivos necessários estão na pasta “Banco de dados Wooldridge”, na área “Programação em R”.
1. Um modelo simples para explicar as taxas de homicídio nas cidades (taxahom) em termos de probabilidade de condenação (prcond) e da duração media da sentença (sentmed) é 
		taxhom = β0 + β1prcond + β2sentmed + u.
Que fatores estão contidos em u? Você entende ser provável que a hipótese E(u|x1,x2)=0 se mantenha? 
2. Suponha que você postula um modelo que explica a nota do exame final em termos da frequência às aulas. Assim, a variável dependente é a nota do exame final, e a principal variável explicativa é o número de aulas frequentadas. A fim de controlar as aptidões dos estudantes e pelos esforços fora da sala de aula, você inclui entre as variáveis explicativas a nota acumulada durante todo o curso, a nota do teste de avaliação de conhecimentos para ingresso em curso superior e as medidas do desempenho do estudante no ensino médio. Alguém diz: “ Você não pode esperar aprender nada com esse exercício, pois todas essas variáveis são, provavelmente, altamente colineares”. Qual seria sua resposta?
3. Os dados do arquivo WAGE2.RAW, sobre os homens que trabalham, foram utilizados para estimar a seguinte equação:
 = 10,36 -0,094irms +0,131educm +0,210educp
 n=722, R²=0,214
em que educ é anos de escolaridade formal, irms é o número de irmãos, educm é anos de escolaridade formal da mãe e educp é anos de escolaridade formal do pai.
a) irms tem o efeito esperado? Explique. Mantendo o educm e educp fixos, em quanto deveria irms aumentar para reduzir os anos previstos da educação formal em um ano? (Uma resposta incompleta é aceitável aqui.)
b) Discuta a interpretação do coeficiente de educm.
c) Suponha que o Homem A não tenha irmãos e que sua mãe e seu pai tenham, cada um, 12 anos de educação formal. Suponha também que o Homem B não tenha irmãos, e sua mãe e seu pai tenham, cada um, 16 anos de educação formal. Qual é a diferença prevista em anos de educação formal entre B e A?
4. Usando os dados do arquivo GPA2.RAW sobre 4.137 estudantes de curso superior dos Estados Unidos, estimou-se a seguinte equação por MQO:
		 = 1,392 -0,0135emperc +0,00148SAT
			 n=4.137, R²=0,273,
Em que supGPA é mensurada em uma escala de 4 pontos, emperc é o percentual da turma de formados do ensino médio (definido de modo que, por exemplo, emperc=5 significa que os 5% melhores da sala) e SAT é uma nota média ponderada de matemática e habilidade verbal do estudante para ingresso em curso superior.
a) Por que faz sentido que o coeficiente de emperc seja negativo?
b) Qual é o valor previsto de supGPA quando emperc=0 e SAT=1.050?
c) Suponha que dois alunos do ensino médio, A e B, estejam no mesmo percentual no ensino médio, mas a nota SAT do estudante A foi 140 pontos maior (cerca de um desvio padrão da amostra). Qual é a diferença prevista em supGPA para esses dois estudantes? A diferença é grande?
d) Mantendo emperc fixo, que diferença na nota SAT levaria a uma diferença prevista de supGPA de 0,5? Comente sua resposta.
5. O modelo seguinte é uma versão simplificada do modelo de regressão múltipla usado por Biddle e Hamermesh (1990) para estudar a escolha entre o tempo gasto dormindo e trabalhando e para observar outros fatores que afetam o sono:
		dormir = β0 + β1trabtot + β2educ + β3idade + u;
em que dormir e trabtot (trabalho total) são mensurados em minutos por semana e educ e idade são mensurados em anos.
a) Se os adultos escolhem entre dormir e trabalhar, qual é o sinal de β1?
b) Que sinais você espera que β2 e β3 terão?
c) Usando os dados do arquivo SLEEP75.RAW, a equação estimada é
		= 3.638,25 -0,148trabtot -11,13educ +2,20idade
				n=706, R²=0,113.
Se alguém trabalha cinco horas a mais por semana, qual é queda, em minutos, no valor esperado de dormir? Esse valor representa uma escolha grande?
d) Discuta o sinal e a magnitude do coeficiente de educ.
e) Você diria que trabtot, educ e idade explicam muito da variação de dormir? Quais outros fatores poderiam afetar o tempo gasto dormindo? É provável que eles sejam correlacionados com trabtot?
6. Considere o modelo de regressão múltipla contendo três variáveis independentes, sob as hipóteses de linearidade em parâmetros, amostragem aleatória, colinearidade imperfeita, média condicional zero e homoscedasticidade:
		y= β0 + β1x1 + β2 x2 + β3 x3 + u.
Você está interessado em estimar a soma dos parâmetros de x1 e x2 : chame-a de 1 = β1 + β2.
a) Mostre que 1 = 1 + 2 é um estimador não viesado de 1.
b) Encontre Var(1) em termos de Var(1), Var(2) e Corr(1.2).
7. Em um estudo que relaciona a nota média em curso superior (supGPA) ao tempo gasto em várias atividades, você distribui uma pesquisa para vários estudantes. Os estudantes devem responder quantas horas eles despendem, em cada semana, em quatro atividades: estudo, sono, trabalho e lazer. Toda atividade é colocada em uma das quatro categorias, de modo que, para cada estudante, a soma das horas nas quatro atividades deve ser igual a 168.
a) No modelo
supGPA= β0 + β1estudar + β2 dormir + β3 trabalhar + β4lazer + u,
faz sentido manter dormir, trabalhar e lazer fixos, enquanto estudar varia?
b) Explique a razão de esse modelo violar a Hipótese de Colinearidade Imperfeita.
c) Como você poderia reformular o modelo, de modo que seus parâmetros tivessem uma interpretação útil e ele satisfizesse a Hipótese de Média Condicional Zero?
8. Suponha que a produtividade média do trabalhador da indústria (prodmed) dependa de dois fatores – horas médias de treinamento do trabalhador (treinmed) e aptidão média do trabalhador (aptidmed):
		prodmed = β0 + β1treinmed + β2 aptidmed + u.
Suponha que essa equação satisfaça as hipóteses de Gauss-Markov. Se um subsídio foi dado as empresas cujos trabalhadores tem uma aptidão menor do que a média, de modo que treinmed e aptidmed sejam negativamente correlacionados, qual é o provável viés em 1 obtido da regressão simples de prodmed sobre treinmed?
9. Quais dos seguintes itens podem fazer com que os estimadores de MQO sejam viesados? 
a) Heteroscedasticidade.
b) Omitir uma variável importante.
c) Um coeficiente de correlação amostral de 0,95 entre duas variáveis independentes incluídas no modelo.
10. Suponha que você tenha interesse em estimar o relacionamento ceteris paribus entre y e x1. Para esse propósito você pode coligir dados em duas variáveis de controle, x2 e x3. Para melhor clareza, você pode entender y como uma nota do exame final, x1 como frequência as aulas, x2 como a nota de média graduação até o semestre anterior, e x3 como uma nota de teste de aptidão acadêmica ou de teste de avaliação. Seja 1 a estimativa da regressão simples de y sobre x1 e seja 1 a estimativa de regressão múltipla de y sobre x1,x2,x3.
a) Se x1 for altamente correlacionada com x2 e x3 na amostra e x2 e x3 tiverem grandes efeitos 
parciais na y, você antecipa que 1 e 1 sejam semelhantes ou muito diferentes? Explique.
b) Se x1 for quase não correlacionado com x2 e x3, mas e x2 e x3 forem altamente correlacionados, as 1 e 1 tenderão a ser semelhantes ou muito diferentes? Explique.
c) Se x1 for altamente correlacionada com x2 e x3 na amostra e x2 e x3 tiverem pequenos efeitos parciais na y, você anteciparia que ep(1) ou ep(1) será menor? Explique.
d) Se x1 for quase não correlacionado com x2 e x3, x2 e x3 tiver grandes efeitos parciais em y, e x2 e x3 forem altamente correlacionados, você anteciparia que ep(1) ou ep(1) será menor? Explique.
11. A equação seguinte descreve o preço mediano das residências de uma comunidade em termos de quantidade de poluição (oxn, de óxido nitroso) e do número médio de cômodos nas residências da comunidade (comods):
		log(preço)= β0 + β1log(oxn) + β2comods + u.
a) Quaissão os prováveis sinais de β1 e β2? Qual é a interpretação de β1? Explique.
b) Por que oxn [ou, mais precisamente, log(oxn)] e comods deveriam ser negativamente correlacionados? Se esse é o caso, a regressão simples de log(preço) sobre log(oxn) produz um estimador viesado para cima ou para baixo de β1?
12. A seguinte equação representa os efeitos das receitas totais de impostos sobre o crescimento subsequente do emprego para a população de municípios dos EUA.
cresc= β0 + β1parcp + β2parcr + β3rparcv + outros fatores;
em que cresc é a variação percentual do emprego de 1980 a 1990, enquanto o total das receitas de impostos tem a seguinte distribuição:
i)parcp é a parcela dos impostos sobre a propriedade,
ii)parcr é a parcela sobre renda,
iii)parcv é a parcela sobre verndas.
Todas essas variáveis estão mensuradas em 1980. A parcela omitida, parct inclui taxas e impostos variados. Por definição, as quatro parcelas somam um. Outros fatores incluiriam despesas com educação, infraestrutura, e assim por diante (todos mensurados em 1980).
a) Por que devemos omitir uma das variáveis de parcela de impostos da equação?
b) Dê uma interpretação cuidadosa de β1.
13. Sejam as taxas de aprovação de empréstimos de uma comunidade determinadas por
taxaprov= β0 + β1porcmin + β2rendmed + β3riquemed + β4dividamed + u;
em que porcmin é a porcentagem de menoridade na comunidade, rendmed é a renda média, riquemed é a riqueza média, dividamed é alguma medida de dividas médias. Como você formularia a hipótese nula de que não há diferença nas taxas de empréstimos entre os bairros em razão da composição racial e étnica quando a renda média, a riqueza média e a dívida média foram controladas? Como você formularia a hipótese alternativa de que há discriminação contra as minorias nas taxas de aprovação de empréstimos?
14. Suponha que você tenha estimado um modelo de regressão e obteve 1=0,56 e p-valor=0,086 para testar H0 : β1=0 contra H1 : β1 ≠ 0. Qual é o p-valor para testar H0 : β1=0 contra H1 : β1 > 0?
15. Considere a possibilidade de relacionar o desempenho individual em um teste padronizado, pontuação, a uma variedade de outras variáveis. Fatores relativos à escola incluem o tamanho médio da classe, os gastos por estudante, o salário médio dos professores e o total de matriculas escolares. Outras variáveis especificas em relação aos estudantes são a renda familiar, a educação da mãe, a educação do pai e o número de irmãos. O modelo é :
pontuação = β0 + β1tclasse + β2gasto + β3totalsalp + β4matricl + β5rendfam + β6educm + β7educp + β8irmaos + u.
Formule a hipótese nula que as variáveis especificas aos estudantes não tem efeito sobre o desempenho no teste padronizado, uma vez que os fatores relativos à escola sejam controlados. Quais os valores de k e q nesse exemplo? Escreva a versão restrita do modelo.
16. Os dados do arquivo ATTEND.RAW foram usados para estimar as duas equações
= 47,13 + 13,37supGPAp
 (2,87) (1,09)
n=680, R²=0,183,
e
= 75,70 + 17,26supGPAp -1,72ACT
 (3,88) (1,08) (?)
n=680, R²=0,291,
em que, como sempre, os erros-padrão estão entre parênteses; o erro-padrão de ACT está faltando na segunda equação. Qual é a estatística t do coeficiente de ACT?
17. Quais os seguintes itens podem fazer com que as estatísticas t de MQO não sejam válidas (isto é, que elas não tenham distribuição t sob H0)?
a) Heteroscedasticidade.
b) Um coeficiente de correlação de 0,95 entre duas variáveis independentes que estão no modelo.
c) Omitir uma variável explicativa importante.
18. Suponha que o modelo 
		nota = β0 + β1faltas + β2psGPA + u
satisfaça as quatro primeiras hipóteses de Gauss-Markov, em que nota é a nota de um exame final, faltas é o número de faltas e psGPA é uma nota média acumulada até o penúltimo semestre. Se 1 for o estimador de regressão simples de nota sobre faltas, qual será a direção do viés assimptótico em 1?
19. Em um modelo de regressão com um tamanho de amostra grande, qual é o intervalo de confiança de 95% aproximado para j sob as hipóteses do modelo linear clássico (exceto a de Normalidade)? Ele é chamado de intervalo de confiança assimptótico.
20. No modelo de regressão simples sob as hipóteses de linearidade em parâmetros, amostragem aleatória, colinearidade imperfeita, média condicional zero e homoscedasticidade, afirmamos que o estimador de inclinação, 1, é consistente com β1. Usando 0= - 11, demonstre que plim0= β0.
[Você precisará usar a consistência do estimador e a lei dos grandes números, juntamente com o fato de que β0= E(y) – β1E(x1).]
21. Suponha que o número anual de prisões por direção de veículo sob embriaguez, nos Estados Unidos, seja determinado por
		log(prisões) = β0 + β1log(pop) + β2idade16_25 + outros fatores;
em que idade16_25 é a proporção da população entre 16 e 25 anos de idade. Mostre que β2 tem a seguinte interpretação (ceteris paribus): ela é a mudança percentual em prisões quando a percentagem da população com idade entre 16 e 25 anos aumenta em um ponto percentual.
22. Explique por que escolher um modelo maximizando ² ou minimizando (o erro padrão da regressão) é a mesma coisa.
23. A seguinte equação foi estimada utilizando os dados contidos no arquivo CEOSAL1.RAW:
	= 4,322 +0,276log(vendas) +0,0215roe +-0,00008roe²
 (0,324) (0,33) (0,129) (0,00026)
n=209, R²=0,282.
Esta equação permite que roe tenha um efeito decrescente sobre log(salário). Essa generalidade é necessária? Justifique.
SOLUÇÕES
1. Alguns poucos fatores incluem a distribuição por idade e por gênero, o tamanho da força policial (ou, de forma mais generalizada, os recursos alocados no combate ao crime), a população e fatores históricos gerais. Esses fatores certamente devem estar correlacionados com prcond e sentmed, o que significa que a hipótese não se manterá. Por exemplo, o tamanho da força policial possivelmente estará correlacionado tanto com prcond como com sentmed, já que algumas cidades colocam mais empenho na prevenção e na imposição da lei. Devemos tentar levar para a equação tantos desses fatores quanto possível.
2. Se estamos interessados no efeito de x1 sobre y, a correlação entre as outras variáveis explicativas (x2, x3 etc.) não afeta Var(1). Essas variáveis são incluídas como controles,
e não temos que nos preocupar com a colinearidade entre as variáveis de controle. Naturalmente, nós as estamos controlando primariamente porque entendemos que elas estão correlacionadas com a frequência, mas isso é necessário para que possamos fazer uma análise ceteris paribus.
13. H0 : β1=0 ; H1 : β1 < 0.
14. Como =0,56 > 0 e estamos testando H0 contra H1 : β1 > 0, o p-valor unilateral é a metade do p-valor bilateral, ou 0,043.
15. H0: β5= β6= β7= β8= 0.k = 8 e q=4. A versão restrita do modelo é
		nota= β0 + β1tclasse + β2gasto + β3totalsalp + β4matricl + u.
16. A estatística F para testar a exclusão de tac é [(0,291 - 0,183)/(1 - 0,291)](680 - 3) 103,13. Portanto, o valor absoluto da estatística t estará em torno de 10,16. A estatística t de tac será negativa, pois tac é negativo, de modo que ttac=-10,16.
18. Isso requer algumas suposições. Parece razoável assumir que β2 > 0 (nota depende positivamente de nmgradp) e Cov(faltas, nmgradp) < 0 (faltas e nmgradp são negativamente correlacionados); isso significa que β2δ1c> 0, o que quer dizer que plim1 < β1. Como β1 é entendido como negativo (ou pelo menos não-positivo), uma regressão simples provavelmente superestimará a importância de faltar às aulas.
19. j1,96ep(j) é o intervalo de confiança assimptótico de 95%. Ou podemos substituir 1,96 por 2.
21. Podemos responder de forma geral. A equação é
		log(y)= β0 + β1log(x1) + β2x2 +....
onde x2 é uma proporção, em vez de porcentual. Então, ceteris paribus,
Δlog(y)= β2Δx2,
100.Δlog(y)= β2 (100.Δx2) ou %Δy β2 (100.Δx2).
Agora, como Δx2 é a alteração na proporção, 100.Δx2 é a alteraçãoem pontos percentuais. Em particular, se Δx2=0,001, então 100.Δx2=1, que corresponde a uma alteração de um ponto percentual. Mas, então, β2 será a alteração porcentual em y quando 100. Δx2=1.
22. Temos que ² = 1 - ² / [SQT/(n-1)]. Para uma determinada amostra e uma determinada variável dependente, [SQT/(n-1)] é fixo. Quando usamos conjuntos diferentes de variáveis explicativas, somente ² é alterado. Conforme ² diminui, ² aumenta. Se tomarmos , e consequentemente ², tão pequeno quanto possível, estaremos tornando ² tão grande quanto possível.

Outros materiais