Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise de Regressão Múltipla: Estimação Aula 08, Intodução à Econometria Prof. Moisés A. Resende Filho Capítulo 03, parte 1 04 e 06 de abril de 2018 Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 1 / 30 1. Motivação para Regressão Linear Múltipla (RLM) Ao permitir a inclusão de mais do que uma única variável explicativa, a RLM torna mais provável a hipótese crucial do modelo. Por exemplo, considere a extensão da equação do log(salario) : lsalario = β0 + β1educ + β2QI + u (1) em que lsalario = log(salario), QI é o escore no teste de QI e na população, QI tem média 100 e desvio-padrão 15. O principal interesse é em β1,o retorno da escolaridade, mas também há interesse em β2. No caso, retiramos QI do erro do modelo quando o incluímos explicitamente na equação (1). Se QI for uma boa proxy de inteligência, então sua inclusão deve produzir estimativas mais persuasivas do efeito causal de escolaridade no log(salario). Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 2 / 30 Motivação para RLM Ao especi car a equação (1), assume-se que E (ujeduc ,QI ) = 0 é verdadeira, ou seja, que QI é uma proxy boa o su ciente para garantir que intelig eˆncia foi retirada de u. No modelo de regressão simples, apenas com educ , éramos obrigados a admitir que intelig eˆncia e educ eram não (cor)relacionadas. Assim, justi cávamos relegar intelig eˆncia ao erro e, mesmo assim, considerar que a hipótese crucial E (ujeduc) = E (intelig eˆnciajeduc) = 0 estava sendo assegurada. Ou seja, éramos obrigados a admitir que o nível de escolaridade não dizia nada sobre a inteligência esperada do indivíduo. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 3 / 30 Motivação para RLM Obviamente, mesmo adicionando QI como proxy de intelig eˆncia no modelo, ainda deixamos variáveis importantes como, por exemplo, experiência (exper) e outras característica individuais do indivíduo relegadas ao erro do modelo como, por exemplo, motivação. Como motivação é difícil de ser medida, mas exper não, podemos pelo menos reespeci car o modelo como: lsalario = β0 + β1educ + β2QI + β3exper + u (2) Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 4 / 30 Motivação para Regressão Múltipla A RLM viabiliza o uso de formas funcionais mais exíveis com a inclusão de variáveis ao quadrado, ao cubo,... e variáveis de interação como, por exemplo, x2.x3. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 5 / 30 Motivação para Regressão Múltipla Por exemplo, acrescentando os termos exper2 e educ �QI ao modelo (2), temos: lsalario = β0 + β1educ + β2QI + β3exper + β4exper 2 + +β5(educ�QI ) + u (3) Também permite que o efeito de educ no lsalario dependa do nível de QI , pois: ∂lsalario ∂educ = β1 + β5QI Isso permite que exper possa ter efeito quadrático em lsalario, pois: ∂lsalario ∂exper = β3 + 2β4exper Isso permite que QI possa ter efeito quadrático em lsalario, pois: ∂lsalario ∂QI = β2 + β5educ Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 6 / 30 Motivação para Regressão Múltipla No modelo populacional de regressão múltipla lsalario = β0 + β1educ + β2QI + β3exper + β4exper 2 + +β5(educ�QI ) + u 1 100� (β1 + β5QI ) é a mudança percentual ceteris paribus no salário, não no log(salario), sob ∆u = ∆QI = ∆exper = 0, se educ aumenta em um ano. 2 100� (β3 + 2β4exper) é a mudança percentual ceteris paribus no salário, ou seja, sob ∆u = ∆educ = ∆QI = 0, se exper aumenta em uma unidade. 3 100� (β2 + β5educ) é a mudança percentual ceteris paribus no salário, ou seja, sob ∆u = ∆educ = ∆exper = 0, se QI aumenta em uma unidade. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 7 / 30 2. O Modelo com k Variáveis Explicativas O Modelo de Regressão Linear Múltipla (RLM) na forma geral com k variáveis explicativas é y = β0 + β1x1 + β2x2 + . . .+ βkxk + u (4) ou y = β0 +∑ k j=1 βjxj + u em que β0 é o intercepto, β1 é o coe ciente de x1, β2 é o coe ciente de x2 e assim por diante. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 8 / 30 O Modelo com k Variáveis Explicativas Como na RLS, na RLM (4) há uma variável dependente y e um termo de erro, u. No entanto, a RLM (4) tem k variáveis explicativas e k + 1 parâmetros populacionais β0, β1, ..., βk , em que β0 é o parâmetro de intercepto e β1, β2,..., βk são os parâmetros de inclinação. A hipótese crucial RLM.1 na a RLM (4) é: E (ujx1, ..., xk ) = 0 (5) e é possível aumentar a plausibilidade dessa hipótese, "controlando para", ou seja, incluindo mais variáveis explicativas no modelo. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 9 / 30 O Modelo com k Variáveis Explicativas Por exemplo, considere o modelo lsalario = β0 + β1educ + β2QI + β3exper + β4exper 2 + +β5(educ �QI ) + u De na y � lsalario, x1 � educ , x2 � QI , x3 � exper , x4 � exper2 = x23 e x5 � educ �QI = x1 � x2. Note que apesar de x4 � x23 ser uma função não linear em x3 e x5 � x1 � x2, o modelo ainda se enquadra na forma geral da RLM (4), no caso: y = β0 + β1x1 + β2x2 + β3x3 + β4x4 + β5x5 + u Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 10 / 30 O Modelo com k Variáveis Explicativas A hipótese crucial do modelo y = β0 + β1x1 + β2x2 + β3x3 + β4x4 + β5x5 + u é que E (ujx1, ..., x5) = 0 ou seja E (ujeduc ,QI , exper , exper2, educ �QI ) = 0 Apesar de o nosso interesse ser em β1 � 100, o retorno de educ , controlamos para QI , exper , exper2 e educ �QI , de modo a aumentar a plausibilidade ou probabilidade de a hipótese crucial ser verdadeira. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 11 / 30 O Modelo com k Variáveis Explicativas Moral da história: o modelo de regressão linear múltipla (RLM), ao permitir a inclusão de mais do que uma única variável explicativa e o uso de especi cações mais exíveis com a inclusão de termos quadráticos, cúbicos e interação entre variáveis, aumenta a probabilidade de a hipótese crucial E (ujx1, ..., xk ) = 0 ser verdadeira. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 12 / 30 3. Mecânica de Mínimos Quadrados Ordinários (MQO) MQO utiliza como critério de obtenção das estimativas dos parâmetros da RLM a minimização da soma dos quadrados dos resíduos SQR = ∑ni=1 bu2i , em que bui � (yi � byi ) é a diferença entre o valor observado e estimado de y de acordo com o modelo. Por exemplo, tomando o modelo populacional yi = β0 + β1xi1 + β2xi2 + ui , i = 1, .., n queremos obter com base em uma amostra f(xi1, xi2, yi ) : i = 1, ..., ng a equação estimada por MQO byi = bβ0 + bβ1xi1 + bβ2xi2, i = 1, .., n (6) Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 13 / 30 Mecânica de MQO Observe que as variáveis explicativas têm dois subscritos: i que denota o número da observação e o segundo subscrito (nesse exemplo, apenas 1 e 2) que denotam, respectivamente, as variáveis 1 e 2. Por exemplo, poderia ser que xi1 = educi , i = 1, ..., n xi2 = QIi , i = 1, ..., n Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 14 / 30 Mecânica de MQO Para o modelo (6), a aplicação do método de MQO consiste em obterbβ0, bβ1 e bβ2 (três incógnitas) de modo a minimizar a Soma dos Quadrados dos Resíduos (SQR), o que consiste em resolver o problema de minimização: minbβ0,bβ1,bβ2∑ n i=1(yi � bβ0 � bβ1xi1 � bβ2xi2)2 Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 15 / 30 Mecânica de MQO No caso do modelo na forma geral com k variáveis explicativas, o método MQO consiste em obter bβ0, bβ1, bβ2, ..., bβk, portanto k + 1 incógnitas de modo a resolver o problema minbβ0,bβ1,...,bβk∑ n i=1(yi � bβ0 � bβ1xi1 � ...� bβkxik )2 (7) Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 16 / 30 Mecânica de MQO As condições de primeira ordem do problema (7) são as seguintes k + 1 equações lineares nas k + 1 incógnitas bβ0, bβ1, bβ2, ..., bβk : ∑ni=1(yi � bβ0 � bβ1xi1 � ...� bβkxik ) = 0 <=>∑ni=1 bui = 0 ∑ni=1 xi1(yi � bβ0 � bβ1xi1 � ...� bβkxik ) = 0 <=>∑ni=1 xi1bui = 0 ∑ni=1 xi2(yi � bβ0 � bβ1xi1 � ...� bβkxik ) = 0 <=>∑ni=1 xi2bui = 0 ... ∑ni=1 xik (yi � bβ0 � bβ1xi1 � ...� bβkxik ) = 0 <=>∑ni=1 xikbui = 0 Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 17 / 30 Mecânica de MQO Após resolver esse sistema de equações lineares, obtendo os valores numéricos ou estimativas bβ0, bβ1, bβ2, ..., bβk , dizemos que: 1 "Estimamos uma regressão de y em x1, x2, ..., xk por MQO", ou 2 "Estimamos uma regressão de y sobre x1, x2, ..., xk por MQO", ou 3 "Estimamos uma regressão MQO de y em x1, x2, ..., xk", ou 4 "Estimamos uma regressão MQO de y sobre x1, x2, ..., xk", ou 5 "Regredimos y em x1, x2, ..., xk por MQO", ou 6 "Regredimos y sobre x1, x2, ..., xk por MQO". Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 18 / 30 Mecânica de MQO Alternativamente, se impusermos os k + 1 momentos populacionais E (ui ) = 0 (média zero do erro) e E (xijui ) = 0, j = 1, ..., k (ortogonalidade contemporânea de xj e u, j = 1, 2, .., k) à amostra teremos os análogos amostrais: De E (ui ) = 0: ∑ni=1 bui = 0; e De E (xijui ) = 0: ∑ni=1 xijbui = 0, j = 1, ..., k. Tal procedimento gera equações idênticas às das condições de primeira ordem do problema (7). No entanto, ao proceder assim, os estimadores devem ser chamados de estimadores de Método dos Momentos (MM). Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 19 / 30 4. Interpretação da Equação de Regressão MQO Considere a equação de regressão MQO byi = bβ0 + bβ1xi1 + ...+ bβkxik , i = 1, .., n em que: 1 byi é o valor estimado ou valor previsto ou estimativa MQO de y na observação i da amostra; e 2 bβ0 é a estimativa MQO de y para quando xi1 = xi2 = � � � = xik = 0. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 20 / 30 Interpretação da Equação de Regressão MQO Na equação de regressão MQO byi = bβ0 + bβ1xi1 + ...+ bβkxik , i = 1, .., n a variação prevista ou estimada em y devido a variações ∆x1,∆x2, ..., ∆xk é ∆yˆ = bβ1∆x1 + bβ2∆x2 + ...+ bβk∆xk tal que se ∆x1 6= 0, mas ∆x2 = ... = ∆xk = 0, então ∆yˆ = bβ1∆x1 Ou seja, bβ1 é a estimativa da variação em y devido a uma variação ∆x1 = 1 ceteris paribus, em que ceteris paribus signi ca ∆x2 = ∆x3 = � � � = ∆xk = 0. Por analogia, o mesmo pode ser dito sobre os demais bβj , com j = 2, ..., k . Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 21 / 30 EXEMPLO de Interpretação da Equação de Regressão MQO Considere a RLM estimada por MQO: \lsalario i = 0, 728+ 0, 073educi + 0, 0076QIi , n = 1, ..., 759 A estimativa da variação ceteris paribus no salário devido a um ano adicional de estudo é 100bβeduc = 0, 073� 100 = 7, 3%. Pensando em termos de um experimento: se tomassemos duas pessoas A e B com iguais escores de QI , mas a pessoa B tem um ano a mais de escolaridade que A, então, esperaríamos que o salário de B fosse 7, 3% maior que o de A. O fato é que a RLM estimada por MQO nos permite fazer uma interpretação ceteris paribus, sem que necessariamente existam duas pessoas na amostra com iguais escores de QI e uma diferença de 1 ano de escolaridade entre elas. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 22 / 30 5. Valores Estimados e Resíduos MQO Considere o modelo de regressão estimado por MQO byi = bβ0 + bβ1xi1 + bβ2xi2 + ...+ bβkxik , i = 1, .., n em que uˆi = yi � byi . Assim, se uˆi > 0 é porque yi > byi , ou seja, yi está acima do hiperplano da regressão estimada; e Se uˆi < 0 é porque yi < byi , ou seja, yi está abaixo do hiperplano da regressão estimada. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 23 / 30 5.1 Propriedades algébricas do modelo de regressão MQO 1 A média dos resíduos é zero, pois ∑ni=1 uˆi = 0 pela primeira CPO do problema de MQO. Assim, y¯ = by , pois como ∑ni=1 uˆi/n = 0, então, ∑ni=1 (yi � byi ) /n = 0, tal que ∑ni=1 yi/n = ∑ni=1 byi/n. 2 A covariância entre cada variável explicativa e o resíduo é zero: Cov(xj , bu) = 0, j = 1, 2, ..., k , pois ∑ni=1 xikbui = 0, j = 1, ..., k pelas k últimas CPOs do problema de MQO, o que com a propriedade algébrica 1, garante Cov(by , bu) = 0. 3 O hiperplano da regressão estimada passa pelo ponto (x1, x2, ..., xk , y), ou seja, substituindo as médias das variáveis explicativas RLM estimada obtém-se uma estimativa de y que é igual a própria média de y , tal que: y¯ = bβ0 + bβ1x¯1 + bβ2x¯2 + ...+ bβk x¯k Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 24 / 30 6. Grau de Ajuste da Regressão Linear Múltipla Como ∑ni=1 bui (byi � y) é igual a zero também na RLM, temos que: SQT = SQE + SQR (8) em que SQT � ∑ni=1(yi � y)2, SQE � ∑ni=1(byi � y)2 e SQR � ∑ni=1(yi � byi )2 são a soma dos quadrados total, explicada e dos resíduos. Como antes, de nimos o R-dois, R-quadrado ou coe ciente de determinação da regressão como: R2 � SQE SQT = 1� SQR SQT (9) tal que se o modelo inclui intercepto, 0 � R2 � 1. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 25 / 30 Grau de Ajuste da Regressão Linear Múltipla O valor do R2 nunca diminui com a adição de novas variáveis explicativas. Como os bβ0, bβ1, ..., bβk de MQO são aqueles que minimizam a SQR, a inclusão de mais variáveis no modelo, no pior cenário quando os coe cientes das novas variáveis incluídas no modelo são zeros, obtemos o mesma SQR de antes e, consequentemente, o mesmo SQE de antes. Assim, como o SQR nunca aumenta e, consequentemente, o SQE nunca diminui com a inclusão de novas variáveis no modelo, também o R2 = 1� SQRSQT nunca diminui. De fato, o R2 normalmente aumenta com a inclusão de mais variáveis no modelo e somente permanece o mesmo se as estimativas dos coe cientes das variáveis adicionadas forem zeros. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 26 / 30 Grau de Ajuste da Regressão Linear Múltipla Como antes, R2 = dCorr(y , by)2 ou seja, o R2 é o quadrado do coe ciente de correlação de y e by de nido como dCorr(y , by) � dCov(y , by)qdVar(y).qdVar(by) , com � 1 � dCorr(y , by) � 1 Assim, por exemplo, um R2 = 0, 25 sigini ca que 25% da variação total em y é explicada pelo modelo de regressão estimado. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 27 / 30 7. RLM no Stata Com o arquivo WAGE2.dta e comandos do Stata: gen educqi=educ*IQ; gen exper2=exper^2; regress lwage educ IQ exper exper2 educqi, cformat(%9.4f) pformat(%5.3f) sformat(%8.3f), obtemos: _cons 5.1125 0.5725 8.931 0.000 3.9890 6.2359 educqi -0.0001 0.0004 -0.182 0.855 -0.0009 0.0007 exper2 0.0002 0.0006 0.302 0.763 -0.0009 0.0013 exper 0.0157 0.0133 1.178 0.239 -0.0104 0.0418 IQ 0.0068 0.0054 1.250 0.212 -0.0038 0.0174 educ 0.0651 0.0434 1.500 0.134 -0.0201 0.1503 lwage Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 165.656283 934 .177362188 Root MSE = .38648 Adj R-squared = 0.1578 Residual 138.761522 929 .149366547 R-squared = 0.1624 Model 26.894761 5 5.3789522 Prob > F = 0.0000F( 5, 929) = 36.01 Source SS df MS Number of obs = 935 Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 28 / 30 RLM no Stata exper 935 11.56364 4.374586 1 23 IQ 935 101.2824 15.05264 50 145 educ 935 13.46845 2.196654 9 18 lwage 935 6.779004 .4211439 4.744932 8.032035 Variable Obs Mean Std. Dev. Min Max . sum lwage educ IQ exper O retorno da escolaridade de um indivíduo com o QI médio da amostra é: 100� �bβ1 + bβ5QI� = 100 � (0.0651� 0.0001 � 101.2824) = 5. 4972%. O retorno da experiência de um indivíduo com a experiência média da amostra é: 100� �bβ3 + 2bβ4exper� = 100 � (0.0157+ 2 � 0.002 � 11.56364) = 6. 1955%. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 29 / 30 RLM no Stata predict yhat, xb correlate lwage yhat yhat 0.4029 1.0000 lwage 1.0000 lwage yhat (obs=935) . correlate lwage yhat Tal que R2 = dCorr(y , by)2 = 0.40292 = 0.16233. Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 04/04/2018 30 / 30 1.Motivação para Estudar Regressão Múltipla 2. O Modelo com k Variáveis Explicativas 3. Mecânica de Mínimos Quadrados Ordinários (MQO) 4. Interpretação da Equação de Regressão MQO 5. Valores Estimados e Resíduos MQO 5.1 Propriedades Algébricas do MR MQO 6. Grau de Ajuste da Regressão 7. RLM no Stata
Compartilhar