Baixe o app para aproveitar ainda mais
Prévia do material em texto
O Método dos Mínimos Quadrados Ordinários e Regressão Linear Simples Posted by João Pedro Fontoura da Silva on February 7, 2020 O Método dos Mínimos Quadrados Ordinários e Regressão Linear Simples 1. Introdução: o que é a Econometria? A econometria é um campo de estudo baseado no desenvolvimento de métodos e ferramentas estatísticos para aplicação em dados econômicos. Pode ser usada para testar teorias, avaliar planos e auxiliar na tomada de decisões. Um modelo econométrico pode ser desenvolvido a partir de um modelo econômico formal, mas também pode ser baseado em raciocínios econômicos informais e na prórpria intuição. Um exemplo de aplicação da econometria é o estudo dos determinantes do salário. Podemos deduzir que a função que determina o salário é composta de diversos argumentos, cada qual representante de um fator observável: nível de educação, experiência prévia, qualidade da educação, aptidão inata, entre outros. Ao montarmos um modelo econométrico de forma a estudar como estes fatores in�uenciam na determinação do salário, estimamos parâmetros que descrevem as direções e as in�uências da relação entre a variável salário e os fatores usados para determiná-lo. Onde: salário é o indicador medindo o nível salarial educ é a variável que mede o número de anos de educação formal exper é a variável que mede o número de anos de experiência de trabalho u é o termo contém todos os fatores não observados, como a aptidão; é denominado termo de erro β salario = β0 + β1educ + β2exper + u O objetivo da análise econométrica é estimar os parâmetros do modelo e testar hipóteses sobre esses parâmetros; os valores e os sinais dos parâmetros podem determinar a validade (ou não) de uma teoria econômica, assim como os efeitos de determinadas políticas e decisões. Quando da realização de hipóteses nas ciências sociais, as noções de ceteris paribus e de inferência causal são de grande importância. A primeira se referere a que, ao se estudar a relação entre duas variáveis, todos os outros fatores relevantes devem permanecer �xos. Além disso, descobrir relações causais é uma difícil tarefa, em razão da natureza não experimental (isto é, não controlável) dos dados coletados. 2. Modelo de regressão simples 2.1 De�nição de um modelo de regressão simples Um modelo de regressão simples estuda a relação entre duas variáveis quaisquer. Iremos chamar a variável y de variável dependente, e x de variável independente. Assim, estaremos estabelecendo que nosso intuito é observar como varia a partir de variações em . Já um modelo de regressão múltipla constitui uma extensão do modelo simples na medida em que permite a inclusão de mais variáveis independentes no modelo de interesse; para este post, no entanto, estaremos nos limitando à análise de uma regressão linear simples. Podemos escrever uma equação que relaciona y e x da seguinte forma: Onde o termo de erro u agrega todos os fatores não observados na equação que podem in�uenciar o valor de . Temos ainda , que é o parâmetro de intercepto da equação (ou uma constante) e que é o parâmetro de inclinação da relação entre e , mantidos �xos os outros fatores em . A equação (1) trata da relação entre e . Se os fatores contidos em no termo de erro são mantidos �xos, de modo que , então terá um efeito linear sobre , de modo que a variação em é o coe�ciente multiplicado pela variação em : 2.2 Derivação das estimativas de mínimos quadrados ordinários Agora iremos tratar da estimação dos parâmetros e da equação (1). Para tanto, faz-se necessário obter uma amostra da população; considere {( , ): i = 1, …, } como sendo uma amostra aleatória de tamanho da população. Podemos escrever , onde é o termo de erro para cada observação i. y x y = β0 + β1x + u (1) y β0 β1 y x u y x Δu = 0 x y y β1 x Δy = β1Δx β0 β1 xi yi n n yi = β0 + β1xi + ui ui Faremos uso da seguinte hipótese: na população, u tem média zero e não é correlacionado a x. Assim, u tem média zero (equação 2) e a covariância entre x e u é zero (equação 3). e Reescrevnedo em termos das variáveis observáveis y e x e dos parâmetros desconhecidos e : e As equações (4) e (5) podem ser usadas para estimar os parâmetros desconhecidos de modo a obter bons estimadores e . De fato, para uma dada amostra de dados, escolhemos as estimativas e para resolver as equivalências amostrais de (4) e (5): e Podemos ainda reescrever a equação (6) como o que nos dá Ou seja, quando obtemos uma estimativa do parâmetro de inclinação , obtemos também uma estimativa do intercepto, dados os valores médios e . E(u) = 0 (2) Cov(x,u) = E(xu) = 0 (3) β0 β1 E(y − β0 − β1x) = 0 (4) E[x(y − β0 − β1x)] = 0 (5) β̂0 β̂1 β̂0 β̂1 n−1 n ∑ i=1 (yi − β̂0 − β̂1xi) = 0 (6) n−1 n ∑ i=1 xi(yi − β̂0 − β̂1xi) = 0 (7) ¯̄̄y = β̂0 + β̂1¯̄x̄ (8) β̂0 = ¯̄̄y − β̂1¯̄x̄ (9) β̂1 ¯̄̄y ¯̄x̄ Suprimindo de (7) e inserindo (9) na equação, obtemos: a qual pode ser, por sua vez, reescrita como Das propriedades do operados somatório, observe que: O que nos informa que a inclinação estimada deve ser A equação (10) nada mais é do que a covariância amostral entre e dividida pela variância amostral de . Assim, podemos escrever como: Em que é a correlação amostral entre e , e e denotam os desvios padrão da amostra. Disto temos a implicação de que se e forem positivamente correlacionados na amostra, (o contrário também é válido). As estimativas dadas por (9) e (10) são denominadas de estimativas de mínimos quadrados ordinários (MQO) de e . Seja um valor estimado de y quando = , de tal forma que obtemos . O resíduo da observação i é a diferença entre o valor verdadeiro de e seu valor estimado: É importante observar que os resíduos não são iguais ao termo de erro. Agora, suponha que escolhamos e com a �nalidade de fazer a soma dos quadrados dos resíduos, tão pequena quanto possível. O nome “mínimos quadrados ordinários” vem do fato de que as estimativas (9) e (10) minimizam essa soma dos quadrados dos resíduos dada em (13). Há três propriedades dos estimadores de MQO muito importantes para análise econmétrica. A primeira delas é de a soma, e portanto a média amostral dos resíduos de MQO é zero: n−1 ∑n i=1 xi(yi − ( ¯̄̄y − β̂1¯̄x̄) − β̂1xi) = 0 ∑n i=1 xi(yi − ¯̄̄y) = β̂1∑ n i=1(xi − ¯̄x̄) ∑n i=1 xi(xi − ¯̄x̄) = ∑n i=1(xi − ¯̄x̄)2 e ∑n i=1 xi(yi − ¯̄̄y) = ∑n i=1(xi − ¯̄x̄)(yi − ¯̄̄y) β̂1 = (10) n ∑ i=1 (xi − ¯̄x̄)(yi − ¯̄̄y) n ∑ i=1 (xi − ¯̄x̄)2 xi yi xi β̂1 β̂1 = ρ̂xy ( ) (11) σ̂x σ̂y ρ̂xy xi yi σ̂x σ̂y xi yi β̂1 < 0 β0 β1 ŷi x xi ŷi = β̂0 + β̂1xi yi ûi = yi − ŷ i = yi − β̂0 − β̂1xi (12) β̂0 β̂1 n ∑ i=1 û2i = n ∑ i=1 (yi − β̂0 − β̂1xi) 2 (13) As estimativas de MQO e são escolhidas para que esse resultado seja válido. A segunda é de que a covariância amostral entre os regressores e os resíduos de MQO é zero. Já a terceira é de que o ponto ( ) sempre está sobre a reta de regressão de MQO. 2.3 Minimizando a soma dos quadrados dos resíduos Iremos agora expandir o resultado da última subseção, de modo a providenciar amparo à noção de que e são os estimadores que minimizam a soma dos quadrados dos resíduos. Formalmente, o problema é caracterizar as soluções e para o problema de minimização: onde e são argumentos dummy para o problema de otimização.A condição necessária para e resolver o problema é que as derivadas parciais de Q( , ) em relação a e devem ser zero quando estimadas com e : e Repare que essas duas equações são exatamente iguais a (6) e (7) multiplicadas por e, portanto, são solucionadas por e . Uma forma de veri�car que minimizamos a soma dos quadrados dos resíduos é escrever, para qualquer e , n ∑ i=1 ûi = 0 (14) β̂0 β̂1 ¯̄x̄, ¯̄̄y β̂0 β̂1 β̂0 β̂1 Q(b0, b1) = minb0,b1 n ∑ i=1 (yi − b0 − b1xi) 2 (15) b0 b1 β̂0 β̂1 b0 b1 b0 b1 β̂0 β̂1 ∂ Q(b0, b1)/∂ b0 = −2 n ∑ i=1 (yi − β̂0 − β̂1xi) = 0 ∂ Q(b0, b1)/∂ b1 = −2 n ∑ i=1 xi(yi − β̂0 − β̂1xi) = 0 −2n β̂0 β̂1 b0 b1Q(b0, b1) = n ∑ i=1 [ yi − β̂0 − β̂1xi + (β̂0 − b0) + (β̂1 − b1)xi ] 2 = n ∑ i=1 [ûi + (β̂0 − b0) + (β̂1 − b1)xi ] 2 = n ∑ i=1 ûi + n(β̂0 − b0) 2 + (β̂1 − b1) 2 n ∑ i=1 xi 2 + 2(β̂0 − b0)(β̂1 − b1) n ∑ i=1 xi Agora usamos as propriedades dos estimadores de MQO, a que chegamos a: Visto que essa expressão é uma soma de termos quadráticos, o seu menor valor possível é zero. Logo, esse valor ocorre quando = e = . 2.4 Características de MQO em uma amostra de dados Da primeira propriedade de MQO introduzida na subção 2.2, tem-se que a média dos resíduos é zero; equivalentemente, a média amostral dos valores estimador, , é a mesma da média amostral de , ou . Além disso, as duas primeiras propriedades podem ser usadas para mostrar que a covariância amostral entre e é zero. Podemos ver o método dos quadrados ordinários como um processo que decompõe em duas partes: um valor ajustado e um resíduo. De�na a soma dos quadrados total (SQT), a soma dos quadrados explicada (SQE) e a soma dos quadrados dos resíduos (SQR) como a seguir: As equações acima são medidas de variação amostral. A variação total em pode ser expressa como a soma da variação explicada e da variação não explicada. O R-quadrado da regressão é de�nido como O é a razão entre a variação explicada e a variação total; assim, ele é interpretado com a fração da variação amostra em que é explicada por . É um número que mede quão bem a reta de regressão de MQO se ajusta aos dados. O valor de está sempre contido entre zero e um; um valor de quase igual a zero indica um ajuste ruim da reta de MQO. n ∑ i=1 [(β̂0 − b0) + (β̂1 − b1)xi] 2 (16) b0 β̂0 b1 β̂1 ŷ i yi ¯̄¯ ŷ = ¯̄̄y ŷ i ŷ i yi SQT = n ∑ i=1 (yi − ¯̄̄y) 2 (17) SQE = n ∑ i=1 (ŷ i − ¯̄̄y)2 (18) SQR = n ∑ i=1 û 2 i (19) yi SQT = SQE + SQR (20) R2 = SQE/SQT = 1 − SQR/SQT (21) R2 y x R2 R2 2.5 Valores esperados e variâncias dos estimadores de MQO 2.5.1 Inexistência de viés em MQO Para estabelecer a inexistência de viés do método dos mínimos quadrados ordinários, faz-se necessário lançar mão de algumas hipóteses. Importante notar que as seguintes hipóteses, denotadas por RLS.#, são aplicadas ao caso da regressão linear simples. A primeira hipótese (RLS.1) de�ne o modelo populacional; nele, a variável dependente está relacionada à variàvel independente e ao erro da seguinte forma: em que e são os parâmetros de intercepto e de inclinação populacionais, respectivamente. A segunda hipótese (RLS.2) é de que podemos usar uma amostra aleatória de tamanho , {( , ): i = 1, 2, …, }, proveniente de um modelo populacional. Estamos interessados em usar os dados de e para estimar os parâmetros beta. Podemos escrever (22) em termos da amostra aleatória como A terceira hipótese (RLS.3) é de os resultados amostrais em , ou seja, ( , i = 1, 2, …, ) não são todos de mesmo valor. A quarta hipótese (RLS.4) é a de que o erro tem um valor esperado igual a zero, dado qualquer valor da variável esxplicativa: . Agora, da equação (10), temos Sendo a variação total em igual a , e substituindo (23) em (24): Por meio de álgebra, podemos escrever o numerador de como x u y = β0 + β1x + u (22) β0 β1 n xi yi n y x yi = β0 + β1xi + ui, i = 1, 2, . . . ,n (23) x xi n u E(u|x) = 0 β̂1 = (24) n ∑ i=1 (xi − ¯̄x̄)yi n ∑ i=1 (xi − ¯̄x̄)2 xi SQTx β̂1 = (25) n ∑ i=1 (xi − ¯̄x̄)(β0 + β1xi + ui) SQTx β̂1 Sabendo que e , temos que a expressão resulta em Assim, o estimador é igual à inclinação populacional somada a um termo que é a combinação linear dos erros. A diferença entre e se dá pelo fato de que esses erros são, em geral, não-nulos. Usando as hipóteses RLS.1 a RLS.4, podemos a�rmar que em outras palavras, é não viesado para e é não viesado para . 2.5.2 Variâncias dos estimadores de MQO A variância dos estimadores de MQO pode ser calculada sob as hipóteses RLS.1 a RLS.4. Em razão da complexidade da expressão dessas variâncias, vamos adicionar uma hipótese conhecida com a hipótese de homoscedasticidade (RLS.5): o erro u tem a mesma variância, dado qualquer valor da variável explicativa: É útil escrever RLS.4 e RLS.5 em termos de média condicional e da variância condicional de y: Agora, sob as hipóteses RLS.1 a RLS.5, e n ∑ i=1 (xi − ¯̄x̄)β0 + n ∑ i=1 (xi − ¯̄x̄)β1xi + n ∑ i=1 (xi − ¯̄x̄)ui (26) = β0 n ∑ i=1 (xi − ¯̄x̄) + β1 n ∑ i=1 (xi − ¯̄x̄)xi + n ∑ i=1 (xi − ¯̄x̄)ui (27) ∑n i=1 (xi − ¯̄x̄) = 0 ∑n i=1 (xi − ¯̄x̄)xi = ∑ n i=1 (xi − ¯̄x̄)2 = SQTx β̂1 = β1 + (28) n ∑ i=1 (xi − ¯̄x̄)ui SQTx β̂1 β1 β̂1 β1 E(β̂0) = β0 e E(β̂1) = β1 β̂0 β0 β̂1 β1 V ar(u|x) = σ2 (29) E(y|x) = β0 + β1x (30) V ar(y|x) = σ2 (31) V ar(β̂1) = (32) σ2 SQTx De (33), atesta-se que quanto maior a variância do erro, maior é Var( ), já que uma variação maior nos fatores não observáveis que afetam faz com que seja mais difícil estimar com precisão o parâmetro. Por outro lado, uma maior variabilidade na variável independente é preferível, pois será mais fácil descrever a relação entre e . 2.5.3 Estimação da variância do erro As fórmulas (32) e (33) permitem-nos isolar os fatores que contribuem para Var( ) e Var( ). No entanto, essas fórmulas são em geral desconhecidas. Podemos, contudo, usar os dados para estimar . Primeiro, , de modo que um “estimador” não viesado de é . Entretanto esse “estimador” não atende às nossas necessidades, já que os erros não são observados. Temos, contudo, os resíduos de MQO. Se substituímos os erros pelos resíduos de MQO, obtemos . Esse sim é um esimador verdadeiro, ainda que viesado, porque ele não explica a razão de duas restrições que devem ser satisfeitas pelos resíduos de MQO: e . De forma a observar essas restrições é assumir n-2 graus de liberdade nos resíduos de MQO. O estimador não viesado de que faz um ajustamento aos graus de liberdade é: O estimado dos desvios padrão de e é e é chamado erro padrão da regressão (EPR). Como dp( ) = , o estimador natural de dp( ) é: que é chamado de erro padrão de $\hat{\beta}_1$. Semelhantemente, ep( ) é obtido de dp( ) ao substituir por . O erro padrão de qualquer estimativa nos dá uma ideia de quão preciso é o estimador. 3. Exemplo de regressão linear V ar(β̂0) = (33) σ2 n−1 n ∑ i=1 x2 i SQTx β̂1 y E(y|x) x β̂1 β̂0 σ2 σ2 = E(u2) σ2 n−1∑ni=1 u 2 i ûi SQR/n ∑n i=1 ûi = 0 ∑ n i=1 xiûi = 0 σ2 σ̂2 = SQR/(n − 2) (34) β̂1 β̂0 σ̂ = √σ̂2 (35) β̂1 σ/√SQTx β̂1 ep(β̂1) = σ̂/√SQTx (36) β̂0 β̂0 σ σ̂ Como exemplo de aplicação de regressão linear, queremos relacionar notas de testes com a proporção de estudantes por professor obtidos de uma base de dados referentes a escolas da Califórnia (EUA). A nota dos testes (TestScore) é a média das notas de leitura e matemática para classes do 5º ano; já o tamanho das salas é medido pela proporção de estudantes relativa à quantidade de professores (que a partir deste ponto será identi�cada como STR, ou student-teacher ratio). Os dados são provenientes do banco de dados CASchools, contido no pacote AER disponível para R. library(AER) data(CASchools) É importante notar que as duas variáveis de interesse não estão incluídas no pacote: faz-se necessário computá-las manualmente a partir dos dados contidos em CASchools. # Compute STR e TestScore e junte-os a CASchools CASchools$STR <- CASchools$students/CASchools$teachers CASchools$score <- (CASchools$read + CASchools$math)/2 De modo a estimar o modelo por MQO, de�nindo TestScore como a variável dependente e STR como a variável independente, fazemos uso da função lm() do R para realizar uma regressão linear simples. # Estimando o modelo linearmodel <- lm(score ~ STR, data = CASchools) # Descobrimos os parametros beta estimados pelo modelo: linearmodel ##Call: ##lm(formula = score ~ STR, data = CASchools) ## ##Coefficients: ##(Intercept) STR ## 698.93 -2.28 Agora, plotamos os dados e o modelo estimado em um grá�co. # Plotando os dados plot(score~ STR, data = CASchools, main = "Grafico de dispersao de TestScore e STR", xlab = "STR (X)", ylab = "Test Score (Y)", xlim = c(10, 30), ylim = c(600, 720)) # Adicionando a linha de regressao estimada abline(linearmodel) \end{lstlisting} A interpretação do modelo é simples: a relação entre TestScore e STR é negativa, ou seja, escolas onde se observa uma maior proporção de estudantes relativa à quantidade de professores apresentam notas menores em testes. Pelo modelo estimado, há uma queda de aproximadamente 2.3 pontos na nota dos testes para um aumento observado no STR de um aluno por professor. Para identi�car o e o erro padrão da regressão (EPR), aplicamos o comando summary(). summary(linearmodel) ##Call: ##lm(formula = score ~ STR, data = CASchools) ##Residuals: ## Min 1Q Median 3Q Max ##-47.727 -14.251 0.483 12.822 48.540 ##Coefficients: Estimate Std. Error t value Pr(>|t|) ##(Intercept) 698.9329 9.4675 73.825 < 2e-16 *** ##STR -2.2798 0.4798 -4.751 2.78e-06 *** --- ##Signif. codes: ##0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ##Residual standard error: 18.58 on 418 degrees of freedom ##Multiple R-squared: 0.05124, Adjusted R-squared: 0.04897 ##F-statistic: 22.58 on 1 and 418 DF, p-value: 2.783e-06 O deste modelo tem um valor de 0,051. Logo, 5,1% da variação da variável dependente TestScore é explicada pela variável independente STR, ou seja, a regressão explica pouco da variação nas notas, e muito dessa variação permanece inexplicada. O erro padrão da regressão, por sua vez, é de 18,58; isso indica que na média o desvio da nota realmente obtida em relação à reta de regressão é de 18,58 pontos. Referências: R2 R2 We were unable to load Disqus. If you are a moderator please see our troubleshooting guide. ← PREVIOUS POST (/2020/01/22/MARKOWITZ-SELECAO-CARTEIRAS/) NEXT POST → (/2020/04/20/COVID-CHINA-PTBR/) BUSAB, W. MORETTIN, P. Estatística Básica: 9ª Edição. São Paulo, SP: Saraivauni, 2017. HANCK, Cristoph. et al. Introduction to Econometrics with R. Disponível em: https://www.econometrics-with-r.org/ (https://www.econometrics-with-r.org/). KUTNER, Michael H. et al. Applied linear statistical models: 5th ed. McGraw-Hill/Irwin, 2004. PAULA, Gilberto A. Modelos de regressão com apoio computacional. São Paulo, SP: Instituto de Matemática e Estatística, Universidade de São Paulo. 2013. PINDYCK, R. RUBINFELD, D. Econometric models and economic forecasts. McGraw-Hill/Irwin, 1998. STOCK, J; WATSON, M. Introduction to econometrics: 3rd ed. Pearson, 2010. WOOLDRIDGE, Jeffrey M. Introdução à econometria: uma abordagem moderna: tradução da 6ª edição norte-americana. São Paulo, SP: Cengage Learning, 2016. (/feed.xml) (https://www.facebook.com/lamfounb) (https://github.com/lamfo-unb) (mailto:lamfo@unb.br) Copyright © LAMFO - UNB 2021 https://docs.disqus.com/help/83/ https://lamfo-unb.github.io/2020/01/22/Markowitz-selecao-carteiras/ https://lamfo-unb.github.io/2020/04/20/COVID-China-ptBR/ https://www.econometrics-with-r.org/ https://lamfo-unb.github.io/feed.xml https://www.facebook.com/lamfounb https://github.com/lamfo-unb mailto:lamfo@unb.br
Compartilhar