Baixe o app para aproveitar ainda mais
Prévia do material em texto
Revisão de Modelos de regressão Prof. Thais C O Fonseca - DME, UFRJ quinta-feira, 9 de março de 2017 Conteúdo • Regressão linear simples • Regressão linear múltipla • Método de Mínimos Quadrados • Introdução a Inferência Bayesiana em Regressão quinta-feira, 9 de março de 2017 2.1Introdução quinta-feira, 9 de março de 2017 Introdução • Suponha que no exemplo sobre empregos, além do índice econômico temos disponível também • o GNP, o produto nacional bruto. • o número de pessoas com mais de 14 anos de idade. • Exemplo 1: seja X1 o índice econômico de deflação, Y o número de pessoas empregadas e X2 • Existe relação entre Y e as covariáveis X1, X2 e X3? quinta-feira, 9 de março de 2017 Introdução • Suponha que no exemplo sobre empregos, além do índice econômico temos disponível também • o GNP, o produto nacional bruto. • o número de pessoas com mais de 14 anos de idade. • Exemplo 1: seja X1 o índice econômico de deflação, Y o número de pessoas empregadas e X2 • Existe relação entre Y e as covariáveis X1, X2 e X3? O modelo de regressão múltipla permite a inclusão de várias covariáveis no modelo! quinta-feira, 9 de março de 2017 Exemplo 1 (dados) Existe relação entre x1, x2, x3 e y? ano deflação gnp >14 1947 83.0 234289 107608 1948 88.5 259426 108632 1949 88.2 258054 109773 1950 89.5 284599 110929 1951 96.2 328975 112075 1952 98.1 346999 113270 1953 99.0 365385 115094 1954 100.0 363112 116219 1955 101.2 397469 117388 1956 104.6 419180 118734 1957 108.4 442769 120445 1958 110.8 444546 121950 1959 112.6 482704 123366 1960 114.2 502601 125368 1961 115.7 518173 127852 1962 116.9 554894 130081 quinta-feira, 9 de março de 2017 Modelo de regressão linear múltipla O modelo geral e´ dado por y = β0 + β1x1 + . . .+ βkxk + �. Nesse caso, E(y | x) = β0 + β1x1 + . . .+ βkxk. → Dizemos que a regressa˜o e´ linear pois E(y | x) depende de forma linear de β0,β1, . . . ,βk. O modelo abaixo e´ linear? y = β0 + β1x1 + β2x2 + β3x1x2 + � Sim!!!! Basta reescrever x3=x1x2. quinta-feira, 9 de março de 2017 Interpretação dos coeficientes Nível comum! • Vimos que para cada Xi1, . . . Xik temos E(y | X) = β0 + β1Xi1 + . . .+ βkXik Isso significa que para Xi1 = 0, . . . Xik = 0 temos E(y | X) = β0. Enta˜o β0 e´ interpretado como o valor esperado de y para o valor 0 das covaria´veis. • Considere X = X∗ enta˜o E(y | X∗) = β0 + β1X∗i1 + β2X∗i2 + . . .+ βkX∗ik. Considere tambe´m Xi1 = X∗i1 + 1 e Xi(−1) = X∗i(−1) E(y | X∗i1 + 1, X∗i(−1)) = β0 + β1(X∗i1 + 1) + β2X∗i2 . . .+ βkX∗ik. Fazendo a diferenc¸a temos E(y | X∗i1 + 1, X∗i(−1))− E(y | X = X∗) = β1. Enta˜o β1 e´ interpretado como a mudanc¸a no valor esperado de y quando acrescentamos 1 unidade em X1 para as outras varia´veis fixas em uma constante qualquer. O mesmo para xj! quinta-feira, 9 de março de 2017 2.2 O modelo básico quinta-feira, 9 de março de 2017 Suposições do modelo As suposic¸o˜es sa˜o as mesmas do modelo simples: 1. Erros tem me´dia zero. E(�) = 0 2. Variaˆncia constante. V (�) = σ2 3. Erros na˜o correlacionados. Cor(�i, �j) = 0 Vimos que o modelo para k covaria´veis e´ dado por: y = β0 + β1x1 + . . .+ βkxk + � quinta-feira, 9 de março de 2017 Notação matricial Para uma amostra de tamanho n, y1, . . . , yn, defina: y = (y1, . . . , yn) � → vetor n por 1 de observa´veis β = (β0,β1, . . . ,βk) � → vetor (p=k+1) por 1 de coeficientes � = (�1, . . . , �n) � → vetor n por 1 de erros X = (1, x1, . . . , xk)→ matriz n por p de covaria´veis O modelo e´ dado por y = Xβ + � quinta-feira, 9 de março de 2017 Método de mínimos quadrados Considere uma amostra de tamanho n. Queremos encontrar o modelo ajustado yˆ = Xβˆ = βˆ0 + βˆ1x1 + . . .+ βˆkxk que minimiza a soma de quadrados dos erros. Enta˜o queremos encontrar β que minimize a func¸a˜o S(β) = (y −Xβ)�(y −Xβ) = n� i=1 (yi − (β0 + βˆ1xi1 + . . .+ βˆkxik))2. Isto e´, queremos minimizar S(β) = y�y� − β�X�y − y�Xβ + β�X�Xβ Resultando em βˆ = (X�X)−1X�y Quando a matriz (X’X) -1 existe!!! Será satisfeito quando as colunas de X não forem linearmente dependentes! quinta-feira, 9 de março de 2017 Algumas definições • Modelo ajustado yˆ = Xβˆ Podemos reescrever yˆ = X(X�X)−1X�y = Hy • Res´ıduos e = y − yˆ = y −Xβˆ = y −Hy = (In −H)y A matriz H é muito importante na análise de resíduos que veremos mais tarde! quinta-feira, 9 de março de 2017 Algumas definições • Modelo ajustado yˆ = Xβˆ Podemos reescrever yˆ = X(X�X)−1X�y = Hy • Res´ıduos e = y − yˆ = y −Xβˆ = y −Hy = (In −H)y A matriz H é muito importante na análise de resíduos que veremos mais tarde! A matriz H tem propriedades interessantes, por exemplo, H = H’ e H H = H. O mesmo para (In - H)!!! quinta-feira, 9 de março de 2017 Voltando ao exemplo 1 - no pacote R quinta-feira, 9 de março de 2017 Voltando ao exemplo 1 - no pacote R ################### lendo dados ################### dados = matrix(scan(),16,4,byrow=T) 1947 83.0 234289 107608 1948 88.5 259426 108632 1949 88.2 258054 109773 1950 89.5 284599 110929 1951 96.2 328975 112075 1952 98.1 346999 113270 1953 99.0 365385 115094 1954 100.0 363112 116219 1955 101.2 397469 117388 1956 104.6 419180 118734 1957 108.4 442769 120445 1958 110.8 444546 121950 1959 112.6 482704 123366 1960 114.2 502601 125368 1961 115.7 518173 127852 1962 116.9 554894 130081 nome = c("ano","deflação", "gnp", ">14") colnames(dados) = nome X = dados[,2:4] ### deflação, gnp, >14 quinta-feira, 9 de março de 2017 Voltando ao exemplo 1 - no pacote R ########### ajuste por mínimos quadrados ########### ajuste = lsfit(X,y) ### least squares fit ls.print(ajuste) quinta-feira, 9 de março de 2017 Voltando ao exemplo 1 - no pacote R ########### ajuste sem deflação ########### ajuste2 = lsfit(X[,-1],y) ### least squares fit ls.print(ajuste2) quinta-feira, 9 de março de 2017 Voltando ao exemplo 1 - no pacote R ################# modelo ajustado ################# round(ajuste2$coef,2) ## coeficientes estimados quinta-feira, 9 de março de 2017 Voltando ao exemplo 1 - no pacote R ################### resíduos ################### ajuste2$res plot(1:16,ajuste$res,t="h",lwd=4,col=2,ylab="resíduo") abline(h=0,lty=2,col="grey") quinta-feira, 9 de março de 2017 Perguntas importantes • O ajuste do modelo é bom? • O modelo parece útil para previsão? • As suposições básicas são válidas? • A matrix X tem colunas linearmente independentes? Os erros têm média 0, variância constante e são não correlacionados? Necessário para existência dos estimadores de mínimos quadrados! No caso múltiplo como verificar se temos extrapolação? quinta-feira, 9 de março de 2017 Perguntas importantes • O ajuste do modelo é bom? • O modelo parece útil para previsão? • As suposições básicas são válidas? • A matrix X tem colunas linearmente independentes? Os erros têm média 0, variância constante e são não correlacionados? Necessário para existência dos estimadores de mínimos quadrados! No caso múltiplo como verificar se temos extrapolação? Responderemos essas perguntas mais a frente usando análise de resíduos! quinta-feira, 9 de março de 2017 Algumas propriedades dos estimadores de mínimos quadrados • βˆ e´ na˜o viciado para β. Basta notar que E(βˆ) = E((X�X)−1X�y) = (X�X)−1X�E(y) = (X�X)−1X�Xβ = β • Cov(βˆ) = σ2(X�X)−1 → matriz p por p. Isso porque Cov(βˆ) = V ((X�X)−1X�y) = (X�X)−1X�V (y)X(X�X)−1 = σ2(X�X)−1X�X(X�X)−1 = σ2(X�X)−1. Denote (X’X)-1= C. quinta-feira, 9 de março de 2017 Estimação da variância Ale´m de β precisamos estimar a variaˆncia σ2, que tambe´m e´ um paraˆmetro desconhecido do modelo. O estimador para σ2 sera´ definido a partir dos res´ıduos. Seja SSres = (y − yˆ)�(y − yˆ) SSres e´ tal que E(SSres) = (n− p)σ2. Enta˜o, um estimador na˜o viesado para σ2 e´ dado por: σ˜2 = SSres n− p . Lembrando que p é o número de coeficientes estimados no modelo! quinta-feira, 9 de março de 2017 2.3 Estimação por máxima verossimilhança quinta-feira, 9 de março de 2017 Distribuição de y Modelo de regressa˜o mu´ltipla: y = Xβ + �. � ∼ Nn(0,σ2In). • Enta˜o y tambe´m tem distribuic¸a˜o normal. • E(y | X) = Xβ • V (y | X) = σ2In Conclusa˜o y | X ∼ Nn(Xβ,σ2In) quinta-feira, 9 de março de 2017 Função de verossimilhança L(β,σ2; y, x) = f(y1, . . . , yn;x) = (2πσ2)−n/2 exp � − 1 2σ2 (y −Xβ)�(y −Xβ) � Para encontrar o EMV devemos maximizar a func¸a˜o acima. Isso equivale a encontrar o estimador de mı´nimos quadrados para β. Os valores de β,σ2 que maximizam a func¸a˜o acima sa˜o βˆ = (X�X)−1X�y σˆ2 = (y −Xβˆ)�(y −Xβˆ) n quinta-feira, 9 de março de 2017 ######## ajuste por máxima verossimilhança ######## ## estimadores dos coeficientes ajuste = lm(y~X[,-1]) summary(ajuste) Exemplo 1 quinta-feira, 9 de março de 2017 Coeficiente de determinação R2 e R2 ajustado O coeficiente de determinac¸a˜o R2 = SSregSST = 1− SSresSST aumenta sempre que adicionamos novas varia´veis. Por isso, alguns pesquisadores preferem usar o R2 ajustado que penaliza o nu´mero de paraˆmetros. R2ajust = 1− SSres/(n− p) SST /(n− 1) quinta-feira, 9 de março de 2017 Teste para cada coeficiente individualmente Vimos que • E(βˆ) = β • Cov(βˆ) = σ2(X�X)−1 = σ2C → matriz p por p. Ale´m disso, βˆ = (X�X)−1X�y e´ combinac¸a˜o linear dos y’s. Enta˜o βˆ tambe´m tem distribuic¸a˜o normal multivariada. βˆ ∼ Np(β,σ2C) Para testar cada coeficiente individualmente basta usar a estat´ıstica de teste: T = βˆj� SSresCjj (n−p) ∼ tn−p quinta-feira, 9 de março de 2017 Exemplo 1 quinta-feira, 9 de março de 2017 Exemplo 1 ######## anova e testes individuais ######## ajuste2 = lm(y~X[,-1]) ### least squares fit anova(ajuste2) qf(0.95,2,13) ###3.805565 summary(ajuste) quinta-feira, 9 de março de 2017 Previsão no caso de regressão múltipla Vimos que no caso de regressa˜o simples um valor predito e´ dado por yˆ0 = βˆ0 + βˆ1x0. Vimos tambe´m que extrapolac¸a˜o pode ser perigoso. Por exemplo, o comportamento fora do intervalo de x’s observados pode ser muito diferente de uma reta! Se a previsa˜o e´ feita fora do intervalo (min(x),max(x)) chamamos extrap- olac¸a˜o. quinta-feira, 9 de março de 2017 Previsão no caso de regressão múltipla Vimos que no caso de regressa˜o simples um valor predito e´ dado por yˆ0 = βˆ0 + βˆ1x0. Vimos tambe´m que extrapolac¸a˜o pode ser perigoso. Por exemplo, o comportamento fora do intervalo de x’s observados pode ser muito diferente de uma reta! Se a previsa˜o e´ feita fora do intervalo (min(x),max(x)) chamamos extrap- olac¸a˜o. No caso de regressão múltipla, temos x1, x2,..., xk. quinta-feira, 9 de março de 2017 Previsão no caso de regressão múltipla Vimos que no caso de regressa˜o simples um valor predito e´ dado por yˆ0 = βˆ0 + βˆ1x0. Vimos tambe´m que extrapolac¸a˜o pode ser perigoso. Por exemplo, o comportamento fora do intervalo de x’s observados pode ser muito diferente de uma reta! Se a previsa˜o e´ feita fora do intervalo (min(x),max(x)) chamamos extrap- olac¸a˜o. Como saber se estamos extrapolando? No caso de regressão múltipla, temos x1, x2,..., xk. quinta-feira, 9 de março de 2017 Região de previsão • Em regressa˜o mu´ltipla e´ dif´ıcil saber se x0 esta´ ou na˜o dentro do domı´nio dos x’s observados ou se trata-se de uma extrapolac¸a˜o. • Testar cada componente x0j na˜o e´ suficiente! quinta-feira, 9 de março de 2017 Região de previsão Considere a matriz H = X(X�X)−1X�. hmax = max{hii} esta´ no limite da regia˜o do domı´nio observado de X. Portanto, para verificar se x0 esta´ dentro da regia˜o de previsa˜o basta verificar se h00 = x � 0(XX) −1x0 < hmax. Caso contra´rio temos uma extrapolac¸a˜o! quinta-feira, 9 de março de 2017
Compartilhar