Baixe o app para aproveitar ainda mais
Prévia do material em texto
Modelos de Regressão Linear Prof. José Francisco professorjfmp@hotmail.comEconometria Regressão Objetivo: Estabelecer uma função matemática que descreva a relação entre uma variável contínua (variável explicada ou dependente) e uma ou mais variáveis explicativas ou independentes. y = f(x1,x2,...,xK) + εεεε � y denota a variável dependente. � x1,x2,...,xK denotam as variáveis independentes. � f(x1,x2,...,xK) descreve a variação sistemática � εεεε representa a variação não sistemática (erro aleatório) Modelos de regressão (função f) podem ser lineares ou não lineares. A função f não é conhecida e deve ser inferida a partir das observações das variáveis y, x1,x2,...,xk. Regressão Linear Técnica estatística que pode ser usada para analisar a relação entre uma única variável dependente (explicada) e um conjunto de variáveis independentes (explicativas). O objetivo da análise de regressão linear consiste em identificar uma equação linear que permita prever o valor da variável dependente em função dos valores conhecidos das variáveis independentes. Regressão linear simples: apenas uma variável independente. Exemplo: variável dependente = vendas variável independente = despesas com propaganda Regressão linear múltipla: duas ou mais variáveis independentes. Exemplo: variável dependente = preço do imóvel variáveis independentes = área, nº de quartos, nº de banheiros, idade Motivação (HANKE & WICHERN, 2006) Uma empresa transportadora deseja estimar o custo de agregar carga a um caminhão parcialmente cheio. A empresa acredita que o único incremento de custo, decorrente da agregação de carga, é o custo adicional de combustível, pois o rendimento (milhas por galão) seria menor. Admite-se que a frota da transportadora é formada por caminhões idênticos. No período 2009-2012 foram realizadas 5.428 viagens e uma amostra aleatória de 40 viagens foi tomada. Na tabela ao lado são apresentados os pesos e os rendimentos (milhas/galão) das 40 viagens selecionadas na amostra. Um incremento no peso reduz o rendimento A relação entre as variáveis não é exata (estocástica) Diagrama de dispersão representação gráfica que permite visualizar a relação/associação entre duas variáveis Motivação A boa aderência da nuvem de pontos ao redor de um reta imaginária indica que a relação entre as duas variáveis pode ser aproximada por uma relação linear. A essência da relação entre o peso e o rendimento pode ser expressa por uma reta. Seja Y o rendimento em milhas/galão e X o peso da carga (1000 libras), então temos o seguinte modelo de regressão linear simples: A identificação desta reta (estimação dos parâmetros do modelo) pode ser efetuada por meio do estimador de mínimos quadrados ordinários (MQO). y = β0 + β1x + ε β0 e β1 são constantes não conhecidas ε é um termo aleatório com distribuição normal (ε ~ N(0,σ2)) modelo Motivação Neste caso o rendimento (y) é explicado pelo peso da carga (x), então, y=f(x): y = rendimento = variável dependente x = peso da carga = variável independente A relação estocástica entre as duas variáveis pode ser modelada da seguinte forma: y = β0 + β1x + ε Onde: � β0 e β1 são coeficientes desconhecidos da reta que relaciona as variáveis x e y (estimados a partir dos dados da amostra). � ε é um termo aleatório (erro) que representa a imprecisão na relação entre x e y. Motivação Para uma carga de 70 mil libras (X= 70) espera-se um rendimento de 4,62 milhas/galão ( Ê(Y|X) = 4,62 ) E(Y|X) = 8,8484 – 0,0604 x 70 ≅≅≅≅ 4,62 Equação da reta estimada por MQO Ê(Y|X) = 8,8484 – 0,0604 X X Y Motivação Estimação por mínimos quadrados ordinários (MQO) Modelo ajustado Ê(Y|X) = 8,8484 – 0,0604 X xy 10 ˆˆ β−=β ( )( ) ( )∑ ∑ = = − −− =β n i i n i ii xx yyxx 1 2 1 1 ˆ Estimador MQO X é a variável independente ou explicativa, neste caso o peso ( é a média amostral de X) Y é a variável dependente ou explicada, neste caso é o rendimento (milhas por galão), é a média amostral de Y n é número de observações, neste caso 40 0 ˆβ 1ˆβ X Y Motivação Interpretação da equação estimada Ê(Y|X) = 8,8484 – 0,0604 X Cada incremento de 1000 libras (∆∆∆∆X=1) na carga implica em uma redução, média, do rendimento (milhas/galão) da ordem de 0,0604 milhas/galão. A transportadora paga $ 1,25 por galão de diesel, então qual o incremento no custo para transportar 1000 libras adicionais por um trajeto de 100 milhas, dado que o frete é o médio (68,6 1000 libras)? Motivação 4,7 milhas/galão 100 milhas x 1,25 $/galão = $ 26,60 O custo da mesma viagem com 1000 libras adicionais é: (4,7 – 0,0604) milhas/galão 100 milhas x 1,25 $/galão = $ 26,94 Ou seja, 1000 libras adicionais na carga aumenta o custo em 34 centavos centróide 6,68=X 7,4=Y A transportadora paga $ 1,25 por galão de diesel, então qual o custo para transportar 1000 libras de carga em um trajeto de 100 milhas ? O rendimento médio é 4,7 milhas/galão, logo para um trajeto de 100 milhas com trasporte do frete médio (68,6 1000 libras), em média, o custo total é: Modelos de regressão linear Modelo de regressão linear simples: uma variável dependente explicada por uma variável independente. y = β0 + β1x + ε Modelo de regressão linear múltipla: Uma variável dependente explicada por pelo menos duas variáveis independentes. y = β0 + β1x1 + ... + βKxK + ε (K≥2) Objetivo: Identificar uma função linear que permita explicar uma variável dependente (y) em função das variáveis explicativas (x), ou seja, como y varia de acordo com mudanças em x. Significado do erro εεεε O erro ε representa: � Todos os outros fatores que afetam a variável dependente Y, mas que não estão contempladas nas variáveis explicativas X. � Erros de medição. � Forma funcional inadequada, por exemplo, y = β0 + β1x ou y = β0 + β1x + β1x2 ? � Inerente variabilidade no comportamento dos agentes econômicos. Modelo de Regressão Linear Simples Equação de regressão populacional: y = β0 + β1x + ε (apenas uma variável independente) Os coeficientes ββββ0 e ββββ1 não são conhecidos e devem ser estimados a partir de uma amostra aleatória de tamanho n da população: Amostra aleatória de tamanho n⇒ (xi , yi), i=1,n Em cada unidade amostrada tem-se que yi = β0 + β1xi + εi i=1,n Erro, variável aleatória não-observável Componente determínistica Hipóteses assumidas pelo modelo H1) A relação entre as variáveis é linear yi = β0 + β1xi + εi i=1,n: H2) Média nula: E(εi) = 0 para todo i=1,n H3) Variância constante: V(εi) = σ2 para todo i=1,n H4) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k H5) Distribuição Normal: εi ~ N(0,σ2) para todo i=1,n εi são independentes e identicamente distribuídos N(0,σσσσ2) H6) A variável explicativa X é fixa, i.e., não é estocástica Modelo de Regressão Linear Simples ( ) 2σ=yV ε+β+β= xy 10 Como o valor esperado do erro é zero E(εεεε)=0, o valor esperado de y condicionado ao valor de x é igual a: ( ) ( )ε+β+β= xExyE 10| ( ) ( )ε+β+β= ExxyE 10| ( ) xxyE 10| β+β= Por hipótese a variável independente não é aleatória, assim tem-se: ( )210 ,~ σβ+β xNy Como o erro tem distribuição Normal com média 0 e variância σσσσ2 Modelo de Regressão Linear Simples ( ) xxyE 10| ββ += Modelo de Regressão Linear Simples Reta de regressão Estimador de mínimos quadrados Modelo de Regressão Linear Simples yi = β0 + β1xi + εi ⇒ εi = yi - β0 - β1xi ( )[ ]∑∑ == β+β−=ε= n i ii n i i xyf 1 2 10 1 2 ( )[ ]∑ = ββ β+β−= n i ii xyfMin 1 2 10 , 10 ( )[ ] 00 1 10 0 =β+β−⇒=β∂ ∂∑ = n i ii xy f ( )[ ] 00 1 10 1 =β+β−⇒=β∂ ∂ ∑ = n i iii xyx f ∑∑ == =β+β n i i n i i yxn 11 10 ∑∑∑ === =β+β n i ii n i i n i i yxxx 11 2 1 1 0 Soma dos quadrados dos erros As estimativas de ββββ0 e ββββ1 devem minimizar a soma sos quadrados dos desvios No ponto de mínimo as derivadas parciais são nulas Sistema de equações normais A solução deste sistema fornece os estimadores de ββββ0 e ββββ1 Estimador de mínimos quadrados Modelo de Regressão Linear Simples ∑∑ == =β+β n i i n i i yxn 11 10 ∑∑∑ === =β+β n i ii n i i n i i yxxx 11 2 1 1 0 Solução do sistema de equações normais xy 10 ˆˆ β−=β ( )( ) ( )∑ ∑ = = − −− =β n i i n i ii xx yyxx 1 2 1 1 ˆ Sistema de equações normais Estimadores de mínimos quadrados Estimador de mínimos quadrados Modelo de Regressão Linear Simples ii xy 10 ˆˆˆ β+β=Valor estimado da variável dependente y dado que x é igual a xi Resíduo da i-ésima observação é igual a diferença entre o valor observado e o valor estimado da variável yi ( )iii iii xy yy 10 ˆˆ ˆ ˆˆ β+β−=ε −=ε Equação de regressão estimada ( ) xxyEy 10 ˆˆ|ˆ β+β== ( )∑ ∑ = = − = n i i n i i xxn x 1 2 1 22 2 ˆ 0 ε β σ σ ∑ = − = n i i xx 1 22 2 2 ˆ 1 ε β σ σ Se as hipóteses H1 até H6 forem satisfeitas, os estimadores de mínimos quadrados são estimadores lineares não tendenciosos de variância mínima (Teorema de Gauss Markov) ( ) 00ˆ β=βE ( ) 11ˆ β=βE ( )2 ˆ00 0 ,~ˆ βσββ N ( )2 ˆ11 1 ,~ˆ βσββ N ( ) 2 ˆˆ 2 ˆ ˆ 1 2 10 1 2 2 − −− = − = ∑∑ == n xy n u n i ii n i i ββ σ ε Modelo de regressão linear simples Estimador da variância do erro O estimador MQO é não tendencioso Os estimadores são normalmente distribuídos Modelo de regressão linear simples Decomposição do erro Y X Y Y = b0 + b1X (reta de regressão)^ Yi (valor observado) Yi -Y Yi (valor estimado pela reta) ^ Yi - Y ^ Yi - Média da variável dependente ^Yi (resíduo) Modelo de regressão linear simples Decomposição do erro SQT é a soma dos quadrados dos desvios de Y em relação a sua média, logo SQT é uma medida da variação total da variável dependente. ( )∑ = −= n i i YYSQT 1 2 Y X Y Modelo de regressão linear simples Decomposição do erro SQR é a soma dos quadrados dos desvios entre a reta de regressão e a média da variável dependente Y. SQR é uma medida da variação total da variável dependente explicada pela regressão. ( )∑ = −= n i i YYSQR 1 2 ˆ Y X Y Y corresponde as estimativas definidas pela reta de regressão ^ Modelo de regressão linear simples Decomposição do erro SQE é a soma dos quadrados dos desvios de Y em relação a reta de regressão (resíduos). SQE expressa a parcela da variação de Y não explicada pela reta de regressão. Y X ( )∑ = −= n i ii YYSQE 1 2 ˆ Y corresponde as estimativas definidas pela reta de regressão ^ Decomposição da soma de quadrados total ( ) ( ) ( )∑∑ ∑ == = −+−=− n i ii n i n i iii YYYYYY 1 2 1 1 22 ˆˆ SQT = SQE + SQR SQT = Soma de Quadrados Total (variação total da variável dependente) SQR = Soma de Quadrados da Regressão (parcela da variação total explicada pelo modelo) SQE = Soma de Quadrados dos Erros (Resíduos) (parcela da variação total não explicada pelo modelo) n é o total de observações na amostra Modelo de regressão linear simples ( ) ( ) SQT SQE YY YY SQT SQRR n i i n i ii −= − − == ∑ ∑ = = 1 ˆ 1 2 1 2 2 Coeficiente de determinação Modelo de regressão linear simples 10 2 ≤≤ R � Se R2 estiver próximo de 1, a variável x explica a maior parte da variação total de y. Neste caso, a variável x é uma boa preditora da variável y. � Se R2 estiver próximo de 0, a variável x explica muito pouco da variação total de y. Neste caso, a variável x não é uma boa preditora da variável y. Análise da variância (ANOVA) Modelo de regressão linear simples 2 ˆεσ Estimador da variância do erro SQT SQRR =2 ( )2−= nSQE SQRF Fonte de variação Graus de liberdade Soma dos quadrados Quadrados médios Regressão 1 ( )∑ = −= n i i XxSQR 1 22 1 ˆβ 1/SQRQMR = Resíduos n-2 ( )∑ = −= n i ii yySQE 1 2 ˆ ( )2/ −= nSQEQME Total n-1 2 1 2 YnySQT n i i −=∑ = No exemplo da transportadora tem-se que Modelo de regressão linear simples R2 = 0,76, ou seja, 76% da variação do rendimento é explicada pela equação de regressão Y = 8,8484 – 0,0604X SQR SQE SQT Resultados gerados pelo Excel equação de regressão Y = 8,8484 – 0,0604X Análise da variância (ANOVA) 2 ˆ 1 ~ ˆ ˆ 1 − = Ntt βσ β tcrítico é um valor tabelado para um nível de significância αααα, no Excel use INVT(alfa;N-2) Modelo de regressão linear simples Inferência Estatística Teste t Avalia a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. Sob H0 t > tcrítico rejeita H0 t < tcrítico aceita H0 Modelo de regressão linear simples: Y = ββββ0 + ββββ1X + εεεε Estatística teste H0 : ββββ1 = 0 ( ausência do efeito ) H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito ) No exemplo da transportadora tem-se que Modelo de regressão linear simples Resultados gerados pelo Excel Inferência Estatística (teste t) 1 ˆβ 1 ˆ ˆβσ 9052,10 0055,0 0604,0 ˆ ˆ 1 ˆ 1 −= − == βσ β t H0 : ββββ1 = 0 H1 : ββββ1 ≠≠≠≠ 0 Ao nível de significância α de 5% o valor tabelado (tcrítico) de uma t com (40-2) = 38 graus de liberdade é 2,024 =INVT(0,05;38) Valor absoluto do t calculado maior que tcrítico, logo H0 é rejeitada. 2 ˆ ~ ˆ ˆ − = Ntt βσ β Estatística teste t calculado Exemplo modelo de regressão linear simples Região de rejeição Distribuição t No exemplo da transportadora tem-se que Inferência Estatística (teste t) 2,024- 2,024 tcalculado = -10,9052 tcrítico = INVT(0,05;38) Região de rejeição bilateral H0 : ββββ1 = 0 H1 : ββββ1 ≠≠≠≠ 0 0 1 ˆ 1 ˆ ˆ βσ β =t Exemplo modelo de regressão linear simples O valor p (p-value) fornece uma forma direta de decidir entre a rejeição e a não rejeição da hipótese nula H0 P-valor é a probabilidade de encontrar um valor para a estatística teste mais extremo que o valor calculado para a estatística teste (tcalculado). Se o valor p é menor que os níveis usuais de significância (1% ou 5%) devemos concluir pela rejeição da hipótese nula Cálculo do valor p no exemplo da transportadora: tcalculado = -10,9052 valor p = P(t mais extremo que tcalculado) = P (t ≤ -10,9052 ou t ≥ 10,9052) = 2,91E-13 Inferência Estatística (teste t e valor p) No Excel =DISTT(10,9052;38;2) Probabilidade muito pequena e menor que o nível de significância adotado (5%), logo a hipótese nula (H0) deve ser rejeitada H0 : ββββ1 = 0 H1 : ββββ1 ≠≠≠≠ 0 Exemplo modelo de regressão linear simples Inferência Estatística (teste t e p-valor) Resultados gerados pelo Excel Valor p menor que o nível de significância adotado (5%), logo a hipótese nula (H0) deve ser rejeitada 2 111 2 111 1 ˆ ˆ ˆ ˆ αβαβ σββσβ −− ⋅+≤≤⋅− tt Modelo de regressão linearsimples Intervalo de confiança 100(1-αααα)% Inferência Estatística (intervalo de confiança) No exemplo da transportadora tem-se que Resultados gerados pelo Excel O intervalo -0,0716 ≤ β1 ≤ -0,0492 tem 95% de confiança de conter o valor do coeficiente de regressão da variável peso Valores tabelados Previsor ( ) hhh XXYE 10 ˆˆ|ˆ ββ += Erro de previsão ( ) ( ) ( ) ( ) hhhhhh XXYEXYE 1100 ˆˆ|ˆ| ββββε −+−=−= ( ) ( )( ) − − += ∑ = n i i h h XX XX n S 1 2 2 22 1 ˆεσε Intervalo de previsão ( ) ( ) ( ) ( )[ ]hchhhchh StXYEStXYE εε 22 |ˆ,|ˆ +− Modelo de regressão linear simples Previsão do valor esperado 2 Re ˆ − = n sSQ εσ Dado XT+h prever YT+h Previsor hh XY 1ˆˆˆ 0 ββ += Erro de previsão ( ) ( ) hhhhh uXYY +−+−=−= 1100 ˆˆˆ ββββε ( ) ( )( ) − − ++= ∑ = n i i h h XX XX n S 1 2 2 22 11ˆεσε Intervalo de previsão ( ) ( )[ ]hchhch StYStY εε 22 ˆ,ˆ +− Modelo de regressão linear simples Previsão de uma observação 2 Re ˆ − = n sSQ εσ Modelo de regressão linear simples Intervalo de previsão de uma observação Intervalo de previsão do valor esperado Exemplo A Comissão de Serviços Públicos é responsável pela regulação dos serviços públicos, ou seja, atua no sentido de induzir as empresas a serem eficientes e prestarem serviços de qualidade ao preço justo para a população. Em um determinado Estado atuam diferentes empresas de serviços públicos sob o regime de monopólio nas respectivas áreas de concessão. O trabalho do auditor consiste em visitar estas empresas e auditar seus registros financeiros para detectar se algum tipo de abuso está ocorrendo. A maior dificuldade do auditor é avaliar se os custos apresentados pelas empresas são razoáveis, pois as empresas têm diferentes tamanhos O arquivo empresas.xls contêm registros do número de clientes e custos de manutenção de 12 empresas de serviço público. • Estime o modelo de regressão. • Qual o custo de manutenção esperado para uma empresa com 75.000 clientes ? • Suponha que uma empresa com 75.000 clientes reporte uma despesa com manutenção de 1.500.000. Com base nos resultados da regressão linear, o auditor deve ver este número como razoável ou excessivo ? Exemplo clientes (1000) despesas com manutenção (1000 US$) 25.3 484.6 36.4 672.3 37.9 839.4 45.9 694.9 53.4 836.4 66.8 681.9 78.4 1037 82.6 1095.6 93.8 1563.1 97.5 1377.9 105.7 1711.7 124.3 2138.6 XY 02,1532,33ˆ += Y = Despesa com manutenção X = Nº de clientes Qual o custo de manutenção esperado para uma empresa com 75.000 clientes ? X = 75 → Exemplo 82,11597502,1532,33ˆ =⋅+=Y Y = Despesa com manutenção X = Nº de clientes 75 1159,82 → US$ 1.159.820,00 Suponha que uma empresa com 75.000 clientes reporte uma despesa com manutenção de 1.500.000. Com base nos resultados da regressão linear, o auditor deve ver este número como razoável ou excessivo ? Podemos responder esta pergunta por meio de um intervalo de previsão para uma observação. Exemplo ( ) ( )[ ]hchhch StYStY εε 22 ˆ,ˆ +− ( ) ( )( ) − − ++= ∑ = n i i h h XX XX n S 1 2 2 22 11ˆεσεonde Obtido na Anova Quadrado médio do resíduo 35236 Nº de observações = 12 t crítico com N-2 graus de liberdade ao nível de significância αααα. No Excel =INVT(0.05;10) = 2,2281 Valor estimado pelo modelo de regressão para variável dependente (Yh = 1159,2) quando Xh= 75. Média da variável dependente 70,67 O intervalo de confiança cobre o ponto (75, 1500), logo o valor do custo não é excessivo. Exemplo X = 75 (1000 clientes) Y = 1500 (1000 US$) Exemplo modelo de regressão linear simples no Excel 1) Matriz de dados para regressão linear simples 1 variável dependente 1 variável independente 2) No menu Ferramentas escolha a opção Análise de dados 3) Na caixa de diálogo escolha a opção Regressão e clique em Ok 4) Informe os dados para regressão na caixa de diálogo Exemplo modelo de regressão linear simples no Excel Caixa de diálogo regressãoIntervalo com os valores da variável dependente Intervalo com os valores da variável independente Rótulos: nomes das variáveis M arque se tem rótulo Grava resultados da regressão em uma nova planilha Apresenta a série de resíduos YY ˆ− Gráfico com os valores observados e previstos Gráfico dos resíduos contra a variável explicativa Gráfico para avaliar se a hipótese de normalidade do erro é satisfeita Exemplo modelo de regressão linear simples no Excel Planilha de Resultados R2 2R Valor P P(F>24,3492) = 0,0011 Valor P < 5% rejeito H0 no teste F α β Valor P P( |t| >2,1495) = 0,0638 Valor P P( |t| >4,9345) = 0,0011 Intervalo de confiança 4,9345- 4,9345 Valor P < 5% rejeito H0 no teste F Yˆ YY ˆ− Valores para a plotagem de probabilidade normal Exemplo modelo de regressão linear simples no Excel Gráficos na planilha de Resultados X Plotagem de resíduos -20 0 20 0 10 20 30 40 50 X R e s í d u o s X Plotagem de ajuste de linha 0 10 20 30 40 50 60 0 10 20 30 40 50 X Y Y Previsto(a) Y Plotagem de probabilidade normal 0 10 20 30 40 50 60 0 20 40 60 80 100 Percentil da amostra Y Útil na verificação da hipótese de variância constante do erro Útil na verificação da hipótese de normalidade do erro (valores ao redor de uma reta imaginária indicam que a hipótese de normalidade não foi violada) Valores observados contra valores estimados Útil na avaliação da qualidade do ajuste Regressões que se tornam lineares por anamorfose i X i iY εββ 10=(exponencial) iii XY εβ β10=(potência) i i i X Y εββ ++= 110(hipérbole) iiii XXY εβββ +++= 2110(polinomial) As especificações a seguir são não-lineares, mas podem se tornar lineares por anamorfose, ou seja, mediante alguma transformação das variáveis. iii XY εββ lnlnlnln 10 +⋅+= iii vXY +⋅+= * 1 * 0 * ββ ii YY ln * = 0 * 0 ln ββ = 1 * 1 lnββ = iiv εln= iii XY εββ lnlnlnln 10 ++= iii vXY +⋅+= * 1 * 0 * ββ ii YY ln * = 0 * 0 ln ββ = iiv εln= ii XX ln * = iii XY εββ ++= *10 i i XX 1* = iiii XXY εβββ +++= 21110 ii XX =1 2 2 ii XX = Modelo linear Modelo linear Modelo linear Modelo regressão linear múltipla A substituição de variáveis é válida, pois a relação entre X1 e X2 é não linear Modelo de regressão linear múltipla A variável dependente é uma função linear de K variáveis independentes (K≥≥≥≥2) iKikiii XXXY εββββ +++++= K22110 Notação matricial i=1,n εβ += XY = nY Y Y Y M 2 1 = knn k k XX XX XX X 1 212 111 1 1 1 M L β β β β = 0 1 M k = nε ε ε ε M 2 1 Modelo de regressão linear múltipla ββββ1, ββββ2, ββββ3,..., ββββk, σσσσ2 são parâmetros do modelo que devem ser estimados [ ] i k Kiii XXY ε β β β + ⋅= M L 1 0 ,1,1 i=1,n Na regressão linear simples (K=1), um caso particular da regressão linear múltipla Hipóteses assumidas pelo modelo de regressão linear múltipla H1) A relação entre as variáveis é linear yi = β0 + β1xi1+ β2x2i +...+ βkxki + εi i=1,n. H2) A variável explicativa X é fixa, ou seja, não é aleatória. H3) As colunas da matriz X são linearmente independentes, ou seja, não há uma relação linear perfeita entre duas ou mais as variáveis explicativas. H4) Erros tem média nula: E(εi) = 0 para todo i=1,n. H5) Variância do erro é constante (homocedasticidade): V(εi) = σ2 para todo i=1,n. H6) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k. H7) Erros tem distribuição Normal: εi ~ N(0,σ2) para todo i=1,n. H2,H3,H4 e H5 ⇒⇒⇒⇒ εεεεi são independentes e identicamente distribuídos N(0,σσσσ2) Basicamente, são as mesmas hipóteses assumidas na regressão linear simples ( ) YXXX TT 1ˆ −=β = ∑∑∑∑ ∑∑∑∑ ∑∑∑∑ ∑∑∑ ==== ==== ==== === n i Ki n i Kii n i Kii n i Ki n i kii n i i n i ii n i i n i kii n i ii n i i n i i n i Ki n i i n i i T XXXXXX XXXXXX XXXXXX XXXn XX 1 2 1 2 1 1 1 1 2 1 2 2 1 21 1 2 1 1 1 21 1 2 1 1 1 11 2 1 1 OM L Estimador de Mínimos Quadrados Ordinários (MQO) Modelo de regressão linear múltipla = ∑ ∑ ∑ ∑ = = = = n i iKi n i ii n i ii n i i T yx yx yx y YX 1 1 2 1 1 1 M Equação de projeção [ ] ⋅=+++== k KKk XXXXXyEy β β β βββ ˆ ˆ ˆ 1ˆˆˆ)|(ˆˆ 1 0 1110 M LK ( ) ( ) 12ˆ −=Σ XX Tσβ kn SQE − = 2σˆ Estimador de mínimos quadrados Propriedades do estimador de mínimos quadrados ( ) ββ =ˆE ( )( )121 ,~ˆ −+ XXN TK σββ Se as hipóteses H1 até H6 forem satisfeitas, o estimador de mínimos quadrados é o melhor estimador linear não tendencioso (Teorema de Gauss Markov) Estimador não tendencioso Matriz de covariância dos estimadores O vetor de estimadores tem distribuição normal multivariada ( )jjjj aN 2,~ˆ σββ Cada tem distribuição normalajj elemento da diagonal principal da inversa de X’X jβˆ Exemplo modelo de regressão linear múltipla (KUTNER et al, 2004) X1 X2 Y 68,5 16,7 174,4 45,2 16,8 164,4 91,3 18,2 244,2 47,8 16,3 154,6 46,9 17,3 181,6 66,1 18,2 207,5 49,5 15,9 152,8 52 17,2 163,2 48,9 16,6 145,4 38,4 16 137,2 87,9 18,3 241,9 72,8 17,1 191,1 88,4 17,4 232 42,9 15,8 145,3 52,5 17,8 161,1 85,7 18,4 209,7 41,3 16,5 146,4 51,7 16,3 144 89,6 18,1 232,6 82,7 19,1 224,1 52,3 16 166,5 Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa está analisando a possibilidade de expansão em outras cidades de médio porte e para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas com base no número de pessoas com até 16 anos de idades (X1) e a renda per capita na localidade (X2). Valores expressos em milhares. Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são apresentados na tabela abaixo: εβββ +++= 22110 XXY Modelo de regressão linear múltipla a ser estimado 0 50 100 150 200 250 300 30 40 50 60 70 80 90 100 X1 Y 0 50 100 150 200 250 300 15 16 17 18 19 20 X2 Y Exemplo modelo de regressão linear múltipla ( ) 2211021, XXXXYE i βββ ++=A equação de regressão Os dados das 21 localidades podem ser dispostos em um gráfico, onde cada localidade é representada por um ponto. define um plano passando pelo meio da nuvem de pontos. Este plano representa o valor esperado das vendas em função da renda e da população abaixo de 16 anos em uma localidade populaçãorenda vendas Exemplo modelo de regressão linear múltipla Modelo de regressão linear Estimação dos coeficientes de regressão por mínimos quadrados iiii XXY εβββ +++= ,22,10 1 68,5 16,7 1 45,2 16,8 1 91,3 18,2 1 47,8 16,3 1 46,9 17,3 1 66,1 18,2 1 49,5 15,9 1 52 17,2 1 48,9 16,6 1 38,4 16 1 87,9 18,3 1 72,8 17,1 1 88,4 17,4 1 42,9 15,8 1 52,5 17,8 1 85,7 18,4 1 41,3 16,5 1 51,7 16,3 1 89,6 18,1 1 82,7 19,1 1 52,3 16 X = 174,4 164,4 244,2 154,6 181,6 207,5 152,8 163,2 145,4 137,2 241,9 191,1 232 145,3 161,1 209,7 146,4 144 232,6 224,1 166,5 Y = 21,00 1.302,40 360,00 1.302,40 87.707,94 22.609,19 360,00 22.609,19 6.190,26=XX T 3.820,00 249.643,35 66.072,75 =YX T 29,7289 0,0722 -1,9926 0,0722 0,0004 -0,0055 -1,9926 -0,0055 0,1363( ) =−1XX T ( ) YXXX TT 1ˆ −=β − = 3655,9 4546,1 8571,68 ˆ ˆ ˆ 2 1 0 β β β Dados ε+++−= 21 37,945,186,68 XXY Equação estimada Exemplo modelo de regressão linear múltipla Gráficos dos resíduos contra cada variável explicativa e a variável explica exibe um padrão aleatório e a dispersão parece constante e, portanto, estão coerentes com as hipóteses (pressupostos) de covariâncias nulas entre os erros e variância do erro constante. Exemplo modelo de regressão linear múltipla O gráfico de probabilidade normal índica que a distribuição dos resíduos é normal, portanto, coerente com a hipótese (pressuposto) de distribuição normal para o erro. Análise da variância - ANOVA ( ) ( )∑ ∑ = = − − == n i i n i ii YY YY SQT SQRR 1 2 1 2 2 ˆ ( ) kn nRR − − −−= 111 2 2 ( )[ ]1+−== knSQE kSQR QME QMRF Modelo de regressão linear múltipla Inferência Estatística no Modelo de Regressão Linear Fonte de variação Graus de liberdade Soma dos quadrados Quadrados médios Regressão K nyYXSQR n i i TT 2 1 ˆ −= ∑ = β KSQRQMR /= Resíduos n - (K+1) YXYYSQE TTT βˆ−= ( )[ ]1/ −−= KnSQEQME Total n -1 nyYYSQT n i i T 2 1 −= ∑ = Exemplo modelo de regressão linear múltipla Construção da ANOVA para o exemplo da cadeia de lojas de roupas juvenis iii XXY 21 3655,94546,18571,68ˆ ++−= SQE SQR SQT Exemplo modelo de regressão linear múltipla Construção da ANOVA para o exemplo da cadeia de lojas de roupas juvenis Fonte de variação Soma dos quadrados (A) Graus de liberdade (B) Quadrado médio (C=A/B) F Regressão SQR 24015,28 2 12007,64 12007,64 / 121.1626 = 99,1035 Resíduo SQE 2180,93 N-3=18 121,1626 Total SQT 26196,21 N-1=20 ANOVA 2 variáveis explicativas 3 coeficientes estimados Por isso N – 3 O quadrado médio dos resíduos é uma estimativa da variância do erro 2 ˆεσ Coeficiente de determinação R2 917,0 21,26196 28.240152 === SQT SQRR Teste t H0 : ββββ j = 0 H1 : ββββ j ≠≠≠≠ 0 ( )1~ ˆ +−= kn j t b t jβσ ( )[ ]1+−= knSQE kSQRF H0 : ββββ 1 = ββββ 2 = ββββ 3 =...= ββββ k =0 H1 : pelo menos um ββββj ≠≠≠≠ 0 Teste F t t rejeita Htabelado≥ ⇒ 0 F F rejeita Htabelado≥ ⇒ 0 Modelo de regressão linear múltipla Inferência Estatística Exemplo modelo de regressão linear múltipla Modelo de regressão linear Estimativas dos erros padrão dos coeficientes de regressão ( ) 12 2 ˆˆˆˆˆ ˆˆ 2 ˆˆˆ ˆˆˆˆ 2 ˆ ˆ ˆˆˆ ˆˆˆ ˆˆˆ 22120 21110 20100 − ⋅= = XXS Tε βββββ βββββ βββββ β σ σσσ σσσ σσσ 0170,600347,3602ˆˆ 2 ˆˆ 00 === ββ σσ Erros padrão dos estimadores dos coeficientes de regressão (valores informados pelo ajuste de regressão no Excel) Resultado na ANOVA = 121,1626 29,7289 0,0722 -1,9926 0,0722 0,0004 -0,0055-1,9926 -0,0055 0,1363 =βS 3.602,0347 8,7459 -241,4230 8,7459 0,0449 -0,6724 -241,4230 -0,6724 16,5158 2118,00449,0ˆˆ 2 ˆˆ 11 === ββ σσ 0640,45158,16ˆˆ 2 ˆˆ 22 === ββ σσ Variâncias na diagonal principal Covariâncias fora da diagonal principal iiii XbbXbY ε+++= ,22,10 Exemplo modelo de regressão linear múltipla Inferência do modelo H0 : b1 = b2 = 0 ( não há regressão de Y em X1 e X2) H1 : b1 ≠≠≠≠ 0 ou b2 ≠≠≠≠ 0 ( presença do efeito ) ( )1+− = Kn SQE K SQR F Fcalculado > Fcrítico logo rejeita H0 1) Estatística teste 4) F crítico ao nível de significância de 5% = 3,5546 =FINV(0,05;2;18) no Excel Distribuição F Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável dependente. ( ) 1035,99 1221 1626,121 2 64,007.12 = +− =F 2) Distribuição da estatística testes sob H0 ( ) ( )1,~ 1 +− +− KnKF Kn SQE K SQR 3) Valor da estatística teste na amostra observada (Fcalculado) 5) Conclusão Exemplo modelo de regressão linear múltipla tcalculado > tcrítico logo rejeita H0 Distribuição t Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. H0 : b1 = 0 ( ausência do efeito ) H1 : b1 ≠≠≠≠ 0 ( presença do efeito ) 3 ˆ 1 ~ ˆ ˆ 1 −Nt b βσ 8682,6 2118,0 4546,1 ==t 4) t crítico ao nível de significância de 5% = 2,1 =TINV(0,05;18) no Excel 1 ˆ 1 ˆ ˆ βσ b t = 1) Estatística teste 2) Distribuição da estatística testes sob H0 3) Valor da estatística teste na amostra observada (tcalculado) 5) Conclusão Inferência do modelo Exemplo modelo de regressão linear múltipla Distribuição t Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. H0 : b2 = 0 ( ausência do efeito ) H1 : b2 ≠≠≠≠ 0 ( presença do efeito ) 3045,2 0640,4 3655,9 ==t 3 ˆ 2 ~ ˆ ˆ 2 −Nt b βσ2 ˆ 2 ˆ ˆ βσ b t = 1) Estatística teste 2) Distribuição da estatística testes sob H0 3) Valor da estatística teste na amostra observada (tcalculado) 4) t crítico ao nível de significância de 5% = 2,1 =TINV(0,05;18) no Excel 5) Conclusão tcalculado > tcrítico logo rejeita H0 Inferência do modelo Exemplo modelo de regressão linear múltipla Intervalos 95% de confiança para os coeficientes da equação de regressão ( )( ) ( )( )%5,2 ˆ ˆ %5,2 11 +−+− ≤ −≤− Kn b ii Kn t bb t i σ 95% 2339,57948,1941,2 0170,60 8571,681,2 00 ≤≤−⇒≤ −−≤− bb 8995,10096,11,2 2118,0 4546,11,2 11 ≤≤⇒≤ −≤− bb 9036,178274,01,2 0640,4 3655,91,2 22 ≤≤⇒≤ −≤− bb Distribuição t K = número de variáveis independentes n = tamanho da amostra R2 ajustado ( )22 111 R kn nRajustado − − − −= Problema com a estatística R2 : sempre aumenta a medida que novas variáveis são incluídas no modelo de regressão linear múltipla, independentemente da variável adicionada. No entanto cada variável adicionada ao modelo tem um custo, pois mais um coeficiente deve ser estimado. Então é interessante ter uma medida que permita avaliar o benefício para melhoria do modelo com a adição de uma nova variável explicativa em relação ao custo de estimar mais um coeficiente. Esta medida é o R2 ajustado Onde n é o tamanho da amostra K é o número de parâmetros da equação de regressão. O R2 ajustado é útil quando desejamos comparar dois modelos diferentes ou comparar um mesmo modelo com tamanhos de amostras diferentes [ ]khhhTh XXXx L211= Previsão Dado ( ) khkhh XXXYE βββ ˆˆˆ|ˆ 110 +++= K h T hprevisão xSxs βˆ 2 = khkhh XXY βββ ˆˆˆˆ 110 +++= K 2 ˆ 2 σˆβ += h T hprevisão xSxs Modelo de regressão linear múltipla Previsão do valor esperado da variável dependente dado Y Previsão do valor da variável dependente dado Y Quadrado médio dos resíduos Valor obtido na ANOVA Erro padrão das previsões Exemplo Calcule a previsão das vendas esperadas nas cidades A e B: Cidade A número de pessoas com até 16 anos de idades (X1) : 65,4 renda per capita na localidade (X2) : 17,6 Cidade B número de pessoas com até 16 anos de idades (X1) : 53,1 renda per capita na localidade (X2) : 17,7 10,1916,1737,94,6545,186,68 =⋅+⋅+−= 15,1747,1737,91,5345,186,68 =⋅+⋅+−= [ ]6,174,651=Thx [ ]7,171,531=Thx Previsão da venda esperada na cidade A E(Y|X) Previsão da venda esperada na cidade B E(Y|X) Exemplo Intervalos de confiança para as vendas esperadas nas cidades A e B: Cidade A número de pessoas com até 16 anos de idades (X1) : 65,4 renda per capita na localidade (X2) : 17,6 Cidade B número de pessoas com até 16 anos de idades (X1) : 53,1 renda per capita na localidade (X2) : 17,7 1626,121ˆ 2 =εσ [ ]6,174,651=Thx [ ]7,171,531=Thx =βS 3.602,0347 8,7459 -241,4230 8,7459 0,0449 -0,6724 -241,4230 -0,6724 16,5158 Resultado da ANOVA slide 52 Matriz de covariâncias dos estimadores slide 54 Erro padrão das estimativas slide 60 h T hprevisão xSxs βˆ 2 ´ = Cidade A = 11,35 Cidade B = 11,93 Exemplo Intervalos de confiança para as vendas esperadas nas cidades A e B: E(Y|X) é a média das vendas dado X ( ) 2)1(2)1( 2|2 previsãokNprevisãokN stprevisãoXYEstprevisão +≤≤ − +−+− αα Valor crítico da t com N-(k+1) graus de liberdade ao nível de confiança 1-alfa, podem ser obtidos no Excel, por exemplo, para 95% de confiança =INVT(0,05;18), cujo valor é aproximadamente 2,101 ( ) 9,214|3,167 ≤≤ XYE ( ) 2,199|1,149 ≤≤ XYE Cidade A Cidade B Note que os intervalos de confiança tem grande amplitude apesar do elevado R2 (0,92), portanto, valores elevados de R2 não garantem necessariamente previsões precisas Exemplo modelo de regressão linear múltipla no Excel 1) Matriz de dados para regressão linear múltipla 1 variável dependente 2 variável independentes 2) No menu Ferramentas escolha a opção Análise de dados 3) Na caixa de diálogo escolha a opção Regressão e clique em Ok 4) Informe os dados para regressão na caixa de diálogo Exemplo modelo de regressão linear múltipla no Excel Caixa de diálogo regressãoIntervalo com os valores da variável dependente Intervalo com os valores da variável independente Rótulos: nomes das variáveis M arque se tem rótulo Grava resultados da regressão em uma nova planilha Apresenta a série de resíduos YY ˆ− Gráfico com os valores observados e previstos Gráfico dos resíduos contra a variável explicativa Gráfico para avaliar se a hipótese de normalidade do erro é satisfeita Exemplo modelo de regressão linear múltipla no Excel 0 ˆβ 1 ˆβ 2 ˆβ Exemplo modelo de regressão linear múltipla no Excel Gráficos na planilha de Resultados X1 Plotagem de resíduos -30,00 -20,00 -10,00 0,00 10,00 20,00 30,00 0 20 40 60 80 100 X1 R e s í d u o s X2 Plotagem de resíduos -40,00 -20,00 0,00 20,00 40,00 0 5 10 15 20 25 X2 R e s í d u o s X1 Plotagem de ajuste de linha 0 50 100 150 200 250 300 0 50 100 X1 Y Y Previsto(a) Y X2 Plotagem de ajuste de linha 0 100 200 300 0 10 20 30 X2 Y Y Previsto(a) Y Exemplo modelo de regressão linear múltipla no Excel Gráficos na planilha de Resultados Plotagem de probabilidade normal 0 100 200 300 0 50 100 150 Percentil da amostra Y Problemas que podem acontecer em um modelo de regressão linear Multicolinearidade: Quando há relações lineares exatas ou aproximadamente lineares entre as variáveis explicativas, a redundância entre as varáveispode resultar em estimativas com valores elevados para o erro padrão ou impossibilitar a estimação dos coeficientes de regressão no caso de relações lineares exatas. Heterocedasticidade: A variância do erro não é uma constante, (violação da hipótese de homocedasticidade). Não raro acontece quando a amostra de observações é um corte transversal de unidades com “tamanhos” heterogêneos. Na presença de heterocedasticidade o estimador MQO permanece não tendencioso, mas deixa de ser o melhor estimador. Nestas situações deve-se utilizar o métodos mínimos quadrados ponderados (MQP). Autocorrelação: Os erros são autocorrelacionados, violação da hipótese de covariância nula entre os erros. Problema frequente quando a amostra de dados é formada por séries temporais. Na presença de autocorrelação serial dos erros o estimador MQO permanece não tendencioso, mas deixa de ser o melhor estimador. Nestas situações deve-se utilizar o métodos mínimos quadrados generalizados (MQG). Multicolinearidade Ocorre quando qualquer variável independente é altamente correlacionada com um conjunto de outras variáveis independentes. No caso extremo, uma variável independente guarda uma relação linear com outra variável independente. Neste caso não é possível obter as estimativas de mínimos quadrados. Consequências da multcolinearidade: • Estimativas mais imprecisas • Erros-padrão maiores • Dificuldade da separação dos efeitos de cada variável Soluções para contornar a multicolineardade. • Coletar mais dados • Eliminar variáveis • Usar componentes principais para reduzir a dimensão dos dados Avaliação da Multicolinearidade 1) Coeficientes de correlação simples entre as variáveis independentes 2) Tolerância: quantia de variabilidade da variável dependente não explicada pelas outras variáveis independentes. Valores altos significam um pequeno grau de multicolinearidade. Tolerância= 1–Rk2, se menor que 0,1 indica multicolinearidade Onde Rk2 é o coeficiente de determinação da variável independente k nas demais variáveis independentes. 3) Fator de inflação da variância (VIF): é o inverso da tolerância. Valores altos significam maiores níveis de multicolinearidade. VIF = 1 / Tolerância, se maior do que 10 já indica multicolinearidade Referências Bibliográficas Hanke, J.E.; Wichern, D.W. Pronósticos en los negocios, Naucalpan de Juárez: Pearson Education de México, 2006. Kutner, M.H.; Nachtsheim, C.J.; Neter, J. Applied linear regression models, New York: McGraw-Hill Irwin, 2004.
Compartilhar