Baixe o app para aproveitar ainda mais
Prévia do material em texto
1Métodos Estatísticos de Previsão Bernardo Almada-Lobo Regressão Linear 90 92 94 96 98 100 102 104 106 108 110 0 5 10 15 20 MÉTODOS ESTATÍSTICOS DE PREVISÃO 2Métodos Estatísticos de Previsão Regressão A regressão é uma das técnicas estatísticas mais potentes e de utilização mais frequente. É um método matemático utilizado para descrever a relação entre variáveis • Regressão linear simples • Regressão linear múltipla • Regressão não linear 3Métodos Estatísticos de Previsão Regressão 4Métodos Estatísticos de Previsão Regressão Para uma equação de uma recta y = b0 + b1x, ao valor b0 chama-se ordenada na origem e ao valor b1 chama-se declive. 5Métodos Estatísticos de Previsão Regressão Interpretação gráfica do declive: 6Métodos Estatísticos de Previsão Regressão Linear Simples Um modelo de regressão linear simples descreve uma relação entre duas variáveis quantitativas X, independente, e Y, dependente ( ) 0 0α β β β (β α β )n n n n n nY X X E Y X E X= + ⋅ − + ⇔ = + ⋅ + = − ⋅ ( ) ( ) nn nn Ya associado aleatório erroE estimar a fixos parâmetros, )N,,1n(Y,X de observação ésimanY,X − −βα =−− L 7Métodos Estatísticos de Previsão Regressão Linear Simples ),0(INE 2n σ Aos valores observados Xn não estão associados quaisquer erros, devendo ser encarados como constantes. Os erros considerados no modelo de regressão linear simples incidem sobre os valores observados de Y. Na teoria da regressão admitem-se as seguintes hipóteses sobre os erros: 1. valor esperado nulo e variância constante 2. são mutuamente independentes 3. são normalmente distribuídos Note que, a hipótese de que existe uma recta de regressão que se ajusta aos dados está implícita em todo o processo. 8Métodos Estatísticos de Previsão Regressão Linear Simples Exemplo: Idade e preço de uma amostra 11 Orions 9Métodos Estatísticos de Previsão Regressão Linear Simples 10Métodos Estatísticos de Previsão Regressão Linear Simples ( )2Yn ,INY n σµ Se as hipóteses referidas se verificarem, os valores de Yn são independentes e seguem uma distribuição normal: ( )XXnYn −⋅β+α=µ 11Métodos Estatísticos de Previsão A figura assinala a diferença entre a recta de regressão da população (que gostaríamos de conhecer mas não conhecemos) e a recta estimada a partir da amostra. Regressão Linear Simples 12Métodos Estatísticos de Previsão nXUma vez que os valores são constantes, é também constante.X Logo, X0 ⋅β−α=β também é constante A figura ilustra o significado de 0α e β X x1 x2 x3 x4 x5 x6 X Y 0β α ( ) 0 α β β β n n n n Y X X Y X = + ⋅ − ⇔ = + ⋅ Regressão Linear Simples 13Métodos Estatísticos de Previsão Os parâmetros da recta de regressão podem ser estimados pelo método dos mínimos quadrados ( )[ ]{ }∑ ∑ = = −⋅β+α−== N 1n N 1n 2 nn 2 n XXYESEQMIN ( ) ( )[ ] ( ) = − −⋅− = =⋅= ⇒ ∑ ∑ ∑ = = = XX XY N 1n 2 n N 1n nn N 1n n S S XX YYXX B YY N 1A XX XY N 1n n s s ˆb yy N 1 ˆa =β= =⋅=α= ∑ = A partir de um conjunto particular de observações (xn, yn) obtêm-se as estimativas seguintes: Regressão Linear Simples 0 1 2 3 4 5 6 0 10 20 30 40 50X Y 0 1 2 3 4 5 6 0 10 20 30 40 50X Y xx − yy − 14Métodos Estatísticos de Previsão Note que, a recta estimada passa sempre pelo ponto )Y,X( X X Y ( )XXY nn −⋅β+α=Y ( ) yXXyY yˆa n =−⋅β+= =α= Regressão Linear Simples 15Métodos Estatísticos de Previsão Se a relação entre Xn e µµµµYn for efectivamente linear e os erros forem independentes, tiverem valor esperado nulo e variância constante, pode demonstrar-se que: 1. A e B são estimadores não-enviesados, eficientes e consistentes 2. A matriz de variância-covariância dos estimadores é ( ) ( ) ( ) ( ) σ σ = XX 2 2 S0 0N BVARA,BCOV B,ACOVAVAR Como Cov(a,b)=0, conclui-se que A e B não são correlacionados, o que não acontece com B0 e B1, uma vez que ββββ0 é função de ββββ. Deste facto resulta a vantagem do modelo ( ) nnn EXXY +−⋅+= βα relativamente a 0β βn n nY X E= + ⋅ + X0 ⋅β−α=β Regressão Linear Simples 16Métodos Estatísticos de Previsão XXS BVar 2 )( σ= Estimativa de β é melhor quando os valores de x estão mais espalhados. Regressão Linear Simples 17Métodos Estatísticos de Previsão ( )[ ] 2 1 1 22 2 1 ˆ 2 1 ∑ ∑ = = −⋅−−⋅ − =⋅ − = N n N n nnn XXBAYN E N S 3. Um estimador não-enviesado de σσσσ2 é Regressão Linear Simples 18Métodos Estatísticos de Previsão 82)yy()xx(s 40)xx(s 30y 10x 5N n nnXY n 2 nXX ∑ ∑ =−⋅−= =−= = = = Exemplo Admitindo que a relação entre as variáveis X e Y é linear, pretende-se estimar os parâmetros do modelo de regressão correspondente: n xn yn 1 12 33 2 8 24 3 14 39 4 10 31 5 6 23 n yn )( xxba nYn −⋅+=µ nynn ye µˆˆ −= 1 33 30 + 2.05⋅ 2 = 34.1 33 − 34.1 = −1.1 2 24 30 + 2.05⋅ (−2) = 25.9 24 − 25.9 = −1.9 3 39 30 + 2.05⋅ 4 = 38.2 39 − 38.2 = 0.8 4 31 30 + 2.05⋅ 0 = 30.0 31 − 30.0 = 1.0 5 23 30 + 2.05⋅ (−4) = 21.8 23 − 21.8 = 1.2 ∑ = =⋅ − =σ= N 1n 2 n 22 63.2eˆ 2N 1 ˆs 05.2ssb 30ya XXXY == == 0658.0ssˆ 527.0Nsˆ XX 22 B 22 A ==σ ==σ Podemos também estimar a variância dos erros e dos estimadores: Regressão Linear Simples 19Métodos Estatísticos de Previsão Se En IN(0,σσσσ2), é possível especificar as distribuições dos estimadores de αααα, ββββ e σσσσ2 ( ) 2N2 tNS AN,NA − α− ⇒σα ( )BXABt S X N 1S B S X N 1 ,NB 02N XX 2 002 XX 2 00 ⋅−= +⋅ β− ⇒ σ⋅ +β − ( ) 2N XX XX 2 t SS BS,NB − β− ⇒σβ A partir destas expressões é possível definir I.C. e T.H. ( ) 0 α β β β n n n n Y X X Y X = + ⋅ − ⇔ = + ⋅ 1. 2. 3. Regressão Linear Simples 20Métodos Estatísticos de Previsão Regressão Linear Simples Intervalos de Confiança para os parâmetros de regressão Os intervalos de confiança bilaterais a (1- γγγγ) . 100% vêm ( ) N1S2tA: 2N ⋅⋅γ±α − ( ) 18.3205.0t3 = EXEMPLO (CONT.) ( ) ( ) XX22N0 SXN1S2tBXA: +⋅⋅γ±⋅−β − ( ) XX2N S1S2tB: ⋅⋅γ±β − [ ]87.2,23.140163.218.305.2: ⇒⋅⋅±β ( ) [ ]95.17,05.140105163.218.305.21030: 20 ⇒+⋅⋅±⋅−β [ ]31.32,69.275163.218.330: ⇒⋅⋅±α 1. 2. 3. 21Métodos Estatísticos de Previsão Regressão Linear Simples Testes de hipóteses para os parâmetros de regressão Os testes de hipóteses relativos aos parâmetros podem ser realizados recorrendo aos intervalos de confiança. Alternativamente, os testes podem ser efectuados pelo método clássico: ( ) ( ) ( ) ( ) ( ) 2N XX 2 00 0 0000000001 0000 t S X N 1S BXAET:.VERDH ,,:H :H − +⋅ β−⋅− =⇒ β<ββ>ββ≠β β=β 2N XX 0 0 0001 00 t SS BET:.VERDH ,,:H :H − β− =⇒ β<ββ>ββ≠β β=β 2N 0 0 0001 00 t NS AET:.VERDH ,,:H :H − α− =⇒ α<αα>αα≠α α=α1. 2. 3. 22Métodos Estatísticos de Previsão Regressão Linear Simples Quando se pretende realizar um teste bilateral à hipótese nula H0: ββββ=0, pode recorrer-se a um procedimento baseado na ANOVA ( ) ( )[ ]{ } ( )[ ]{ } 44444 344444 214444 34444 214434421 XX 2 YYXX 2YY SBSVR RESIDUAL.V n 2 nn SBVDR REGRESSÃOÀDEVIDA.V n 2 n SVT TOTAL.Vn 2 n XXBAYYXXBAYY ⋅−= ⋅= = ∑∑∑ −⋅+−+−−⋅+=− 23Métodos Estatísticos de Previsão Regressão Linear Simples 2N,10 1 0 F DQMR DQMDRET:.VERDH 0:H 0:H − =⇒ ≠β =β O procedimento de teste ANOVA tem a seguinte estrutura: Tabela ANOVA para o modelo de regressão linear simples FONTES DE VARIAÇÃO VARIAÇÕES (Somas de quadrados) GRAUS DE LIBERDADE (Número de termos independentes) DESVIOS QUADRÁTICOS MÉDIOS VALORES ESPERADOS DEVIDA À REGRESSÃO (DR) (Variação explicada pela regressão) VDR = B2 · SXX = B · SXY GL1 = 1 DQMDR = VDR E [DQMDR] = σσσσ2 + ββββ2 · SXX RESIDUAL (R) (Variação residual, não explicada) VR = SYY - B · SXY GL2 = N−−−− 2 DQMR = VR/GL2 E [DQMR] = σσσσ2 TOTAL (T) (Variação total) VT = SYY GL = GL1 + GL2 = N −−−− 1 24Métodos Estatísticos de Previsão Regressão Linear Simples Exemplo (anterior) Admitindo que a relação entre as variáveis X e Y é linear, pretende-se estimar os parâmetros do modelo de regressão correspondente n xn yn 1 12 33 2 8 24 3 14 39 4 10 31 5 6 23 05.2ssb 30ya XXXY == == 25Métodos Estatísticos de Previsão Regressão Linear Simples Exemplo (cont.) %50:H0:H 10 =α≠β=β FONTES VARIAÇÕES G.L. DQM DR 168.1 1 168.1 R 7.9 3 2.633 T 176.0 4 ( ) ( ) 0 3,1 H Rejeitar 0.41%Pprova de Valor13.1005.0F84.63 633.2 1.168ET ==>== [ ]87.2,23.140163.218.305.2 ⇒⋅⋅±∈βI.C.: ( ) ( )%41.0Pprova de Valor18.3205.0t99.7 4062.1 05.2ET 3 ==>==T.H.: ANOVA: 26Métodos Estatísticos de Previsão Regressão Dado que cada novo valor Y se admite independente dos anteriores, são constantes e A e B são independentes, pode-se mostrar que a variância do erro de previsão vem: Previsões com base no modelo de regressão linear simples ( )XXBAˆYˆ Y −⋅+=µ= ( )[ ] ( )[ ]XXBAEXXYˆY −⋅+−+−⋅β+α=−=δ ( ) ( ) 2 XX 2 S XX N 11)Yˆ(VAR)Y(VARVAR σ⋅ − ++=+=δ O erro que se comete na previsão vem XX e,, ββββαααα Y µ µ µ µ y f (y|x) X x 1 x 2 σσσσ µ µ µ µ Y 2 µ µ µ µ Y 1 σσσσ Para cada valor de X, a melhor previsão de Y é dada por ( ) ( ) ( ) ( ) σ σ = XX 2 2 S0 0N BVARA,BCOV B,ACOVAVAR 27Métodos Estatísticos de Previsão Regressão ( ) ( ) XX 2 2N S XX N 11S2tYˆ −++⋅⋅γ± − Admitindo a normalidade dos erros En , temos que seguem também distribuições Normais. Assim, o intervalo de previsão a (1- γγγγ).100% será: δδδδeˆ, YY ( ) XX 2 S XX N 11SYˆ −++⋅± Se tn-2(γ/2)=1 a banda de previsão a (1-γγγγ).100% é definida por: Quando se considera todos os valores possíveis de X, os intervalos formam uma banda de previsão. 28Métodos Estatísticos de Previsão Regressão N 11SYˆ:BBANDA +⋅± Banda A - tem apenas a ver com a estimativa do desvio-padrão do erro E Banda B - acrescenta, relativamente à banda A, o termo correspondente ao erro de estimação de αααα Banda C - acrescenta, relativamente à banda B, o termo correspondente ao erro de estimação de ββββ Y x y = a + b (x - x) i i. A B C X )( xxbay nn −⋅+= 1SYˆ:ABANDA ⋅± ( ) XX 2 S XX N 11SYˆ:CBANDA −++⋅± 29Métodos Estatísticos de Previsão Regressão Uma relação que pareça linear dentro da gama de valores observados Xn, pode ter um comportamento não-linear numa gama mais alargada. Apesar de a banda de previsão definida alargar à medida que as observações se afastam da média de X, esta não contempla esse tipo de situações, assentando no pressuposto de que a relação é efectivamente linear. X Y Gama de valores observados Relação linear ajustada Relação verdadeira (não linear) Valor extrapo- lado de Y Novo valor de X 30Métodos Estatísticos de Previsão Regressão Extrapolação no exemplo do Orion 31Métodos Estatísticos de Previsão Regressão Linear Simples Regressão linear simples e correlação entre variáveis Embora a análise de correlação seja uma técnica menos potente do que a regressão linear simples, pois apenas revela o grau de relacionamento linear entre variáveis sem especificar a forma que ele assume, ambas estão intimamente ligadas. Na regressão linear simples, os valores observados de X são encarados como constantes, podendo não ser representativos de uma qualquer distribuição populacional Na análise de correlação, para que a partir do coeficiente de correlação amostral se possam fazer inferências relativas ao coeficiente de correlação populacional, é preciso que as observações (Xn,Yn) sejam representativas da população conjunta de X e Y 32Métodos Estatísticos de Previsão Regressão Linear Simples ( ) ( )∑ = −⋅−⋅ − = N n nnXY yyxxN c 11 1 ( ) ( ) ( ) ( ) ( )11 1 1 1 1 1 1 1 2 1 2 1 ≤≤− ⋅ = −⋅ − ⋅−⋅ − −⋅−⋅ − = ∑∑ ∑ == = XY YX XY N n n N n n N n nn XY r ss c yy N xx N yyxx N r Covariância amostral (permite inferir acerca da população) Coeficiente de correlação amostral (medida adimensional) 0 1 2 3 4 5 6 0 10 20 30 40 50X Y xx − yy − 33Métodos Estatísticos de Previsão Regressão Linear Simples Se os valores Xn não forem obrigatoriamente representativos da população de X, podem situar-se numa zona restrita dessa população, provocando o enviesamento do coeficiente de correlação amostral Y Zona central X Enviesamento do coeficiente de correlação amostral calculado a partir de observações pertencentes à zona central da população de x 34Métodos Estatísticos de Previsão Regressão Linear Simples Na análise de correlação não se faz qualquer distinção entre variável dependente e variável independente A existência de correlação implica que • X é causa de Y, ou • Y é causa de X, ou ainda • Uma outra variável é causa simultânea de X e Y Que sentido fará, no contexto da regressão, calcular o coeficiente de correlação amostral ?XYR 35Métodos Estatísticos de Previsão Regressão Linear Simples ( ) ( )∑ ∑ − −⋅ = ⋅ = n 2 n n 2 n 2 YY XX 2 2 XY YY XXB S SBR Se X for claramente assumida como variável predeterminada, o cálculo do quadrado do coeficiente de correlação amostral, o coeficiente de determinação, representa a proporção da variação de y que é explicada pela regressão ( ) ( ) ( )[ ] ( )∑∑ ∑∑ == == −⋅+== −+−=−= N n n N n n N n nnn N n nYY xxbe yyyyyys 1 22 1 2 1 2 1 2 ˆˆ L Não- -explicada Explicada 36Métodos Estatísticos de Previsão O montante global dos seguros de vida efectuados pelas famílias de um determinado país depende do rendimento anual do agregado familiar. Na tabela seguinte apresentam-se os valores destas variáveis, expressas em unidades monetárias do país em causa, para um conjunto de 12 famílias considerado representativo da população. Estime a relação entre as duas variáveis e o intervalo de previsão do montante global de seguros de vida efectuados por uma família com um rendimento anual agregado de 20 000 [u.m] Regressão Linear Simples Rendimento anual [1000 u.m.] Capital seguro [1000 u.m.] 14 31 19 40 23 49 12 20 9 21 15 34 22 54 25 52 15 28 10 21 12 24 16 34 37Métodos Estatísticos de Previsão Regressão Linear Múltipla • O modelo de regressão linear múltipla é uma extensão domodelo de regressão linear simples. • Permite descrever uma relação entre um conjunto de variáveis quantitativas independentes, Xj (j=1,2,...,J), e uma variável, Y, quantitativa dependente. • O objectivo será o de construir um modelo que se ajuste melhor aos dados do que o modelo de regressão linear simples. 38Métodos Estatísticos de Previsão Regressão Linear Múltipla y = β 0 + β 1 x X Y X2 1 O modelo de regressão linear simples considera apenas uma variável independente, “X” Y =β0 + β 1X + E O modelo de regressão linear múltipla considera duas, ou mais, variáveis independentes, X1 e X2. Y = b0 + b1x1 + b2x2 + E Agora, a recta é transformada num plano y = β 0 + β 1 x 1 + β 2x 2 39Métodos Estatísticos de Previsão Regressão Linear Múltipla O modelo de regressão linear múltipla : nJJnJ1n11n E)XX()XX(Y +−⋅β++−⋅β+α= L )Y,X,,X( nJnn1 L n-ésima observação das variáveis X1,...,XJ e Y jX média das observações da variável Xj J1 ,,, ββα L parâmetros fixos a estimar nE erro aleatório associado a Yn 40Métodos Estatísticos de Previsão Regressão Linear Múltipla Modelo de regressão linear populacional bivariado X2 Y X1 µµµµYX = ββββ0 + ββββ1X1i + ββββ2X2i ββββ0 Yi = ββββ0 + ββββ1X1i + ββββ2X2i + εεεεi Response Plane (X1i,X2i) (Observed Y) εεεεi X2 Y X1 µµµµYX = ββββ0 + ββββ1X1i + ββββ2X2i ββββ0 Yi = ββββ0 + ββββ1X1i + ββββ2X2i + εεεεi Response Plane (X1i,X2i) (Observed Y) εεεεi 41Métodos Estatísticos de Previsão Regressão Linear Múltipla X2 Y X1 b0 Yi = b0 + b1X1i + b2X2i + ei Response Plane (X1i,X2i) (Observed Y) ^ ei Yi = b0 + b1X1i + b2X2i X2 Y X1 b0 Yi = b0 + b1X1i + b2X2i + ei Response Plane (X1i,X2i) (Observed Y) ^ ei Yi = b0 + b1X1i + b2X2i Modelo de regressão linear amostral bivariado 42Métodos Estatísticos de Previsão Regressão Linear Múltipla En IN (0,σ2) A este modelo estão subjacentes as seguintes hipóteses: 1. Os valores Xjn, e portanto, os seus valores esperados são encarados como constantes predeterminadas, sem erro 2. Os erros En são mutuamente independentes, têm valor esperado nulo, variância constante e são normalmente distribuídos, isto é, 43Métodos Estatísticos de Previsão Regressão Linear Múltipla Os parâmetros podem ser estimados recorrendo ao método dos mínimos quadrados minimizando a seguinte função: J1 ,,, ββα L [ ]{ }2 n JJnJ1n11n n 2 n )XX()XX(YESEQ ∑∑ −⋅β++−⋅β+α−== L 0)]()([)2( 111 =−⋅−⋅⋅⋅−−⋅−−⋅−= ∑ JJnJn n n XXXXY SEQ ββα∂α ∂ 0)]()([)()2( }{ 11111 1 =−⋅−⋅⋅⋅−−⋅−−⋅−⋅−= ∑ JJnJn n nn XXXXYXX SEQ ββα∂β ∂ 0)]()([)()2( }{ 111 =−⋅−⋅⋅⋅−−⋅−−⋅−⋅−= ∑ JJnJn n nJJn J XXXXYXXSEQ ββα∂β ∂ (...) Sendo o mínimo atingido para 44Métodos Estatísticos de Previsão Regressão Linear Múltipla A primeira equação permite obter o estimador de , que é idêntico ao que foi definido para o modelo de regressão linear simples: α YY N 1A n n =⋅= ∑ Desenvolvendo as restantes equações, obtém-se o seguinte sistema cuja resolução permite obter os estimadores de J1 ,, ββ L YXXXJXX2XX1 YXXXJXX2XX1 YXXXJXX2XX1 JJJ2J1J 2J22212 1J12111 SSBSBSB )( SSBSBSB SSBSBSB =⋅++⋅+⋅ =⋅++⋅+⋅ =⋅++⋅+⋅ L L L L )XX()XX(S 22112j1j jnjjnj n XX −⋅−=∑onde )YY()XX(S njjn n YX j −⋅−=∑e 45Métodos Estatísticos de Previsão Regressão Linear Múltipla 1 XXXX XXXX2 J1JJ J111 J1 JJ1J J111 SS0 SS0 00N )B(Var)B,B(Cov)A,B(Cov )B,B(Cov)B(Var)A,B(Cov )B,A(Cov)B,A(Cov)A(Var − ⋅σ= L LLLL L L L LLLL L L Se a relação entre as variáveis Xj e µy for linear e se os erros En forem independentes, tiverem valor esperado nulo e variância constante pode demonstrar-se que: 1. Os estimadores A e B1,...,Bj são não-enviesados, eficientes e consistentes. 2. A matriz de variância-covariância dos estimadores A e B1,...Bj é: 46Métodos Estatísticos de Previsão Regressão Linear Múltipla 3. Um estimador não-enviesado de σ2 é definido pela expressão: 2 JJnJ n 1n11n n 22 )]XX.(B)XX.(BAY[ 1JN 1 Eˆ 1JN 1S −−−−−−⋅ −− = =⋅ −− = ∑ ∑ L 47Métodos Estatísticos de Previsão Exemplo Considerem-se as observações das variáveis X1, X2 e Y que constam da tabela. Admitindo que o valor esperado de Y é uma função linear de X1 e X2, estimem-se os parâmetros do modelo de regressão correspondente. n x1n x2n yn 1 5.0 7.2 51.7 2 5.8 7.8 56.4 3 4.2 8.1 49.3 4 6.0 8.7 60.7 5 4.8 6.6 48.9 6 5.6 7.5 54.1 7 4.4 9.0 54.9 8 5.2 6.3 49.8 9 5.4 8.4 57.9 10 4.6 6.9 50.4 10.5)6.48.50.5( 10 1 x1 =+⋅⋅⋅++⋅= 10N= 65.7)9.68.72.7( 10 1 x2 =+⋅⋅⋅++⋅= 41.53)4.504.567.51( 10 1y =+⋅⋅⋅++⋅= 3.3)1.56.4()1.50.5()xx(S 22 i 2 1i1xx 11 =−+⋅⋅⋅+−=−=∑ 42.7)65.79.6()65.72.7()xx(S 22 i 2 2i2xx 22 =−+⋅⋅⋅+−=−=∑ 45.0)65.79.6()1.56.4()65.72.7()1.50.5()xx()xx(SS i 2i21i1xxxx 1221 =−⋅−+⋅⋅⋅+−⋅−=−⋅−== ∑ 67.15)41.534.50()1.56.4()41.537.51()1.50.5()yy()xx(S i i1i1yx1 =−⋅−+⋅⋅⋅+−⋅−=−⋅−=∑ 16.24)41.534.50()65.79.6()41.537.51()65.72.7()yy()xx(S i i2i2yx2 =−⋅−+⋅⋅⋅+−⋅−=−⋅−=∑ 19.147)41.534.50()41.537.51()yy(S 22 i 2 iyy =−+⋅⋅⋅+−=−=∑ Regressão Linear Múltipla 48Métodos Estatísticos de Previsão As estimativas dos parâmetros de regressão podem então obter-se nos seguintes termos: 41.53yˆa ==α= =⋅+⋅ =⋅+⋅ ⇒ 16.24b42.7b45.0 67.15b45.0b3.3 21 21 =β= =β= ⇒ 99.2ˆb 34.4ˆb 22 11 =⋅+⋅ =⋅+⋅ YXXX2XX1 YXXX2XX1 22212 12111 SSbSb SSbSb Exemplo (cont.) Regressão Linear Múltipla 49Métodos Estatísticos de Previsão )65.7(99.2)10.5(34.441.53ˆ 21 −⋅+−⋅+= iiY xxiµA partir de pode-se calcular a estimativa de σ2 n yn Yn µˆ Ynii ye µˆˆ −= 1 51.7 51.630 0.070 2 56.4 56.897 -0.497 3 49.3 50.850 -1.550 4 60.7 60.458 0.242 5 48.9 48.967 -0.067 6 54.1 55.132 -1.032 7 54.9 54.410 0.490 8 49.8 49.306 -0.006 9 57.9 56.956 0.944 10 50.4 48.996 1.404 983.0]404.107.0[ 1210 1 eˆ 1JN 1 ˆs 22 n 2 n 22 =+⋅⋅⋅+⋅ −− =⋅ −− =σ= ∑ 1 2212 2111 xxxx xxxx2 2 ^ 12 ^ 21 ^ 1 ^ SS SS ˆ )B(Var)B,B(Cov )B,B(Cov)B(Var − ⋅σ= − − = − ⋅= 133.0018.0 018.0300.01 42.745.0 45.030.3983.0 548.0ˆ300.0)B(Var 1B1 ^ =σ⇒= 365.0ˆ133.0)B(Var 2B2 ^ =σ⇒= 090.0 365.0548.0 018.0 ˆ018.0)B,B(Cov 21B,B21 ^ −= ⋅ −=ρ⇒−= e estimar a variância dos estimadores: Regressão Linear Múltipla 50Métodos Estatísticos de Previsão Regressão Linear Múltipla Onde var(B1),...,Var(Bj ) são definidos a partir da matriz variância-covariância. Se , é possível especificar as distribuições dos estimadores A e B1,...,BJ ),0( 2σINEn .............. A N (α, σ2/N) B1 N [β1,Var(B1)] BJ N [βJ,Var(BJ)] 1JNtN/S A −− α− 1JN J JJ t)B(raˆV B −− β− 1JN 1 11 t)B(raˆV B −− β− Nestas condições, temos as distribuições seguintes: 51Métodos Estatísticos de Previsão Regressão Linear Múltipla A partir das expressões anteriores é possível definir intervalos de confiança e testes de hipóteses envolvendo os parâmetros de regressão. Intervalos de Confiança: N/1S)2/(tA: 1JN ⋅⋅γ±α −− )B(raˆV)2/(tB: j1JNjj ⋅γ±β −− Teste de Hipóteses: O teste relativo ao parâmetro αααα será: H0: α =α0 H1: α ≠ α0 ,α < α0 ouα > α0 N/S AET 0α−= H0 verdadeira ⇒ ET 1JNt −− Note que, os intervalos assim definidos estão correctamente especificados quando considerados individualmente. No entanto, o nível de confiança para o conjunto dos intervalos definidos para A e Bj (j=1,...,J) é, de facto, diferente do considerado. 52Métodos Estatísticos de Previsão Regressão Linear Múltipla Relativamente aos parâmetros ββββj deverá primeiro ser testada a hipótese de que todos eles são nulos contra a hipótese de que pelo menos um dele é diferente de zero. 444444444 3444444444 21 L 444444444 3444444444 21 L 4434421 L L )SBSB(SVR 2 JJnJ n 1n11n SBSBVDR 2 JJnJ n 1n11 SVT n 2 n YJXJY1X1YY YJXJY1X1YY )]XX.(B)XX.(BAY[ ]Y)XX.(B)XX.(BA[)YY( ⋅++⋅−= ⋅++⋅== −−−−−−+ +−−++−+=− ∑ ∑∑ Teste de Hipóteses (cont.): Tal teste será realizado recorrendo à técnica de Análise de Variância que se fundamenta na seguinte decomposição: 53Métodos Estatísticos de Previsão Regressão Linear Múltipla FONTES DE VARIAÇÃO VARIAÇÕES (Somas de quadrados) GRAUS DE LIBERDADE (Número de termos independentes) DESVIOS QUADRÁTICOS MÉDIOS VALORES ESPERADOS DEVIDA À REGRESSÃO (DR) YXJYX1 J1 SBSB= =VDR ⋅⋅ ⋅⋅⋅ ++++++++ GL1 = J DQMDR = VDR/GL1 E [DQMDR] = =σσσσ2 + + + + f B1 , ⋅⋅⋅,BJ( )[ ]2 RESIDUAL (R) (Variação residual "não explicada") VR = SYY - VDR GL2 = N – J – 1 DQMR = VR/GL2 E [DQMR] = σσσσ2 TOTAL (T) (Variação total) VT = SYY GL = GL1 + GL2 = N- 1 Na ANOVA referente à regressão linear múltipla adopta-se esta decomposição. Donde decorre a estrutura do teste ANOVA H0: β1 = β2=....= βJ =0 H1: algum βj ≠ 0 DQMR DQMDRET = H0 verdadeira ⇒ ET 1JN,JF −− 54Métodos Estatísticos de Previsão Regressão Linear Múltipla Utilizando os dados do exemplo anterior, vamos testar as hipóteses H0: β 1 = β 2 = 0 H1: β 1 ou β 2 ≠ 0. A tabela ANOVA correspondente vem: FONTES VARIAÇÕES G.L. DQM DR 140.3 2 70.15 R 6.9 7 0.983 T 147.2 9 Exemplo (cont.) 74.4)05.0(F34.71 983.0 15.70ET 7,2 ==α== > H0 é rejeitada ao nível de significância de 5% (valor de prova quase nulo) 55Métodos Estatísticos de Previsão Regressão Linear Múltipla Quando a hipótese nula é rejeitada é necessário verificar quais os βj que são diferentes de zero. Uma via possível consiste na realização dos seguintes testes individuais aos parâmetros. H0: βj =0 H1: βj ≠ 0, βj > 0 ou βj < 0, )B(raˆVET j jβ = H0 verdadeira ⇒ 1JNt −−ET Das expressões anteriores relativas aos estimadores de Bj decorre a seguinte estrutura para os testes: 56Métodos Estatísticos de Previsão Regressão Linear Múltipla 365.2)025.0(t92.7 548.0 34.4 )B(Var bET 7 1 ^ 1 =>=== 365.2)025.0(t19.8 365.0 99.2 )B(Var bET 7 2 ^ 2 =>=== Exemplo (cont.) 548.0ˆ 1B =σ 365.0ˆ 2B =σSabendo que b1 = 4.34 b2 = 2.99 H0: β1 = 0 é rejeitada ao nível de significância de 5% (valor de prova quase nulo) H0:β1 = 0 e H0: β2 = 0 H1: β1 ≠ 0 H1: β2 ≠ 0 H0: β2 = 0 também é rejeitada ao nível de significância de 5% (igualmente com valor de prova praticamente nulo). 57Métodos Estatísticos de Previsão Exemplo. Estime e teste o modelo de regressão para as seguintes variáveis: 1823083 98038 98545 22180117 1310062 119556 99049 196069 X2X1Y Regressão Linear Múltipla 58Métodos Estatísticos de Previsão Y X1 X2 Syy Sx1x1 Sx2x2 Sx1x2 Sx1y Sx2y 69 60 19 17.0 3025.0 27.6 -288.8 -226.9 21.7 49 90 9 252.0 625.0 22.6 118.8 396.9 75.4 56 95 11 78.8 400.0 7.6 55.0 177.5 24.4 62 100 13 8.3 225.0 0.6 11.3 43.1 2.2 117 180 22 2717.0 4225.0 68.1 536.3 3388.1 430.0 45 85 9 395.0 900.0 22.6 142.5 596.3 94.4 38 80 9 722.3 1225.0 22.6 166.3 940.6 127.7 83 230 18 328.5 13225.0 18.1 488.8 2084.4 77.0 64.9 115.0 13.8 4518.9 23850.0 189.5 1230.0 7400.0 852.8 a= 64.88 23850 b1 + 1230 b2 = 7400 1230 b1 + 189.5 b2 = 852.75 b1= 0.12 b2= 3.74 ANOVA FV Var GL DQM ET= 21.93798 DR 4056.595 2 2028.298 F2,5= 5.786135 R 462.2799 5 92.45598 T 4518.875 7 R2xy= 89.77% Regressão Linear Múltipla 59Métodos Estatísticos de Previsão Regressão Linear Múltipla O problema associado à realização destes testes reside no facto de o nível de significância do conjunto dos testes ser diferente daquele que foi especificado. Esta dificuldade pode ser contornada com o método de selecção de regressores. 60Métodos Estatísticos de Previsão Regressão Linear Múltipla • No modelo de regressão múltipla admitiu-se que as variáveis independentes (os regressores) eram designadas à partida. • Na maioria das situações práticas não é possível especificar à partida, com segurança, o conjunto ideal de regressores. • Num cenário real podem existir uma multiplicidade de regressores potencialmente úteis na explicação do comportamento da variável dependente, havendo que seleccionar de entre eles aqueles que devem figurar no modelo. • De seguida serão discutidos diferentes métodos de selecção de regressores. Selecção de Regressores 61Métodos Estatísticos de Previsão Regressão Linear Múltipla 1. Construir os modelos de regressão que combinem de todas as maneiras possíveis os regressores potenciais. 2. Ordenar os modelos de regressão de acordo com um critério de qualidade (por exemplo, minimizar os DQMR). 3. Avaliar em detalhe um número restrito de modelos considerados melhores, de acordo com o critério fixado em (2). Método Exaustivo O ponto (3) está associado à incapacidade de definir um critério único que, em todas as circunstâncias, permita comparar objectivamente a qualidade dos modelos. Se o número de regressores potenciais for J, o número de modelos alternativos a construir é 2J-1. 62Métodos Estatísticos de Previsão Regressão Linear Múltipla 1. Ajustar tantos modelos de regressão linear simples quantos os regressores potenciais. Incluir no modelo aquele que explica a maior proporção da variação da variável dependente. Se nenhum regressor explicar uma proporção significativa da variação o método termina. 2. Construir modelos de regressão dupla que associem o regressor seleccionado em (1) e cada um dos restantes regressores potenciais. De entre os novos regressores que explicam uma proporção adicional significativa da variação total, incluir no modelo aquele que explica a maior proporção. 3. Prosseguir a tentativa de construção de modelos de ordem superior adoptando um procedimento idêntico ao descrito. 4. O método termina quando nenhum dos regressores potenciais explica um proporção adicional significativa da variação total ou quando todos os regressores forem incluídos no modelo. 5. Este método não garante a selecção do melhor conjunto de regressores. Método Progressivo 63Métodos Estatísticos de Previsão .rejeitadaH41.4)05.0(F0.22 18/90 110ET0:H 018,120 ⇒ =>==→=β Considere-se o problema da selecção de regressores admitindo que se dispõe de 20 observações de uma variável dependente (Y) e de três variáveis candidatas a figurarem como regressores num modelo de regressão múltipla (X1, X2 e X3). Exemplo Passo (1): construir três modelos de regressão linear simples Modelo Y = Y(X1): Fontes Variações G.L. DQM DR (X1) 60 1 60 R 140 18 140/18 T 200 19 Modelo Y = Y(X2): Fontes Variações G.L. DQM DR (X2) 110 1 110 R 90 18 90/18 T 200 19 Modelo Y = Y(X3): Fontes Variações G.L. DQM DR (X3) 20 1 20 R 180 18 180/18 T 200 19 O regressor que explica a maior proporção da variação total é X2. O teste ANOVA permite verificar que a proporção da variação explicada é significativa. RegressãoLinear Múltipla 64Métodos Estatísticos de Previsão Modelo Y = Y(X2, X1): Fontes Variações G.L. DQM DR (X2,X1) 120 2 120/2 R 80 17 80/17 T 200 19 Modelo Y = Y(X2, X3): Fontes Variações G.L. DQM DR (X2,X3) 135 2 135/2 R 65 17 65/17 T 200 19 Vamos agora de testar se o contributo adicional de X3 para a explicação da variação de Y é significativo. Para tal tem-se de alterar a tabela ANOVA correspondente decompondo: VDR(X2, X3) = VDR(X2) + VDR(X3|X2) Fontes Variações G.L. DQM DR (X2,X3) 135 2 135/2 DR (X2) (110) (1) DR (X3|X2) (25) (1) 25 R 65 17 65/17 T 200 19 Passo (2) construir os dois modelos de regressão linear dupla Y = Y(X2, X1) e Y = Y(X2, X3) O regressor que explica uma proporção adicional maior da variação total é X3. Regressão Linear Múltipla 65Métodos Estatísticos de Previsão O teste ANOVA a realizar tem a seguinte estrutura: H0: β3 = 0 H1: β3 ≠ 0 DQMDR )X|X(DQMDRET 23= H0 verdadeira ⇒ ET F1,N-3. 45.4)05.0(F54.6 17/65 25 DQMR )X|X(DQMDRET 17,123 =>=== Nestas condições, é incluído no modelo o regressor X3, que assim se junta ao regressor X2 Passo (3) construir o modelo de regressão linear tripla Y = Y(X2, X3, X1) Fontes Variações G.L. DQM DR (X2,X3,X1) 140 3 135/2 DR (X2,X3) (135) (2) DR (X1|X2,X3) (5) (1) 5 R 60 16 60/16 T 200 19 .rejeitada ão 50.4)05.0(33.1 16/60 5),|( 016,1 321 nHF DQMR XXXDQMDR ET ⇒ =<=== Neste caso, o teste ANOVA permite verificar que, a proporção adicional da variação total que é explicada por X1 não é significativa Regressão Linear Múltipla 66Métodos Estatísticos de Previsão Regressão Linear Múltipla 1. Incluir no modelo todos os regressores potenciais. 2. Retirar do modelo, um a um, regressores cuja presença não contribua para explicar uma proporção significativa da variação total 3. Prosseguir a tentativa de construção de modelos de ordem inferior adoptando um procedimento idêntico ao descrito. Método Regressivo Método Regressão Passo a Passo Consistem em versões dos métodos progressivo e regressivo nas quais os regressores que tenham sido incorporados no modelo ou dele excluídos em passos anteriores são reexaminados 67Métodos Estatísticos de Previsão 2. Utilize o método de selecção de regressores para o exemplo: Y 69 49 56 62 117 45 38 83 X1 60 90 95 100 180 85 80 230 X2 19 9 11 13 22 9 9 18 Regressão Linear Múltipla 68Métodos Estatísticos de Previsão Regressão Linear Múltipla ANOVA y=f(X1) ANOVA y=f(X1,X2) df SS MS F V.P. df SS MS F V.P. DR(X1) 1 2296.0 2296.0 6.2 0.047 DR(X1,X2) 2 4056.6 2028.3 21.9 0.003 R 6 2222.9 370.5 R 5 462.3 92.5 Total 7 4518.9 Total 7 4518.9 ANOVA y=f(X2) ANOVA y=f(X1,X2) df SS MS F V.P. df SS MS F V.P. DR(X2) 1 3837.4 3837.4 33.8 0.001 DR(X1,X2) 2 4056.6 2028.3 R 6 681.5 113.6 DR(X2) 1 3837.4 Total 7 4518.9 DR(X1|X2) 1 219.2 219.2 2.4 0.184 Residual 5 462.3 92.5 Total 7 4518.9 69Métodos Estatísticos de Previsão Incorporação de regressores qualitativos: variáveis mudas As variáveis mudas são incorporadas nos modelos de regressão com o objectivo de representar o efeito de factores qualitativos. Exemplo Numa determinada empresa de artes gráficas existe uma secção dedicada ao fabrico de um tipo de cartões. Na figura representam-se, para essa secção, observações das variáveis X: dimensões de diferentes encomendas de cartões Y: custos de produção associados à satisfação das encomendas. Y X - com urgência+ - normal + + + + + + + As observações foram classificadas em encomendas satisfeitas em regime normal e encomendas satisfeitas com urgência. Regressão Linear Múltipla 70Métodos Estatísticos de Previsão nnnnnnN EZX'E)ZZ()XX(Y +⋅γ+⋅β+α=+−⋅γ+−⋅β+α= Com base na figura parece razoável adoptar o seguinte modelo Em que Zn represente um variável muda que toma os seguintes valores = urgenteregimeopara,1 normalregimeopara,0Zn Para representar adequadamente um factor com k níveis devem ser incluídas no modelo de regressão k - 1 variáveis mudas, por exemplo, para considerar três regimes de satisfação de encomendas regime normal: Z1 = 0, Z2 = 1 regime urgente: Z1 = 1, Z2 = 0 regime muito urgente: Z1 = 1, Z2 = 1. = normalfornãoregimeose,1 normalforregimeose,0Z1 = urgentefornãoregimeose,1 urgenteforregimeose,0Z2 No exemplo γ representa o valor esperado do custo adicional associado ao regime urgente. nn22n11nn EZZX'Y +⋅γ+⋅γ+⋅β+α= Regressão Linear Múltipla 71Métodos Estatísticos de Previsão Regressão • A técnica de regressão linear simples pode ser utilizada em modelos não- lineares desde que os modelos sejam convertíveis em modelos lineares por aplicações de transformações às variáveis. • Vamos considerar alguns exemplos de aplicação frequente. Regressão Não-Linear Método: 1. Transformar a variável X 2. Transformar a variável Y 3. Aplicar método de regressão linear às variáveis transformadas 72Métodos Estatísticos de Previsão Regressão Não Linear Uma relação deste tipo pode ser linearizada recorrendo à seguinte transformação da variável independente n n X 1U = n n n EX 'Y:Modelo +β+α= X Y nnn EU'Y:olinearizad.Mod +⋅β+α= Exemplo 1 73Métodos Estatísticos de Previsão Regressão Não Linear Linearização através de uma transformação logarítmica da variável dependente )Yln(Z nn = nnn EX'Z:olinearizad.Mod +⋅β+α= nn EX' n eY:lexponenciaModelo +⋅β+α= X Y Exemplo 2 74Métodos Estatísticos de Previsão Regressão Não Linear nnn EU'Z:olinearizadMod. +⋅β+α= linearização: )Yln(Z nn = n n X 1U = )0e0'com(eY:ScurvaModelo nn EX/'n <β>α= +β+α XXXX YYYY Exemplo 3 75Métodos Estatísticos de Previsão Regressão Entre uma variável dependente Y e uma variável independente X pode existir uma relação polinomial de grau J, que pode ser representada por um modelo do tipo: Regressão Polinomial n JJ nJ 22 n2n1n E)XX()XX()XX(Y +−⋅β++−⋅β+−⋅β+α= L Onde ∑⋅= n nXN 1X ∑⋅= n 2 n 2 X N 1X ∑⋅= n J n J X N 1X... Este modelo designa-se por modelo de regressão polinomial simples e pode ser convertido num modelo de regressão linear múltipla fazendo corresponder a cada potência uma nova variável substituindo: jn j n XXJ,,1jPARA == L 76Métodos Estatísticos de Previsão Obtendo-se o modelo linearizado: nJJnJ1n11n E)XX()XX(Y +−⋅β++−⋅β+α= L O problema da escolha do grau do polinómio é equivalente ao problema da selecção de regressores anteriormente abordado. Exemplo X Y 1 55 2 70 3 75 4 65 5 60 2 n2n1n XXY ⋅β+⋅β+α=MODELO: 40 45 50 55 60 65 70 75 80 0 1 2 3 4 5 6 X Y Regressão Polinomial 77Métodos Estatísticos de Previsão nn 2211n XXY ⋅β+⋅β+α=obtendo-se o seguinte modelo: ≡ ≡ 2 2 1 XX XXVamos definir as seguintes variáveis: −= = ⇔ ⇔ −=⋅+⋅ =⋅+⋅ ⇔ =⋅+⋅ =⋅+⋅ 9.3b 1.24b 25374b60b 560b10b SSbSb SSbSb 2 1 21 21 yxxx2xx1 yxxx2xx1 22212 12111 0.36119.331.2465XX'ˆa 2211 =⋅+⋅−=⋅β−⋅β−α=α= 21Y x9.3x1.240.36ˆ n ⋅+⋅+=µ X1=X X2=X2 Y 1 1 55 2 4 70 3 9 75 4 16 65 5 25 60 3x1 = 5N= 65y=11x2 = 10S 11xx = 374S 22xx = 60S 21xx = 5S yx1 = 25S yx2 −= 40 45 50 55 60 65 70 75 80 0 1 2 3 4 5 6 X Y Regressão Polinomial 78Métodos Estatísticos de Previsão � O coeficiente de determinação ( ), que traduz a proporção da variação total de Y explicada pela regressão ajustada, corresponde ao coeficiente de correlação r elevado ao quadrado;� Este coeficiente apresenta uma limitação: o denominador da expressão que lhe está subjacente tem um valor fixo, enquanto que o numerador só pode aumentar. Assim, ao adicionar-se uma nova variável na equação da regressão, o numerador aumentará, no mínimo, ligeiramente, resultando num aumento do coeficiente de determinação, mesmo que a introdução da nova variável resulte numa equação menos eficiente; � Em teoria, usando um número infinito de variáveis independentes para explicar a variação da variável dependente, resulta num igual a 1. Por outras palavras, o coeficiente de determinação pode ser manipulado, logo deve ser suspeitado; 2 XYR 2 XYR Regressão Polinomial 79Métodos Estatísticos de Previsão Regressão Polinomial VR da liberdade de graus de n.º : 1-K-N VT da liberdade de graus de totaln.º : 1-N regressão dagrau : K sobservaçõe de n.º : N ( ) −− − −−= 1 1 . R11R 2 2 XY KN N Coeficiente de Determinação Ajustado ( )2XYR � Dado que a introdução de um regressor irrelevante aumentará ligeiramente o , é desejável tentar corrigi-lo, reduzindo-o de uma forma apropriada; � O coeficiente de determinação ajustado, , é uma tentativa de tentar corrigir o , ajustando o numerador e o denominador da expressão através dos respectivos graus de liberdade; � Contrariamente ao coeficiente de determinação, o coeficiente de determinação ajustado pode diminuir em valor se a contribuição da variável adicional na explicação da VT, for inferior ao impacto que essa adição acarreta nos graus de liberdade. 2 XYR 2 XYR 2 XYR 80Métodos Estatísticos de Previsão 3. Considere a seguinte série temporal, com 10 observações: Regressão Não Linear Com base nestes dados, efectue previsões dos valores de Zt (para t = 2007, 2008, 2009 e 2010), recorrendo aos seguintes métodos: i) regressão polinomial; ii) regressão linear de variáveis transformadas. Entre as previsões efectuadas pelos dois métodos quais adoptaria? t 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 Zt 100 120 200 307 351 456 690 796 955 1195
Compartilhar