Baixe o app para aproveitar ainda mais
Prévia do material em texto
ANÁLISE DE REGRESSÃO - Regressão Linear Simples - (I) 1 REGRESSÃO LINEAR SIMPLES Exemplo 1: Um psicólogo está investigando a relação entre o tempo que um indivíduo leva para reagir a um estímulo visual (Y) com o sexo (W), idade (X) e acuidade visual (Z, medida em porcentagem). Y : tempo de reação X : idade 20 30 40 90 100 110 120 130 X Y Pelo gráfico: média de Y aumenta conforme as pessoas envelhecem Analisamos utilizando ANOVA Modelo de Regressão 2 Coeficiente de correlação linear de Pearson: É uma medida que avalia o quanto a “nuvem de pontos” no diagrama de dispersão aproxima-se de uma reta. sendo que, mente.respectiva,e de padrão desvios os são e mente,respectiva ,e de amostrais médias as são e YXSS YXYX YX YX n i ii SSn YYXX r )1( ))(( 1 3 REGRESSÃO LINEAR SIMPLES • Propriedade: -1 r 1 • Casos particulares: r = 1 correlação linear positiva e perfeita r = -1 correlação linear negativa e perfeita r = 0 inexistência de correlação linear 20 30 40 90 100 110 120 130 X Y No exemplo: Correlação entre Y e X = 0,768 . 4 REGRESSÃO LINEAR SIMPLES 5 Diagramas de Dispersão Explicar a forma da relação por meio de uma função matemática: Y = + ×X REGRESSÃO LINEAR SIMPLES Modelo de Análise de Variância Modelo estatístico: Observação = parte previsível + erro aleatório (variação indiv.) Relembrando, temos k populações: O modelo pode ser escrito na forma: yij=i+ eij, i=1, ..., k e j=1, 2, ..., ni. 6 População 1 População 2 . . . População k Y1,1 Y2,1 . . . Yk,1 Y1,2 Y2,2 . . . Yk,2 ... ... ... Y1,n1 Y2,n2 . . . Yk,nk Modelo estatístico: Observação = parte previsível + erro aleatório (variação indiv.) O modelo de regressão linear simples pode ser escrito na forma: yi = + xi + ei, i=1, ..., n. em que a variável resposta Y é a variável dependente e a variável X é a variável independente ou explicativa. Observe que, para cada indivíduo ou unidade amostral, observamos o par (xi, yi). PARÂMETROS: : INTERCEPTO : INCLINAÇÃO 2: Variância do erro. ERRO: ei . 7 Modelo de Regressão Linear Simples SIGNIFICADO DOS PARÂMETROS: : valor médio (ou valor esperado) da variável resposta Y, quando X = 0. : inclinação da reta. e i : erro aleatório – espera-se que esse erro seja pequeno. e desconhecidos: precisamos estimá-los e testar hipóteses de interesse. Por exemplo: interesse em verificar se é igual a zero ou não. SUPOSIÇÕES: ei ~ N (0, 2), independentes, i = 1, ..., n. Essa suposição é equivalente a supor yi ~N( + xi , 2 ), independentes. 8 Modelo de Regressão Linear Simples Modelo de regressão linear simples: yi = + xi + ei, i = 1, ..., n. Erro: ei = yi - - xi ESTIMAÇÃO DOS PARÂMETROS: Utiliza-se o método de mínimos quadrados para estimar os parâmetros de interesse. Método de Mínimos Quadrados: encontra estimadores de e que minimizam a soma do quadrado dos erros (ou resíduos): n 1i 2 1 2 )( ii n i i xye 9 Modelo de Regressão Linear Simples Pode-se demonstrar que os estimadores de mínimos quadrados são dados por A reta de regressão estimada fica dada por: Os valores são conhecidos como VALORES AJUSTADOS. 2 1 2 1ˆ xnx yxnyx n i i n i ii iyˆ xy ˆˆ ii xy ˆˆˆ 10 Modelo de Regressão Linear Simples Interpretação de : XY ˆˆˆ ˆ Para cada aumento de uma unidade em X, temos um aumento médio (ou esperado) de unidades em Y. ˆ ˆ )1(ˆ )ˆˆ()1(ˆˆˆˆ 11 1112 xx xxyy 11 x1x 2yˆ 1yˆ ˆ 11 Modelo de Regressão Linear Simples Exemplo 1: Tempo de Reação Indivíduo Y Idade Y2 Idade2 Y*Idade 1 96 20 9216 400 1920 2 92 20 8464 400 1840 3 106 20 11236 400 2120 4 100 20 10000 400 2000 5 98 25 9604 625 2450 6 104 25 10816 625 2600 7 110 25 12100 625 2750 8 101 25 10201 625 2525 9 116 30 13456 900 3480 10 106 30 11236 900 3180 11 109 30 11881 900 3270 12 100 30 10000 900 3000 13 112 35 12544 1225 3920 14 105 35 11025 1225 3675 15 118 35 13924 1225 4130 16 108 35 11664 1225 3780 17 113 40 12769 1600 4520 18 112 40 12544 1600 4480 19 127 40 16129 1600 5080 20 117 40 13689 1600 4680 SOMA 2150 600 232498 19000 65400 Exemplo 1: Um psicólogo está investigando a relação entre o tempo que um indivíduo leva para reagir a um estímulo visual (Y) e idade (X). 12 ii xy 0,9080,50 ˆ 80,50300,90107,50ˆ 0,90 302019000 107,5302065400ˆ 2 α β Interpretação: aumentando-se 1 ano na idade, o tempo médio de reação aumenta 0,90. 98,50200,9080,50(20)ˆ y Podemos prever, por exemplo, o tempo médio de reação para pessoas de 20 anos 13 Exemplo 1: Tempo de Reação 14 116,5.(40)ˆ 112;(35)ˆ 107,50;(30)ˆ 103;(25)ˆ y yyy Vantagem: permite estimar o tempo médio de reação para idades não observadas 110,20330,9080,50(33)ˆ y 20 30 40 90 100 110 120 130 X Y Y = 80,5 + 0,9X R-Sq = 59,0 % Regression Plot Exemplo 1: Tempo de Reação TESTE PARA Em geral uma hipótese de interesse é H0: = 0 H1: ≠ 0 Observe que, se = 0, o modelo fica dado por yi = + ei, i =1, ..., n. (MODELO 0) Pode-se demonstrar que, se o MODELO 0 é verdadeiro, o estimador de mínimos quadrados de é dado por yα ˆ 15 Modelo de Regressão Linear Simples Definimos a soma de quadrados total, dada pela soma do quadrado dos erros do MODELO 0: Definimos a soma de quadrados residual, dada pela soma do quadrado dos erros do MODELO de regressão: Definimos a soma de quadrados da regressão, dada por: n i i yySQT 1 2)( n ii n ii yyxySQRes 1i 2 1i 2 )ˆ( )ˆˆ( n i xxSQResSQT-SQReg 1i 22 )(ˆ 16 No exemplo, SQT= SQReg = SQRes = Modelo de Regressão Linear Simples Definimos os quadrados médios, dados por: A estatística F é dada por: 2 1 yS n SQT QMT 2 2 eS n SQRes QMRes 17 Estimativa de 2 No exemplo, F = Modelo de Regressão Linear Simples 1 SQReg QMReg QMRes QMReg F Podemos organizar os resultados em uma tabela de Análise de Variância (ANOVA): 18 Fonte de Variação g.l. Soma de Quadrados Quadrado Médio Teste F Regressão 1 SQReg QMReg = SQReg F= QMReg/QMRes Resíduo n - 2 SQRes QMRes = SQRes/( n - 2) Total n - 1 SQT Observações: A estatística F tem distribuição F com 1 grau de liberdade no numerador e (n-2) no denominador. A Região Crítica é dada por RC = {F: F ≥ fc}, em que fc é obtido da tabela F(1; n-2). Se FobsRC ou P-valor < , então concluímos que 0. ANOVA do Modelo de Regressão Linear Simples Exemplo 1: Tempo de Reação Reta estimada: Hipóteses: H0: = 0 H1: ≠ 0 ANOVA ii xy 0,9080,50ˆ Fonte de Variação gl SQ QM F Valor p Regressão 1 810 810,00 25,90 <0,0001 Resíduo 18 563 31,28 Total 19 1373 Portanto, rejeita-se H0. 19 Uma medida de avaliação do modelo é dada pelo coeficiente de determinação ou de explicação, calculado por: • Observe que 0 R2 1. • Quanto menor o valor de R2, mais evidências se tem de que o modelo não é adequado. • R2 = r2 = (corr(X, Y))2 No exemplo: R2 = 810/1373=59%. 20 Modelo de Regressão Linear Simples SQTot SQRes-SQTot SQTot SQReg R2 TESTE PARA Pode-se ter interesse em testar H0: = (0) H1: ≠ (0) Resultado: Estatística de teste: n i i n i i 2 xxn x ;N~α 1 2 1 2 )( ˆ n i i n i i e x xxn S t 1 2 1 2 )0( )()ˆ( Sob H0, t tem distribuição t com (n-2) graus de liberdade. A RC é dada por: RC={t: t ≤-tc ou t ≥ tc}. 21 Modelo de Regressão Linear Simples Intervalo de Confiança para : n i i n i i e xxn x StγαIC 1 2 1 2 )( ˆ ) ;( No exemplo: 77,14 000.19 100020 59,5 5,80 t Nível de significância de 5% e g.l.= 18 RC={t: t ≤-2,101 ou t ≥2,101}. Portanto, rejeita-se H0. Intervalo de Confiança de 95%: )95,91 ; 05,69( 45,115,80 201000 000.19 59,5101,25,80950 ) ;( ,αIC 22 Modelo de Regressão Linear Simples TESTE PARA : Pode-se ter interesse em testar H0: = (0) H1: ≠ (0) Resultado: n i i 2 xx ;N~ 1 2)( ˆ Estatística de teste: n i i e xx S t 1 2 )0( )( )ˆ( Sob H0, t tem distribuição t com (n-2) graus de liberdade. A RC é dada por: RC={t : t ≤-tc ou t ≥tc}. 23 Modelo de Regressão Linear Simples Intervalo de Confiança para : n i i e xx StγβIC 1 2)( 1ˆ ) ;( No exemplo: 09,5000.1 59,5 90,0 t Nível de significância de 5%, g.l.=18 RC={t: t ≤-2,101 ou t ≥2,101}. Portanto, rejeita-se H0. Intervalo de Confiança de 95%: ),201 ; 60,0( 30,090,0 1000 1 59,5101,290,0950 ) ;( ,αIC Observação: t 2 =25,90 = F. 24 Modelo de Regressão Linear Simples Intervalo de confiança para a média da variável resposta Y, para um dado valor de X O modelo de regressão linear é escrito na forma: yi = + xi + ei, i =1, ..., n. SUPOSIÇÕES: ei ~ N(0, 2) independentes. Essa suposição é equivalente a yi ~N( + xi , 2 ), indep. ii xx ˆˆ)(ˆ 25 Modelo de Regressão Linear Simples Seja E (Y|xi) = (xi)= + xi . Queremos construir um IC para (xi). Estimador de (xi): Intervalo de Confiança para a Média (xi) n i i i2 iii xx xx n ;xN~xx 1 2 2 )( )(1 ˆˆ)(ˆ )( )(1 ) ˆˆ() );(( 1 2 2 n i i i eii xx xx n StxxIC 26 Resultado: Modelo de Regressão Linear Simples Exemplo 1: Tempo de Reação 27 105,7820,9080,50)28(ˆ(28)ˆ y 20 30 40 90 100 110 120 130 X Y Y = 80,5 + 0,9X R-Sq = 59,0 % Regression Plot ,ˆ ii xy 0,9080,50 Reta estimada: sendo Y o tempo de reação e X a idade. Para x = 28, 108,4) ;0,103(7,2 105,7 1000 )3028( 20 1 59,5101,2)289,05,80()95,0 ; )28(( 2 IC 4035302520 130 120 110 100 90 Idade Y S 5,59265 R2 59,0% Regressão IC 95% Reta Ajustada Y = 80,50 + 0,9000 Idade 28 Modelo de Regressão Linear Simples Intervalo de Predição No modelo de regressão linear escrito na forma: yi = + xi + ei, i=1, ..., n, queremos construir um IC para uma futura observação. Futura observação: conhecemos xf . • Objetivo: Estimar yf = + xf + ef. 29 Modelo de Regressão Linear Simples 30 n i i i2 fff xx xx n xN~xy 1 2 2 )( )(1 1 ; ˆˆˆ 0 ˆˆˆ ˆˆˆ ffff xexy • Estimador de yf : Resultado: Intervalo de Predição n i i i eff xx xx n StxyIP 1 2 2 )( )(1 1 ) ˆˆ();( No exemplo: )17,81 ; 6,93(1,127,105 1000 )3028( 20 1 159,5101,2)2890,05,80()95,0 );28(( 2 fyIP Modelo de Regressão Linear Simples 4035302520 130 120 110 100 90 80 Idade Y S 5,59265 R2 59,0% Regressão IC 95% IP 95% Reta ajustada Y = 80,50 + 0,9000 Idade 31 Modelo de Regressão Linear Simples Análise de Resíduos 32 O modelo de regressão linear pode ser escrito na forma: yi = + xi + ei, i =1, ..., n. SUPOSIÇÕES: ei ~ N (0, 2) independentes. Reta estimada: Os resíduos são dados por ei = yi - - xi , i =1, ..., n. Os resíduos podem ser estimados por ...., ,1 , ˆˆˆ nixye iii ii xy ˆˆˆ 33 Análise de Resíduos Definimos: RESÍDUO PADRONIZADO: RESÍDUO ESTUDENTIZADO: Espera-se que em torno de 95% dos resíduos padronizados/estudentizados estejam entre os limites –2 e 2. e i i S e z ˆ ˆ n i i i ii xx xx n 1 2 2 /1 iie i i S e r 1 ˆ ˆ 34 Análise de Resíduos Podemos construir gráficos dos resíduos (padronizados/estudentizados) em função dos valores de xi e dos valores ajustados. É necessário verificar: Os pontos estão dispersos aleatoriamente no gráfico (ausência de tendências)? A variância parece constante (aumenta/diminui com o aumento de x)? Existem muitos pontos atípicos (“outliers”)? Análise de Resíduos 35 Exemplo 1: Tempo de Reação Indivíduo Y Idade Resíduos Resíduos Padronizados Resíduos Estudentizados 1 96 20 -2,5 -0,45 -0,48 2 92 20 -6,5 -1,16 -1,26 3 106 20 7,5 1,34 1,45 4 100 20 1,5 0,27 0,29 5 98 25 -5 -0,89 -0,93 6 104 25 1 0,18 0,19 7 110 25 7 1,25 1,30 8 101 25 -2 -0,36 -0,37 9 116 30 8,5 1,52 1,56 10 106 30 -1,5 -0,27 -0,28 11 109 30 1,5 0,27 0,28 12 100 30 -7,5 -1,34 -1,38 13 112 35 0 0,00 0,00 14 105 35 -7 -1,25 -1,30 15 118 35 6 1,07 1,12 16 108 35 -4 -0,72 -0,74 17 113 40 -3,5-0,63 -0,68 18 112 40 -4,5 -0,80 -0,87 19 127 40 10,5 1,88 2,04 20 117 40 0,5 0,09 0,10 36 IdadeyíduoRes i 9,05,80 Exemplo 1: Tempo de Reação 37 Exemplo 2: dados fictícios X1 Y1 X2 Y2 X3 Y3 X4 Y4 10 8,04 10 9,14 10 7,46 8 6,58 8 6,95 8 8,14 8 6,77 8 5,76 13 7,58 13 8,74 13 12,74 8 7,71 9 8,81 9 8,77 9 7,11 8 8,84 11 8,33 11 9,26 11 7,81 8 8,47 14 9,96 14 8,1 14 8,84 8 7,04 6 7,24 6 6,13 6 6,08 8 5,25 4 4,26 4 3,1 4 5,39 19 12,5 12 10,84 12 9,13 12 8,15 8 5,56 7 4,82 7 7,26 7 6,42 8 7,91 5 5,56 5 4,74 5 5,73 8 6,89 Considere 4 conjuntos de dados fictícios: 38 39 Exemplo 2: dados fictícios Dados 2 Reta Ajustada: ii xy 0,503 0,ˆ R2= 0,667. Dados 3 Reta Ajustada: ii xy 0,503 0,ˆ R2= 0,667. Dados 4 Reta Ajustada: ii xy 0,503 0,ˆ R2= 0,667. Dados 1 Reta Ajustada: ii xy 0,503 0,ˆ R2= 0,667. 40 Exemplo 2: dados fictícios Fonte de variação gl SQ MQ F Valor p Regressão 1 27,51 27,51 17,9899 0,0022 Resíduo 9 13,7627 1,5292 Total 10 41,2727 ANOVA ( para os 4 conjuntos de dados fictícios) 41 Exemplo 2: dados fictícios 42 Exemplo 2: dados fictícios Exemplo 3: Concentração Arsênico Pesquisa: avaliar a performance de um novo método de laboratório para determinar a concentração de arsênico em amostras de água - que é muito mais barato do que o método usual. Se esse novo método for aceito, ele será usado para avaliar a qualidade da água despejada por indústrias. Estudo: amostras de água com quantidade conhecida de concentração de arsênico. Essas amostras são submetidas à análise pelo novo método e os resultados obtidos são anotados. Os dados obtidos foram: 43 OBS Concentração medida (Y) Concentração verdadeira (X) 1 0,17 0 2 0,25 0 3 0,01 0 4 0,12 0 5 1,25 1 6 0,86 1 7 1,25 1 8 1,1 1 9 2,01 2 10 2,03 2 11 2,14 2 12 1,74 2 13 3,18 3 14 2,99 3 15 3,23 3 16 3,37 3 17 3,91 4 18 3,9 4 19 3,61 4 20 4,27 4 21 4,88 5 22 5,33 5 23 4,96 5 24 4,98 5 25 6,09 6 26 6,17 6 27 6,07 6 28 5,97 6 29 6,67 7 30 7,02 7 31 7,14 7 32 7,3 7 Diagrama de Dispersão 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 Concentração de arsênico Va lo r m ed id o 44 Exemplo 3: Concentração Arsênico OBS Concentração medida (Y) Concentração verdadeira (X) Y2 X2 XY 1 0,17 0 0,03 0,00 0,00 2 0,25 0 0,06 0,00 0,00 3 0,01 0 0,00 0,00 0,00 4 0,12 0 0,01 0,00 0,00 5 1,25 1 1,56 1,00 1,25 6 0,86 1 0,74 1,00 0,86 7 1,25 1 1,56 1,00 1,25 8 1,1 1 1,21 1,00 1,10 9 2,01 2 4,04 4,00 4,02 10 2,03 2 4,12 4,00 4,06 11 2,14 2 4,58 4,00 4,28 12 1,74 2 3,03 4,00 3,48 13 3,18 3 10,11 9,00 9,54 14 2,99 3 8,94 9,00 8,97 15 3,23 3 10,43 9,00 9,69 16 3,37 3 11,36 9,00 10,11 17 3,91 4 15,29 16,00 15,64 18 3,9 4 15,21 16,00 15,60 19 3,61 4 13,03 16,00 14,44 20 4,27 4 18,23 16,00 17,08 21 4,88 5 23,81 25,00 24,40 22 5,33 5 28,41 25,00 26,65 23 4,96 5 24,60 25,00 24,80 24 4,98 5 24,80 25,00 24,90 25 6,09 6 37,09 36,00 36,54 26 6,17 6 38,07 36,00 37,02 27 6,07 6 36,84 36,00 36,42 28 5,97 6 35,64 36,00 35,82 29 6,67 7 44,49 49,00 46,69 30 7,02 7 49,28 49,00 49,14 31 7,14 7 50,98 49,00 49,98 32 7,3 7 53,29 49,00 51,10 SOMA 113,97 112 570,8611 560 564,83 45 Exemplo 3: Concentração Arsênico Os parâmetros estimados são dados por: Coeficientes estimados Intercepto 0,105 Concentração verdadeira (X) 0,988 xy 988,0105,0ˆ 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 Co nc en tra çã o m ed ida (Y ) Concentração verdadeira (X) Reta Ajustada Concentração medida (Y) Previsto(a) Concentração medida (Y) 46 A reta ajustada fica dada por: Exemplo 3: Concentração Arsênico Hipóteses: H0: = 0 H1: ≠ 0 Tabela de ANOVA Fonte de Variação gl SQ QM F Valor p Regressão Resíduo Total 47 Exemplo 3: Concentração Arsênico 48 Exemplo 3: Concentração Arsênico Hipóteses H0: = 0 H1: ≠ 0 817,1 560 989,16732 179,0 105,0 t Nível de significância de 5% e g.l.=30 RC={t: t ≤-2,042 ou t ≥2,042}. Portanto, NÃO se rejeita H0. Estatística de teste n i i n i i e x xxn S t 1 2 1 2)( ˆ 49 Exemplo 3: Concentração Arsênico Intervalo de Confiança para : n i i n i i e xxn x StγαIC 1 2 1 2 )( ˆ );( ),2281 ; 018,1( 123,1105,0 32989,167 560 179,0042,2105,00,95 ( );IC 50 Exemplo 3: Concentração Arsênico REGRESSÃO LINEAR SIMPLES: reta passando pela origem O modelo de regressão linear pode ser escrito na forma: yi = xi + ei, i =1, ..., n. PARÂMETROS: : INCLINAÇÃO 2: Variância do erro. ERRO: ei . Método de Mínimos Quadrados: encontra estimador de que minimiza a soma do quadrado dos erros: n i ii n i i xye 1 2 1 2 )( 51 Pode-se demonstrar que o estimador de mínimos quadrados para é A reta de regressão estimada fica dada por: ˆ 1 2 1 n i i n i ii x yx iyˆ ii xy ˆˆ 52 REGRESSÃO LINEAR SIMPLES: reta passando pela origem O parâmetro estimado é dado por: Coeficiente estimado Concentração verdadeira (X) 1,009 0 1 2 3 4 5 6 7 8 0 2 4 6 8 Co nc en tr aç ão m ed id a (Y ) Concentração verdadeira (X) Reta Ajustada Concentração medida (Y) Previsto(a) Concentração medida (Y) xy 009,1ˆ Exemplo 3: Concentração Arsênico - reta passando pela origem 53 A reta ajustada fica dada por: Regressão linear no Rcmdr Como fazer a análise de regressão linear no Rcmdr: Estatísticas Ajuste de modelos Regresão linear Para obter gráficos de resíduos: Modelos Gráficos Diagnósticos Gráficos Básicos Alternativa: Na planilha EXCEL construir os resíduos; Fazer diagrama de dispersão entre resíduos versus valores ajustados ou resíduos versus X 54
Compartilhar