Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE MATEMÁTICA E ESTATÍSTICA Gulliver Augusto – 2011.1.00418-11 Hosana Rachel – 2011.1.00405-11 Tânia Souza – 2011.1.00423-11 Profª.: Damazio Disciplina: Modelos de Regressão linear I Regressão linear Rio de Janeiro 2013 Questão 1: Defina regressão de Y em X. Regressão é o processo matemático pelo qual derivamos os parâmetros “a” e “b” de uma função f (X). Estes parâmetros determinam as características da função que relaciona ‘Y’ com ‘X’ que no caso do modelo linear se representa por uma reta chamada de reta de regressão. Esta reta explica de forma geral e teoricamente a relação entre X e Y. Isto significa que os valores observados de X e Y nem sempre serão iguais aos valores de X’e Y’ estimados pela reta de regressão. Haverá sempre alguma diferença, e essa diferença significa; (1) que as variações de Y não são perfeitamente explicadas pelas variações de X ou; (2) que existem outras variáveis das quais Y depende ou; (3) que os valores de X e Y são obtidos de uma amostra específica que apresenta distorções em relação a realidade. Esta diferença em estatística é chamada de erro ou desvio. O processo de regressão significa, portanto, que os pontos plotados no gráfico são definidos, modelados ou regredidos, a uma reta que corresponde à menor distância possível entre cada ponto plotado e a reta. Em outras palavras, busca-se reduzir ao mínimo possível os somatórios dos desvios entre Y e Y’. Y = α + β X equação da reta a partir dos dados coletados Y’ = a + b X’ equação da reta a partir das estimativas Dessa forma, podemos concluir que, sendo Y e X variáveis aleatórias, supondo-se que haja interesse em estudar Y, denominando-o como variável de interesse ou variável de resposta, e considerando X como variável auxiliar ou regressora, define-se regressão de Y em X, como o modelo capaz de descrever a variável Y como uma reta, função de X mais um erro (componente aleatória) que representa toda e qualquer variação em Y provocada por fatores diversos. Ou seja, a variável Y possui um valor esperado dado um valor de X mais uma parte aleatória variando em torno dessa esperança. A componente do valor de Y em função de X é a parte determinística, e as distorções para mais ou para menos consideradas aleatórias supõe-se que tenha esperança igual à zero. Essa componente aleatória independe de X. Dentro desse modelo espera-se que os valores assumidos pela variável X “expliquem” parte dos valores assumidos por Y, sendo a parte aleatória devida a fatores diversos, responsável pelos desvios. Utilizando-se a equação da reta y = a + bx + ɛ considerando: a, b e x constantes E[ɛ] = 0 Var[ɛ] = σ2 Definimos esse modelo de regressão linear simples como: Y = α + βx + ɛ Questão 2: Derive o estimador de mínimos quadrados de Y= bx Método dos Mínimos Quadrados é o método de computação matemática pelo qual se define a curva de regressão. Esse método definirá uma reta que minimizará a soma das distâncias ao quadrado entre os pontos plotados (X, Y) e a reta (X’,Y’). Pelo método dos mínimos quadrados calculam-se os parâmetros “a“ e “b” da reta que minimiza estas distancias ou as diferenças (ou o erro) entre Y e Y’. Esta reta é chamada de curva de regressão. Y= bx Regressão linear simples ŷ = a + bx a=0 ŷi = bx Ɛ = [yi – ŷi] 2 ∑ ∑ O mínimo da função é obtido derivando-a e igualando o resultado a zero. ∑ ∑ ∑ ∑ ∑ ∑ Questão 3: A tabela contém a área de drenagem em km2 (Ad) e a vazão média em m3/s (ǭ) de 19 postos fluviométricos rio Grande afluente do rio São Francisco. Escolha pelo coeficiente de determinação um dentre os modelos da classe: Considerando sucessivamente p = 1/3, ½, 1, 1,5 e 2 Para cada p estime os parâmetros, apresente os gráficos de ajuste e dos resíduos e a tabela de análise de variância. – Ad (km2) Q(m3/s) 1 4.772,00 33,18 2 6.418,00 52,03 3 4.734,00 5,46 4 5.383,00 51,97 5 24.061,00 110,36 6 2.704,00 12,85 7 3.564,00 21,88 8 7.620,00 50,19 9 8.321,00 42,10 10 8.474,00 41,16 11 33.022,00 180,93 12 34.062,00 176,89 13 36.080,00 178,24 14 39.757,00 174,79 15 6.441,00 33,86 16 14.551,00 93,91 17 18.249,00 91,34 18 21.954,00 92,29 19 62.535,00 272,86 Nesse exercício, a variável vazão média (Q) é a variável dependente, a qual chamaremos de ŷi e a área de drenagem (Ad), a variável independente, a qual trataremos por xi. Para que os cálculos fossem implementados no excel, utilizamos as seguintes fórmulas: 1) Estimação dos parâmetros ŷi = β0 + β1 xi Ɛ = [yi – ŷi] 2 ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ Relacionando as equações: { ∑ ∑ ∑ ∑ ∑ Aplicando a Regra de Crammer, podemos encontrar os parâmetros que desejamos, D =| ∑ ∑ ∑ | D =| ∑ ∑ ∑ ∑ | D =| ∑ ∑ ∑ | Logo, ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 2) Coeficiente de determinação - ∑ ̅ ̅ √∑ ̅ ̅ ∑ ̅ ̅ ∑ ̅ ̅ Com as fórmulas enunciadas, a partir de agora substituiremos apenas os valores encontrados nos cálculos feitos em excel. Abaixo os resultados obtidos com cada modelo: Modelo 1 (p=1/3) Parâmetros Coeficiente de determinação Gráfico de dispersão e ajuste linear dos dados Conclusões estatísticas a parir da ferramenta Análise de dados do excel (gráficos de resíduos e ajuste, tabela análise da variância - anova, R2, entre outros) y = 0,1594x + 0,3135 R² = 0,9106 0 1 2 3 4 5 6 7 0 10 20 30 40 50 Q(m3/s) - yi Q(m3/s) - yi Linear (Q(m3/s) - yi) Regression Statistics Multiple R 0,954268698 R Square 0,910628747 Adjusted R Square 0,905371615 Standard Error 0,390338367 Observations 19 ANOVA df SS MS F Significance F Regression 1 26,39215874 26,39215874 173,2177656 2,41894E-10 Residual 17 2,590188697 0,152364041 Total 18 28,98234744 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0%Upper 95,0% Intercept 0,313531023 0,304648463 1,029156753 0,317827163 -0,32922105 0,956283095 -0,32922105 0,956283 X Variable 1 0,159385301 0,01211022 13,16122204 2,41894E-10 0,133834969 0,184935633 0,133834969 0,184936 RESIDUAL OUTPUT Observation Predicted Y Residuals Standard Residuals 1 2,996908343 0,216447297 0,570588109 2 3,27550681 0,457722 1,20662505 3 2,989766669 -1,228882127 -3,239520842 4 3,106866258 0,62492697 1,64740287 5 4,914890436 -0,118249268 -0,311723117 6 2,534029581 -0,191773496 -0,505544204 7 2,748130353 0,04880507 0,128657612 8 3,449944106 0,238747934 0,629375992 9 3,543314738 -0,064531528-0,170114957 10 3,562990207 -0,110293303 -0,290749981 11 5,427005086 0,228918427 0,603463912 12 5,480132708 0,133376344 0,351600399 13 5,580213177 0,047540207 0,125323242 14 5,753371134 -0,162164697 -0,427490891 15 3,27904084 -0,043881682 -0,115678811 16 4,204692138 0,340692225 0,898116701 17 4,509780403 -0,006244088 -0,01646037 18 4,776454973 -0,257359166 -0,678438041 19 6,639921363 -0,153797116 -0,405432672 Modelo 2 (p=1/2) Parâmetros Coeficiente de determinação Gráfico de dispersão e ajuste linear dos dados Conclusões estatísticas a parir da ferramenta Análise de dados do excel (gráficos de resíduos e ajuste, tabela análise da variância - anova, R2, entre outros) y = 0,065x + 0,7986 R² = 0,9353 0 2 4 6 8 10 12 14 16 18 0 100 200 300 Q(m3/s) - yi Q(m3/s) - yi Linear (Q(m3/s) - yi) SUMMARY OUTPUT Regression Statistics Multiple R 0,96711413 R Square 0,935309741 Adjusted R Square0,931504432 Standard Error 1,012967835 Observations 19 ANOVA df SS MS F Significance F Regression 1 252,2068047 252,2068047 245,790724 1,53256E-11 Residual 17 17,4437652 1,026103836 Total 18 269,6505699 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0%Upper 95,0% Intercept 0,798581554 0,556482539 1,435052313 0,169414873 -0,375493975 1,972657084 -0,37549397 1,972657 X Variable 1 0,06496101 0,004143526 15,67771425 1,53256E-11 0,056218935 0,073703085 0,056218935 0,073703 RESIDUAL OUTPUT Observation Predicted Y Residuals Standard Residuals 1 5,286066294 0,474142036 0,481642272 2 6,00276532 1,210417057 1,229564092 3 5,268163396 -2,931499107 -2,977871152 4 5,564701383 1,644320742 1,670331501 5 10,87507911 -0,369842317 -0,375692684 6 4,176554063 -0,591864398 -0,60122683 7 4,676704873 0,000901353 0,000915611 8 6,469197736 0,615292366 0,625025394 9 6,724293391 -0,235842112 -0,23957279 10 6,778523902 -0,362917929 -0,368658762 11 12,60326794 0,847754325 0,861164564 12 12,78771625 0,512283749 0,520387331 13 13,13775394 0,212901475 0,216269266 14 13,75125958 -0,530442661 -0,538833491 15 6,012082021 -0,193147411 -0,196202721 16 8,634667444 1,056049764 1,072754933 17 9,574090288 -0,016894046 -0,017161285 18 10,42377789 -0,817009444 -0,829933343 19 17,04338064 -0,524603441 -0,532901903 Modelo 3 (p=1) Parâmetros Coeficiente de determinação Gráfico de dispersão e ajuste linear dos dados y = 0,0044x + 10,602 R² = 0,9664 0 50 100 150 200 250 300 350 0 20000 40000 60000 80000 Q(m3/s) - yi Q(m3/s) - yi Linear (Q(m3/s) - yi) SUMMARY OUTPUT Regression Statistics Multiple R 0,983041752 R Square 0,966371085 Adjusted R Square0,964392914 Standard Error 13,91928799 Observations 19 ANOVA df SS MS F Significance F Regression 1 94648,56622 94648,56622 488,5173564 5,80801E-14 Residual 17 3293,69183 193,7465782 Total 18 97942,25805 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0%Upper 95,0% Intercept 10,60240312 4,817624189 2,200753464 0,041862557 0,438104559 20,76670168 0,438104559 20,7667 X Variable 1 0,004420325 0,000199993 22,10242875 5,80801E-14 0,003998378 0,004842273 0,003998378 0,004842 RESIDUAL OUTPUT Observation Predicted Y Residuals Standard Residuals 1 31,69619573 1,483804273 0,109691099 2 38,97205127 13,05794873 0,965316502 3 31,52822336 -26,06822336 -1,927108668 4 34,39701452 17,57298548 1,299093236 5 116,9598516 -6,599851551 -0,487897888 6 22,55496289 -9,704962887 -0,717445061 7 26,35644269 -4,476442695 -0,330923646 8 44,28528235 5,904717655 0,436509708 9 47,38393042 -5,283930421 -0,390617649 10 48,0602402 -6,900240201 -0,510104295 11 156,5703871 24,35961292 1,800798641 12 161,1675255 15,72247455 1,162293132 13 170,087742 8,152257976 0,602660442 14 186,3412784 -11,55127836 -0,853935013 15 39,07371875 -5,213718749 -0,38542721 16 74,9225574 18,9874426 1,403657806 17 91,26892057 0,071079428 0,005254588 18 107,646226 -15,35622602 -1,135217996 19 287,0274494 -14,15744936 -1,046597729 Conclusões estatísticas a parir da ferramenta Análise de dados do excel (gráficos de resíduos e ajuste, tabela análise da variância - anova, R2, entre outros) Modelo 4 (p=1,5) Parâmetros Coeficiente de determinação Gráfico de dispersão e ajuste linear dos dados y = 0,0003x + 136,06 R² = 0,97 0 1000 2000 3000 4000 5000 6000 0 5000000 10000000 15000000 20000000 Q(m3/s) - yi Q(m3/s) - yi Linear (Q(m3/s) - yi) Conclusões estatísticas a parir da ferramenta Análise de dados do excel (gráficos de resíduos e ajuste, tabela análise da variância - anova, R2, entre outros) SUMMARY OUTPUT Regression Statistics Multiple R 0,984885959 R Square 0,970000351 Adjusted R Square0,968235666 Standard Error 214,5069732 Observations 19 ANOVA df SS MS F Significance F Regression 1 25292250,41 25292250,41 549,6733016 2,19649E-14 Residual 17 782225,1065 46013,24156 Total 18 26074475,51 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0% Upper 95,0% Intercept 136,0613818 62,85739868 2,164604082 0,044939364 3,443862845 268,6789007 3,443862845 268,6789 X Variable 1 0,000297524 1,26902E-05 23,44511253 2,19649E-14 0,00027075 0,000324298 0,00027075 0,000324 RESIDUAL OUTPUT Observation Predicted Y Residuals Standard Residuals 1 234,1396132 -43,01590079 -0,206347589 2 289,0367624 86,26511668 0,413814392 3 232,9704357 -220,2122487 -1,056359759 4 253,566976 121,0859039 0,580849962 5 1246,494697 -87,13676479 -0,417995695 6 177,8956334 -131,8323712 -0,632400844 7 199,3649975 -97,01897327 -0,465400721 8 333,9653171 21,60524108 0,103640499 9 361,8932651 -88,72946623 -0,425635895 10 368,1504381 -104,0840963 -0,499292167 11 1921,426448 512,2670102 2,457348574 12 2006,429927 346,2070728 1,660757847 13 2175,082701 204,5381202 0,98117085 14 2494,596689 -183,7300996 -0,881354624 15 289,8598188 -92,83069291 -0,445309509 16 658,2906816 251,7645714 1,20771648 17 869,5283837 3,425921005 0,016434168 18 1103,876636 -217,2679763 -1,042236063 19 4788,7791 -281,3003671 -1,349399907 Modelo 4 (p=2) Parâmetros Coeficiente de determinação Gráfico de dispersão e ajuste linear dos dados y = 2E-05x + 1879,9 R² = 0,9677 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 0 2E+09 4E+09 6E+09 Q(m3/s) - yi Q(m3/s) - yi Linear (Q(m3/s) - yi) Conclusões estatísticas a parir da ferramenta Análise de dados do excel (gráficos de resíduos e ajuste, tabela análise da variância - anova, R2, entre outros) SUMMARY OUTPUT Regression Statistics Multiple R 0,983705321 R Square 0,967676159 Adjusted R Square 0,965774757 Standard Error 3533,652553 Observations 19 ANOVA df SS MS F Significance F Regression1 6354826433 6354826433 508,9275988 4,14622E-14 Residual 17 212273906,2 12486700,36 Total 18 6567100339 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0% Upper 95,0% Intercept 1879,919402 956,0928516 1,966251917 0,065816647 -137,2601898 3897,098994 -137,2601898 3897,099 X Variable 1 1,97056E-05 8,73495E-07 22,55942372 4,14622E-14 1,78626E-05 2,15485E-05 1,78626E-05 2,15E-05 RESIDUAL OUTPUT Observation Predicted Y Residuals Standard Residuals 1 2328,65388 -1227,74148 -0,3575155 2 2691,605288 15,5156116 0,00451811 3 2321,535683 -2291,724083 -0,667344792 4 2450,921007 249,9598934 0,072787747 5 13288,08758 -1108,757985 -0,32286778 6 2023,99882 -1858,87632 -0,541300517 7 2130,221195 -1651,486795 -0,480909163 8 3024,110361 -505,0742606 -0,147076465 9 3244,312812 -1471,902812 -0,42861472 10 3294,948883 -1600,803283 -0,466150241 11 23367,88574 9367,77916 2,727875785 12 24742,68997 6547,382135 1,906582646 13 27531,94275 4237,554847 1,233966243 14 33026,88767 -2475,34357 -0,720814365 15 2697,433343 -1550,933743 -0,451628345 16 6052,207128 2766,880972 0,805709387 17 8442,380036 -99,38443578 -0,02894052 18 11377,56344 -2860,119339 -0,832860185 19 78940,96141 -4482,924513 -1,305417326 Conclusão A partir das análises feitas anteriormente, podemos concluir que o melhor modelo é o de número 4 (p=1,5), pois é o que apresenta coeficiente de determinação mais próximo de 1. Verificamos que o seu r2 foi igual a 0,97. Isso mostra que o modelo explica bem os dados observados.
Compartilhar