2013.1 - Prof Damazio - Regressão linear

•

UERJ

Estudante PD

07/09/2013

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Modelos de Regressão Linear

27 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO 
 INSTITUTO DE MATEMÁTICA E ESTATÍSTICA 
 
 
 
 
 
Gulliver Augusto – 2011.1.00418-11 
Hosana Rachel – 2011.1.00405-11 
Tânia Souza – 2011.1.00423-11 
Profª.: Damazio 
Disciplina: Modelos de Regressão linear I 
 
 
 
 
Regressão linear 
 
 
 
 
 
 
 
 
 
Rio de Janeiro 
2013 
 
Questão 1: Defina regressão de Y em X. 
 
Regressão é o processo matemático pelo qual derivamos os parâmetros “a” e “b” de uma 
função f (X). Estes parâmetros determinam as características da função que relaciona ‘Y’ 
com ‘X’ que no caso do modelo linear se representa por uma reta chamada de reta de 
regressão. Esta reta explica de forma geral e teoricamente a relação entre X e Y. Isto 
significa que os valores observados de X e Y nem sempre serão iguais aos valores de X’e Y’ 
estimados pela reta de 
regressão. Haverá sempre alguma diferença, e essa diferença significa; 
 
(1) que as variações de Y não são perfeitamente explicadas pelas variações de X ou; 
(2) que existem outras variáveis das quais Y depende ou; 
(3) que os valores de X e Y são obtidos de uma amostra específica que apresenta 
distorções em relação a realidade. 
 
Esta diferença em estatística é chamada de erro ou desvio. 
 
O processo de regressão significa, portanto, que os pontos plotados no gráfico são 
definidos, modelados ou regredidos, a uma reta que corresponde à menor distância 
possível entre cada ponto plotado e a reta. Em outras palavras, busca-se reduzir ao 
mínimo possível os somatórios dos desvios entre Y e Y’. 
 
Y = α + β X equação da reta a partir dos dados coletados 
Y’ = a + b X’ equação da reta a partir das estimativas 
 
Dessa forma, podemos concluir que, sendo Y e X variáveis aleatórias, supondo-se que haja 
interesse em estudar Y, denominando-o como variável de interesse ou variável de 
resposta, e considerando X como variável auxiliar ou regressora, define-se regressão de Y 
em X, como o modelo capaz de descrever a variável Y como uma reta, função de X mais 
um erro (componente aleatória) que representa toda e qualquer variação em Y provocada 
por fatores diversos. Ou seja, a variável Y possui um valor esperado dado um valor de X 
mais uma parte aleatória variando em torno dessa esperança. A componente do valor de 
Y em função de X é a parte determinística, e as distorções para mais ou para menos 
consideradas aleatórias supõe-se que tenha esperança igual à zero. Essa componente 
aleatória independe de X. Dentro desse modelo espera-se que os valores assumidos pela 
variável X “expliquem” parte dos valores assumidos por Y, sendo a parte aleatória devida a 
fatores diversos, responsável pelos desvios. Utilizando-se a equação da reta y = a + bx + ɛ 
considerando: 
a, b e x constantes 
E[ɛ] = 0 
Var[ɛ] = σ2 
Definimos esse modelo de regressão linear simples como: 
Y = α + βx + ɛ 
Questão 2: Derive o estimador de mínimos quadrados de Y= bx 
 
Método dos Mínimos Quadrados é o método de computação matemática pelo qual se 
define a curva de regressão. Esse método definirá uma reta que minimizará a soma das 
distâncias ao quadrado entre os pontos plotados (X, Y) e a reta (X’,Y’). Pelo método dos 
mínimos quadrados calculam-se os parâmetros “a“ e “b” da reta que minimiza estas 
distancias ou as diferenças (ou o erro) entre Y e Y’. Esta reta é chamada de curva de 
regressão. 
 
Y= bx 
Regressão linear simples 
ŷ = a + bx 
a=0 
ŷi = bx 
Ɛ = [yi – ŷi]
2 
 ∑ 
 ∑ 
 
O mínimo da função é obtido derivando-a e igualando o resultado a zero. 
∑ 
 
 
 
 
 
 
 
 
 
 
 ∑ 
 
 
 
 
∑ ∑ 
 
 
 
∑ 
 
 
∑ 
 
 
 
 
 
 
 
 
 
Questão 3: A tabela contém a área de drenagem em km2 (Ad) e a vazão média em m3/s 
(ǭ) de 19 postos fluviométricos rio Grande afluente do rio São Francisco. Escolha pelo 
coeficiente de determinação um dentre os modelos da classe: 
 
 
 
Considerando sucessivamente p = 1/3, ½, 1, 1,5 e 2 
 
Para cada p estime os parâmetros, apresente os gráficos de ajuste e dos 
resíduos e a tabela de análise de variância. 
–
Ad (km2) Q(m3/s)
1 4.772,00 33,18 
2 6.418,00 52,03 
3 4.734,00 5,46 
4 5.383,00 51,97 
5 24.061,00 110,36 
6 2.704,00 12,85 
7 3.564,00 21,88 
8 7.620,00 50,19 
9 8.321,00 42,10 
10 8.474,00 41,16 
11 33.022,00 180,93 
12 34.062,00 176,89 
13 36.080,00 178,24 
14 39.757,00 174,79 
15 6.441,00 33,86 
16 14.551,00 93,91 
17 18.249,00 91,34 
18 21.954,00 92,29 
19 62.535,00 272,86 
 
 
 
Nesse exercício, a variável vazão média (Q) é a variável dependente, a qual chamaremos 
de ŷi e a área de drenagem (Ad), a variável independente, a qual trataremos por xi. 
 
Para que os cálculos fossem implementados no excel, utilizamos as seguintes fórmulas: 
 
1) Estimação dos parâmetros 
 
ŷi = β0 + β1 xi 
Ɛ = [yi – ŷi]
2 
 ∑ 
 ∑ 
 
∑ 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 ∑ 
 
 
 
∑ ∑ 
 
 
 
 
 
 
 
 
 ∑ 
 
 
 
∑ ∑ 
 
 
 ∑ 
 
 
 
 
 
 
Relacionando as equações: 
 
{
 
 
 
 ∑ 
 
 
 ∑ 
 
 
 ∑ 
 
 
 ∑ 
 
 
 
 ∑ 
 
 
 
 
 
Aplicando a Regra de Crammer, podemos encontrar os parâmetros que desejamos, 
 
 
D =|
 ∑ 
 
 
∑ 
 
 ∑ 
 
 
| 
 
D =|
∑ 
 
 ∑ 
 
 
 ∑ 
 
 ∑ 
 
 
| 
 
D =|
 ∑ 
 
 
∑ 
 
 ∑ 
 
 
| 
 
 
 
 
 
 
 
 
Logo, 
 
 
∑ 
 
 ∑ 
 
 ∑ 
 
 ∑ 
 
 
 ∑ 
 
 ∑ 
 
 ∑ 
 
 
 
 
 
 ∑ 
 
 ∑ 
 
 ∑ 
 
 
 ∑ 
 
 ∑ 
 
 ∑ 
 
 
 
 
 
 
2) Coeficiente de determinação - 
 
 
 
∑ ̅ ̅ 
 
 
√∑ ̅ ̅ 
 
 
 
 
 
 
 ∑ ̅ ̅ 
 
 
 
∑ ̅ ̅ 
 
 
 
 
Com as fórmulas enunciadas, a partir de agora substituiremos apenas os valores 
encontrados nos cálculos feitos em excel. 
 
Abaixo os resultados obtidos com cada modelo: 
 
Modelo 1 (p=1/3) 
 
 Parâmetros 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Coeficiente de determinação 
 
 
 
 
 
 
 
 
 Gráfico de dispersão e ajuste linear dos dados 
 
 
 
 Conclusões estatísticas a parir da ferramenta Análise de dados do excel (gráficos 
de resíduos e ajuste, tabela análise da variância - anova, R2, entre outros) 
y = 0,1594x + 0,3135 
R² = 0,9106 
0
1
2
3
4
5
6
7
0 10 20 30 40 50
Q(m3/s) - yi 
Q(m3/s) - yi
Linear (Q(m3/s) - yi)
 
 
 
 
 
 
 
Regression Statistics
Multiple R 0,954268698
R Square 0,910628747
Adjusted R Square 0,905371615
Standard Error 0,390338367
Observations 19
ANOVA
df SS MS F Significance F
Regression 1 26,39215874 26,39215874 173,2177656 2,41894E-10
Residual 17 2,590188697 0,152364041
Total 18 28,98234744
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0%Upper 95,0%
Intercept 0,313531023 0,304648463 1,029156753 0,317827163 -0,32922105 0,956283095 -0,32922105 0,956283
X Variable 1 0,159385301 0,01211022 13,16122204 2,41894E-10 0,133834969 0,184935633 0,133834969 0,184936
RESIDUAL OUTPUT
Observation Predicted Y Residuals Standard Residuals
1 2,996908343 0,216447297 0,570588109
2 3,27550681 0,457722 1,20662505
3 2,989766669 -1,228882127 -3,239520842
4 3,106866258 0,62492697 1,64740287
5 4,914890436 -0,118249268 -0,311723117
6 2,534029581 -0,191773496 -0,505544204
7 2,748130353 0,04880507 0,128657612
8 3,449944106 0,238747934 0,629375992
9 3,543314738 -0,064531528-0,170114957
10 3,562990207 -0,110293303 -0,290749981
11 5,427005086 0,228918427 0,603463912
12 5,480132708 0,133376344 0,351600399
13 5,580213177 0,047540207 0,125323242
14 5,753371134 -0,162164697 -0,427490891
15 3,27904084 -0,043881682 -0,115678811
16 4,204692138 0,340692225 0,898116701
17 4,509780403 -0,006244088 -0,01646037
18 4,776454973 -0,257359166 -0,678438041
19 6,639921363 -0,153797116 -0,405432672
Modelo 2 (p=1/2) 
 
 Parâmetros 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Coeficiente de determinação 
 
 
 
 
 
 
 
 
 Gráfico de dispersão e ajuste linear dos dados 
 
 
 
 Conclusões estatísticas a parir da ferramenta Análise de dados do excel (gráficos 
de resíduos e ajuste, tabela análise da variância - anova, R2, entre outros) 
y = 0,065x + 0,7986 
R² = 0,9353 
0
2
4
6
8
10
12
14
16
18
0 100 200 300
Q(m3/s) - yi 
Q(m3/s) - yi
Linear (Q(m3/s) - yi)
 
 
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,96711413
R Square 0,935309741
Adjusted R Square0,931504432
Standard Error 1,012967835
Observations 19
ANOVA
df SS MS F Significance F
Regression 1 252,2068047 252,2068047 245,790724 1,53256E-11
Residual 17 17,4437652 1,026103836
Total 18 269,6505699
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0%Upper 95,0%
Intercept 0,798581554 0,556482539 1,435052313 0,169414873 -0,375493975 1,972657084 -0,37549397 1,972657
X Variable 1 0,06496101 0,004143526 15,67771425 1,53256E-11 0,056218935 0,073703085 0,056218935 0,073703
RESIDUAL OUTPUT
Observation Predicted Y Residuals Standard Residuals
1 5,286066294 0,474142036 0,481642272
2 6,00276532 1,210417057 1,229564092
3 5,268163396 -2,931499107 -2,977871152
4 5,564701383 1,644320742 1,670331501
5 10,87507911 -0,369842317 -0,375692684
6 4,176554063 -0,591864398 -0,60122683
7 4,676704873 0,000901353 0,000915611
8 6,469197736 0,615292366 0,625025394
9 6,724293391 -0,235842112 -0,23957279
10 6,778523902 -0,362917929 -0,368658762
11 12,60326794 0,847754325 0,861164564
12 12,78771625 0,512283749 0,520387331
13 13,13775394 0,212901475 0,216269266
14 13,75125958 -0,530442661 -0,538833491
15 6,012082021 -0,193147411 -0,196202721
16 8,634667444 1,056049764 1,072754933
17 9,574090288 -0,016894046 -0,017161285
18 10,42377789 -0,817009444 -0,829933343
19 17,04338064 -0,524603441 -0,532901903
Modelo 3 (p=1) 
 
 Parâmetros 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Coeficiente de determinação 
 
 
 
 
 
 
 
 
 Gráfico de dispersão e ajuste linear dos dados 
 
 
 
 
 
y = 0,0044x + 10,602 
R² = 0,9664 
0
50
100
150
200
250
300
350
0 20000 40000 60000 80000
Q(m3/s) - yi 
Q(m3/s) - yi
Linear (Q(m3/s) - yi)
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,983041752
R Square 0,966371085
Adjusted R Square0,964392914
Standard Error 13,91928799
Observations 19
ANOVA
df SS MS F Significance F
Regression 1 94648,56622 94648,56622 488,5173564 5,80801E-14
Residual 17 3293,69183 193,7465782
Total 18 97942,25805
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0%Upper 95,0%
Intercept 10,60240312 4,817624189 2,200753464 0,041862557 0,438104559 20,76670168 0,438104559 20,7667
X Variable 1 0,004420325 0,000199993 22,10242875 5,80801E-14 0,003998378 0,004842273 0,003998378 0,004842
RESIDUAL OUTPUT
Observation Predicted Y Residuals Standard Residuals
1 31,69619573 1,483804273 0,109691099
2 38,97205127 13,05794873 0,965316502
3 31,52822336 -26,06822336 -1,927108668
4 34,39701452 17,57298548 1,299093236
5 116,9598516 -6,599851551 -0,487897888
6 22,55496289 -9,704962887 -0,717445061
7 26,35644269 -4,476442695 -0,330923646
8 44,28528235 5,904717655 0,436509708
9 47,38393042 -5,283930421 -0,390617649
10 48,0602402 -6,900240201 -0,510104295
11 156,5703871 24,35961292 1,800798641
12 161,1675255 15,72247455 1,162293132
13 170,087742 8,152257976 0,602660442
14 186,3412784 -11,55127836 -0,853935013
15 39,07371875 -5,213718749 -0,38542721
16 74,9225574 18,9874426 1,403657806
17 91,26892057 0,071079428 0,005254588
18 107,646226 -15,35622602 -1,135217996
19 287,0274494 -14,15744936 -1,046597729
 Conclusões estatísticas a parir da ferramenta Análise de dados do excel (gráficos 
de resíduos e ajuste, tabela análise da variância - anova, R2, entre outros) 
 
 
 
 
 
 
 
 
 
 
Modelo 4 (p=1,5) 
 
 Parâmetros 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Coeficiente de determinação 
 
 
 
 
 
 
 
 
 Gráfico de dispersão e ajuste linear dos dados 
 
 
 
 
 
y = 0,0003x + 136,06 
R² = 0,97 
0
1000
2000
3000
4000
5000
6000
0 5000000 10000000 15000000 20000000
Q(m3/s) - yi 
Q(m3/s) - yi
Linear (Q(m3/s) - yi)
 Conclusões estatísticas a parir da ferramenta Análise de dados do excel (gráficos 
de resíduos e ajuste, tabela análise da variância - anova, R2, entre outros) 
 
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,984885959
R Square 0,970000351
Adjusted R Square0,968235666
Standard Error 214,5069732
Observations 19
ANOVA
df SS MS F Significance F
Regression 1 25292250,41 25292250,41 549,6733016 2,19649E-14
Residual 17 782225,1065 46013,24156
Total 18 26074475,51
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0% Upper 95,0%
Intercept 136,0613818 62,85739868 2,164604082 0,044939364 3,443862845 268,6789007 3,443862845 268,6789
X Variable 1 0,000297524 1,26902E-05 23,44511253 2,19649E-14 0,00027075 0,000324298 0,00027075 0,000324
RESIDUAL OUTPUT
Observation Predicted Y Residuals Standard Residuals
1 234,1396132 -43,01590079 -0,206347589
2 289,0367624 86,26511668 0,413814392
3 232,9704357 -220,2122487 -1,056359759
4 253,566976 121,0859039 0,580849962
5 1246,494697 -87,13676479 -0,417995695
6 177,8956334 -131,8323712 -0,632400844
7 199,3649975 -97,01897327 -0,465400721
8 333,9653171 21,60524108 0,103640499
9 361,8932651 -88,72946623 -0,425635895
10 368,1504381 -104,0840963 -0,499292167
11 1921,426448 512,2670102 2,457348574
12 2006,429927 346,2070728 1,660757847
13 2175,082701 204,5381202 0,98117085
14 2494,596689 -183,7300996 -0,881354624
15 289,8598188 -92,83069291 -0,445309509
16 658,2906816 251,7645714 1,20771648
17 869,5283837 3,425921005 0,016434168
18 1103,876636 -217,2679763 -1,042236063
19 4788,7791 -281,3003671 -1,349399907
Modelo 4 (p=2) 
 
 Parâmetros 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Coeficiente de determinação 
 
 
 
 
 
 
 
 
 Gráfico de dispersão e ajuste linear dos dados 
 
 
 
 
 
y = 2E-05x + 1879,9 
R² = 0,9677 
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
0 2E+09 4E+09 6E+09
Q(m3/s) - yi 
Q(m3/s) - yi
Linear (Q(m3/s) - yi)
 Conclusões estatísticas a parir da ferramenta Análise de dados do excel (gráficos 
de resíduos e ajuste, tabela análise da variância - anova, R2, entre outros) 
 
 
 
 
 
 
 
 
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,983705321
R Square 0,967676159
Adjusted R Square 0,965774757
Standard Error 3533,652553
Observations 19
ANOVA
df SS MS F Significance F
Regression1 6354826433 6354826433 508,9275988 4,14622E-14
Residual 17 212273906,2 12486700,36
Total 18 6567100339
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0% Upper 95,0%
Intercept 1879,919402 956,0928516 1,966251917 0,065816647 -137,2601898 3897,098994 -137,2601898 3897,099
X Variable 1 1,97056E-05 8,73495E-07 22,55942372 4,14622E-14 1,78626E-05 2,15485E-05 1,78626E-05 2,15E-05
RESIDUAL OUTPUT
Observation Predicted Y Residuals Standard Residuals
1 2328,65388 -1227,74148 -0,3575155
2 2691,605288 15,5156116 0,00451811
3 2321,535683 -2291,724083 -0,667344792
4 2450,921007 249,9598934 0,072787747
5 13288,08758 -1108,757985 -0,32286778
6 2023,99882 -1858,87632 -0,541300517
7 2130,221195 -1651,486795 -0,480909163
8 3024,110361 -505,0742606 -0,147076465
9 3244,312812 -1471,902812 -0,42861472
10 3294,948883 -1600,803283 -0,466150241
11 23367,88574 9367,77916 2,727875785
12 24742,68997 6547,382135 1,906582646
13 27531,94275 4237,554847 1,233966243
14 33026,88767 -2475,34357 -0,720814365
15 2697,433343 -1550,933743 -0,451628345
16 6052,207128 2766,880972 0,805709387
17 8442,380036 -99,38443578 -0,02894052
18 11377,56344 -2860,119339 -0,832860185
19 78940,96141 -4482,924513 -1,305417326
Conclusão 
A partir das análises feitas anteriormente, podemos concluir que o melhor modelo é o de 
número 4 (p=1,5), pois é o que apresenta coeficiente de determinação mais próximo de 1. 
Verificamos que o seu r2 foi igual a 0,97. Isso mostra que o modelo explica bem os dados 
observados.