Buscar

Apostila_Regressao_Linear

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Análise de Regressão 
 
Notas de Aula 
 
 
Universidade de São Paulo 
Faculdade de Arquitetura e Urbanismo 
Estatística Aplicada 
2
Modelos de Regressão 
 
Modelos de regressão são modelos matemáticos que relacionam o comportamento de uma 
variável Y com outra X. Quando a função f que relaciona duas variáveis é do tipo f (X) = a + b X 
temos o modelo de regressão simples. A variável X é a variável independente da equação 
enquanto Y = f (X) é a variável dependente das variações de X. O modelo de regressão é 
chamado de simples quando envolve uma relação causal entre duas variáveis. O modelo de 
regressão é multivado quando envolve uma relação causal com mais de duas variáveis. Isto é, 
quando o comportamento de Y é explicado por mais de uma variável independe X1, X2, ....Xn. 
 
Os modelos acima (simples ou multivariados) simulam relacionamentos entre as variáveis. Esse 
relacionamento poderá ser do tipo linear (equação da reta ou do plano) ou não linear (equação 
exponencial, geométrica, etc.). A análise de regressão compreende, portanto quatro tipos básicos 
de modelos; 
- linear simples; 
- linear multivariado; 
- não linear simples; 
- não linear multivariado. 
 
Para que serve determinar a relação entre duas variáveis? 
1 - Para realizar previsões sobre o comportamento futuro de algum fenômeno da realidade. Neste 
caso extrapola-se para o futuro as relações de causa-efeito – já observadas no passado – entre as 
variáveis. Pode-se, por exemplo, prever a população futura de uma cidade simulando a 
tendência de crescimento da população no passado. 
2 - Pesquisadores interessados em simular os efeitos sobre uma variável Y em decorrência de 
alterações introduzidas nos valores de uma variável X também usam este modelo. Por exemplo: 
de que modo a produtividade (Y) de uma área agrícola é alterada quando se aplica certa 
quantidade (X) de fertilizante sobre a terra. No exemplo acima o pesquisador seleciona “n” 
pedaços de terra x1, x2, x3,....xn, aos quais são aplicadas quantidades definidas de fertilizante. Em 
seguida, medem-se as quantidades colhidas em cada pedaço de terra y1, y2, y3, ....yn, obtendo 
assim pares de valores (x1,y1) (x2,y2), ......(xn, yn) que podem ser plotados em um gráfico 
cartesiano chamado de diagrama de dispersão. 
 
 
Diagrama de Dispersão 
 
Ao se plotar num gráfico cartesiano os pares de informação referente a cada observação obtemos 
uma “nuvem” de pontos definidos pelas coordenadas x e y de cada ponto. Essa nuvem, por sua 
vez, definirá um eixo ou direção que caracterizará o padrão de relacionamento entre X e Y. A 
regressão será linear se observada uma tendência ou eixo linear na nuvem de pontos cartesianos. 
A relação entre as variáveis será direta (ou positiva) quando os valores de Y aumentarem em 
decorrência da elevação dos valores de X . Será inversa (ou negativa) quando os valores de Y 
variarem inversamente em relação aos de X. A figura 1 mostra o diagrama de dispersão 
referente as variáveis X e Y. O diagrama mostra uma relação direta entre as variáveis, ou seja: o 
crescimento de Y está diretamente ligado ao crescimento de X. 
 
 
 
 
 
Universidade de São Paulo 
Faculdade de Arquitetura e Urbanismo 
Estatística Aplicada 
3
 
Figura 1 
 
 x y 
____________ 
 30 430 
 21 335 
 35 520 
 42 490 
 37 470 
 20 210 
 8 195 
 17 270 
 35 400 
 25 480 
 
 
 
Modelos de Regressão Linear 
Regressão é o processo matemático pelo qual derivamos os parâmetros “a” e “b” de uma função 
f (X). Estes parâmetros determinam as características da função que relaciona ‘Y’ com ‘X’que 
no caso do modelo linear se representa por uma reta chamada de reta de regressão. Esta reta 
explica de forma geral e teoricamente a relação entre X e Y. Isto significa que os valores 
observados de X e Y nem sempre serão iguais aos valores de X’e Y’ estimados pela reta de 
regressão. Haverá sempre alguma diferença, e essa diferença significa; 
 
(1) que as variações de Y não são perfeitamente explicadas pelas variações de X ou; 
(2) que existem outras variáveis das quais Y depende ou; 
(3) que os valores de X e Y são obtidos de uma amostra específica que apresenta distorções em 
relação a realidade. 
 
Esta diferença em estatística é chamada de erro ou desvio. 
 
O processo de regressão significa, portanto, que os pontos plotados no gráfico são definidos, 
modelados ou regredidos, a uma reta que corresponde à menor distância possível entre cada 
ponto plotado e a reta. Em outras palavras, busca-se reduzir ao mínimo possível os somatórios 
dos desvios entre Y e Y’. Veja a figura 2 abaixo. 
 
 
 Y = α + β X equação da reta a partir dos dados coletados 
 
 Y’ = a + b X’ equação da reta a partir das estimativas 
 
 
Universidade de São Paulo 
Faculdade de Arquitetura e Urbanismo 
Estatística Aplicada 
4
 
 
Figura 2 
 
 
 x y x.y x2 Projeção 
 30 430 12.900 900 409,21 
 21 335 7.035 441 321,57 
 35 520 18.200 1.225 457,91 
 42 490 20.580 1.764 526,07 
 37 470 17.390 1.369 477,38 
 20 210 4.200 400 311,83 
 8 195 1.560 64 194,98 
 17 270 4.590 289 282,62 
 35 400 14.000 1.225 457,91 
 25 480 12.000 625 360,52 
 Somas 270 3.800 112.455 8.302 
 b = 9,7381 
 a = 117,0702 Y = 117,07 + 9,74 x 
 
 
Universidade de São Paulo 
Faculdade de Arquitetura e Urbanismo 
Estatística Aplicada 
5
Método dos Mínimos Quadrados 
 
É o método de computação matemática pelo qual se define a curva de regressão. Esse método 
definirá uma reta que minimizará a soma das distâncias ao quadrado entre os pontos plotados (X, 
Y) e a reta (X’,Y’). Pelo método dos mínimos quadrados calculam-se os parâmetros “a“ e “b” da 
reta que minimiza estas distâncias ou as diferenças (ou o erro) entre Y e Y’. Esta reta é chamada 
de curva de regressão. 
 
 
(1) Erro = E = (Y- Y’) Diferença entre o valor levantado Y (na amostra) e 
 o estimado Y’(pela reta de regressão) 
(2) E12 + E22 + E32 + ..... + En2 = Mínimo Objetivo do modelo de regressão 
 
(3) Erro Total = Σ (Y-Y’) 2 Hipótese de trabalho 
 
(4) Y’ = a + bX Equação da reta de regressão que minimiza o erro 
 
Substituindo (4) em (3) 
 
(5) Σ (Y- a - bX) 2 
 
 
Para que a soma dos quadrados dos erros tenha um valor mínimo, devem-se aplicar os conceitos 
de cálculo diferencial com derivadas parciais. Como as incógnitas do problema são os 
coeficientes "a" e "b" estrutura-se um sistema de duas equações. Assim aplicando os conceitos 
acima referidos monta-se o sistema de equações normais que permitirá extrair os valores de a e 
b, 
 
 
 ∂ e 
------ = - 2 Σ (Y- a - bX) 
 ∂ a 
 
- 2 Σ Y + 2 Σ a + 2 Σ bX 
 
Σ Y = Σ a + Σ bX 
 
(6) Σ Y = Na + b Σ X Equação Normal 
 
 Σ Y + b Σ X 
(7) a = ------------------ N – tamanho da amostra 
 N 
 
(8) Σ XY = a Σ X + b Σ X2 Equação Normal 
 
 N Σ XY - Σ X.Σ Y 
(9) b = --------------------------- 
 a Σ X2 - ﴾ Σ X﴿2 
 
 
Universidade de São Paulo 
Faculdade de Arquitetura e Urbanismo 
Estatística Aplicada 
6
Os valores a e b acima correspondem aos parâmetros da equação de regressão que minimiza as 
diferenças entre os valores de Y (levantados) e os de Y’ (estimados pela regressão). Portanto, o 
problema de “fitting” (ajustar) uma reta que melhor se adeque à nuvem de dados se reduz em 
calcular os parâmetros a e b da equação de regressão. 
 
 
GRAU DE UTILIDADE DA RETA DE REGRESSÃO 
 
A reta de regressão que se obtém através do método dos mínimos quadrados é apenas uma 
aproximação da realidade, ela é um modo útil para indicar a tendência dos dados. Mas até que 
ponto a reta de regressão obtida é útil para avaliar a realidade? Duas medidas podem indicaro 
quanto útil ou aproximado da realidade é a reta: 
 ▪ erro padrão da estimativa; 
 ▪ coeficiente de determinação 
 
Erro Padrão da Estimativa 
 
O erro padrão da estimativa Se mede o desvio médio entre os valores reais de Y e os valores 
estimados Y’. Ele informa de modo aproximado a extensão do erro entre os valores obtidos das 
estimativas e os valores de Y fornecidos pela amostra. Se é medido na unidade de Y. O que se 
busca é conseguir o menor valor possível de Se. 
Pode-se interpretar o Se como um desvio padrão dos resíduos, pois assumindo que estes resíduos 
são "normalmente distribuídos", pode-se dizer então que 68% dos pontos (plotados) encontram-
se dentro de 1 desvio padrão: 
 
 -1 ≤ Se ≥ 1; 
 
e que 95% dos pontos encontram-se dentro de 2 desvios padrão: 
 
 -2 ≤ Se ≥ 2. 
 
Sendo os desvios normalmente distribuídos a fórmula de Se é obtida da definição da variância da 
amostra Se2, com n-2 graus de liberdade: 
 
 
 Σ (Y – Y’)2 
 Se2 = ----------------------- = 
 N - 2 
 
 
 
 Σ (Y – Y’)2 
 Se = N – 2 
 
 
 
 
Ao se ajustar a reta se espera que ela explique o conjunto de dados coletados. Se os dados 
estivem todos contidos numa reta teremos uma reta de regressão coincidente com os dados 
 
Universidade de São Paulo 
Faculdade de Arquitetura e Urbanismo 
Estatística Aplicada 
7
levantados. Nesse caso a somatória dos desvios ao quadrado será zero e, o ajuste da reta será 
completo. A reta de regressão explica perfeitamente a relação entre X e Y. 
 
O erro padrão existirá sempre que o poder de explicação da reta não for completo. O valor do 
erro significa então que existem outros fatores que interferem no comportamento de Y além da 
variável X. 
 
 
Coeficiente de Determinação 
 
Ao se analisar a reta de regressão observamos que os pontos (xi, yi) estão distribuídos acima e 
abaixo da mesma. Na Figura 3 relacionamos cada ponto (Y), com o seu valor estimado (Y’ - a 
reta de regressão) e com o valor médio de Y (Y* -reta paralela ao eixo X). Como podemos 
observar a diferença entre o valor de Y e o valor de Y* (valor médio de Y) é o desvio total do 
ponto em relação a sua média. 
 
A soma dos desvios ao quadrado de todos os pontos em relação a média de Y é chamada de 
Variação Total. Isto é: 
 
Σ (Y – Y*)2
 
A diferença entre o valor de um ponto Y (xi, yi) e seu valor estimado Y' (xi’,yi’) isto é a 
distancia entre o ponto Y e a reta de regressão, é chamada de Variação Não Explicada pela reta 
de regressão. Isto é: 
 
Σ (Y – Y’)2 
 
Já a diferença entre o valor Y’ (estimativa de Y) situado sobre a reta de regressão e o valor 
médio de Y* (situado sobre a reta paralela ao eixo x) é conhecida como Variação Explicada 
pela reta de regressão. Isto é: 
 
Σ (Y’ – Y*)2
 
Conforme mostra a Figura 3, 
 
 
 
 Variação Total = Variação Explicada + Variação não Explicada 
 
 
 
Universidade de São Paulo 
Faculdade de Arquitetura e Urbanismo 
Estatística Aplicada 
8
 
 
Figura 3 
 
 
 yi Y 
 Variação não Explicada 
 Y’ 
 yi’ 
 Variação Explicada 
 Y* 
 y* 
 Y’= a+ bX’ 
 
 xi
 
Conclui-se que: 
 
Σ (Y – Y*)2 = Σ (Y – Y’)2 + Σ (Y’ – Y*)2
 
 
O Coeficiente de Determinação r2 é Definido pela seguinte relação: 
 
 Σ (Y’ – Y*)2 Variação Explicada 
Σ (Y – Y*)2 = _______________________ = r2 = 
 Σ (Y – Y*)2 Variação Total 
 
 
 
 
 
CÁLCULO DO COEFICIENTE DE DETERMINAÇÃO 
 
 
 Variação 
 x y Projeção Explicada Não explicada Total 
 30 430 409,21 853,48 432,04 2.500 
 21 335 321,57 3.413,93 180,33 2.025 
 35 520 457,91 6.069,21 3.855,77 19.600 
 42 490 526,07 21.337,07 1.301,20 12.100 
 37 470 477,38 9.483,14 54,49 8.100 
 20 210 311,83 4.646,74 10.369,96 28.900 
 8 195 194,98 34.234,14 0,00 34.225 
 17 270 282,62 9.483,14 159,23 12.100 
 35 400 457,91 6.069,21 3.353,01 400 
 25 480 360,52 379,33 14.274,58 10.000 
 Média y 380 Soma 95.969,39 33.980,61 129.950 
 b 9,74 
 a 117,07 Coeficiente de Determinação 0,7385 
 
 
 
 
 
 
 F observado 22,5939 
Universidade de São Paulo 
Faculdade de Arquitetura e Urbanismo 
Estatística Aplicada 
9
O coeficiente de determinação deve ser interpretado como a proporção de variação total da 
variável dependente Y que é explicada pela variação da variável independente X. Tomando o 
exemplo acima se pode concluir que 73,85 % das variações de Y são explicadas pela variação de 
X. 
 
 
Coeficiente de Correlação 
 
O coeficiente de determinação é igual ao quadrado do coeficiente de correlação. Assim a partir 
do valor do coeficiente de determinação podemos obter o valor do coeficiente de correlação. No 
exemplo acima para um coeficiente de determinação r2 = 0,738 obtemos o coeficiente de 
correlação, r = 0,85. 
 
O coeficiente de determinação é sempre positivo, enquanto que o coeficiente de correlação pode 
admitir valores negativos e positivos. Valores de r igual ou próximos de 1 ou –1 indica que exige 
uma forte relação entre as variáveis: no primeiro caso a relação é direta, enquanto que no 
segundo a relação é inversa. Valores próximos de Zero, significa que existe pouco 
relacionamento entre as variáveis. 
 
Portanto, 
 
 -1 ≥ r ≤ +1 
 
 
O coeficiente de determinação indica o quanto a reta de regressão explica o ajuste da reta, 
enquanto que o coeficiente de correlação deve ser usado como uma medida de força da relação 
entre as variáveis 
 
 
Resumindo: 
 
- Os valores de r estão limitados entre 
 
-1 ≤ r ≤ +1 
 
- O coeficiente de correlação tem um valor único para a população ou amostra. 
- Coeficiente de correlação padroniza dentro dos horizontes acima as variações da covariância 
- Por isso o coeficiente de correlação pode ser expresso: 
 
 Cov (X,Y) 
 rX,Y = onde, 
 σX • σY 
 
 
σX – desvio padrão da variável X 
σY – desvio padrão da variável Y 
Cov (X,Y) – Covariância de X e Y 
 
 
 
Universidade de São Paulo 
Faculdade de Arquitetura e Urbanismo 
Estatística Aplicada 
10
Erro Padrão do Coeficiente b, (Sb) 
 
O erro padrão do coeficiente b indica o grau de aproximação entre o coeficiente b da equação de 
regressão e o coeficiente β da população. Essa variação existe porque embora os dados sejam 
retirados da população há sempre variações entre os dados da amostra e os dados da população. 
A fórmula abaixo mede a diferença entre b e β: 
 
 
 S2b Sb
Sb = S2b = ------------------ = --------------------- 
 (n-1) x Var (x) (n-1) x Var (x) 
 
Pela fórmula acima se pode concluir que o erro padrão do coeficiente b: 
• é diretamente proporcional ao erro padrão da estimativa Se, e; 
• e inversamente proporcional ao valor do desvio padrão de x e o tamanho da amostra menos 1.

Outros materiais