Buscar

12. Regressão Linear - Parte I

Prévia do material em texto

17/10/2013 
1 
Regressão Linear 
Parte I 
Luis A. Toscano 
Est-UFMG 
Correlação Linear 
Quantificando a relação entre 
as variáveis de um processo. 
É possível... 
... determinar a quantidade de massa magra de um individuo a 
partir de suas medidas corporais? 
 
... saber a hora do óbito de um individuo a partir da 
temperatura do seu fígado? 
Representação visual da relação entre 
duas variáveis quantitativas 
15141312111098765
24
23
22
21
20
19
18
17
x
y
Um diagrama de dispersão entre duas variáveis onde estão disponíveis n pares de 
observações (xi, yi), tem o seguinte aspecto: 
X
Y
 YX ,
17/10/2013 
2 
3020100-10
103
102
101
100
99
98
97
96
95
94
93
X1
Y
1
151050
110
105
100
X2
Y
2
3020100
102
101
100
99
98
X3
Y
3
302010
102
101
100
99
X4
Y
4
Correlação negativa Forte correlação positiva 
Não há correlação Fraca correlação positiva 
Diagramas de dispersão 
Representação visual da relação entre 
duas variáveis quantitativas Exemplos 
• Relação entre a vendas trimestrais e o tamanho da população 
estudantil (x) em torno do restaurante. 
 
• Relação entre gastos e outras medidas como renda mensais e 
sexo. 
 
• Relação entre os escores de QI dos bebês que nasceram 
primeiro (Primeiro) e dos bebês que nasceram depois 
(Segundo). 
 
 
 
11  r
• Coeficiente de Correlação Linear () é a estatística que mede o grau de 
relacionamento linear entre duas variáveis 
Propriedades do coeficiente de correlação linear: 
• O valor de r está sempre entre -1 e 1, isto é, 
• O valor não varia se todos os valores de qualquer uma das variáveis são convertidos 
por uma escala diferente. 
• Permutando todos os valores de X e Y, r permanecerá inalterado. 
• r não serve para medir a intensidade de um relacionamento não linear. 
Quantificando o relacionamento linear 
entre duas variáveis quantitativas 
  







n
i
i
n
i
i
n
i
ii
YYXX
XXYY
XYr
1
2
1
2
1
)()(
),(
Quantificando o relacionamento linear 
entre duas variáveis quantitativas 
17/10/2013 
3 
Exemplos 
• Relação entre a vendas trimestrais e o tamanho da população 
estudantil (x) em torno do restaurante. 
 Venda e tamanho da pop., r=0,95 
 
• Relação entre gastos e outras medidas como renda mensais e 
sexo. 
 Gasto e Renda, r=0,87 
 
• Relação entre os escores de QI dos bebês que nasceram 
primeiro (Primeiro) e dos bebês que nasceram depois 
(Segundo). 
 QI do primeiro bebe e QI do Segundo bebe , r=0,87 
 
 
  0 rEr
2n
r1
rS
2r



Teste Formal de Hipóteses para a correlação linear 
O teste formal de hipóteses é para determinar se existe correlação significativa entre 
duas variáveis. 
As hipóteses nula e alternativa se expressarão como segue: 
0:
0:
1
0




H
H
Onde a média  r e desvio padrão amostral sr de r é dado : 
Estatística do teste 
 
2,2
~ 


 n
r
r
obs tS
rt
O coeficiente de correlação de Pearson 
Como supomos que  = 0, decorre que . Mostra-se também que o desvio padrão 
de r pode ser expresso como 
2,22
~
2
1



 nobs t
n
r
rt
Rejeita-se a hipótese nula com nível  se 
2,2  nobs tt
Teste Formal de Hipóteses para a correlação linear 
0r 
Podemos usar a seguinte estatística do teste 
 
 2n
r1S
2
r 

O coeficiente de correlação de Pearson 
Ou se exceder o valor da Tabela de Pearson, rejeita-se a hipótese nula com 
nível  
r
Método Alternativo 
•Hipóteses: 
 
• Estatística de teste: r 
•Valores Críticos: consulte a Tabela de Pearson. 
•Conclusão: 
• se exceder o valor critico da Tabela de Pearson, 
rejeita-se a hipótese nula com nível  e conclua que 
há correlação linear. 
 
O coeficiente de correlação de Pearson 
r
0:
0:
1
0




H
H
17/10/2013 
4 
3020100-10
103
102
101
100
99
98
97
96
95
94
93
X1
Y
1
r -0,891 
(0,000) 
151050
110
105
100
X2
Y
2
r =0,963 
(0,000) 
3020100
102
101
100
99
98
X3
Y
3
r = 0,017 
(0,870) 
302010
102
101
100
99
X4
Y
4
r = 0,279 
(0,005) 
O coeficiente de correlação de Pearson 
Regressão Linear Simples 
Explicando a relação entre duas 
variáveis de um processo. 
•Como a variável X explica a variável Y ? 
 
•Posso prever os valores da variável Y usando os 
valores da variável X ? 
 
 
Y : variável resposta ( dependente ) 
 
X : variável explicativa ( preditora, independente ) 
Quando estudamos o relacionamento entre 
duas variáveis, há duas perguntas frequentes 
É uma técnica estatística que permite o estudo da variabilidade de uma variável 
(resposta) em função da variabilidade de outras variáveis (explicativas). 
O que é Análise de Regressão? 
17/10/2013 
5 
A ideia da Análise da Regressão 
Variabilidade devida à 
variabilidade nos 
valores das variáveis 
explicativas 
Variabilidade Total da 
Variável Resposta 
= + 
Variabilidade natural da 
variável resposta 15141312111098765
24
23
22
21
20
19
18
17
x
y
Os modelos de regressão linear simples descreve a relação entre uma variável dependente 
ou variável de resposta Y, e uma variável explicativa X, 
Y = 0 + 1X +  
0 + 1X 
0 
 1 
X 
Y 
Y = 0 + 1X 
Regressão Linear Simples 
Colhida uma amostra de N indivíduos, teremos n pares de valores (yi, xi) que devem 
satisfazer ao modelo 
Yi = 0 + 1Xi + i i=1,2,3, ... N. 
Onde: Yi é a variável de resposta; 
 Xi é a variável explicativa, 
 0 é o intercepto 
 1 o coeficiente angular e 
 i chamado de erro, ou efeito residual. É parte da variabilidade de 
Y que é NÃO é explicada 
Regressão Linear Simples 
Algumas suposições para as variáveis envolvidas: 
1. A variável X é uma variável supostamente controladas e não esta sujeita a 
variações aleatórias. 
2. Dado um valor da variável Xi, os erros i tem valor esperado zero, ou seja, 
E(i/Xi) = 0 
3. Supor que os erros tenham a mesma variabilidade em todos os níveis da variável 
explicativa X. Estatisticamente, queremos que os dados sejam homocedásticos, 
ou seja 
 
4. Os erros 
 
2)/(  ii XVar
Regressão Linear Simples 
),0(~ 2 Normali
17/10/2013 
6 
Y 
X X5=33,5 X7=43,5 
5= 0 + 1(33,5) 
Y5= 5 +5 = 12,4 
7= 0 + 1(43,5) 
Y7= 7 +7 = 9,4 
i= 0 + 1Xi 
Regressão Linear Simples 
iii XYe 10  
   


n
i
ii
n
i
i XYeSQE
1
2
10
1
2 
i =1,2,3, ... n 
Isto é, considerando os dados amostrais em questão, devemos 
achar  os  valores  de  β0 e  β1 que tornem o valor de SQE o menor 
possível, 
Como são estimados os parâmetros 
da reta, β0 e β1 ? 
Os  valores  de  β0  e  β1  são  estimados  de  modo  que  a 
Soma dos Quadrados dos Erros (SQE) 
seja a menor possível. 
E  quais  são  os  valores  de  β0 e  β1 que 
levam ao menor valor de SQE ? 
Derivando a soma do quadrado dos erros (SQE) em relação à 0 e,1 e igualando a zero, 
observa-se que as soluções 0 e,1 devem satisfazer as equações as quais produzirão as 
soluções 
XY 10 ˆˆ  
Estes estimadores são chamados de estimadores de mínimos quadrados 
ordinários (MQO). 
10
ˆˆ  e
  
 





 n
i
i
n
i
ii
XX
YYXX
1
2
1
1ˆ
  2)ˆ(minii yy
Critério dos mínimos quadrados 
Estimação dos resíduos 
• O resíduo é a diferença entre o valor observado e o ajustado, i.e. 
iiiii XYYYe 10 ˆˆˆˆ   i =1,2,3, ... n 
Regressão Linear Simples 
Yˆ
ii XY 10 ˆˆˆ   i =1,2,3, ... n 
• O valor ajustado é o valor na reta 
17/10/2013 
7 
Estimação dos parâmetros 
Estes estimadores MQO satisfazem as propriedades: 
  00ˆE  
 
 




 n
i
i
n
i
i
XXn
X
Var
1
2
1
22
0
ˆ


  11ˆE  
 
 


 n
i
i XX
Var
1
2
2
1
ˆ 
10
ˆˆ  e
Se os erros são variáveis aleatórias com distribuição normal, isto é, 
),0(~ 2 Normal
e como 0 e,1 são combinações lineares normais independentes, 
então temos que os estimadores tem distribuição Normal. 10 ˆˆ  e
Regressão Linear Simples 
Exemplos 
• Relação entre a vendas trimestrais e o tamanho da população 
estudantil (x) em torno do restaurante. 
 
• Relação entre gastos e outras medidas como renda mensais e 
sexo. 
 
• Relação entre os escores de QI dos bebês que nasceram 
primeiro (Primeiro) e dos bebês que nasceram depois 
(Segundo). 
 
 
 
Exemplo: Renda e Gasto 
Y = gasto mensal (R$) 
 X = renda (R$) 
 
 
A equação estimada 
 
 
O valor previsto do gasto mensal para um individuo sem renda 
(X=0) mensal seria de R$ 559,8. 
 
6,0ˆ559,8ˆ 10   e
ii XY 6,08,559ˆ 
A cada real a mais na renda mensal, o gasto mensal 
aumenta, em média, R$ 0.60 (60 centavos). 
0 
1000 
2000 
3000 
4000 
5000 
6000 
7000 
8000 
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 
Ga
st
o 
Renda 
Coeficiente de Determinação 
• A questão é: quão satisfatoriamente a equação de regressão 
estimada ajusta os dados? 
 
• O coeficiente de determinação nos dá uma medida de 
eficiência de ajuste da equação regressão estimada. 
 
• O valor da SQE (soma do quadrado dos erros) é uma medida 
do erro de se usar a equação de regressão estimada para 
estimar os valores dependente da amostra Yi. 
   


n
I
ii
n
I
ii XYYYSQE
1
2
10
1
2 ˆˆˆ 
17/10/2013 
8 
Exemplo: Armand’s Pizza Parlos 
• O SQE=1.530 mede o erro de se usar a equação de 
regressão estimada para prever as vendas. 
 
• Suponha que nos peçam para desenvolver uma estimativa 
das vendas trimestrais sem sabermos é o tamanho da 
população estudantil. 
 
• Podemos usara média amostral como uma estimativa das 
vendas trimestrais em qualquer restaurante. 
 
• A diferença fornece a medida do erro envolvido no 
uso de para estimar as vendas. 
 
 
 
ii XY 560ˆ 
130Y
YYi 
Y
• Soma dos quadrados total (SQT) 
 
 
 
• No exemplo, SQT=15.730 
 
• Podemos medir quanto os valores de na reta de 
regressão estimada se afasta de . 
 
• A soma dos quadrados da regressão (SQReg) é 
 
 2
1



n
i
i YYSQT
Yˆ
Y
 2
1
ˆRe 


n
i
i YYgSQ
5 10 15 20 25
60
80
10
0
12
0
14
0
16
0
18
0
20
0
Populção
ve
nd
as
Exemplo: Armand’s Pizza Parlos 
 Desvios nas proximidades reta de regressão estimada da reta 
 
 
 
130Y
YY 
SQT 
SQReg 
SQE 
As Fontes de Variabilidade de Y 
A Análise de Regressão trabalha com a idéia de que 
a variabilidade total da variável resposta (Y) é o 
resultado de duas fontes de variação 
 


n
I
ii YY
1
2ˆ
 SQT = SQReg + SQE 
 2
1



n
i
i YY  
2
1
ˆ


n
i
i YY
Variabilidade Total 
de Y 
Variabilidade Y 
explicada por X 
Variabilidade Y 
devida ao erro 
17/10/2013 
9 
2
S
2
S
Fonte 
 
g.l.. 
 
Soma Quadrados 
 
Quadrados Médios 
 
F 
 
Regressão 
 
1 
 
SQReg SQReg/1 
 
SQReg/ 
 
Resíduo 
 
n-2 
 
SQE 
 
SQRes/(n-2) = 
 
 
 
total 
 
n-1 
 
SQT 
 
SQT/(n-1) = S2 
 
 
 
• Decomposição da Soma de Quadrados 
SQReg = SQT - SQR 
Tabela de Análise de Variância 
ou seja SQT = SQReg +SQR 
• Relação entre SQT, SQReg e SQR 
 SQT = SQReg +SQR 
Coeficiente de Determinação 
•Se para cada observação, resultando em SQR=0. 
 
•Para haver uma ajuste perfeito SQT = SQReg , e 
 
•Ajustes mais imperfeitos resultarão em valores maiores para SQR. 
 
•Note que SQR = SQT – SQReg, o maior valor para SQR (pior ajuste) 
ocorre quando SQReg=0 e SQR=SQT. 
0ˆ  ii YY
1Re SQT
gSQ
Coeficiente de Determinação 
A medida que mede a porcentagem da variação total explicada pelo modelo é o 
coeficiente de determinação de uma regressão é definido por: 
SQT
gSQR Re2 
Quanto mais alto, mais linear é a relação entre X e Y, 
10 2  R
O Coeficiente de Determinação pode ser interpretado como o quanto da variabilidade 
de Y passa a ser explicada quando a variável X é acrescentada ao modelo simples 
Y = 0 +  onde Y0ˆ
Exemplo: Renda e Gasto 
O coeficiente de determinação é 
 
 
 
 
7521,0
730.15
200.14Re2  SQT
gSQR
 Podemos concluir que 75,21% da variabilidade dos gastos 
medios podem ser explicados pela renda media. 
 
 
 
 
Giulia Berbel
Giulia Berbel
Giulia Berbel
17/10/2013 
10 
Exemplo: Armand’s Pizza Parlos 
O coeficiente de determinação é 
 
 
 
 
9027,0
730.15
200.14Re2  SQT
gSQR
 Podemos concluir que 90,27% da variabilidade das vendas 
podem ser explicados por meio da relação linear existentes 
entre o tamanho da população estundantil e as vendas. 
 
 
 
 
Coeficiente de determinação Ajustado (R2adj) 
Onde p é o número de parâmetros do modelo de regressão. 
 
 2
1
2
2 111
)1/(
)/(1 Rpn
n
nYY
pnSQRR n
i
i
Adj 









Regressão Linear Simples 
21),2,1(  nc FF Rejeitamos H0 
)2/(
1/Re

 nSQR
gSQF
0:H
0:H
11
10




Estatística do teste F: 
Testes de Hipóteses : 
• Estatística do Teste F 
O que nos leva a concluir que não existe evidência de falta de ajustamento. Ou seja, 
neste caso o modelo de regressão linear é adequado. 
Regressão Linear Simples 
H0 : O modelo linear não é apropriado; 
H1: O modelo linear é apropriado; 
ou 
Rejeitamos H0 
76,600
)2/(
1/Re 

 nSQR
gSQF
0:
0:
11
10




H
H
Estatística do teste F: 
Testes de Hipóteses : 
O que nos leva a concluir que não existe evidência de falta de ajustamento. Ou seja, 
neste caso o modelo de regressão linear é adequado. 
ANOVA 
 gl SQ MQ F 
F de 
significação 
Regressão 1 323007166 323007166 600,76 6,99E-62 
Resíduo 198 106457419,4 537663,7346 
Total 199 429464585,4 
P-valor = 0,000 <  = 0,05

Continue navegando