Buscar

Regressão Linear Simples

Prévia do material em texto

Regressão Linear Simples
Prof. Carlos Amorim
Introdução
• Uma das preocupações estatísticas ao analisar
dados, é a de criar modelos que explicitem
estruturas do fenômeno em observação.
• O modelo de regressão é um dos métodos• O modelo de regressão é um dos métodos
estatísticos mais usados para investigar a relação
entre variáveis.
• Análise de regressão: metodologia estatística que
estuda (modela) a relação entre duas ou mais
variáveis.
Modelo de Regressão
• Procurará estabelecer uma relação matemática para
determinar o comportamento de uma variável Y em
função do comportamento de outras variáveis X1, X2, X3,
... , Xn , ou seja:
),...,,,( 321 nXXXXfY = 321 n
Variável dependente 
(explicada)
Variáveis independentes 
(explicativas)
Estabelecida essa equação matemática, poderemos:
-Estimar os valores de Y para diferentes valores de X1, X2,..., Xn;
-Explicarmos as oscilações verificadas na variável dependente em função
das oscilações verificadas na variável independente.
Tipos de Modelos de Regressão
MODELO 
DE
REGRESSÃO
REGRESSÃO
SIMPLES
REGRESSÃO
MÚLTIPLA
LINEAR LINEAR
NÃO
LINEAR
NÃO
LINEAR
Relação linear
• A presença ou ausência de relação linear pode
ser investigada sob dois pontos de vista:
– Quantificando a força dessa relação: Correlação.
– Explicitando a forma dessa relação: Regressão.
Coeficiente de correlação
YX
YX
YXCOV
σσ
ρ
),(
, = 11 , +≤≤− YXρ
� O coeficiente de correlação pode variar entre –1 (correlação� O coeficiente de correlação pode variar entre –1 (correlação
negativa perfeita) e +1 (correlação positiva perfeita).
� Valores negativos do coeficiente de correlação indicam
uma correlação do tipo inversa, isto é, quando x aumenta y
diminui.
� Valores positivos do coeficiente de correlação ocorrem
quando x e y variam no mesmo sentido, isto é, quando x
aumenta y aumenta ou quando x diminui y também diminui.
Exemplo
• Nota na prova de estatística e Tempo de estudo.
Y: Nota na prova.
X: Tempo de estudo (horas por dia).
752038,0=ρGráfico de dispersão
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6
Horas de estudo (X)
N
o
t
a
 
(
Y
)
752038,0, =XYρ
O objetivo é encontrar
a relação que melhor
represente o
comportamento dos
pontos do diagrama de
dispersão.
XY 10 ββ +=
Modelo de Regressão Linear 
Simples
iii eXY ++= 10 ββ
Inclinação
populacional
Intercepto
populacional Erro Aleatório
Variável Variável 
=Y Estimado por X, segundo uma função + Efeito aleatório
X
Y
β0
β1 Coeficiente
angular
β0 + β1 X
Variável 
Independente
Variável 
Dependente
ie
Modelo de Regressão Linear 
Simples
iii eXY ++= 10 ββ
População
iii eXY ˆ
ˆˆ
10 ++= ββ
Amostra aleatória
iii 10
Objetivo:
Fazer inferência sobre a função de regressão populacional:
Com base na função de regressão amostral:
iii eXY ++= 10 ββ
iii eXY ˆ
ˆˆ
10 ++= ββ
Estimação dos parâmetros
Y
Y
ˆ
1ˆe
2eˆ
3ˆe
4ˆe
5ˆe
iii YYe
ˆˆ −=
X10
ˆˆ ββ +
(erros ou resíduos)
X
Yˆ
5ˆe
Encontrar a melhor reta que se adapta ao diagrama de dispersão. Isso
significa determinar os valores de e de , tal que os resíduos ou
erros encontrados sejam os menores possíveis.
0βˆ 1βˆ
( )eˆ
Para determinar os valores de e com essas características é utilizado
o Método dos Mínimos Quadrados Ordinários (MQO).
0βˆ 1βˆ
Método dos Mínimos Quadrados 
Ordinários (MQO)
O MQO escolhe e de tal forma que, para 
uma dada amostra, o é o menor possível.
0βˆ 1βˆ
∑
=
n
i
ie
1
2ˆ
∑
n
ie
2ˆMin
iii XYe 10
ˆˆˆ ββ −−=∑
=i
ie
1
ˆ
10
ˆ,ˆ ββ
Min
iii XYe 10
ˆˆˆ ββ −−=
0
ˆ
ˆ
0
1
2
=
∂
∂∑
=
β
n
i
ie
0
ˆ
ˆ
1
1
2
=
∂
∂∑
=
β
n
i
ie
,
XY 10
ˆˆ ββ −=
( )∑
∑
=
=
−
−
=
n
i
i
n
i
ii
XX
YXnYX
1
2
1
1βˆ ou
∑
∑
=
==
n
i
i
n
i
ii
x
yx
1
2
1
1βˆ ( )XXx ii −=
( )YYy ii −=
,
Interpretação dos parâmetros
• Intercepto - valor esperado para a variável
dependente quando é igual a zero;
0βˆ
iY iX
• Coeficiente angular - variação esperada na
variável dependente, quando a variável
independente aumenta uma unidade.
1βˆ
Estimação dos parâmetros
• EX:
Y (Consumo) X (Renda)
70 80
65 100
90 120
Diagrama de disperção
150
200
C
o
n
s
u
m
o
XY 10
ˆˆˆ ββ +=
a) Calcule e
90 120
95 140
110 160
115 180
120 200
140 220
155 240
150 260
0
50
100
0 50 100 150 200 250 300
Renda
C
o
n
s
u
m
o
0βˆ .ˆ1β
b) Qual a previsão de consumo de uma
família que tem renda de 170 ?
Estimação dos parâmetros
• EX1:
Diagrama de disperção
100
150
200
C
o
n
s
u
m
o
XY 509,047,24ˆ +=
0
50
100
0 50 100 150 200 250 300
Renda
C
o
n
s
u
m
o
47,24ˆ0 =β
509,0ˆ1 =β Um aumento de um
real na renda provoca
um aumento, em
média, de 0,50
centavos no consumo.
a) b)
XY 509,047,24ˆ +=
( )170509,047,24ˆ +=Y
111ˆ =Y
Propriedades dos estimadores
• Hipóteses:
i. Para cada valor de , o erro , tem média zero e 
variância constante
ii. Se , , isto é, para duas
iX ie
.2eσ
ji ≠ 0),( =ji eeCOVii. Se , , isto é, para duas
observações distintas, os erros são não
correlacionados.
iii. Os erros são v.a. com distribuição normal:
0),( =ji eeCOV
ie
).,0(~ 2ei Ne σ
Propriedades dos estimadores
• Valor esperado e variância:
)ˆ( ββ =E
∑
==
n
i
iX
V 1
2
2)ˆ( σβ
Para o estimador :ˆ0β
11)
ˆ( ββ =E
00 )
ˆ( ββ =E
( )∑
=
−
=
n
i
i
e
XX
V
1
2
2
1)
ˆ(
σ
β
( )∑
=
=
−
=
n
i
i
i
e
XXn
V
1
2
12
0 )
ˆ( σβ
Para o estimador :ˆ1β
Propriedades dos estimadores
• Distribuições Amostrais dos Estimadores dos
Parâmetros:
),0(~ 2ei Ne σ
iii eXY ++= 10 ββ
onde:
),(~ 210 eii XNY σββ +
∑
∑
=
==
n
i
i
n
i
ii
x
yx
1
2
1
1βˆ
∑
∑
=
==
n
i
i
n
i
ii
x
Yx
1
2
1 ,
1
∑
=
=
n
i
iiYk
∑
=
=
n
i
i
i
i
x
x
k
1
2
Como é uma função linear de
1βˆ iY tem distribuição normal.1βˆ
Como é uma função linear de
0βˆ 1βˆ tem distribuição normal.0βˆ
Propriedades dos estimadores
• Distribuições Amostrais dos Estimadores dos
Parâmetros:
( ) 







n
eN
2
11 ,~
ˆ σββ
( ) 






 ∑
=
n
n
i
ie X
N 1
22
00 ,~
ˆ
σ
ββe
( ) 






−∑
=
n
i
i XX
N
1
2
11 ,~
ˆ ββ
( ) 






−∑
=
n
i
i XXn
N
1
2
00 ,~
ˆ ββe
Os resultados acima permitem concluir que:
( ) ( )1,0~ˆ 211 NXX i
e
∑ −
−
σ
ββ ( ) ( )1,0~ˆ
2
2
00 N
X
XXn
i
i
e ∑
∑ −−
σ
ββe
Intervalo de Confiança
Dado que é desconhecido. Utilizaremos o estimador
2
eσ .ˆ
2
eσ
kn
ei
e −
= ∑
2
2
ˆ
σˆ onde:
:kn −
:k Número de parâmetros estimados.
kn −
:kn −
∑ :ˆ2ie
Número de graus de liberdade.
Soma do quadrado dos resíduos (SQR).
( ) ~
ˆ
ˆ 2
11 ∑ −
−
XX i
eσ
ββ
)2( −nt
:2=kPara
( )
( )22
2
00 ~
ˆ
ˆ
−∑
∑ −−
n
i
i
e
t
X
XXn
σ
ββ
Intervalo de Confiança
:1βPara α−1 (nível de confiança)
( ) α
σ
ββ
−=





≤−
−
≤− ∑ 1
ˆ
ˆ 2
11 bXXbP i
e
( ) ( )
α
ββ
−=





≤
−
≤
−
1
ˆ
11 bbP
infL supL( ) ( )
α
σ
−=






 −
≤≤
− ∑∑
1
ˆ 2
11
2
XXXX
P
i
e
i
( ) ( )
α
σ
ββ
σ
β −=










−
+≤≤
−
−
∑∑
1
ˆˆˆˆ
2
11
2
1
XX
b
XX
bP
i
e
i
e
( )



−
−
∑
2
1
ˆˆ
XX
b
i
eσβ
( ) 



−
+
∑
2
1
ˆˆ
XX
b
i
eσβ,:IC ( ) )1()2( α−=≤≤− − btbP n
onde:
Intervalo de Confiança
Ex2:
Para os dados do exemplo 1 construir um intervalo de
confiança para (propensão marginal a consumir) com nível
de confiança de 95%.
( )



−
−
∑
2
1
ˆˆ
XX
b
i
eσβ
( ) 



−
+
∑
2
1
ˆˆ
XX
b
i
eσβ,:IC
1β
( ) −∑ XX i ( ) −∑ XX i
( ) )1()2( α−=≤≤− − btbP nonde:
509,0ˆ1 =β
kn
ei
e −
= ∑
2
2
ˆ
σˆ
kn
XY ii
−
−−
= ∑
2
21 )
ˆˆ( ββ
210
273,337
−
= 1591,42= == 1591,42ˆ eσ 493006,6



−
33000
493006,6
306,2509,0 


+
33000
493006,6
306,2509,0,:IC
( ) %95)8( =≤≤− btbP 306,2=b
[ 42657,0 ]59142,0,:IC
Teste de hipóteses
1) Estabelecer as hipóteses:
*
110 : ββ =H
*
111 : ββ ≠H
2) Fixar o nível de significância e identificar a variável do 
teste:
.αNível de significância =
( )
~
ˆˆ
ˆ
1
11
β
ββ
V
−
( )2−ntEstatística – teste: ( )∑
=
−
=
n
i
i
e
XX
V
1
2
2
1
ˆ
)ˆ(ˆ
σ
βonde:
Considerando k = 2.
Teste de hipóteses
3) Determinar a região crítica (RC) com o auxílio da 
tabela “t”.
2/α2/α
( )2−nt
4) Calcular o valor da variável do teste:
Região Crítica
ct t0
2/α2/α
ct−
,
( )1
11
ˆˆ
ˆ
β
ββ
V
tcal
−
=
( )∑
=
−
=
n
i
i
e
XX
V
1
2
2
1
ˆ
)ˆ(ˆ
σ
β
Teste de hipóteses
5) Conclusões:
ccalc ttt ≤≤−Se , não se pode rejeitar .0H
ccal tt −<Se ou , rejeita-se .0Hccal tt > ccal 0ccal
Teste de hipóteses
Ex3:
Considerando os dados do exemplo 1, teste, ao
nível de significância de 5%, a hipótese de que a
propensão marginal a consumir da população é 0,3,
contra a hipótese alternativa de que é diferente de 0,3.contra a hipótese alternativa de que é diferente de 0,3.
Teste de hipóteses
Ex3:
1)
2)
%5=α
4)
33000
1591,42
3,0509,0 −
=calt 8473,5=
3,0: 10 =βH
3,0: 11 ≠βH
3)
%5=α
Estatística – teste:
ct t0
%5,2%5,2
ct−
%95)( =<<− cc tttP 306,2=ct
33000
5)
Como então rejeitamos, ao
nível de significância de 5%, a hipótese
nula, em favor da hipótese alternativa.
Isso significa que a propensão marginal
a consumir da população é diferente de
0,3.
306,28473,5 >
( ) ( )21
11 ~
ˆˆ
ˆ
−
−
nt
V β
ββ
( )8t
( )∑
=
−
=
n
i
i
e
XX
V
1
2
2
1
ˆ
)ˆ(ˆ
σ
β
33000
1591,42
=
Coeficiente de determinação (R2)
• É uma medida resumida que diz quanto a linha
de regressão amostral se ajusta aos dados.
• Mede a proporção da variação na variável• Mede a proporção da variação na variável
dependente que é explicada pela regressão.
• Assume valores entre: 10 2 ≤≤ R
Coeficiente de determinação (R2)
Y
ieˆ XY 10 ˆˆˆ ββ +=
FRA
Yi
iYˆ
Y
( )YYi −Variaçãototal ( )YYi −ˆ Variação devido a regressão
XXi
Y
Variação
total
Variação devido 
a regressão
= + Variação devido a 
forças aleatórias
Coeficiente de determinação (R2)
• A variação total dos valores observados de Y é
dada pela soma dos desvios ao quadrado:
( )
2
∑ −=
n
i YYSQT (Soma dos quadrados total)
• A soma dos quadrados devido a regressão
(devido à(s) variável(is) explicativa(s)):
( )
1
∑
=
−=
i
i YYSQT
( )
2
1
ˆ∑
=
−=
n
i
i YYSQE (Soma dos quadrados explicados)
Coeficiente de determinação (R2)
• A soma dos quadrados dos resíduos (ou não
explicada):
∑=
n
ieSQR
2ˆ∑
=i
i
1
SQRSQESQT +=
Portanto:
Coeficiente de determinação (R2)
SQT
SQE
R =2 ou
( )
( )∑
∑
−
−
=
2
2
ˆ
YY
YY
i
i
∑
SQT
SQR
R −=12
( )∑
∑
−
−=
2
2ˆ
1
YY
e
i
i
Mede a proporção ou percentual da variação total de Y
explicada pelo modelo de regressão.
Coeficiente de determinação (R2)
Ex4:
Considerando os dados do exemplo 1,
calcule o coeficiente de determinação.
SQR 273,337
SQT
SQR
R −=12
∑
=
=
n
i
ieSQR
1
2ˆ 273,337=
( )
2
1
∑
=
−=
n
i
i YYSQT 8890=
8890
273,337
1−= 962,0= Cerca de 96% da variação nas
despesas de consumo são
explicadas pela renda.
Obs: O coeficiente de correlação , pode
ser calculado por:
YX ,ρ
2
, RYX ±=ρ 962,0, =YXρ 9808,0=
As duas variáveis tem uma alta correlação
positiva.

Outros materiais

Materiais relacionados

Perguntas relacionadas

Materiais recentes

Perguntas Recentes