A maior rede de estudos do Brasil

Grátis
32 pág.
Regressão Linear Simples

Pré-visualização | Página 1 de 2

Regressão Linear Simples
Prof. Carlos Amorim
Introdução
• Uma das preocupações estatísticas ao analisar
dados, é a de criar modelos que explicitem
estruturas do fenômeno em observação.
• O modelo de regressão é um dos métodos• O modelo de regressão é um dos métodos
estatísticos mais usados para investigar a relação
entre variáveis.
• Análise de regressão: metodologia estatística que
estuda (modela) a relação entre duas ou mais
variáveis.
Modelo de Regressão
• Procurará estabelecer uma relação matemática para
determinar o comportamento de uma variável Y em
função do comportamento de outras variáveis X1, X2, X3,
... , Xn , ou seja:
),...,,,( 321 nXXXXfY = 321 n
Variável dependente 
(explicada)
Variáveis independentes 
(explicativas)
Estabelecida essa equação matemática, poderemos:
-Estimar os valores de Y para diferentes valores de X1, X2,..., Xn;
-Explicarmos as oscilações verificadas na variável dependente em função
das oscilações verificadas na variável independente.
Tipos de Modelos de Regressão
MODELO 
DE
REGRESSÃO
REGRESSÃO
SIMPLES
REGRESSÃO
MÚLTIPLA
LINEAR LINEAR
NÃO
LINEAR
NÃO
LINEAR
Relação linear
• A presença ou ausência de relação linear pode
ser investigada sob dois pontos de vista:
– Quantificando a força dessa relação: Correlação.
– Explicitando a forma dessa relação: Regressão.
Coeficiente de correlação
YX
YX
YXCOV
σσ
ρ
),(
, = 11 , +≤≤− YXρ
� O coeficiente de correlação pode variar entre –1 (correlação� O coeficiente de correlação pode variar entre –1 (correlação
negativa perfeita) e +1 (correlação positiva perfeita).
� Valores negativos do coeficiente de correlação indicam
uma correlação do tipo inversa, isto é, quando x aumenta y
diminui.
� Valores positivos do coeficiente de correlação ocorrem
quando x e y variam no mesmo sentido, isto é, quando x
aumenta y aumenta ou quando x diminui y também diminui.
Exemplo
• Nota na prova de estatística e Tempo de estudo.
Y: Nota na prova.
X: Tempo de estudo (horas por dia).
752038,0=ρGráfico de dispersão
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6
Horas de estudo (X)
N
o
t
a
 
(
Y
)
752038,0, =XYρ
O objetivo é encontrar
a relação que melhor
represente o
comportamento dos
pontos do diagrama de
dispersão.
XY 10 ββ +=
Modelo de Regressão Linear 
Simples
iii eXY ++= 10 ββ
Inclinação
populacional
Intercepto
populacional Erro Aleatório
Variável Variável 
=Y Estimado por X, segundo uma função + Efeito aleatório
X
Y
β0
β1 Coeficiente
angular
β0 + β1 X
Variável 
Independente
Variável 
Dependente
ie
Modelo de Regressão Linear 
Simples
iii eXY ++= 10 ββ
População
iii eXY ˆ
ˆˆ
10 ++= ββ
Amostra aleatória
iii 10
Objetivo:
Fazer inferência sobre a função de regressão populacional:
Com base na função de regressão amostral:
iii eXY ++= 10 ββ
iii eXY ˆ
ˆˆ
10 ++= ββ
Estimação dos parâmetros
Y
Y
ˆ
1ˆe
2eˆ
3ˆe
4ˆe
5ˆe
iii YYe
ˆˆ −=
X10
ˆˆ ββ +
(erros ou resíduos)
X
Yˆ
5ˆe
Encontrar a melhor reta que se adapta ao diagrama de dispersão. Isso
significa determinar os valores de e de , tal que os resíduos ou
erros encontrados sejam os menores possíveis.
0βˆ 1βˆ
( )eˆ
Para determinar os valores de e com essas características é utilizado
o Método dos Mínimos Quadrados Ordinários (MQO).
0βˆ 1βˆ
Método dos Mínimos Quadrados 
Ordinários (MQO)
O MQO escolhe e de tal forma que, para 
uma dada amostra, o é o menor possível.
0βˆ 1βˆ
∑
=
n
i
ie
1
2ˆ
∑
n
ie
2ˆMin
iii XYe 10
ˆˆˆ ββ −−=∑
=i
ie
1
ˆ
10
ˆ,ˆ ββ
Min
iii XYe 10
ˆˆˆ ββ −−=
0
ˆ
ˆ
0
1
2
=
∂
∂∑
=
β
n
i
ie
0
ˆ
ˆ
1
1
2
=
∂
∂∑
=
β
n
i
ie
,
XY 10
ˆˆ ββ −=
( )∑
∑
=
=
−
−
=
n
i
i
n
i
ii
XX
YXnYX
1
2
1
1βˆ ou
∑
∑
=
==
n
i
i
n
i
ii
x
yx
1
2
1
1βˆ ( )XXx ii −=
( )YYy ii −=
,
Interpretação dos parâmetros
• Intercepto - valor esperado para a variável
dependente quando é igual a zero;
0βˆ
iY iX
• Coeficiente angular - variação esperada na
variável dependente, quando a variável
independente aumenta uma unidade.
1βˆ
Estimação dos parâmetros
• EX:
Y (Consumo) X (Renda)
70 80
65 100
90 120
Diagrama de disperção
150
200
C
o
n
s
u
m
o
XY 10
ˆˆˆ ββ +=
a) Calcule e
90 120
95 140
110 160
115 180
120 200
140 220
155 240
150 260
0
50
100
0 50 100 150 200 250 300
Renda
C
o
n
s
u
m
o
0βˆ .ˆ1β
b) Qual a previsão de consumo de uma
família que tem renda de 170 ?
Estimação dos parâmetros
• EX1:
Diagrama de disperção
100
150
200
C
o
n
s
u
m
o
XY 509,047,24ˆ +=
0
50
100
0 50 100 150 200 250 300
Renda
C
o
n
s
u
m
o
47,24ˆ0 =β
509,0ˆ1 =β Um aumento de um
real na renda provoca
um aumento, em
média, de 0,50
centavos no consumo.
a) b)
XY 509,047,24ˆ +=
( )170509,047,24ˆ +=Y
111ˆ =Y
Propriedades dos estimadores
• Hipóteses:
i. Para cada valor de , o erro , tem média zero e 
variância constante
ii. Se , , isto é, para duas
iX ie
.2eσ
ji ≠ 0),( =ji eeCOVii. Se , , isto é, para duas
observações distintas, os erros são não
correlacionados.
iii. Os erros são v.a. com distribuição normal:
0),( =ji eeCOV
ie
).,0(~ 2ei Ne σ
Propriedades dos estimadores
• Valor esperado e variância:
)ˆ( ββ =E
∑
==
n
i
iX
V 1
2
2)ˆ( σβ
Para o estimador :ˆ0β
11)
ˆ( ββ =E
00 )
ˆ( ββ =E
( )∑
=
−
=
n
i
i
e
XX
V
1
2
2
1)
ˆ(
σ
β
( )∑
=
=
−
=
n
i
i
i
e
XXn
V
1
2
12
0 )
ˆ( σβ
Para o estimador :ˆ1β
Propriedades dos estimadores
• Distribuições Amostrais dos Estimadores dos
Parâmetros:
),0(~ 2ei Ne σ
iii eXY ++= 10 ββ
onde:
),(~ 210 eii XNY σββ +
∑
∑
=
==
n
i
i
n
i
ii
x
yx
1
2
1
1βˆ
∑
∑
=
==
n
i
i
n
i
ii
x
Yx
1
2
1 ,
1
∑
=
=
n
i
iiYk
∑
=
=
n
i
i
i
i
x
x
k
1
2
Como é uma função linear de
1βˆ iY tem distribuição normal.1βˆ
Como é uma função linear de
0βˆ 1βˆ tem distribuição normal.0βˆ
Propriedades dos estimadores
• Distribuições Amostrais dos Estimadores dos
Parâmetros:
( ) 







n
eN
2
11 ,~
ˆ σββ
( ) 






 ∑
=
n
n
i
ie X
N 1
22
00 ,~
ˆ
σ
ββe
( ) 






−∑
=
n
i
i XX
N
1
2
11 ,~
ˆ ββ
( ) 






−∑
=
n
i
i XXn
N
1
2
00 ,~
ˆ ββe
Os resultados acima permitem concluir que:
( ) ( )1,0~ˆ 211 NXX i
e
∑ −
−
σ
ββ ( ) ( )1,0~ˆ
2
2
00 N
X
XXn
i
i
e ∑
∑ −−
σ
ββe
Intervalo de Confiança
Dado que é desconhecido. Utilizaremos o estimador
2
eσ .ˆ
2
eσ
kn
ei
e −
= ∑
2
2
ˆ
σˆ onde:
:kn −
:k Número de parâmetros estimados.
kn −
:kn −
∑ :ˆ2ie
Número de graus de liberdade.
Soma do quadrado dos resíduos (SQR).
( ) ~
ˆ
ˆ 2
11 ∑ −
−
XX i
eσ
ββ
)2( −nt
:2=kPara
( )
( )22
2
00 ~
ˆ
ˆ
−∑
∑ −−
n
i
i
e
t
X
XXn
σ
ββ
Intervalo de Confiança
:1βPara α−1 (nível de confiança)
( ) α
σ
ββ
−=





≤−
−
≤− ∑ 1
ˆ
ˆ 2
11 bXXbP i
e
( ) ( )
α
ββ
−=





≤
−
≤
−
1
ˆ
11 bbP
infL supL