Regressão Linear Simples
32 pág.

Regressão Linear Simples

Disciplina:Estatística Econômica115 materiais1.573 seguidores
Pré-visualização2 páginas
Regressão Linear Simples

Prof. Carlos Amorim

Introdução

• Uma das preocupações estatísticas ao analisar
dados, é a de criar modelos que explicitem
estruturas do fenômeno em observação.

• O modelo de regressão é um dos métodos• O modelo de regressão é um dos métodos
estatísticos mais usados para investigar a relação
entre variáveis.

• Análise de regressão: metodologia estatística que
estuda (modela) a relação entre duas ou mais
variáveis.

Modelo de Regressão
• Procurará estabelecer uma relação matemática para

determinar o comportamento de uma variável Y em
função do comportamento de outras variáveis X1, X2, X3,

... , Xn , ou seja:
),...,,,( 321 nXXXXfY = 321 n

Variável dependente
(explicada)

Variáveis independentes
(explicativas)

Estabelecida essa equação matemática, poderemos:

-Estimar os valores de Y para diferentes valores de X1, X2,..., Xn;
-Explicarmos as oscilações verificadas na variável dependente em função
das oscilações verificadas na variável independente.

Tipos de Modelos de Regressão

MODELO
DE

REGRESSÃO

REGRESSÃO
SIMPLES

REGRESSÃO
MÚLTIPLA

LINEAR LINEAR
NÃO

LINEAR
NÃO

LINEAR

Relação linear

• A presença ou ausência de relação linear pode
ser investigada sob dois pontos de vista:

– Quantificando a força dessa relação: Correlação.

– Explicitando a forma dessa relação: Regressão.

Coeficiente de correlação

YX

YX

YXCOV

σσ
ρ

),(
, = 11 , +≤≤− YXρ

� O coeficiente de correlação pode variar entre –1 (correlação� O coeficiente de correlação pode variar entre –1 (correlação
negativa perfeita) e +1 (correlação positiva perfeita).

� Valores negativos do coeficiente de correlação indicam
uma correlação do tipo inversa, isto é, quando x aumenta y
diminui.

� Valores positivos do coeficiente de correlação ocorrem
quando x e y variam no mesmo sentido, isto é, quando x
aumenta y aumenta ou quando x diminui y também diminui.

Exemplo

• Nota na prova de estatística e Tempo de estudo.

Y: Nota na prova.

X: Tempo de estudo (horas por dia).

752038,0=ρGráfico de dispersão

0
1
2
3
4
5
6
7
8
9

10

0 1 2 3 4 5 6

Horas de estudo (X)

N

o

t

a

(

Y

)

752038,0, =XYρ

O objetivo é encontrar
a relação que melhor
represente o
comportamento dos
pontos do diagrama de
dispersão.

XY 10 ββ +=

Modelo de Regressão Linear
Simples

iii eXY ++= 10 ββ

Inclinação

populacional
Intercepto

populacional Erro Aleatório

Variável Variável

=Y Estimado por X, segundo uma função + Efeito aleatório

X

Y

β0

β1 Coeficiente
angular

β0 + β1 X

Variável

Independente

Variável

Dependente

ie

Modelo de Regressão Linear
Simples

iii eXY ++= 10 ββ

População

iii eXY ˆ
ˆˆ

10 ++= ββ

Amostra aleatória

iii 10

Objetivo:

Fazer inferência sobre a função de regressão populacional:

Com base na função de regressão amostral:

iii eXY ++= 10 ββ

iii eXY ˆ
ˆˆ

10 ++= ββ

Estimação dos parâmetros

Y

Y

ˆ

1ˆe
2eˆ

3ˆe

4ˆe

5ˆe

iii YYe
ˆˆ −=

X10
ˆˆ ββ +

(erros ou resíduos)

X

Yˆ
5ˆe

Encontrar a melhor reta que se adapta ao diagrama de dispersão. Isso
significa determinar os valores de e de , tal que os resíduos ou
erros encontrados sejam os menores possíveis.

0βˆ 1βˆ
( )eˆ

Para determinar os valores de e com essas características é utilizado
o Método dos Mínimos Quadrados Ordinários (MQO).

0βˆ 1βˆ

Método dos Mínimos Quadrados
Ordinários (MQO)

O MQO escolhe e de tal forma que, para

uma dada amostra, o é o menor possível.

0βˆ 1βˆ

∑
=

n

i

ie
1

2ˆ

∑
n

ie
2ˆMin

iii XYe 10
ˆˆˆ ββ −−=∑

=i
ie

1

ˆ

10
ˆ,ˆ ββ

Min
iii XYe 10

ˆˆˆ ββ −−=

0
ˆ

ˆ

0

1

2

=
∂

∂∑
=

β

n

i

ie

0
ˆ

ˆ

1

1

2

=
∂

∂∑
=

β

n

i

ie

,

XY 10
ˆˆ ββ −=

( )∑

∑

=

=

−

−
=

n

i

i

n

i

ii

XX

YXnYX

1

2

1
1βˆ ou

∑

∑

=

==
n

i

i

n

i

ii

x

yx

1

2

1
1βˆ ( )XXx ii −=

( )YYy ii −=
,

Interpretação dos parâmetros

• Intercepto - valor esperado para a variável
dependente quando é igual a zero;

0βˆ

iY iX

• Coeficiente angular - variação esperada na
variável dependente, quando a variável
independente aumenta uma unidade.

1βˆ

Estimação dos parâmetros

• EX:

Y (Consumo) X (Renda)

70 80

65 100

90 120

Diagrama de disperção

150

200

C

o

n

s

u

m

o

XY 10
ˆˆˆ ββ +=

a) Calcule e

90 120

95 140

110 160

115 180

120 200

140 220

155 240

150 260

0

50

100

0 50 100 150 200 250 300

Renda

C

o

n

s

u

m

o

0βˆ .ˆ1β

b) Qual a previsão de consumo de uma
família que tem renda de 170 ?

Estimação dos parâmetros

• EX1:

Diagrama de disperção

100

150

200

C

o

n

s

u

m

o

XY 509,047,24ˆ +=

0

50

100

0 50 100 150 200 250 300

Renda

C

o

n

s

u

m

o

47,24ˆ0 =β

509,0ˆ1 =β Um aumento de um
real na renda provoca
um aumento, em
média, de 0,50
centavos no consumo.

a) b)
XY 509,047,24ˆ +=

( )170509,047,24ˆ +=Y
111ˆ =Y

Propriedades dos estimadores

• Hipóteses:

i. Para cada valor de , o erro , tem média zero e
variância constante

ii. Se , , isto é, para duas

iX ie

.2eσ

ji ≠ 0),( =ji eeCOVii. Se , , isto é, para duas
observações distintas, os erros são não
correlacionados.

iii. Os erros são v.a. com distribuição normal:

0),( =ji eeCOV

ie

).,0(~ 2ei Ne σ

Propriedades dos estimadores

• Valor esperado e variância:

)ˆ( ββ =E
∑

==

n

i

iX

V 1

2

2)ˆ( σβ

Para o estimador :ˆ0β

11)
ˆ( ββ =E

00 )
ˆ( ββ =E

( )∑
=

−
=

n

i

i

e

XX

V

1

2

2

1)
ˆ(

σ
β

( )∑
=

=

−
=

n

i

i

i
e

XXn

V

1

2

12

0 )
ˆ( σβ

Para o estimador :ˆ1β

Propriedades dos estimadores

• Distribuições Amostrais dos Estimadores dos
Parâmetros:

),0(~ 2ei Ne σ

iii eXY ++= 10 ββ

onde:

),(~ 210 eii XNY σββ +

∑

∑

=

==
n

i

i

n

i

ii

x

yx

1

2

1
1βˆ

∑

∑

=

==
n

i

i

n

i

ii

x

Yx

1

2

1 ,
1

∑
=

=
n

i

iiYk

∑
=

=
n

i

i

i
i

x

x
k

1

2

Como é uma função linear de
1βˆ iY tem distribuição normal.1βˆ

Como é uma função linear de
0βˆ 1βˆ tem distribuição normal.0βˆ

Propriedades dos estimadores

• Distribuições Amostrais dos Estimadores dos
Parâmetros:

( ) 









n

eN
2

11 ,~
ˆ σββ

( ) 







 ∑

=
n

n

i

ie X

N 1

22

00 ,~
ˆ

σ
ββe

( ) 









−∑

=

n

i

i XX

N

1

2
11 ,~

ˆ ββ
( ) 










−∑

=

n

i

i XXn

N

1

2
00 ,~

ˆ ββe

Os resultados acima permitem concluir que:

( ) ( )1,0~ˆ 211 NXX i
e

∑ −
−

σ
ββ ( ) ( )1,0~ˆ

2

2

00 N
X

XXn

i

i

e ∑
∑ −−

σ
ββe

Intervalo de Confiança

Dado que é desconhecido. Utilizaremos o estimador
2

eσ .ˆ
2

eσ

kn

ei
e −

= ∑
2

2
ˆ

σˆ onde:

:kn −

:k Número de parâmetros estimados.
kn −

:kn −

∑ :ˆ2ie
Número de graus de liberdade.

Soma do quadrado dos resíduos (SQR).

( ) ~
ˆ

ˆ 2
11 ∑ −

−
XX i

eσ
ββ

)2( −nt

:2=kPara

( )
( )22

2

00 ~
ˆ

ˆ

−∑
∑ −−

n

i

i

e

t
X

XXn

σ
ββ

Intervalo de Confiança
:1βPara α−1 (nível de confiança)

( ) α
σ

ββ
−=








≤−

−
≤− ∑ 1

ˆ

ˆ 2
11 bXXbP i

e

( ) ( )
α

ββ
−=








≤
−

≤
−

1
ˆ

11 bbP

infL supL