ARM
58 pág.

ARM

Disciplina:Estatística Aplicada7.429 materiais64.132 seguidores
Pré-visualização4 páginas
ANA´LISE DE REGRESSA˜O MU´LTIPLA

Gladys D. C. Barriga
glad@feb.unesp.br

Departamento de Engenharia de Produc¸a˜o

30 de outubro de 2012

VGC (FEB-UNESP) MRLM 2012 1 / 58

O Modelo de Regressa˜o Linear Mu´ltipla

Um modelo de regressa˜o que contem mais de uma varia´vel explicativa
ou independente recebe o nome de modelo de regressa˜o mu´ltipla.

Por exemplo, suponha que o tempo de vida de uma ferramenta de
corte depende da velocidade de corte e do aˆngulo de corte da
ferramenta.

Um modelo de regressa˜o mu´ltipla que pode descrever esta relac¸a˜o da
seguinte forma:

Y = β0 + β1X1 + β2X2 + ε

onde Y representa o tempo de vida da ferramenta; X1 e´ a velocidade
de corte; X2 e´ o aˆngulo de corte e ε e´ termo aleato´rio.

VGC (FEB-UNESP) MRLM 2012 2 / 58

Em geral, a varia´vel dependente ou resposta Y pode estar relacionada com
k varia´veis explicativas ou independentes. O modelo

Y = β0 + β1X1 + β2X2 + . . . , βkXk + ε (1)

recebe o nome de regressa˜o linear mu´ltipla com k varia´veis explicativas.
Os paraˆmetros βj , j = 0, . . . , k sa˜o chamados de coeficientes de regressa˜o.
Este modelo descreve um hiperplano no espac¸o k-dimensional.

VGC (FEB-UNESP) MRLM 2012 3 / 58

Suposic¸o˜es do modelo de regressa˜o linear mu´ltipla (MRLM)

(i) O erro tem me´dia zero e variaˆncia σ2 (desconhecida)

(ii) Os erros sa˜o na˜o correlacionados.

(iii) Os erros tem distribuic¸a˜o normal.

(iv) As varia´veis explicativas X1, . . . ,Xk sa˜o controlados pelo
experimentador e sa˜o medidos com erro desprez´ıvel (o erro na˜o
significante sob o ponto de vista pra´tico). Ou seja as varia´veis sa˜o
na˜o aleato´rias.

VGC (FEB-UNESP) MRLM 2012 4 / 58

Da equac¸a˜o (1), a varia´vel aleato´ria Y tambe´m seguem uma
distribuic¸a˜o normal com variaˆncia σ2 e me´dia µY |x, sendo

E (Y |X = x) = µY |x = β0 + β1X1 + β2X2 + . . . , βkXk (2)

Observe em (2) os paraˆmetros βj , j = 1, . . . , k representa a variac¸a˜o
esperada na varia´vel resposta Y quando a varia´vel Xj sofre um
acre´scimo unita´rio, enquanto todas as demais varia´veis explicativas Xi
(i 6= j) sa˜o mantidas constantes.
Por este motivo os paraˆmetros βj , j = 1, . . . , k sa˜o tambe´m
conhecidos como coeficientes parciais de regressa˜o.

Se os valores de Xj incluem Xj = 0, enta˜o β0 e´ a me´dia de Y quando
os Xj = 0, j = 1, . . . , k . Em caso contra´rio β0 na˜o tem interpretac¸a˜o
pra´tica.

VGC (FEB-UNESP) MRLM 2012 5 / 58

Estimac¸a˜o dos paraˆmetros do MRLM pelo me´todo de
m´ınimos quadrados

Suponha-se que tem-se n > k + 1 observac¸o˜es de Y e seja Xij a i-e´sima
observac¸a˜o da varia´vel Xj . As observac¸o˜es sa˜o da forma
(xi1, xi2, . . . , xik , yi ), i = 1, . . . , n. Os dados de uma regressa˜o mu´ltipla
podem ser apresentados na seguinte forma:

Tabela: Dados de uma regressa˜o mu´ltipla

y x1 x2 . . . xk
y1 x11 x12 . . . x1k
y2 x21 x22 . . . x2k
...

...
... . . .

...
yn xn1 xn2 . . . xnk

VGC (FEB-UNESP) MRLM 2012 6 / 58

Cada observac¸a˜o satisfaz o modelo da equac¸a˜o (1), isto e´,

Yi = β0 + β1Xi1 + β2Xi2 + · · ·+ βkXik + εi , i = 1, . . . , n. (3)

Para encontrar os estimadores de m´ınimos quadrados de β0, β1, . . . , βk
devemos minimizar a func¸a˜o de m´ınimos quadrados,

L =
n∑

i=1

ε2i =
2∑

i=1

(Yi − β0 − β1Xi1 − β2Xi2 − · · · − βkXik)2 (4)

em relac¸a˜o a β0, β1, . . . , βk .

VGC (FEB-UNESP) MRLM 2012 7 / 58

As derivados parciais

∂L

∂β0
= 2

n∑
i=1

(Yi − β0 − β1Xi1 − β2Xi2 − · · · − βkXik)(−1) (5)

∂L

∂βj
= 2

n∑
i=1

(Yi − β0 − β1Xi1 − β2Xi2 − · · · − βkXik)(−Xij) (6)

j = 1, . . . , k . O estimador de m´ınimos quadrados de β0, β1, . . . , βk
denotados por βˆ0, βˆ1, . . . , βˆk devem satisfazer as seguintes equac¸o˜es

∂L

∂β0
|βˆ0,βˆ1,...,βˆk = 0⇒, 2

n∑
i=1

(Yi−βˆ0−βˆ1Xi1−βˆ2Xi2−· · ·−βˆkXik)(−1) = 0
(7)

VGC (FEB-UNESP) MRLM 2012 8 / 58

e
∂L

∂βj
|βˆ0,βˆ1,...,βˆk = 0⇒, 2

n∑
i=1

(Yi− βˆ0− βˆ1Xi1− βˆ2Xi2−· · ·− βˆkXik)(Xij) = 0
(8)

Apo´s de simplicar as equac¸o˜es (7)-(8), obte´m-se as equac¸o˜es normais de
m´ınimos quadrados:

nβˆ0+ βˆ1
n∑

i=1
Xi1+ βˆ2

n∑
i=1

Xi2+ · · ·+ βˆk
n∑

i=1
Xik =

n∑
i=1

Yi

βˆ0
n∑

i=1
Xi1+ βˆ1

n∑
i=1

X 2i1+ βˆ2
n∑

i=1
Xi1Xi2+ · · ·+ βˆk

n∑
i=1

Xi1Xik =
n∑

i=1
Xi1Yi

...
...

... . . .
...

...

βˆ0
n∑

i=1
Xik+ βˆ1

n∑
i=1

Xi1Xik+ βˆ2
n∑

i=1
XikXi2+ · · ·+ βˆk

n∑
i=1

X 2ik =
n∑

i=1
XikYi

(9)

VGC (FEB-UNESP) MRLM 2012 9 / 58

Observe que tem-se p = k + 1 equac¸o˜es normais, uma para cada
coeficiente de regressa˜o desconhecido. A soluc¸a˜o das equac¸o˜es normais
sa˜o os estimadores de m´ınimos quadrados dos coeficientes de regressa˜o.
O modelo de regressa˜o mu´ltipla ajustado e´ dado por:

Yˆ = βˆ0 + βˆ1X1 + βˆ2X2 + · · ·+ βˆkXk . (10)

VGC (FEB-UNESP) MRLM 2012 10 / 58

Exemplo

O proprieta´rio de uma casa esta interessado no efeito de seu aparelho de
ar condicionado e de sua secadora de roupa na conta de luz. Para isso ele
anotou o nu´mero de horas que usou o seu aparelho de ar condicionado a
cada dia e nu´mero de vezes que a secadora de roupa foi usada, durante 21
dias. Tambe´m monitorou o relo´gio de medida do consumo de eletricidade
durante esses dias e calculou a quantidade de eletricidade usada
kilowatt/hora. Os dados sa˜o apresentados na tabela a continuac¸a˜o

VGC (FEB-UNESP) MRLM 2012 11 / 58

Tabela: Dados do consumo de eletricidade, nu´mero de horas de uso de ar
condicionado e nu´mero de vezes que a secadora de roupa foi ligada de uma casa

Quantidade de eletricidade (Y ) Horas de uso do No de vezes que a
ar condicionado (X1) secadora foi ligada (X2)

35 1,5 1
63 4,5 2
66 5,0 2
17 2,0 0
94 8,5 3
79 6,0 3
93 13,5 1
66 8,0 1
94 12,5 1
82 7,5 2
78 6,5 3
65 8,0 1
77 7,5 2
75 8,0 2
62 7,5 1
85 12,0 1
43 6,0 0
57 2,5 3
33 5,0 0
65 7,5 1
33 6,0 0

VGC (FEB-UNESP) MRLM 2012 12 / 58

A continuac¸a˜o ajustamos os dados ao modelo regressa˜o linear mu´ltipla

Y = β0 + β1X1 + β2X2 + ε (11)

Dos dados da tabela, tem-se que:

n = 21
21∑
i=1

Yi = 1362
21∑
i=1

Xi1 = 145, 5
21∑
i=1

Xi2 = 30
21∑
i=1

X 2i1 = 1204, 75

21∑
i=1

X 2i2 = 64
21∑
i=1

Xi1Xi2 = 206
21∑
i=1

Xi1yi = 10487
21∑
i=1

Xi2Yi = 2215

VGC (FEB-UNESP) MRLM 2012 13 / 58

Para o modelo (11), as equac¸o˜es normais (9) sa˜o:

nβˆ0 + βˆ1

n∑
i=1

Xi1 + βˆ1

n∑
i=1

Xi2 =
n∑

i=1

Yi

βˆ0

n∑
i=1

Xi2 + βˆ1

n∑
i=1

X 2i1 + βˆ1

n∑
i=1

Xi1Xi2 =
n∑

i=1

Xi1Yi

βˆ0

n∑
i=1

Xi2 + βˆ1

n∑
i=1

Xi1Xi2 + βˆ1

n∑
i=1

X 2i2 =
n∑

i=1

Xi2Yi

Ao substituir as somato´rias calculadas na equac¸o˜es normais, temos que:

21βˆ0 + 145, 4βˆ1 + 30βˆ2 = 132

145, 5βˆ0 + 1204, 75βˆ1 + 206βˆ2 = 10487

30βˆ0 + 206βˆ1 + 64βˆ2 = 2215

VGC (FEB-UNESP) MRLM 2012 14 / 58

Para o modelo (11), as equac¸o˜es normais (9) sa˜o:

nβˆ0 + βˆ1

n∑
i=1

Xi1 + βˆ1

n∑
i=1

Xi2 =
n∑

i=1

Yi

βˆ0

n∑
i=1

Xi2 + βˆ1

n∑
i=1

X 2i1 + βˆ1

n∑
i=1

Xi1Xi2 =
n∑

i=1

Xi1Yi

βˆ0

n∑
i=1

Xi2 + βˆ1

n∑
i=1

Xi1Xi2 + βˆ1

n∑
i=1

X 2i2 =
n∑

i=1

Xi2Yi

Ao substituir as somato´rias calculadas na equac¸o˜es normais, temos que:

21βˆ0 + 145, 4βˆ1 + 30βˆ2 = 132

145, 5βˆ0 + 1204, 75βˆ1 + 206βˆ2 = 10487

30βˆ0 + 206βˆ1 + 64βˆ2 = 2215

VGC (FEB-UNESP) MRLM 2012 15 / 58

A soluc¸a˜o destas equac¸o˜es e´:

βˆ0 = 8, 105; βˆ1 = 5, 4659 βˆ1 = 13, 2166

Portanto, a equac¸a˜o de regressa˜o ajustada e´:

yˆ = 8, 105 + 5, 4659x1 + 13, 2166x2

VGC (FEB-UNESP) MRLM 2012 16 / 58

Enfoque matricial para o MRLM

Suponha que existem k varia´veis explicativas e n observac¸o˜es
(Xi1, . . . ,Xik ,Yi ), i = 1, . . . , n e o MRLM em termo das observac¸o˜es

Yi = β0 + β1Xi1 + β2Xi2 + · · ·+ βkXik + εi , ı = 1, . . . , n

Este modelo e´ um sistema de n equac¸o˜es que pode ser escrito em notac¸a˜o
matricial como:

y = Xβ + ε (12)

VGC (FEB-UNESP) MRLM 2012 17 / 58

onde y =


y1
y2
...

yn


(n×1)

, X =


1 X11 X12 . . . X1k
1 X21 X22 . . . X2k
...

...
... . . .

...
1 Xn1 Xn2 . . . Xnk


(n×p)

,

β =


β0
β1
...
βk


(p×1)

e ε =


ε1
ε2
...
εn


(n×1)

p = k + 1

VGC (FEB-UNESP) MRLM 2012 18 / 58

Desejamos encontrar o vetor de estimador de m´ınimos quadrados, βˆ, que
minimiza

L =
n∑

i=1

ε2i = ε
tε = (y −Xβ)t(y −Xβ)