ARM
58 pág.

ARM


DisciplinaEstatística Aplicada9.953 materiais84.950 seguidores
Pré-visualização4 páginas
ANA´LISE DE REGRESSA\u2dcO MU´LTIPLA
Gladys D. C. Barriga
glad@feb.unesp.br
Departamento de Engenharia de Produc¸a\u2dco
30 de outubro de 2012
VGC (FEB-UNESP) MRLM 2012 1 / 58
O Modelo de Regressa\u2dco Linear Mu´ltipla
Um modelo de regressa\u2dco que contem mais de uma varia´vel explicativa
ou independente recebe o nome de modelo de regressa\u2dco mu´ltipla.
Por exemplo, suponha que o tempo de vida de uma ferramenta de
corte depende da velocidade de corte e do a\u2c6ngulo de corte da
ferramenta.
Um modelo de regressa\u2dco mu´ltipla que pode descrever esta relac¸a\u2dco da
seguinte forma:
Y = \u3b20 + \u3b21X1 + \u3b22X2 + \u3b5
onde Y representa o tempo de vida da ferramenta; X1 e´ a velocidade
de corte; X2 e´ o a\u2c6ngulo de corte e \u3b5 e´ termo aleato´rio.
VGC (FEB-UNESP) MRLM 2012 2 / 58
Em geral, a varia´vel dependente ou resposta Y pode estar relacionada com
k varia´veis explicativas ou independentes. O modelo
Y = \u3b20 + \u3b21X1 + \u3b22X2 + . . . , \u3b2kXk + \u3b5 (1)
recebe o nome de regressa\u2dco linear mu´ltipla com k varia´veis explicativas.
Os para\u2c6metros \u3b2j , j = 0, . . . , k sa\u2dco chamados de coeficientes de regressa\u2dco.
Este modelo descreve um hiperplano no espac¸o k-dimensional.
VGC (FEB-UNESP) MRLM 2012 3 / 58
Suposic¸o\u2dces do modelo de regressa\u2dco linear mu´ltipla (MRLM)
(i) O erro tem me´dia zero e varia\u2c6ncia \u3c32 (desconhecida)
(ii) Os erros sa\u2dco na\u2dco correlacionados.
(iii) Os erros tem distribuic¸a\u2dco normal.
(iv) As varia´veis explicativas X1, . . . ,Xk sa\u2dco controlados pelo
experimentador e sa\u2dco medidos com erro desprez´\u131vel (o erro na\u2dco
significante sob o ponto de vista pra´tico). Ou seja as varia´veis sa\u2dco
na\u2dco aleato´rias.
VGC (FEB-UNESP) MRLM 2012 4 / 58
Da equac¸a\u2dco (1), a varia´vel aleato´ria Y tambe´m seguem uma
distribuic¸a\u2dco normal com varia\u2c6ncia \u3c32 e me´dia µY |x, sendo
E (Y |X = x) = µY |x = \u3b20 + \u3b21X1 + \u3b22X2 + . . . , \u3b2kXk (2)
Observe em (2) os para\u2c6metros \u3b2j , j = 1, . . . , k representa a variac¸a\u2dco
esperada na varia´vel resposta Y quando a varia´vel Xj sofre um
acre´scimo unita´rio, enquanto todas as demais varia´veis explicativas Xi
(i 6= j) sa\u2dco mantidas constantes.
Por este motivo os para\u2c6metros \u3b2j , j = 1, . . . , k sa\u2dco tambe´m
conhecidos como coeficientes parciais de regressa\u2dco.
Se os valores de Xj incluem Xj = 0, enta\u2dco \u3b20 e´ a me´dia de Y quando
os Xj = 0, j = 1, . . . , k . Em caso contra´rio \u3b20 na\u2dco tem interpretac¸a\u2dco
pra´tica.
VGC (FEB-UNESP) MRLM 2012 5 / 58
Estimac¸a\u2dco dos para\u2c6metros do MRLM pelo me´todo de
m´\u131nimos quadrados
Suponha-se que tem-se n > k + 1 observac¸o\u2dces de Y e seja Xij a i-e´sima
observac¸a\u2dco da varia´vel Xj . As observac¸o\u2dces sa\u2dco da forma
(xi1, xi2, . . . , xik , yi ), i = 1, . . . , n. Os dados de uma regressa\u2dco mu´ltipla
podem ser apresentados na seguinte forma:
Tabela: Dados de uma regressa\u2dco mu´ltipla
y x1 x2 . . . xk
y1 x11 x12 . . . x1k
y2 x21 x22 . . . x2k
...
...
... . . .
...
yn xn1 xn2 . . . xnk
VGC (FEB-UNESP) MRLM 2012 6 / 58
Cada observac¸a\u2dco satisfaz o modelo da equac¸a\u2dco (1), isto e´,
Yi = \u3b20 + \u3b21Xi1 + \u3b22Xi2 + · · ·+ \u3b2kXik + \u3b5i , i = 1, . . . , n. (3)
Para encontrar os estimadores de m´\u131nimos quadrados de \u3b20, \u3b21, . . . , \u3b2k
devemos minimizar a func¸a\u2dco de m´\u131nimos quadrados,
L =
n\u2211
i=1
\u3b52i =
2\u2211
i=1
(Yi \u2212 \u3b20 \u2212 \u3b21Xi1 \u2212 \u3b22Xi2 \u2212 · · · \u2212 \u3b2kXik)2 (4)
em relac¸a\u2dco a \u3b20, \u3b21, . . . , \u3b2k .
VGC (FEB-UNESP) MRLM 2012 7 / 58
As derivados parciais
\u2202L
\u2202\u3b20
= 2
n\u2211
i=1
(Yi \u2212 \u3b20 \u2212 \u3b21Xi1 \u2212 \u3b22Xi2 \u2212 · · · \u2212 \u3b2kXik)(\u22121) (5)
\u2202L
\u2202\u3b2j
= 2
n\u2211
i=1
(Yi \u2212 \u3b20 \u2212 \u3b21Xi1 \u2212 \u3b22Xi2 \u2212 · · · \u2212 \u3b2kXik)(\u2212Xij) (6)
j = 1, . . . , k . O estimador de m´\u131nimos quadrados de \u3b20, \u3b21, . . . , \u3b2k
denotados por \u3b2\u2c60, \u3b2\u2c61, . . . , \u3b2\u2c6k devem satisfazer as seguintes equac¸o\u2dces
\u2202L
\u2202\u3b20
|\u3b2\u2c60,\u3b2\u2c61,...,\u3b2\u2c6k = 0\u21d2, 2
n\u2211
i=1
(Yi\u2212\u3b2\u2c60\u2212\u3b2\u2c61Xi1\u2212\u3b2\u2c62Xi2\u2212· · ·\u2212\u3b2\u2c6kXik)(\u22121) = 0
(7)
VGC (FEB-UNESP) MRLM 2012 8 / 58
e
\u2202L
\u2202\u3b2j
|\u3b2\u2c60,\u3b2\u2c61,...,\u3b2\u2c6k = 0\u21d2, 2
n\u2211
i=1
(Yi\u2212 \u3b2\u2c60\u2212 \u3b2\u2c61Xi1\u2212 \u3b2\u2c62Xi2\u2212· · ·\u2212 \u3b2\u2c6kXik)(Xij) = 0
(8)
Apo´s de simplicar as equac¸o\u2dces (7)-(8), obte´m-se as equac¸o\u2dces normais de
m´\u131nimos quadrados:
n\u3b2\u2c60+ \u3b2\u2c61
n\u2211
i=1
Xi1+ \u3b2\u2c62
n\u2211
i=1
Xi2+ · · ·+ \u3b2\u2c6k
n\u2211
i=1
Xik =
n\u2211
i=1
Yi
\u3b2\u2c60
n\u2211
i=1
Xi1+ \u3b2\u2c61
n\u2211
i=1
X 2i1+ \u3b2\u2c62
n\u2211
i=1
Xi1Xi2+ · · ·+ \u3b2\u2c6k
n\u2211
i=1
Xi1Xik =
n\u2211
i=1
Xi1Yi
...
...
... . . .
...
...
\u3b2\u2c60
n\u2211
i=1
Xik+ \u3b2\u2c61
n\u2211
i=1
Xi1Xik+ \u3b2\u2c62
n\u2211
i=1
XikXi2+ · · ·+ \u3b2\u2c6k
n\u2211
i=1
X 2ik =
n\u2211
i=1
XikYi
(9)
VGC (FEB-UNESP) MRLM 2012 9 / 58
Observe que tem-se p = k + 1 equac¸o\u2dces normais, uma para cada
coeficiente de regressa\u2dco desconhecido. A soluc¸a\u2dco das equac¸o\u2dces normais
sa\u2dco os estimadores de m´\u131nimos quadrados dos coeficientes de regressa\u2dco.
O modelo de regressa\u2dco mu´ltipla ajustado e´ dado por:
Y\u2c6 = \u3b2\u2c60 + \u3b2\u2c61X1 + \u3b2\u2c62X2 + · · ·+ \u3b2\u2c6kXk . (10)
VGC (FEB-UNESP) MRLM 2012 10 / 58
Exemplo
O proprieta´rio de uma casa esta interessado no efeito de seu aparelho de
ar condicionado e de sua secadora de roupa na conta de luz. Para isso ele
anotou o nu´mero de horas que usou o seu aparelho de ar condicionado a
cada dia e nu´mero de vezes que a secadora de roupa foi usada, durante 21
dias. Tambe´m monitorou o relo´gio de medida do consumo de eletricidade
durante esses dias e calculou a quantidade de eletricidade usada
kilowatt/hora. Os dados sa\u2dco apresentados na tabela a continuac¸a\u2dco
VGC (FEB-UNESP) MRLM 2012 11 / 58
Tabela: Dados do consumo de eletricidade, nu´mero de horas de uso de ar
condicionado e nu´mero de vezes que a secadora de roupa foi ligada de uma casa
Quantidade de eletricidade (Y ) Horas de uso do No de vezes que a
ar condicionado (X1) secadora foi ligada (X2)
35 1,5 1
63 4,5 2
66 5,0 2
17 2,0 0
94 8,5 3
79 6,0 3
93 13,5 1
66 8,0 1
94 12,5 1
82 7,5 2
78 6,5 3
65 8,0 1
77 7,5 2
75 8,0 2
62 7,5 1
85 12,0 1
43 6,0 0
57 2,5 3
33 5,0 0
65 7,5 1
33 6,0 0
VGC (FEB-UNESP) MRLM 2012 12 / 58
A continuac¸a\u2dco ajustamos os dados ao modelo regressa\u2dco linear mu´ltipla
Y = \u3b20 + \u3b21X1 + \u3b22X2 + \u3b5 (11)
Dos dados da tabela, tem-se que:
n = 21
21\u2211
i=1
Yi = 1362
21\u2211
i=1
Xi1 = 145, 5
21\u2211
i=1
Xi2 = 30
21\u2211
i=1
X 2i1 = 1204, 75
21\u2211
i=1
X 2i2 = 64
21\u2211
i=1
Xi1Xi2 = 206
21\u2211
i=1
Xi1yi = 10487
21\u2211
i=1
Xi2Yi = 2215
VGC (FEB-UNESP) MRLM 2012 13 / 58
Para o modelo (11), as equac¸o\u2dces normais (9) sa\u2dco:
n\u3b2\u2c60 + \u3b2\u2c61
n\u2211
i=1
Xi1 + \u3b2\u2c61
n\u2211
i=1
Xi2 =
n\u2211
i=1
Yi
\u3b2\u2c60
n\u2211
i=1
Xi2 + \u3b2\u2c61
n\u2211
i=1
X 2i1 + \u3b2\u2c61
n\u2211
i=1
Xi1Xi2 =
n\u2211
i=1
Xi1Yi
\u3b2\u2c60
n\u2211
i=1
Xi2 + \u3b2\u2c61
n\u2211
i=1
Xi1Xi2 + \u3b2\u2c61
n\u2211
i=1
X 2i2 =
n\u2211
i=1
Xi2Yi
Ao substituir as somato´rias calculadas na equac¸o\u2dces normais, temos que:
21\u3b2\u2c60 + 145, 4\u3b2\u2c61 + 30\u3b2\u2c62 = 132
145, 5\u3b2\u2c60 + 1204, 75\u3b2\u2c61 + 206\u3b2\u2c62 = 10487
30\u3b2\u2c60 + 206\u3b2\u2c61 + 64\u3b2\u2c62 = 2215
VGC (FEB-UNESP) MRLM 2012 14 / 58
Para o modelo (11), as equac¸o\u2dces normais (9) sa\u2dco:
n\u3b2\u2c60 + \u3b2\u2c61
n\u2211
i=1
Xi1 + \u3b2\u2c61
n\u2211
i=1
Xi2 =
n\u2211
i=1
Yi
\u3b2\u2c60
n\u2211
i=1
Xi2 + \u3b2\u2c61
n\u2211
i=1
X 2i1 + \u3b2\u2c61
n\u2211
i=1
Xi1Xi2 =
n\u2211
i=1
Xi1Yi
\u3b2\u2c60
n\u2211
i=1
Xi2 + \u3b2\u2c61
n\u2211
i=1
Xi1Xi2 + \u3b2\u2c61
n\u2211
i=1
X 2i2 =
n\u2211
i=1
Xi2Yi
Ao substituir as somato´rias calculadas na equac¸o\u2dces normais, temos que:
21\u3b2\u2c60 + 145, 4\u3b2\u2c61 + 30\u3b2\u2c62 = 132
145, 5\u3b2\u2c60 + 1204, 75\u3b2\u2c61 + 206\u3b2\u2c62 = 10487
30\u3b2\u2c60 + 206\u3b2\u2c61 + 64\u3b2\u2c62 = 2215
VGC (FEB-UNESP) MRLM 2012 15 / 58
A soluc¸a\u2dco destas equac¸o\u2dces e´:
\u3b2\u2c60 = 8, 105; \u3b2\u2c61 = 5, 4659 \u3b2\u2c61 = 13, 2166
Portanto, a equac¸a\u2dco de regressa\u2dco ajustada e´:
y\u2c6 = 8, 105 + 5, 4659x1 + 13, 2166x2
VGC (FEB-UNESP) MRLM 2012 16 / 58
Enfoque matricial para o MRLM
Suponha que existem k varia´veis explicativas e n observac¸o\u2dces
(Xi1, . . . ,Xik ,Yi ), i = 1, . . . , n e o MRLM em termo das observac¸o\u2dces
Yi = \u3b20 + \u3b21Xi1 + \u3b22Xi2 + · · ·+ \u3b2kXik + \u3b5i , \u131 = 1, . . . , n
Este modelo e´ um sistema de n equac¸o\u2dces que pode ser escrito em notac¸a\u2dco
matricial como:
y = X\u3b2 + \u3b5 (12)
VGC (FEB-UNESP) MRLM 2012 17 / 58
onde y =
\uf8ee\uf8ef\uf8ef\uf8ef\uf8f0
y1
y2
...
yn
\uf8f9\uf8fa\uf8fa\uf8fa\uf8fb
(n×1)
, X =
\uf8ee\uf8ef\uf8ef\uf8ef\uf8f0
1 X11 X12 . . . X1k
1 X21 X22 . . . X2k
...
...
... . . .
...
1 Xn1 Xn2 . . . Xnk
\uf8f9\uf8fa\uf8fa\uf8fa\uf8fb
(n×p)
,
\u3b2 =
\uf8ee\uf8ef\uf8ef\uf8ef\uf8f0
\u3b20
\u3b21
...
\u3b2k
\uf8f9\uf8fa\uf8fa\uf8fa\uf8fb
(p×1)
e \u3b5 =
\uf8ee\uf8ef\uf8ef\uf8ef\uf8f0
\u3b51
\u3b52
...
\u3b5n
\uf8f9\uf8fa\uf8fa\uf8fa\uf8fb
(n×1)
p = k + 1
VGC (FEB-UNESP) MRLM 2012 18 / 58
Desejamos encontrar o vetor de estimador de m´\u131nimos quadrados, \u3b2\u2c6, que
minimiza
L =
n\u2211
i=1
\u3b52i = \u3b5
t\u3b5 = (y \u2212X\u3b2)t(y \u2212X\u3b2)