Buscar

2023 - AULA 13 - REGRESSÃO LINEAR MÚLTIPLA - RESUMIDA

Prévia do material em texto

Regressão 
Linear Múltipla
Prof. Dr. Regina Meyer Branski
Regressão Linear Múltipla
Cenário onde diversas variáveis são 
usadas para prever um resultado
Uma resposta para muitos preditores
Previsão do peso de nascimento de bebes a 
partir de várias variáveis
peso gestação paridade altura peso fumante
1 120 284 0 62 100 0
2 113 282 0 64 135 0
3
4
.....
1236 117 297 0 65 129 0
Objetivos da 
Aula 
Interpretação das 
estimativas dos 
coeficientes
Inferência para 
Regressão Linear 
Múltipla
Seleção do modelo Diagnóstico do modelo 
Modelo de Regressão Linear Múltipla
𝑦= β0 + β1x1 + β2x2 + ........+ βkxk
b0 = valor médio esperado de y quando todos os preditores iguais a 0
b1 = variação média de y quando é adicionada uma unidade em x1
ො𝑦 = 𝑏0 + 𝑏1𝑥1 + 𝑏2𝑥2 + ⋯ … . . 𝑏𝑘𝑥𝑘
Peso dos 
Livros
Peso (g) Volume (cm3) Capa 
1 800 885 Dura 
2 950 1016 Dura 
3 1050 1125 Dura
4 350 239 Dura 
5 750 701 Dura 
6 600 641 Dura 
7 1075 1228 Dura 
8 250 412 Papel
9 700 953 Papel
10 650 929 Papel
11 975 1492 Papel
12 350 419 Papel
13 950 1010 Papel
14 425 595 Papel
15 725 1034 Papel
É possível identificar tendência na relação entre
volume e peso dos livros de capa dura e de papel?
0
200
400
600
800
1000
1200
0 500 1000 1500 2000
P
e
so
 (
g)
Volume (cm3)
Vermelho: Capa de Papel 
Azul: Capa Dura
Estimativa Desvio Padrão t valor P(>t)
Intercepto 197,96 59,19 3,34 0,01
Volume 0,72 0,06 11,67 0,00
Capa Papel -184,05 40.49 -4,55 0,00
ෟ𝑝𝑒𝑠𝑜 = 197,96 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒 − 184,05 ∗ 𝑐𝑎𝑝𝑎
CAPA DURA: 0
ෟ𝑝𝑒𝑠𝑜 = 197,96 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒 − 184,05 ∗ 0 = 197,96 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒
CAPA DE PAPEL: 1
ෟ𝑝𝑒𝑠𝑜 = 197,96 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒 − 184,05 ∗ 1 = 13,91 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒
R
Inclinação
ෟ𝑝𝑒𝑠𝑜 = 197,96 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒 − 184,05 ∗ 𝑐𝑎𝑝𝑎
Volume
Peso dos livros 
aumentam em média 
0,72 g para cada 1 
cm3 de aumento do 
volume
Capa
Livros com capa de 
papel têm em média 
184,05 g menos que 
os de capa dura
Previsão 
ෟ𝑝𝑒𝑠𝑜 = 197,96 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒 − 184,05 ∗ 𝑐𝑎𝑝𝑎
ෟ𝑝𝑒𝑠𝑜 = 197,96 + 0,72 ∗ 600 − 184,05 ∗ 1 = 445,91 𝑔
Peso do livro de capa de papel com um volume de 600 cm3
Interações das variáveis
Inclinação igual: relação volume e
peso dos livros de capa dura e de
papel é a mesma
Se essa suposição não for razoável,
então incluir variável de interação no
modelo (fica para outro curso!)
Regressão Linear 
Múltipla
Diagnóstico do Modelo
Diagnóstico
do Modelo de 
Regressão
Linear
Relação Linear entre x e y
Resíduos próximos do normal
Resíduos com variabilidade 
constante
Resíduos independentes
Relação Linear entre x e y
Cada variável explanatória numérica está linearmente relacionada
à variável resposta
Checar utilizando gráfico dos resíduos vs. cada
preditora (X)
Procurando dispersão aleatória em torno de zero
Considerando outras variáveis que também
estão no modelo e não só a relação entre x e y
Resíduos próximos do normal com 
média zero
Alguns resíduos serão positivos e outros negativos
Dispersão aleatória em torno de zero no gráfico de resíduos
Checar usando histograma ou gráfico de probabilidade normal
Resíduos devem variar igualmente para valores altos e baixos da 
variável resposta
Checar usando gráficos de resíduos vs. ො𝑦 e resíduos vs. x
Resíduos com variabilidade 
constante
Resíduos independentes ⇒ observações independentes
Resíduos independentes
Colinearidade
Dois preditores são colineares quando estão 
relacionados
Lembrar: preditores devem ser independentes
Inclusão de preditores colineares complica o 
modelo
R2 ajustado
Como calcular? Como usar?
Estimativa Erro padrão t valor P(>t)
Intercepto 3,31 1,90 1,74 0,09
Casa Mulher 0,69 0,16 4,32 0,00
Prevendo % pobreza de casas com chefe de família mulher
R2 de novo!
ANOVA gl Sum Sq Mean Sq F valor P(>F)
Casa Mulheres 1 132,57 132,57 18,68 0,00
Resíduos 49 347,68 7,10
480,25
𝑅2 =
𝑉𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 𝐸𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
𝑉𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 𝑇𝑜𝑡𝑎𝑙
=
132,57
480,25
= 0,28
Estimativa Erro padrão t valor P(>t)
Intercepto -2,58 5,78 -0,45 0,66
Casa Mulheres 0,89 0,24 3,67 0,00
Branca 0,04 0,04 1,08 0,29
ANOVA gl Sum Sq Mean Sq F valor P(>F)
Casa Mulheres 1 132,57 132,57 18,74 0,00
Branca 1 8,21 8,21 1,16 0,29
Resíduos 49 339,47 7,07
480,25
𝑅2 =
132,57 + 8,21
480,25
= 0,29
R2 Ajustado
𝑅𝑎𝑗
2 = 1 −
𝑆𝑆𝐸
𝑆𝑆𝑇
∗
𝑛 − 1
𝑛 − 𝑘 − 1
k: número de preditores
R2 Ajustado: previsão %pobreza casa de mulheres brancas
n=51 (50 estados + DC)
ANOVA gl Sum Sq Mean Sq F valor P(>F)
Casa Mulheres 1 132,57 132,57 18,74 0,00
Branca 1 8,21 8,21 1,16 0,29
Resíduos 48 339,47 7,07
Total 51 480,25
𝑅𝑎𝑗
2 = 1 −
𝑆𝑆𝐸
𝑆𝑆𝑇
∗
𝑛 − 1
𝑛 − 𝑘 − 1
) = 1 − (
339,47
480,25
∗
51 − 1
51 − 2 − 1
= 0,26
R2 Ajustado vs. R2
R2 R2 Ajustado
Modelo 1 (pobreza vs. Casa de mulher) 0,28 0,28
Modelo 2 (pobreza vs. Casa de mulher + branca) 0,29 0,26
Propriedades 
do R2 
ajustado
R2 ajustado aplica penalidade de 
acordo com o número de 
preditores incluídos no modelo
R2 ajustado < R2 
Escolher modelos com o maior R2 
ajustado
Regressão Linear 
Múltipla
Inferência Seleção do Modelo
REGRESSÃO LINEAR 
MÚLTIPLA
Preditores significantes
Teste de Hipótese e Intervalo de Confiança para 
inclinação 
Interpretações
Como construir um modelo?
Pontuação Ensino 
Superior
QI Trabalho Idade
1 65 sim 121,12 sim 27
2
.....
6 98 não 107,90 Não 18
.....
434 70 sim 91,25 sim 25
Pontuação no teste cognitivo de crianças de 3 a 4 anos e 
características de suas mães
Inferência
H0: 𝛽1 = 𝛽2 = ⋯ 𝛽𝑘 = 0
H1:𝑝𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚 β ≠ 0
Valor p < 0,05, portanto rejeitar H0
Teste F
Se teste F significante
Pelo menos um dos β ≠ 0
Não significa que o ajuste do modelo é adequado
Se teste F não significante
Combinação das variáveis não produz um bom modelo
Não significa que as variáveis individuais não são bons preditores de y
Teste Hipótese
para a 
inclinação
Grau de instrução das mães é um preditor significante para a 
pontuação do teste cognitivo das crianças, dada que todas 
as variáveis estão incluídas no modelo? 
H0: 𝛽1 = 0
H1: 𝛽1 ≠ 0
Teste t
Grau de instrução das mães é um preditor significante para a
pontuação do teste cognitivo das crianças, dado que todas
as variáveis estão incluídas no modelo?
H0: 𝛽1 = 0
H0: 𝛽1 ≠ 0
𝑡 =
𝑏1− 0
𝑆𝐸𝑏1
gl.= n – k – 1
Perde 1 gl para cada parâmetro estimado e 1 gl pelo
intercepto
𝑡 =
5,095 − 0
2,315
= 2,201
𝑔𝑙 = 𝑛 − 𝑘 − 1 = 434 − 4 − 1 = 429
Intervalo de 
Confiança
para a 
inclinação
𝑏1 ∓ 𝑡𝑔𝑙
∗ ∗ 𝑆𝐸𝑏1
Calcular o IC de 
95% para a 
inclinação da 
variável
trabalho
gl.= 434 – 4 – 1= 429
T*429 = 1,97
2,54 ± 1,97 X 2,35 = (-2,09; 7,17)
Calcular o IC de 
95% para a 
inclinação da 
variável
trabalho
IC: (-2,09; 7,17)
Estamos 95% confiantes que, tudo o mais
inalterado, crianças cujas mães trabalham fora
durantes os 3 primeiros anos têm uma
pontuação entre 2,09 menor a 7,17 maior que
das crianças cujas mães não trabalham fora.
Objetivos da 
Aula 
Interpretação das 
estimativas dos 
coeficientes
Inferência para 
Regressão Linear 
Múltipla
Seleção do modelo Diagnóstico do modelo 
Seleção do Modelo
Métodos para seleção 
do modelo
p-valor & R2 ajustado Opinião Especialista
Seleção do Modelo
Métodos para 
seleção do 
modelo
Eliminação para trás: começa com modelo
completo (com todas as variáveis
preditoras), elimina um preditor por vez
até alcançar o modelo parcimonioso
Eliminação para frente: começa com uma
variável e adiciona um preditor por vez até
alcançar o modelo parcimonioso
Parcimônia
Preferir sempre o modelo mais 
simples, i.e., o modelo 
parcimonioso 
Evitar variáveis correlacionadas
• Não acrescentam nada de novo
• Podem resultar em estimativas
enviesadas dos parâmetros da regressão
Seleção do Modelo
Métodos para 
seleção do 
modelo
Critério 
• Valor-p, R2 ajustado
• AIC, BIC,Bayes, Mallows Cp (outro curso)
p-value: preditores significantes
R2 ajustado: preditores confiáveis
p-valor & R2 ajustado
Seleção do Modelo
Níveis de significância diferentes
geram modelos diferentes
Seleção para trás é o método mais
utilizado já que o modelo exige menos
ajustes
p-valor & R2 ajustado
Seleção do Modelo
Seleção para 
frente 
p-value
Calcular regressão do preditor da resposta para
cada variável explanatória
Pegar a variável com o p-value significante mais
baixo
Adicionar as variáveis remanescentes uma a uma
ao modelo e utilizar aquela com o p-value mais
baixo
Repetir até que qualquer das variáveis
remanescentes não tenham p-value significativo
p-valor & R2 ajustado
Seleção para frente
R2 ajustado
Calcular regressão do preditor da resposta para
cada variável explanatória
Pegar o modelo com o R2 ajustado mais alto
Adicionar as variáveis uma a uma no modelo e
utilizar aquele com R2 ajustado mais alto
Repetir até que a inclusão de qualquer uma das
variáveis remanescente não resulte em um R2
ajustado mais alto
p-valor & R2 ajustado
Podemos incluir (ou
excluir) variáveis no 
modelo considerando a 
opinião dos especialistas
Opinião Especialista
Exercício
• O peso dos recém nascidos foi modelado considerando as seguintes variáveis: dias de gestação,
idade da mãe, altura da mãe (cm), peso da mãe (kg). O quadro sumariza os resultados do modelo
de regressão.
• Escreva a equação do modelo de regressão incluindo todas as variáveis
• Interprete as inclinações dos dias de gestação e idade
• Calcule o resíduo da primeira observaçao resíduo = 120 – 120,58 = -0,58
• A variação dos resíduos é 249,28 e a variação do peso de nascimento é 332,57. Calcule o R2 e o
R2 ajustados. Foram feitas 1.236 observações
	Slide 1: Regressão Linear Múltipla
	Slide 2: Regressão Linear Múltipla
	Slide 3: Previsão do peso de nascimento de bebes a partir de várias variáveis
	Slide 4: Objetivos da Aula 
	Slide 5: Modelo de Regressão Linear Múltipla
	Slide 6: Peso dos Livros
	Slide 7: É possível identificar tendência na relação entre volume e peso dos livros de capa dura e de papel?
	Slide 8
	Slide 9
	Slide 10: R
	Slide 11: Inclinação
	Slide 12: Previsão 
	Slide 13: Interações das variáveis
	Slide 14: Regressão Linear Múltipla
	Slide 15
	Slide 16
	Slide 17
	Slide 18
	Slide 19
	Slide 20
	Slide 21
	Slide 22
	Slide 23: Colinearidade
	Slide 24
	Slide 25: R2 ajustado
	Slide 26: Prevendo % pobreza de casas com chefe de família mulher
	Slide 27: R2 de novo!
	Slide 28
	Slide 29
	Slide 30: R2 Ajustado
	Slide 31: R2 Ajustado: previsão %pobreza casa de mulheres brancas n=51 (50 estados + DC)
	Slide 32: R2 Ajustado vs. R2
	Slide 33: Propriedades do R2 ajustado
	Slide 34: Regressão Linear Múltipla
	Slide 35: REGRESSÃO LINEAR MÚLTIPLA
	Slide 36: Como construir um modelo? 
	Slide 37
	Slide 38: Inferência
	Slide 39: Teste F
	Slide 40: Teste Hipótese para a inclinação
	Slide 41: Teste t 
	Slide 42
	Slide 43: Intervalo de Confiança para a inclinação
	Slide 44: Calcular o IC de 95% para a inclinação da variável trabalho
	Slide 45: Calcular o IC de 95% para a inclinação da variável trabalho
	Slide 46: Objetivos da Aula 
	Slide 47: Seleção do Modelo
	Slide 48: Seleção do Modelo
	Slide 49: Parcimônia
	Slide 50: Seleção do Modelo
	Slide 51
	Slide 52
	Slide 53: Seleção do Modelo
	Slide 54
	Slide 55: Seleção para frente p-value 
	Slide 56: Seleção para frente R2 ajustado
	Slide 57
	Slide 58
	Slide 59
	Slide 60: Exercício
	Slide 61

Continue navegando