Baixe o app para aproveitar ainda mais
Prévia do material em texto
Regressão Linear Múltipla Prof. Dr. Regina Meyer Branski Regressão Linear Múltipla Cenário onde diversas variáveis são usadas para prever um resultado Uma resposta para muitos preditores Previsão do peso de nascimento de bebes a partir de várias variáveis peso gestação paridade altura peso fumante 1 120 284 0 62 100 0 2 113 282 0 64 135 0 3 4 ..... 1236 117 297 0 65 129 0 Objetivos da Aula Interpretação das estimativas dos coeficientes Inferência para Regressão Linear Múltipla Seleção do modelo Diagnóstico do modelo Modelo de Regressão Linear Múltipla 𝑦= β0 + β1x1 + β2x2 + ........+ βkxk b0 = valor médio esperado de y quando todos os preditores iguais a 0 b1 = variação média de y quando é adicionada uma unidade em x1 ො𝑦 = 𝑏0 + 𝑏1𝑥1 + 𝑏2𝑥2 + ⋯ … . . 𝑏𝑘𝑥𝑘 Peso dos Livros Peso (g) Volume (cm3) Capa 1 800 885 Dura 2 950 1016 Dura 3 1050 1125 Dura 4 350 239 Dura 5 750 701 Dura 6 600 641 Dura 7 1075 1228 Dura 8 250 412 Papel 9 700 953 Papel 10 650 929 Papel 11 975 1492 Papel 12 350 419 Papel 13 950 1010 Papel 14 425 595 Papel 15 725 1034 Papel É possível identificar tendência na relação entre volume e peso dos livros de capa dura e de papel? 0 200 400 600 800 1000 1200 0 500 1000 1500 2000 P e so ( g) Volume (cm3) Vermelho: Capa de Papel Azul: Capa Dura Estimativa Desvio Padrão t valor P(>t) Intercepto 197,96 59,19 3,34 0,01 Volume 0,72 0,06 11,67 0,00 Capa Papel -184,05 40.49 -4,55 0,00 ෟ𝑝𝑒𝑠𝑜 = 197,96 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒 − 184,05 ∗ 𝑐𝑎𝑝𝑎 CAPA DURA: 0 ෟ𝑝𝑒𝑠𝑜 = 197,96 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒 − 184,05 ∗ 0 = 197,96 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒 CAPA DE PAPEL: 1 ෟ𝑝𝑒𝑠𝑜 = 197,96 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒 − 184,05 ∗ 1 = 13,91 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒 R Inclinação ෟ𝑝𝑒𝑠𝑜 = 197,96 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒 − 184,05 ∗ 𝑐𝑎𝑝𝑎 Volume Peso dos livros aumentam em média 0,72 g para cada 1 cm3 de aumento do volume Capa Livros com capa de papel têm em média 184,05 g menos que os de capa dura Previsão ෟ𝑝𝑒𝑠𝑜 = 197,96 + 0,72 ∗ 𝑣𝑜𝑙𝑢𝑚𝑒 − 184,05 ∗ 𝑐𝑎𝑝𝑎 ෟ𝑝𝑒𝑠𝑜 = 197,96 + 0,72 ∗ 600 − 184,05 ∗ 1 = 445,91 𝑔 Peso do livro de capa de papel com um volume de 600 cm3 Interações das variáveis Inclinação igual: relação volume e peso dos livros de capa dura e de papel é a mesma Se essa suposição não for razoável, então incluir variável de interação no modelo (fica para outro curso!) Regressão Linear Múltipla Diagnóstico do Modelo Diagnóstico do Modelo de Regressão Linear Relação Linear entre x e y Resíduos próximos do normal Resíduos com variabilidade constante Resíduos independentes Relação Linear entre x e y Cada variável explanatória numérica está linearmente relacionada à variável resposta Checar utilizando gráfico dos resíduos vs. cada preditora (X) Procurando dispersão aleatória em torno de zero Considerando outras variáveis que também estão no modelo e não só a relação entre x e y Resíduos próximos do normal com média zero Alguns resíduos serão positivos e outros negativos Dispersão aleatória em torno de zero no gráfico de resíduos Checar usando histograma ou gráfico de probabilidade normal Resíduos devem variar igualmente para valores altos e baixos da variável resposta Checar usando gráficos de resíduos vs. ො𝑦 e resíduos vs. x Resíduos com variabilidade constante Resíduos independentes ⇒ observações independentes Resíduos independentes Colinearidade Dois preditores são colineares quando estão relacionados Lembrar: preditores devem ser independentes Inclusão de preditores colineares complica o modelo R2 ajustado Como calcular? Como usar? Estimativa Erro padrão t valor P(>t) Intercepto 3,31 1,90 1,74 0,09 Casa Mulher 0,69 0,16 4,32 0,00 Prevendo % pobreza de casas com chefe de família mulher R2 de novo! ANOVA gl Sum Sq Mean Sq F valor P(>F) Casa Mulheres 1 132,57 132,57 18,68 0,00 Resíduos 49 347,68 7,10 480,25 𝑅2 = 𝑉𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 𝐸𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑉𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 𝑇𝑜𝑡𝑎𝑙 = 132,57 480,25 = 0,28 Estimativa Erro padrão t valor P(>t) Intercepto -2,58 5,78 -0,45 0,66 Casa Mulheres 0,89 0,24 3,67 0,00 Branca 0,04 0,04 1,08 0,29 ANOVA gl Sum Sq Mean Sq F valor P(>F) Casa Mulheres 1 132,57 132,57 18,74 0,00 Branca 1 8,21 8,21 1,16 0,29 Resíduos 49 339,47 7,07 480,25 𝑅2 = 132,57 + 8,21 480,25 = 0,29 R2 Ajustado 𝑅𝑎𝑗 2 = 1 − 𝑆𝑆𝐸 𝑆𝑆𝑇 ∗ 𝑛 − 1 𝑛 − 𝑘 − 1 k: número de preditores R2 Ajustado: previsão %pobreza casa de mulheres brancas n=51 (50 estados + DC) ANOVA gl Sum Sq Mean Sq F valor P(>F) Casa Mulheres 1 132,57 132,57 18,74 0,00 Branca 1 8,21 8,21 1,16 0,29 Resíduos 48 339,47 7,07 Total 51 480,25 𝑅𝑎𝑗 2 = 1 − 𝑆𝑆𝐸 𝑆𝑆𝑇 ∗ 𝑛 − 1 𝑛 − 𝑘 − 1 ) = 1 − ( 339,47 480,25 ∗ 51 − 1 51 − 2 − 1 = 0,26 R2 Ajustado vs. R2 R2 R2 Ajustado Modelo 1 (pobreza vs. Casa de mulher) 0,28 0,28 Modelo 2 (pobreza vs. Casa de mulher + branca) 0,29 0,26 Propriedades do R2 ajustado R2 ajustado aplica penalidade de acordo com o número de preditores incluídos no modelo R2 ajustado < R2 Escolher modelos com o maior R2 ajustado Regressão Linear Múltipla Inferência Seleção do Modelo REGRESSÃO LINEAR MÚLTIPLA Preditores significantes Teste de Hipótese e Intervalo de Confiança para inclinação Interpretações Como construir um modelo? Pontuação Ensino Superior QI Trabalho Idade 1 65 sim 121,12 sim 27 2 ..... 6 98 não 107,90 Não 18 ..... 434 70 sim 91,25 sim 25 Pontuação no teste cognitivo de crianças de 3 a 4 anos e características de suas mães Inferência H0: 𝛽1 = 𝛽2 = ⋯ 𝛽𝑘 = 0 H1:𝑝𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚 β ≠ 0 Valor p < 0,05, portanto rejeitar H0 Teste F Se teste F significante Pelo menos um dos β ≠ 0 Não significa que o ajuste do modelo é adequado Se teste F não significante Combinação das variáveis não produz um bom modelo Não significa que as variáveis individuais não são bons preditores de y Teste Hipótese para a inclinação Grau de instrução das mães é um preditor significante para a pontuação do teste cognitivo das crianças, dada que todas as variáveis estão incluídas no modelo? H0: 𝛽1 = 0 H1: 𝛽1 ≠ 0 Teste t Grau de instrução das mães é um preditor significante para a pontuação do teste cognitivo das crianças, dado que todas as variáveis estão incluídas no modelo? H0: 𝛽1 = 0 H0: 𝛽1 ≠ 0 𝑡 = 𝑏1− 0 𝑆𝐸𝑏1 gl.= n – k – 1 Perde 1 gl para cada parâmetro estimado e 1 gl pelo intercepto 𝑡 = 5,095 − 0 2,315 = 2,201 𝑔𝑙 = 𝑛 − 𝑘 − 1 = 434 − 4 − 1 = 429 Intervalo de Confiança para a inclinação 𝑏1 ∓ 𝑡𝑔𝑙 ∗ ∗ 𝑆𝐸𝑏1 Calcular o IC de 95% para a inclinação da variável trabalho gl.= 434 – 4 – 1= 429 T*429 = 1,97 2,54 ± 1,97 X 2,35 = (-2,09; 7,17) Calcular o IC de 95% para a inclinação da variável trabalho IC: (-2,09; 7,17) Estamos 95% confiantes que, tudo o mais inalterado, crianças cujas mães trabalham fora durantes os 3 primeiros anos têm uma pontuação entre 2,09 menor a 7,17 maior que das crianças cujas mães não trabalham fora. Objetivos da Aula Interpretação das estimativas dos coeficientes Inferência para Regressão Linear Múltipla Seleção do modelo Diagnóstico do modelo Seleção do Modelo Métodos para seleção do modelo p-valor & R2 ajustado Opinião Especialista Seleção do Modelo Métodos para seleção do modelo Eliminação para trás: começa com modelo completo (com todas as variáveis preditoras), elimina um preditor por vez até alcançar o modelo parcimonioso Eliminação para frente: começa com uma variável e adiciona um preditor por vez até alcançar o modelo parcimonioso Parcimônia Preferir sempre o modelo mais simples, i.e., o modelo parcimonioso Evitar variáveis correlacionadas • Não acrescentam nada de novo • Podem resultar em estimativas enviesadas dos parâmetros da regressão Seleção do Modelo Métodos para seleção do modelo Critério • Valor-p, R2 ajustado • AIC, BIC,Bayes, Mallows Cp (outro curso) p-value: preditores significantes R2 ajustado: preditores confiáveis p-valor & R2 ajustado Seleção do Modelo Níveis de significância diferentes geram modelos diferentes Seleção para trás é o método mais utilizado já que o modelo exige menos ajustes p-valor & R2 ajustado Seleção do Modelo Seleção para frente p-value Calcular regressão do preditor da resposta para cada variável explanatória Pegar a variável com o p-value significante mais baixo Adicionar as variáveis remanescentes uma a uma ao modelo e utilizar aquela com o p-value mais baixo Repetir até que qualquer das variáveis remanescentes não tenham p-value significativo p-valor & R2 ajustado Seleção para frente R2 ajustado Calcular regressão do preditor da resposta para cada variável explanatória Pegar o modelo com o R2 ajustado mais alto Adicionar as variáveis uma a uma no modelo e utilizar aquele com R2 ajustado mais alto Repetir até que a inclusão de qualquer uma das variáveis remanescente não resulte em um R2 ajustado mais alto p-valor & R2 ajustado Podemos incluir (ou excluir) variáveis no modelo considerando a opinião dos especialistas Opinião Especialista Exercício • O peso dos recém nascidos foi modelado considerando as seguintes variáveis: dias de gestação, idade da mãe, altura da mãe (cm), peso da mãe (kg). O quadro sumariza os resultados do modelo de regressão. • Escreva a equação do modelo de regressão incluindo todas as variáveis • Interprete as inclinações dos dias de gestação e idade • Calcule o resíduo da primeira observaçao resíduo = 120 – 120,58 = -0,58 • A variação dos resíduos é 249,28 e a variação do peso de nascimento é 332,57. Calcule o R2 e o R2 ajustados. Foram feitas 1.236 observações Slide 1: Regressão Linear Múltipla Slide 2: Regressão Linear Múltipla Slide 3: Previsão do peso de nascimento de bebes a partir de várias variáveis Slide 4: Objetivos da Aula Slide 5: Modelo de Regressão Linear Múltipla Slide 6: Peso dos Livros Slide 7: É possível identificar tendência na relação entre volume e peso dos livros de capa dura e de papel? Slide 8 Slide 9 Slide 10: R Slide 11: Inclinação Slide 12: Previsão Slide 13: Interações das variáveis Slide 14: Regressão Linear Múltipla Slide 15 Slide 16 Slide 17 Slide 18 Slide 19 Slide 20 Slide 21 Slide 22 Slide 23: Colinearidade Slide 24 Slide 25: R2 ajustado Slide 26: Prevendo % pobreza de casas com chefe de família mulher Slide 27: R2 de novo! Slide 28 Slide 29 Slide 30: R2 Ajustado Slide 31: R2 Ajustado: previsão %pobreza casa de mulheres brancas n=51 (50 estados + DC) Slide 32: R2 Ajustado vs. R2 Slide 33: Propriedades do R2 ajustado Slide 34: Regressão Linear Múltipla Slide 35: REGRESSÃO LINEAR MÚLTIPLA Slide 36: Como construir um modelo? Slide 37 Slide 38: Inferência Slide 39: Teste F Slide 40: Teste Hipótese para a inclinação Slide 41: Teste t Slide 42 Slide 43: Intervalo de Confiança para a inclinação Slide 44: Calcular o IC de 95% para a inclinação da variável trabalho Slide 45: Calcular o IC de 95% para a inclinação da variável trabalho Slide 46: Objetivos da Aula Slide 47: Seleção do Modelo Slide 48: Seleção do Modelo Slide 49: Parcimônia Slide 50: Seleção do Modelo Slide 51 Slide 52 Slide 53: Seleção do Modelo Slide 54 Slide 55: Seleção para frente p-value Slide 56: Seleção para frente R2 ajustado Slide 57 Slide 58 Slide 59 Slide 60: Exercício Slide 61
Compartilhar