Buscar

regressão múltipla

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Regressão múltipla é uma coleção de técnicas estatísticas para construir modelos que descrevem de maneira razoável relações entre várias variáveis explicativas de um determinado processo. 
Como pode ser visto anteriormente, o modelo de regressão linear simples possui apenas uma variável explicativa (regressor) e aplica-se a várias situações. Entretanto, diversos problemas envolvem dois ou mais regressores influenciando o comportamento da variável resposta (dependente), y. 
A partir disso, chama-se de Modelo de Regressão Linear Múltipla a qualquer modelo de regressão linear com duas ou mais variáveis explicativas.
 REGRESSÃO MULTIPLA
| Definição
Capítulo 19
| A Regressão Múltipla
Y
Variável resposta
 REGRESSÃO MULTIPLA
 X1 
.
.
.
 Xq 
 X3 
 X2 
X1 , X2 , X3, ..., Xq : variáveis explicativas (regressores) distintas.
Capítulo 19
µy|x1,x2,...,xq = α + β1x1 + β2x2 + ... + βqxq
|O modelo matemático 
 REGRESSÃO MULTIPLA
Onde:
X1 , X2 , ..., Xq : São os resultados das q variáveis explicativas distintas ;
µy|x1,x2,...,xq : É o valor médio de Y quando as variáveis explicativas assumem esses valores;
α, β1, β2 , βq : Esses parâmetros sãos constantes chamadas de coeficientes da equação.
O intercepto α é o valor médio da resposta y quando todas as variáveis explicativas assumem o valor 0 ou µy|0,0,...,0 ; 
A inclinação βi é a variação do valor médio de Y que corresponde ao aumento de uma unidade em Xi, uma vez que todas as outras variáveis explicativas permaneçam constantes.
Capítulo 19
Modelo que acomoda a variação natural das medidas da resposta. Onde ε é o termo de erro.
|O modelo matemático 
 REGRESSÃO MULTIPLA
µy|x1,x2,...,xq = α + β1x1 + β2x2 + ... + βqxq + ε
Capítulo 19
Para o modelo mais complexo de regressão múltipla é necessário fazer algumas suposições. Assim como, foram feitas no modelo para uma única variável explicativa (regressão linear simples):
	1. Para valores especificados de X1 , X2 , ... e Xq, todos considerados medidos sem erro, a distribuição dos valores de Y é normal com média µy|x1,x2,...,xq e desvio padrao µy|x1,x2,...,xq ;
	2. A relação entre µy|x1,x2,...,xq e X1 , X2 , ... e Xq é representada pela equação:
µy|x1,x2,...,xq = α + β1x1 + β2x2 + ... + βqxq
	3. Para qualquer conjunto de valores X1 , X2 , ... e Xq , σ y|x1,x2,...,xq é constante. Como na regressão linear simples, essa característica é conhecida como homocedasticidade;
	4. Os resultados Y são independetes.
|O modelo matemático 
 REGRESSÃO MULTIPLA
Capítulo 19
Capítulo 19
 REGRESSÃO MULTIPLA
|Equação da regressão de Mínimos Quadrados
 REGRESSÃO MULTIPLA
|Representação Gráfica
Capítulo 19
|Inferência para os coeficientes da regressão
 REGRESSÃO MULTIPLA
Capítulo 19
|Inferência para os coeficientes da regressão
 REGRESSÃO MULTIPLA
Capítulo 19
Ao usarmos técnicas tal como o coeficiente de determinação e um gráfico dos resíduos, podemos avaliar como um particular modelo de mínimos quadrados realmente se ajusta aos dados.
Um modelo que contém a idade gestacional e peso ao nascer explica 75,20% da variação das medidas observadas da circunferência da cabeça. E o Modelo que contém apenas idade gestacional explica 60,95%
Esse aumento de R² sugere que adicionar a variável explicativa peso ao modelo melhora nossa habilidade de prever a circunferência da cabeça para a população de bebês com baixo peso ao nascer.
A inclusão de uma variável adicional nunca pode causar diminuição de R². Para contornar esse problema usamos o R² Ajustado que compensa a complexidade adicional de um modelo. Aumenta quando a inclusão de uma variável melhora previsibilidade de resposta.
|Avaliação do modelo
 REGRESSÃO MULTIPLA
Capítulo 19
|Variáveis indicadoras ou variáveis dummy
 REGRESSÃO MULTIPLA
Capítulo 19
Queremos descobrir se o efeito da toxemia pode afetar a circunferência na cabeça de uma criança
Designamos a presença de toxemia durante a gravidez
por 1 e a ausência por 0. Seus valores não tem significado
quantitativo. Um modelo de regressão de mínimos 
quadrados ajustado seria
Grávida
Toxemia
1
Sim
2
Não
1
0
As duas linhas estão plotadas, uma para bebês cujas mães foram diagnosticadas com toxemia e para aqueles cujas mães não foram. Têm inclinação idênticas. 
Essa é a consequência de se ajustar um único modelo de regressão a dois grupos diferentes de bebês. 
As crianças cujas mães não foram diagnosticadas com toxemia tendem a ter maiores medidas de circunferência da cabeça do que as crianças cujas mães forma diagnosticadas.
| Termos de Interação
 REGRESSÃO MULTIPLA
Capítulo 19
X1 : Idade Gestacional
(em semanas)
x3 : Resultado de Toxemia (0 para não, 1 para sim)
| Seleção de modelo
Escolha baseada na combinação de considerações estatísticas e não-estatísticas.
Conhecimento prévio de quais variáveis devem ser importantes
 
Realizar analise de regressão separada para cada combinação possível das variáveis, resultando em modelos que devem ser avaliados de acordo com algum critério estatístico.
Método completo, mas demorado 
 REGRESSÃO MULTIPLA
Capítulo 19
SELEÇÃO FOWARD
ELIMINAÇÃO BACKWARD
SELEÇÃO STEPWISE
+
=
Para-frente/progressivo
Para-trás/Regressivo
Passo a passo
| Seleção de modelo: Seleção Foward
Introdução de variáveis no modelo, uma de cada vez.
O modelo é avaliado em cada etapa e o processo continua até que algum critério estatístico especificado seja atingido.
Por exemplo, até atingir um ponto em que nenhuma das variáveis que ainda não foram adicionadas expressem uma quantidade significante da variabilidade adicional de y.
 REGRESSÃO MULTIPLA
Capítulo 19
| Seleção de modelo: Seleção Backward
Inclusão de todas as variáveis explicativas no modelo.
As variáveis são retiradas uma de cada vez, começando com a que reduzir R² pela mínima quantidade, ou seja, pela menor proporção da variabilidade observada em y. Se o decréscimo de R² não é estatisticamente significante pela retirada da variável, ela é deixada de lado e fica fora do modelo.
O procedimento é repetido até que cada variável que permaneça no modelo expresse uma porção significante da variação observada na resposta.
 REGRESSÃO MULTIPLA
Capítulo 19
| Seleção de modelo: Seleção Stepwise
+ Começamos com o procedimento de seleção de foward, introduzindo uma variável de cada vez no modelo.
* Verificamos previamente cada uma ao serem incluídas para assegurarmos sua significância estatística.
- A variável incluída no modelo em uma etapa pode ser retirada em etapa posterior.
 REGRESSÃO MULTIPLA
Capítulo 19
SELEÇÃO FOWARD
ELIMINAÇÃO BACKWARD
SELEÇÃO STEPWISE
+
=
| Seleção de modelo: Colinearidade e aplicação
 REGRESSÃO MULTIPLA
Capítulo 19
Termo de Interação
Não-incluído
Termo de interação
incluído
Coeficiente
-1,412
-2,815
Erro-Padrão
0,406
4,985
Estatística do teste
-3,477
-0,565
p-valor
0,001
0,574
R²
0,653
0,653
R² ajustado
0,646
0,642
Ocorre quando duas ou mais variáveis explicativas são correlacionadas em tal grau que contêm essencialmente a mesma informação sobre a variação observada em y.
Um sintoma é: instabilidade dos coeficientes estimados e de seus erros-padrão que se tornam muito grandes, implicando que há uma grande variabilidade

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Continue navegando