Buscar

Modelo regressão Múltipla

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

REGRESSÃO LINEAR MÚLTIPLA
A Regressão Múltipla é uma coleção de técnicas estatísticas para construir modelos que descrevem de maneira razoável relações entre várias variáveis explicativas de um determinado processo. A diferença entre a regressão linear simples e a múltipla é que na múltipla são tratadas duas ou mais variáveis explicativas.
Um modelo de regressão linear múltipla é da forma 
y=0 + 1x1+ 2x2 + … + kxk + 
onde y é a variável dependente (quantitativa contínua), x1, x2, … ,xk são as variáveis independentes (preditoras ou covariáveis), 0, 1, …, k são um conjunto de parâmetros desconhecidos (que é necessário estimar) e o erro aleatório.
Geralmente, este erro tem E[]=0 e V[]=2 (variância constante) e i independentes e identicamente distribuídos (ou seja não correlacionados). Na maioria das situações, este erro tem distribuição normal N(0,2).
O valor esperado E[y] =0 + 1x1+ 2x2 + … + kxk + e V[y]=2.
A equação do modelo de regressão pode ser reescrita em termos de observações por:
yi =0 + 1xi1+ 2xi2 + … + kxik + i, E[]=0 , V[]=2.
Método dos Mínimos Quadrados (MMQ)
O MMQ determina 0, 1, …, k de forma que os quadrados dos erros (i) sejam minimizados:
A função S vai ser minimizada em ordem a 0, 1, …, k, calculando as suas derivadas em ordem aos ’s e igualando a zero. O que irá dar a um sistema de p=k+1 equações, chamadas equações normais, para k+1 parâmetros. 
Em termos matriciais y = X + e
Desenvolvendo S() vem que e os estimadores do MMQ são obtidos :
Esta solução b é designada por estimadores dos mínimos quadrados ordinários de .
O modelo de regressão estimado é dado por: 
Chamamos resíduo à diferença entre o valor observado (yi) e o valor estimado : ei = yi - 
O estimador b obtido acima goza de algumas propriedades importantes:
- É não enviesado. E[b]= .
- A variância vai ser dada pela matriz de covariância.
- É um estimador BLUE (best linear unbiased estimator), dado que entre todos os outros possíveis estimadores é o que apresenta o menor valor de variância associado.
- Um estimador de 2 vai ser dado pela soma dos quadrados dos resíduos.
A equação é designado por erro associado aos resíduos e tem n-p graus de liberdade associados. O seu valor esperado é E[RRreg]=2(n-p).
Então um estimador não enviesado de 2 é dado por: . Note-se que o valor de 2 depende do número de coeficientes a estimar do modelo e pode ser um critério para escolher diferentes modelos propostos. O modelo a ser escolhido será o que tiver menor variabilidade.
ESTIMAÇÃO
Testes de hipóteses
Para os testes de hipóteses serem válidos, os resíduos (ou erros, ) tem de ter uma distribuição normal, serem independentes e identicamente distribuídos, de média 0 e variância constante.
Teste aos coeficientes de regressão individuais: H0: i=0 vs. i: i 0, i = 1, …,k
Se não rejeitarmos H0 significa que a variável xi não tem qualquer papel preditivo no modelo e pode ser eleminada da versão final do modelo.
Onde C(j+1)(j+1) é o elemento da diagonal (XTX)-1 na posição correspondente ao bj.
Teste ao significado de regressão: H0: 1=2=…=k=0 vs. i: i 0, i = 1, …,k
Anova de regressão: 
R2: o R2 representa a quantidade de variabilidade explicada pelo modelo proposto e é calculado por:
Rajs2 : este índice inclui o número de variáveis incluídas no modelo e calcula-se: 
Intervalo de confiança 100(1-)% para o parâmetro i, i=0,1,…,k: 
Onde 
Intervalo de confiança baseado na resposta média: seja o vetor com os pontos que se pretendem fazer a previsão, então o IC para a média 100(1-)% é dado por:
Intervalo de confiança 100(1-)% baseado na resposta individual (ou predição):
Onde 
Análise dos resíduos: A verificação da adequação do modelo é sempre a última fase a ser verificada.
Temos que garantir que os pressupostos da regressão são cumpridos:
- Os resíduos têm distribuição normal com média 0
- Os resíduos têm variância constante.
Para verificar se os resíduos têm distribuição normal, geralmente utiliza-se os QQ plots (se n grande) ou os testes de ajustamento (Kolmogorov-Smirnov oy Shapiro-Wilk), com H0: os resíduos têm distribuição normal vs. H1: os resíduos não têm distribuição normal. Note-se que quando este pressuposto não é validade poderemos ter que recorrer a uma transformação dos dados.
Para ver se os resíduos têm variância constante, começa-se por construir um gráfico dos resíduos (ei) vs. a resposta predita pelo modelo (. Se os resultados indicarem uma nuvem de pontos aleatória então a variância é constante. Caso contrário teremos que transformar os dados usando, por exemplo, o método de Box-Cox.
Este método consiste em encontrar um de forma que a função log-Likelihood atinja um valor máximo. É um processo iterativo onde a transformação de yi é dada por:
Com . O valor de é encontrado através de um gráfico (e pelo seu intervalo de confiança), onde por inspeção visual se determina o valor de . Tipicamente os valores de podem ser agrupados de seguinte maneira:
Se = -1, a transformação sugerida é 1/y (inversa).
Se = -0.5, a transformação sugerida é 1/ .
Se = 0, a transformação sugerida é ln(y).
Se = 0.5, a transformação sugerida é .
Se = 1, sugere que não é necessário fazer nenhuma transformação.
Um IC 100(1-)% para o parâmetro é dado por: 
OUTLIERS
Note-se que antes de fazermos a transformação aos dados devíamos verificar a presença de outliers. Os outliers podem ter um impacto considerável na normalidade e principalmente a homogeneidade da variância.
Para verificarmos a sua presença, devemos trabalhas com resíduos normalizados em vez de resíduos absolutos.
Vejamos alguns tipos de resíduos:
Resíduos estandardizados: , i=1,2,…,n; , com , isto é, são os resíduos absolutos a dividir pela estimativa do desvio padrão dos resíduos. Todos os valores di que estejam fora do intervalo -2 di2 devem ser inspecionados.
O problema deste método é que as diferentes observações podem ter variâncias associadas muito diferentes, e estar a dividir todas as observações pelo mesmo valor do desvio-padrão, poderá não indicar os verdadeiros outliers. Precisamos de calculas os resíduos studentizados, que vão ser dados por:
 i=1,2,…,n, 
Uma observação é considerada um outlier se 
Onde H=X(XTX)-1XT é a matriz de projeção (ou matriz hat), que mapeia os valores observados (y) nos valores estimados () e hii é a diagonal de H.
 Também podemos usar os pontos de repercussão (leverage points): Com base na matriz hat, podemos definir esses pontos como hi=hii, i = 1,2,…,n. Consideramos que são outliers se hi forem superiores a 2*(k+1)/n, com k o número de regressores e n a dimensão da amostra.
Uma medida que também mede a influência de uma observação i na estimação dos parâmetros da regressão é a distância de Cook. Se essa distância for superior a 1, a observação é considerada um outlier:
, i=1,2,…,n
Existem outros tipos de coeficientes que podemos calcular como:
- Distância de Welsh-Kuh (Dffits). Se o valor então é considerado um outlier.
- Medida de dfbetas. Se a observação i é considerada um outlier.
- Rácio de covariância: se o rácio para a observação i for muito afastada do valor 1 então essa observação pode ser considerada um outlier.
SELEÇÃO DE VARIÁVEIS
Num problema de regressão linear múltipla, o número de regressores pode ser muito elevado. Um modelo só com variáveis significativas é preferível a um modelo com todas as variáveis (significativas ou não) porque o número de coeficientes de regressão a estimar é menor.
Na escolha das variáveis regressoras devemos pesquisar se existe o risco de multicolinearidade, isto é, uma correlação muito elevada entre as variáveis independentes. Podemos usar o variance inflation factor (VIF) ou o coeficiente de correlação ao quadrado.
Valores de VIF>10 ou r2>0.9 são considerados como estando presente o problema da multicolinearidade e desse modo, as estimativas dos coeficientes e os seus intervalos de confiança, apresentam valores e amplitudes muito elevadas.
Método forward: Este método iterativo começa por selecionar a variável explicativa mais significativa (com menor valor de p-value) e adiciona-a ao modelo.O algoritmo continua até que a contribuição das restantes variáveis seja marginal, ou seja, não significativa.
Método backward: Este método começa com o modelo completo e em cada etapa, excluí a variável com menor valor da estatística de teste de Student desde que não seja significativa. Continua até que a contribuição das restantes variáveis seja significativa.
Método Stepwise: Este algoritmo é uma combinação do método de forward e backward. Em cada passo, identifica uma variável significativa (como o método de forward) e ao mesmo tempo verifica se pode excluir alguma variável anteriormente incluída (como no método de backward). O modelo encontrado é apenas constituído por variáveis significativas.
EXEMPLO DE APLICAÇÃO
Pensa-se que a energia elétrica consumida mensalmente (consumo) na produção de um determinado produto químico está relacionada com a temperatura média ambiental (temperatura), o número de dias do mês (dias), a pureza média do produto (pureza) e o número de toneladas de produto produzidas (produção). Dados históricos sobre estas variáveis estão disponíveis no ficheiro exrlm.xlx.
https://rpubs.com/pmedeiros/ex1rlm
Exploração inicial
library(readxl)
dados <- read_excel("D:/R/exrlm.xlsx")
View(dados) 
##scatters combinados
pairs(dados, col = 2, pch = 19)
heatmap(abs(cor(dados)))
	O gráfico permite fazer as seguintes observações:
Parece existir relação entre consumo e temperatura;
Parece existir relação entre consumo e número de dias; ### heatmap
cor(dados)
- Estimar o modelo de regressão linear múltipla e testar a significância global do modelo de regressão.
lm1 <- lm(consumo ~ temperatura + dias + pureza + producao, data = dados)
summary(lm1)
O modelo anterior considera que todas as variáveis têm influência no consumo.
Existem indícios para rejeitar a hipótese nula do teste F, de que todos os parâmetros são nulos, o que indica que a relação pode ser explicada por uma regressão linear.
Identificar os parâmetros que diferem de zero.
Apenas existem indícios para rejeitar a hipótese de parâmetro nulo para a variável temperatura, para um nível de significância de 5%. As restantes variáveis não parecem ter efeito sobre o consumo.
Interprete as estimativas dos parâmetros estatisticamente significativos.
O único parâmetro estatisticamente significativo é a temperatura.
Interpretação: Um aumento de 1 grau na temperatura média conduz a um aumento de 0.7573 unidades de consumo elétrico.
Indicar a variação total da energia consumida mensalmente que é explicada pelo modelo de regressão.
A variação total de energia explicada pelo modelo é de 0.852.
Determine os ICs a 95% para os parâmetros do modelo.
confint(lm1) 
Proceder à análise de resíduos por forma a validar os pressupostos do modelo.
Distribuição dos resíduos: A variação dos resíduos aparenta diminuir para os valores mais altos. No entanto existem poucos dados.
plot(lm1, which = 1)
Normalidade dos resíduos
O teste de Shapiro não indicia a rejeição da hipótese nula, de normalidade dos resíduos.
O gráfico qqplot apresenta alguns desvios.
plot(lm1, which = 2)
shapiro.test(lm1$residuals)
Plot Diagnostics for an lm Object: Temos 6 gráficos disponíveis (escolhidos pelo which):
	plot(lm1, which = 1)
	plot(lm1, which = 2)
	plot(lm1, which = 3 )
	plot(lm1, which = 4 )
	plot(lm1, which = 5 )
Deteção de valores alavanca e significativos
A observação 9 tem distância de Cook superior a 0.5. Existe uma observação com hat value próximo do valor do máximo (hat_thresh).
plot(lm1, which = 5)
hat_thresh <- 2 * ((dim(dados)[2]))/dim(dados)[1]
which(hatvalues(lm1) > hat_thresh)
Outliers
Não foi detetado nenhum outlier
which(rstudent(lm1) > 2)
Multicolinearidade
Não foram detetados valores superiores a 5, que indiciem associação muito forte entre variáveis explicativas.
## Para termos vif carregar
library(car)
vif(lm1)
Determinar uma estimativa para o consumo médio de energia quando a temperatura média ambiental é 75ºF, o número de dias do mês é 24, a pureza média do produto é 90 e o número de toneladas de produto produzido é 98. Obter um IC a 95% para o valor
Interval = “confidence”, porque quero estimar o consumo médio da população e não o consumo da população (interval = “predict”).
predict(lm1, list(temperatura = 75, dias = 24, pureza = 90, producao = 98), interval = "conf")
Determinação de modelos mais simples, com representatividade semelhante
Filtragem automática pelos métodos “stepwise”, “backward” e “forward” e comparação de resultados.
Método Stepwise: O método indica que a variável producao poderá ser retirada do modelo sem perda de qualidade.
step(lm1, direction = "both")
Método backward: As conclusões são semelhantes ao método stepwise
step(lm1, direction = "backward")
Método forward: O método forward indica que se devem manter todas as variáveis.
Teste F para comparar a qualidade dos modelos com e sem a variável produção.
Criação de modelo atualizado, sem a variável produção.
Os parâmetros das variáveis (dias) e (pureza) continuam a não ter significado estatístico, pelo que se considera que deveriam ser retiradas da análise num caso real.
lm2 <- update(lm1, ~. - producao)
summary(lm2)
A comparação dos modelos indica que não existem indícios para rejeitar a hipótese nula de igualdade de qualidade dos modelos.
Os modelos são semelhantes escolhendo-se, portanto, o modelo mais simples, pelo princípio da parcimónia.
anova(lm2, lm1)
Teste F, retirando todas as variáveis, com exceção de temperatura
O teste ainda permite concluir que existem evidências para considerar os modelos equivalentes, apesar da redução do valor de R2 .
lm3 <- update(lm1, ~. - producao - pureza - dias)
summary(lm3)
anova(lm3, lm1)

Outros materiais