Buscar

Regressão Linear

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

*
*
Correlação e Regressão Linear
Prof. Silvana Ligia Vincenzi
Slides adaptados do material didático de Juan Carlos Lapponi, Paulo Ogliari, Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia.
*
*
*
*
*
*
*
*
*
*
Diagrama de dispersão
No excel:
Taxa da alfabetização (%) x renda per capita (R$)
Taxa de mortalidade Infantil x Esperança de vida ao nascer
Taxa da alfabetização (%) x Taxa de mortalidade Infantil 
Taxa da alfabetização (%) x distância à capital (Km)
*
*
*
*
Correlação
O coeficiente de correlação de Pearson: Quantificando a força da relação entre duas variáveis.
*
*
*
*
Matriz das Correlações
Interpretar
*
*
*
*
*
*
*
*
Regressão Linear - Modelo
Parâmetros ou coeficientes de regressão
Regressão
Linear Simples
Com i = 1,2,...,n
Y = é a variável dependente
X = é a variável independente ou explicativa
*
*
Modelo de regressão linear simples
Em termos das variáveis:
Em termos dos dados: Yi =  + xi + ei 
Suposições: Para qualquer valor de xi
os termos de erro (e1, e2, ..., en) são variáveis aleatórias independentes;
A média dos erros é igual a 0;
Variância dos erros é igual a 2 (é constante); e
Os erros ei tem distribuição normal (i = 1, 2, ..., n).
*
*
*
*
Método dos mínimos quadrados para estimar  e 
 a e b são os estimadores de  e  
Resultado das derivadas parciais (sistema de equações):
Estimativa de :
Estimativa de  :
Reta de regressão construída com os dados:
*
*
*
*
*
*
*
*
*
*
*
*
*
*
Significado dos parâmetros do modelo de regressão linear simples
a

x
x+1
x=1
y
a (intercepto) é o valor da média da distribuição de Y em X=0, não tem significado prático como um termo separado (isolado) no modelo; 
b (inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre a mudança de uma unidade em X. 
y = a + b.x
^
*
*
Qualidade do ajuste
Ajustou-se uma equação de regressão entre X e Y então como verificar:
Qualidade do ajuste?
Coeficiente de determinação e análise de variância do modelo.
análise dos resíduos.
*
*
Coeficiente de determinação e Análise de variância do modelo
yi
xi
ei
di
Desvio em relação à 
média aritmética:
Desvio em relação à 
reta de regressão
(resíduo da regressão):
ri
Desvio da equação ajustada
em torno da média
(regressão):
yi
^
Ogliari, P. J. – Técnicas Estatísticas de Predição
Somas de quadrados
 = 
 + 
*
*
Medida da qualidade do ajuste:
Coeficiente de determinação (R2)
R2 = 
Variação
total
Variação
explicada
=
=
SQR
SQT
0  R2  1
Quanto mais alto é o valor de R2, mais o modelo de regressão linear simples consegue explicar a variação de Y.
	O R2 é freqüentemente conhecido como a proporção da variação de y observada que pode ser explicada pela variável regressora X.
*
*
Coeficiente de determinação
Se R2 for pequeno, não existe relação linear entre as variáveis X e Y
Se R2 for pequeno, o pesquisador irá desejar encontrar um modelo alternativo (modelo não linear, de regressão múltipla, etc.)
*
*
Teste de significância do modelo - Análise de variância 
(Inferência estatística para )
Teste F para o coeficiente 
Hipóteses:
H0:  = 0 e H1:   0
F = QMR/QME
Probabilidade: Através do valor F com gl = 1 no numerador, gl = n – 2 no denominador, determina-se o Valor p. 
*
*
Tabela da análise de variância do modelo
GL = graus de liberdade; 
SQ = soma de quadrados; 
QM = quadrado médio.
*
*
Regra de decisão do teste de hipótese:
Teste de significância do modelo 
*
*
Exemplo
Represente as vendas 
trimestrais em função 
do numero de estudantes.
Encontre a equação de 
Regressão.
Qual a previsão de vendas 
para 14 mil estudantes.
*
*
 xi	 yi xi2 xi yi
 
b = 
b = 
Exemplo numérico
*
*
a = 
=
Exemplo numérico
 =
b =
 xi	 yi xi2 xi yi
 
Ogliari, P. J. – Técnicas Estatísticas de Predição
x = 
=
x = 
=
Predições:
 = x
*
*
Exemplo 1: Determine o coeficiente de determinação para o exemplo das vendas e estudante.
Fazer o teste F para verificar se existe efeito da regressão linear para os dados de vendas trimestrais (Y) e população de estudante (X). Use um nível de significância () de 5%. Faça a conclusão
Ogliari, P. J. – Técnicas Estatísticas de Predição
Interpretação de R2: % da variabilidade observada no xxxx é explicada pela xxxx. É o quanto a variação de Y é explicada pela variável X no modelo.
R2=
Fazer no excel
*
*
Valor p Prob(F > valor) = p 
Exemplo: índice de octanagem e % de aditivo
Prob(F >) = (excel DistF)
Conclusão: como o valor p é xxx do que o nível de significância adotado ( = 0,05), xxxx a hipótese nula (H0).
Valor p na distribuição F
Excel DistF 
Ogliari, P. J. – Técnicas Estatísticas de Predição
Análise dos resíduos
O relacionamento entre y e a variável regressora é linear;
Os termos de erro (e1, e2, ..., en) são variáveis aleatórias independentes;
Média dos erros é igual a 0;
Variância dos erros é igual a 2;(constante)
Os erros tem distribuição normal (i = 1, 2, ..., n).
Modelo: yi =  + xi + ei 
*
*
Análise de Resíduos
Recomendação
Para uma análise mais confiável, sem que as grandezas dos resíduos venham a prejudicá-la recomenda-se padronizar os resíduos:
*
*
 Construir dois diagramas de dispersão:
 - um que relacione os resíduos ou resíduos padronizados) com os próprios valores preditos da variável independente;
 - outro que relacione os resíduos ou resíduos padronizados com os valores da variável independente (X).
 Se houver mais de uma variável independente faz-se um diagrama de dispersão para cada uma delas.
Com estes dois gráficos pode-se verificar:
Se a função de regressão é adequada
Se a variância do erro é constante
Se existe valor discrepante. 
*
*
 Modelo de regressão é adequado os resíduos ou resíduos padronizados quando não podem apresentar quaisquer padrões, eles devem distribuir-se de forma aleatória nos dois diagramas, sendo que:
a quantidade de resíduos padronizados positivos deve ser aproximadamente igual à quantidade de negativos.
a grandeza dos resíduos padronizados positivos deve ser aproximadamente igual a dos negativos, para todos os valores preditos da variável dependente, e para todos os valores da variável independente.
não pode haver padrões não aleatórios (tendências crescentes ou decrescentes, curvas, etc.) em nenhum dos diagramas. 
*
*
Somente se todas estas condições forem satisfeitas é que podemos considerar o modelo de regressão apropriado. 
Se houver dois ou mais modelos apropriados escolhemos o mais simples, ou aquele que apresentar o mais alto coeficiente de determinação.
Ogliari, P. J. – Técnicas Estatísticas de Predição
Análise de Resíduos
*
*
Exemplo: Análise dos resíduos
x
y
e
x
Gráfico dos dados:
(xi, yi)
Gráfico dos resíduos:
(xi, ei)
As suposições do modelo parecem satisfeitas? Sim, os erros estão aleatoriamente distribuídos em torno do valor e = 0.
*
*
Análise dos resíduos
Gráfico dos dados:
(xi, yi)
Gráfico dos resíduos:
(xi, ei)
As suposições do modelo parecem satisfeitas? Não, modelo não está adequado e a variância está aumentando. O que pode ser feito? 
Por exemplo: transformação logarítmica em Y. 
*
*
Análise dos resíduos
Gráfico dos resíduos: (xi, ei)
As suposições do modelo parecem satisfeitas? Não, modelo não adequado. O que pode ser feito? Incluir um termo X2; fazer transformações em X e/ou Y, por exemplo, fazer uma transformação logarítmica na variável X ou a transformação 1/X.
*
*
Análise dos resíduos
As suposições do modelo parecem satisfeitas? Não, existe um outlier.
O que pode ser feito? Pode ser um erro, situação atípica (descartar ou corrigir). Fazer análise sem este(s) valor(es) e verificar se as estimativas dos coeficientes mudam muito. Fazer uma transformação nos dados, mudar o modelo, coletar mais dados.
*
*
Análise dos resíduos
Gráfico dos dados:
(xi, yi)
Gráfico dos resíduos:
(xi, ei)
As suposições do modelo parecem satisfeitas? Não, variância aumentando. O que pode ser feito? Por exemplo, transformação logarítmica tanto nos valores de X como nos valores de Y. Na prática, geralmente se emprega uma transformação em Y.
Ogliari, P. J. – Técnicas Estatísticas de Predição
Análise dos resíduos
Exemplo: Retornando ao exemplo das vendas trimestrais e estudantes, construir os gráficos:
- resíduos ou resíduos padronizados) com os próprios valores preditos da variável independente;
- os resíduos ou resíduos padronizados com os valores da variável independente (X).
Verifique se as suposições da analise de resíduos são verificadas.
*
*
Exemplo: Regressão Múltipla
Uma reação química foi realizada sob seis pares de diferentes condições de pressão e temperatura. Em cada caso, foi medido o tempo necessário para que a reação se completasse. Os resultados obtidos foram os seguintes:
Obter a equação da função de regressão linear do tempo (y) em relação à temperatura (x1) e à pressão (x2). 
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Continue navegando