Buscar

c4 análise de regressão

Prévia do material em texto

*
*
*
4- ANÁLISE DE REGRESSÃO E CORRELAÇÃO
DIAGRAMA DE DISPERSÃO
O diagrama de dispersão é um gráfico utilizado para
 a visualização de relacionamento existente entre
 duas variáveis.
Gráfico1
		32
		34
		28
		38
		37
		42
		30
		30
		40
		34
Peso
Altura
Peso
Relação entre Peso e Altura
Plan1
		Altura		Peso
		136		32
		142		34
		132		28
		145		38
		144		37
		147		42
		137		30
		136		30
		142		40
		144		34
Plan1
		
Peso
Altura
Peso
Relação entre Peso e Altura
Plan2
		
Plan3
		
*
*
*
4 ANÁLISE DE REGRESSÃO E CORRELAÇÃO
*
*
*
Um “outlier” é uma observação extrema, que não é condizente com o restante da massa de dados. 
Um aspecto importante é que a existência de uma correlação entre as variáveis não implica necessariamente na existência de uma relação de causa e efeito entre x e y.
 Ex.: Numero de aparelhos de rádio em MG (x) e Número de doentes mentais em MG (y). 
4- ANÁLISE DE REGRESSÃO E CORRELAÇÃO
*
*
*
4- ANÁLISE DE REGRESSÃO E CORRELAÇÃO
Coeficiente de Correlação de Pearson
Mede o grau de relacionamento linear entre duas variáveis quando ambas podem variar.
O valor de r estará compreendido entre -1 e 1.
*
*
*
4 Análise de Regressão Linear
A situação geral envolve um par de n observações das variáveis Y (variável dependente) e X (variável independente) que pode ser o tempo.
Podemos descrever este relacionamento através de uma reta. 
*
*
*
4 Análise de Regressão Linear
Podemos descrever este relacionamento através de uma reta. 
Y = 0 + 1X + 
Os parâmetros 0 e 1 são respectivamente, o intercepto e a inclinação da reta.
onde  irá captar todas as influências sobre Y não explicadas por X. Esse termo é conhecido com erro aleatório 
*
*
*
4 Análise de Regressão Linear
A estimação dos parâmetros pode ser feita através do método dos mínimos quadrado. E a reta pode ser escrita assim 
*
*
*
Exemplo: Calcular a venda de pares de sapatos para 2004 com os dados abaixo
Ano
Y
X
X2
X . Y
1999
108
0
0
0
2000
119
1
1
119
2001
110
2
4
220
2002
122
3
9
366
2003
130
4
16
520
Soma
589
10
30
1.225
*
*
*
Exemplo: Calcular a venda de pares de sapatos para 2004 com os dados abaixo
Ano
Y
X
X2
X . Y
1999
108
0
0
0
2000
119
1
1
119
2001
110
2
4
220
2002
122
3
9
366
2003
130
4
16
520
Soma
589
10
30
1.225
*
*
*
Exemplo: Calcule a previsão para ano de 2004 na casio
Mode 3 1 
0,1000 m+
1,1300 m+
2,1800 m+
3,2000 m+
4,2000 m=
 shift 2 3 →→ a =
 shift 2 3 →→ b =
*
*
*
4 Análise de Regressão Linear
Exemplo: Calcular o consumo para novembro de 1997 com os dados abaixo. 
Tempo Consumo de Banana
 (X)		(Y)
0 (jan/97)		300
1		200
2		450
3		350
4		300
5		600
6		400
7		500
8		450
9		650
*
*
*
Análise do modelo
*
*
*
 Coeficiente de Determinação - R2
Mede a proporção de variabilidade em Y 
explicada pela variável X
*
*
*
Coeficiente de Determinação - R2
Exemplo : Calcule R2 para os dados abaixo
ANO
Consumo-Y
1994
900
1995
1.300
1996
1.200
1997
2.000
1998
2.200
1999
2.700
2000
2.800
2001
2.600
2002
3.700
2003
3.200
*
*
*
Coeficiente de Determinação - R2
Exemplo : Calcule R2 para os dados abaixo 
utilizando os resultados da reta
ANO
Consumo-Y
1994
900
1995
1.300
1996
1.200
1997
2.000
1998
2.200
1999
2.700
2000
2.800
2001
2.600
2002
3.700
2003
3.200
Resultados
(1 =
287,27
(0 =
967,29
ŷ2004 =
3840
X
10
ŷ2005 =
4127
X
11
ŷ2006 =
4415
X
12
*
*
*
Coeficiente de Determinação - R2
ANO
Consumo
y 
Previsão
ŷ
Y Médio 
(y
 ŷ - (y
 (ŷ - (y)2
 y - (y
(y - (y) 2
1994
900
967
2.260
-1.293
1.671.112
-1.360
1.849.600
1995
1.300
1.255
2.260
-1.005
1.010.920
-960
921.600
1996
1.200
1.542
2.260
-718
515.775
-1.060
1.123.600
1997
2.000
1.829
2.260
-431
185.679
-260
67.600
1998
2.200
2.116
2.260
-144
20.631
-60
3.600
1999
2.700
2.404
2.260
144
20.631
440
193.600
2000
2.800
2.691
2.260
431
185.679
540
291.600
2001
2.600
2.978
2.260
718
515.775
340
115.600
2002
3.700
3.265
2.260
1.005
1.010.920
1.440
2.073.600
2003
3.200
3.553
2.260
1.293
1.671.112
940
883.600
6.808.234
7.524.000
*
*
*
Teste de Hipóteses e Intervalo de Confiança para 1
Testar a hipótese de que a inclinação da reta de regressão seja igual a zero, ou seja
H0 : 1 = 0 
H1 : 1  0 
Neste caso, não rejeitar H0 é dizer que X é pouco importante para explicar a variação em Y. 
A rejeição de H0 implica que X é importante para explicar a variabilidade em Y.
*
*
*
Sob H0 essa estatística tem distribuição F com 
(1, n-2) graus de liberdade. 
Para um teste de significância , a hipótese H0 
deverá ser rejeitada se F0 > F (1, n-2) 
REGRESSÃO LINEAR
*
*
*
			 Custo aluno por Ano=2007 (Dados fictícios)
Exemplo:A Secretaria de Planejamento
 de um estado estava relizando estudos com 
o objetivo de reduzir o custo aluno
*
*
*
Saída do Excel
*
*
*
Análise de Regressão Linear
Analisando a saída do Excel, verificamos que ambos os parâmetros do modelo (0 e 1) são significativamente (p=0,00) diferentes de zero. 
*
*
*
Análise de Regressão Linear
O p-valor do modelo (p=0,00) para um Fo =74,16 indica que o modelo é adequado, isto é, que o número de matriculados é importante para explicar o custo
*
*
*
Análise de Regressão Linear
Uma outra maneira de testar a hipótese de que a inclinação da reta de regressão seja igual a zero
H0 : 1 = 0 
H1 : 1  0
Rejeitar H0 se | to | > t /2, n-2. 
*
*
*
Análise de Regressão Linear
Vamos utilizar o R2 já calculado
he regression equation is
Custo = 1012 - 0,293 Matriculados
Predictor Coef SE Coef T P
Constant 1011,61 32,57 31,06 0,000
Matriculados -0,29312 0,03404 -8,61 0,000
S = 33,9315 R-Sq = 80,5% R-Sq(adj) = 79,4%
Desta maneira,
Como | -8,61 | > 2,101 rejeitar H0. Concluímos que o número de matriculados é importante para explicar o custo 
*
*
*
Regressão Linear Múltipla
É uma extensão do modelo de regressão
linear simples
Deve ser utilizada quando há necessidade 
de mais de uma variável explicativa para 
estimar os valores da variável dependente.
*
*
*
Podemos escrever a seguinte equação : 
Y = 0 + 1X1 + 2X2 +.... + kXk + 
Onde :
k = número de variáveis explicativas.
 
0 é o intercepto da reta.
1, 2 k, são os coeficientes das variáveis 
 explicativas.
  irá captar todas as influências sobre Y não 
 explicadas pelas variáveis X’s 
REGRESSÃO MÚLTIPLA
*
*
*
Podemos escrever a seguinte equação : 
Y = 0 + 1X1 + 2X2 +.... + kXk + 
1,é variaçãoprovocada em Y pelo variação
 de uma unidade em X1, consideradas 
 constantes todas as outras variáveis
 explicativas.
REGRESSÃO MÚLTIPLA
*
*
*
Exemplo : Desenvolver um modelo de 
regressão para prever o consumo de óleo
para calefação em domicílios.
Uma amostra de 15 domicílios, com metragem
idêntica foi selecionada. 
REGRESSÃO MÚLTIPLA
*
*
*
As variáveis explicativas selecionadas são: 
X1 : temperatura média diária (F) do lado de
 fora do domicílio (X1) e
X2 : quantidade de isolamento térmico, medidas
 em polegadas, no sótão da casa. 
REGRESSÃO MÚLTIPLA
*
*
*
 REGRESSÃO MÚLTIPLA
Plan4
		RESUMO DOS RESULTADOS
		
		Estatística de regressão
		R múltiplo		0.9772514969
		R-Quadrado		0.9550204883
		R-quadrado ajustado		0.947523903
		Erro padrão		29.007180889
		Observações		15
		
		ANOVA
				gl		SQ		MQ		F		F de significação
		Regressão		2		214382.9508158382		107191.4754079191		127.39406693		0.00000001
		Resíduo		12		10096.9985174951		841.4165431246
		Total		14		224479.9493333334
		
				Coeficientes		Erro padrão		Stat t		valor-P		95% inferiores		95% superiores		Inferior 95,0%		Superior 95,0%
		Interseção		539.2595107154		23.5202810499		22.9274263165		0.00000000		488.01322148		590.505799948		488.0132214828		590.505799948
		Temperatura atmosférica média diária (F)		-5.4052747892		0.3749044526		-14.417739646		0.00000001		-6.22212141		-4.588428172		-6.2221214064		-4.588428172
		Quantidade de Isolamento térmico no sótão (polegadas)		-17.5548072428		2.6120565485		-6.7206842259		0.00002132		-23.24598947		-11.8636250204		-23.2459894652		-11.8636250204
Plan1
		Consumo mensal de óleo para calefação (Galões)		Temperatura atmosférica média diária (F)		Quantidade de Isolamento
		275.3		40		3
		363.8		27		3
		164.3		40		10
		40.8		73		6
		94.3		64		6
		230.9		34		6
		366.7		9		6
		300.6		8		10
		237.8		23		10
		121.4		63		3
		31.4		65		10
		203.5		41		6
		441.1		21		3
		232		38		3
		52.5		58		10
Plan2
		
Plan3
		
*
*
*
 REGRESSÃO MÚLTIPLA
*
*
*
 REGRESSÃO MÚLTIPLA
*
*
*
 REGRESSÃO MÚLTIPLA
*
*
*
 REGRESSÃO MÚLTIPLA
Plan4
		RESUMO DOS RESULTADOS
		
		Estatística de regressão
		R múltiplo		0.9772514969
		R-Quadrado		0.9550204883
		R-quadrado ajustado		0.947523903
		Erro padrão		29.007180889
		Observações		15
		
		ANOVA
				gl		SQ		MQ		F		F de significação
		Regressão		2		214382.9508158382		107191.4754079191		127.39406693		0.00000001
		Resíduo		12		10096.9985174951		841.4165431246
		Total		14		224479.9493333334
		
				Coeficientes		Erro padrão		Stat t		valor-P		95% inferiores		95% superiores		Inferior 95,0%		Superior 95,0%
		Interseção		539.2595107154		23.5202810499		22.9274263165		0.00000000		488.01322148		590.505799948		488.0132214828		590.505799948
		Temperatura atmosférica média diária (F)		-5.4052747892		0.3749044526		-14.417739646		0.00000001		-6.22212141		-4.588428172		-6.2221214064		-4.588428172
		Quantidade de Isolamento térmico no sótão (polegadas)		-17.5548072428		2.6120565485		-6.7206842259		0.00002132		-23.24598947		-11.8636250204		-23.2459894652		-11.8636250204
Plan5
		RESUMO DOS RESULTADOS
		
		Estatística de regressão
		R múltiplo		0.9772514969
		R-Quadrado		0.9550204883
		R-quadrado ajustado		0.947523903
		Erro padrão		29.007180889
		Observações		15
		
		ANOVA
				gl		SQ		MQ		F		F de significação
		Regressão		2		214382.9508158382		107191.4754079191		127.3940669265		0.0000000083
		Resíduo		12		10096.9985174951		841.4165431246
		Total		14		224479.9493333334
		
				Coeficientes		Erro padrão		Stat t		valor-P		95% inferiores
		Interseção		539.2595107154		23.5202810499		22.9274263165		0		488.0132214828
		Temperatura atmosférica média diária (F)		-5.4052747892		0.3749044526		-14.417739646		0.0000000061		-6.2221214064
		Quantidade de Isolamento		-17.5548072428		2.6120565485		-6.7206842259		0.0000213172		-23.2459894652
Plan6
		RESUMO DOS RESULTADOS
		
		Estatística de regressão
		R múltiplo		0.9826547566
		R-Quadrado		0.9656103706
		R-quadrado ajustado		0.9598787657
		Erro padrão		26.0137832312
		Observações		15
		
		ANOVA
				gl		SQ		MQ		F		F de significação
		Regressão		2		228014.6263173599		114007.31315868		168.4712028421		0.0000000017
		Resíduo		12		8120.6030159734		676.7169179978
		Total		14		236135.2293333334
		
				Coeficientes		Erro padrão		Stat t		valor-P		95% inferiores
		Interseção		562.1510092285		21.0931043286		26.6509376937		0		516.1930836858
		Temperatura atmosférica média diária (F)		-5.436580588		0.3362161666		-16.1698964196		0.0000000016		-6.1691326727
		Quantidade de Isolamento		-20.0123206662		2.3425052266		-8.5431274343		0.0000019073		-25.1162010201
Plan1
		Consumo mensal de óleo para calefação (Galões)		Temperatura atmosférica média diária (F)		Quantidade de Isolamento
		275.3		40		3
		363.8		27		3
		164.3		40		10
		40.8		73		6
		94.3		64		6
		230.9		34		6
		366.7		9		6
		300.6		8		10
		237.8		23		10
		121.4		63		3
		31.4		65		10
		203.5		41		6
		441.1		21		3
		323		38		3
		52.5		58		10
Plan2
		
Plan3
		
*
*
*
 REGRESSÃO MÚLTIPLA
Y = 562,1 - 5,44 tempetura - 20,01 isolamento
A cada aumento de 1 F na temperatura o 
consumo de óleo (Y) diminui 5,44 galões 
por mês, considerando um dado valor para
o isolamento térmico
O modelo explica 96,99% (R2ajustado) da 
variação em Y. O coeficiente ajustado 
considera o número de variáveis explicativas
na reta de regressão.
*
*
*
 REGRESSÃO MÚLTIPLA
TESTE DE HIPÓTES DA REGRESSÃO
H0 = não existe relação entre Y e os X’s
H1 = pelo menos um coeficiente é dif. de zero. 
Como o valor-p da regressão (F de signific) é 
menor que 0,05, podemos concluir que o 
pelo menos uma variável está relacionada
ao consumo mensal de óleo para calefação.
*
*
*
 REGRESSÃO MÚLTIPLA
Devemos verificar a existência de correlação 
entre pares de variáveis explicativas.
Quando há presença de correlação devemos 
eliminar do modelo aquela que menos
contribui para explicar a variação em Y. 
*
*
*
 REGRESSÃO MÚLTIPLA
No exemplo anterior a correlação entre X1 e X2 é de 0,00892. 
Portanto não há correlação entre temperatura e isolamento térmico. 
Devemos manter ambas variáveis no modelo.

Continue navegando