Buscar

CORRELAÇÃO E REGRESSÃO

Prévia do material em texto

�PAGE �10�
UNIDADE 5 – CORRELAÇÃO E REGRESSÃO
5.1 - CONCEITUÇÃO GENÉRICA
	Com muita frequência verifica-se que existe uma relação entre duas (ou mais) variáveis. Por exemplo: os pesos dos alunos dessa turma dependem, em certo grau, de suas alturas; as circunferências de círculos dependem de seus raios; a pressão de um determinado gás depende de sua temperatura e seu volume.
	Deseja-se, frequentemente, representar essa relação sob forma matemática por meio do estabelecimento de uma equação que ligue as variáveis.
	As curvas mais frequentemente utilizadas têm as seguintes equações:
		Linha Reta Y = a + bX
		Parábola Y = a0 + a1X + a2X2
		Curva do 3o Grau Y = a0 + a1X + a2X2 + a3X3
		Curva do no Grau Y = a0 + a1X + a2X2 + a3X3 + ... + anXn
 Hipérbole Y = 1 / (a + bX) 
 Curva Exponencial Y = ABX
 Curva Geométrica Y = Axb
 Curva Logística Y = 1 / (ABX + G)
	
	Dispondo-se de “n” informações consecutivas, tem-se uma série com os n pontos (Xi,Yi)) para i = 1, 2, 3,...,n. Elaborando-se o ajustamento ou a regressão dessa série, a função ajustante define a tendência. Através dessa função ajustante procede-se a formulação de projeções ou previsões.
- Métodos de Ajustamento 
	O problema do ajustamento consiste em determinar-se uma função matemática que possa representar a “Curva observada” tão próximo quanto possível. Para tanto são utilizados vários métodos:
processo gráfico;
método dos pontos escolhidos;
método das médias
métodos rigorosos
método dos mínimos quadrados;
método do momento;
método dos polinômios ortogonais.
	Apenas estudaremos o método dos mínimos quadrados.
Observação Importante
	Nos problemas que envolvem ajustamento de séries temporais, para simplificar as equações normais se usa o processo de centragem dos valores seriados de Xi. Essa centragem pode ser feita de duas maneiras:
a série temporal tem número ímpar de termos. 
Exemplo:
Valores originais: 1960, 1964, 1968, 1972, 1976, 1980, 1984, 1988, 1992. 
Número de termos: 1, 2, 3, 4, 5, 6, 7, 8, 9.
Valores centrados: -4, -3, -2, -1, 0, 1, 2, 3, 4. 
b) a série temporal tem número par de termos.
Exemplo:
Valores originais: 1960, 1964, 1968, 1972, 1976, 1980, 1984, 1988. 
Número de termos: 1, 2, 3, 4, 5, 6, 7, 8. 
Valores centrados: -7, -5, -3, -1, 1, 3, 5, 7. 
A adoção dessas centragem minimiza os cálculos na apuração das incógnitas (constantes) que integram o modelo matemático usado no ajustamento. 
Para escolher qual a melhor função ajustante dentre as funções proposta devemos encontrar a variância residual ((2). A melhor função ajustante é aquela que apresentar a menor variância residual ((2). 
	Chamamos de variância residual a variância resultante dos desvios entre os dados observados (Yi) e os respectivos dados calculados (Yc) pela função ajustante. Sua expressão é:
 
 (2 = ((Yi - Yc)2
 n 
- Método dos mínimos quadrados
	Esse método consiste em tornar mínima a soma dos quadrados dos desvios entre os dados observados e os respectivos valores determinados pela função ajustante.
	Por esse critério determina-se o sistema de equações normais e os valores das constantes.
- Ajustamento para reta, parábola e exponencial
	Para melhor entendimento desenvolveremos as equações normais para as três curvas citadas pois elas são suficientes para o entendimento das demais. E estamos supondo que os dados estão centrados
Reta Y = a + bX
 (Y = na + b(X
 (XY = a(X + b (X2
Parábola Y = a + bX + cX2
 
 (Y = na + b(X +c(X2
 (XY = a(X + b (X2 + c(X3
 (X2Y = a(X2 + b (X3 + c(X4
Exponencial Y = ABX
 Como essa função traz a variável X no expoente ela tem que ser preparada matematicamente por logaritimação antes de aplicarmos as regras de normalização. 
Aplicando logaritmo a ambos os termos da igualdade, temos: 
 Log Y = Log (ABX)
podemos chamar Log Y = y, como Log (ABX) = log A + X log B, chamando log A =a e log B = b teremos que Log (ABX) = a + bX, logo, a equação a ser normalizada é y = a + bX que é a equação da Reta, assim:
 (y = na + b(X
 (Xy = a(X + b (X2
Exemplo: Dada a produção de Aço indicada na tabela, ajuste aos dados apresentados à reta, a parábola e a exponencial. Em seguida determine qual dessas funções é a melhor ajustante e a partir da melhor ajustante faça uma previsão para os próximos cinco anos. 
 
 Brasil
 Produção de Aço -1972
	 Anos
	Produção
(1000 t)
	1959
	131
	1960
	146
	1961
	149
	1962
	163
	1963
	174
	1964
	188
	1965
	194
	1966
	198
	1967
	210
	1968
	281
	1969
	315
	1970
	338
	1971
	344
	(
	2.831
Memória de Cálculos
Para a Reta:
	Anos
	Produção
(1000 t)
	Xi
	XiYi
	X2
	Yc
	(Yi - Yc)2
�
	1959
	131
	-6
	-786
	36
	108
	529
	1960
	146
	-5
	-730
	25
	126
	400
	1961
	149
	-4
	-596
	16
	144
	25
	1962
	163
	-3
	-489
	9
	163
	-
	1963
	174
	-2
	-348
	4
	181
	49
	1964
	188
	-1
	-188
	1
	199
	121
	1965
	194
	0
	0
	0
	218
	576
	1966
	198
	1
	198
	1
	236
	1444
	1967
	210
	2
	420
	4
	254
	1936
	1968
	281
	3
	843
	9
	273
	64
	1969
	315
	4
	1260
	16
	291
	576
	1970
	338
	5
	1690
	25
	309
	844
	1971
	344
	6
	2064
	36
	328
	256
	(
	2.831
	0
	3.338
	182
	-
	6.817
Y = a + bX
 (Y = na + b(X ( 2.831 = 13 a + b.0 ( 2.831 = 13 a ( a = 217,6
 (XY = a(X + b (X2 ( 3.338 = a . 0 + 182b ( 3.338 = 182 b ( b = 18,34
 Yc = 217,76 + 18,34X
Variância residual: 
(2 = ((Yi - Yc)2 = 6.817 = 524
 n 13
Para a Parábola:
	Anos
	Produção
(1000 t)
	Xi
	XiYi
	X2
	Xi2Yi
	X3
	X4
	Yc
	(Yi - Yc)2
�
	1959
	131
	-6
	-786
	36
	4716
	-216
	1296
	140
	81
	1960
	146
	-5
	-730
	25
	3650
	-125
	625
	142
	16
	1961
	149
	-4
	-596
	16
	2384
	-64
	256
	147
	4
	1962
	163
	-3
	-489
	9
	1467
	-27
	81
	155
	64
	1963
	174
	-2
	-348
	4
	696
	-8
	16
	167
	49
	1964
	188
	-1
	-188
	1
	188
	-1
	1
	181
	49
	1965
	194
	0
	0
	0
	0
	0
	0
	197
	9
	1966
	198
	1
	198
	1
	198
	1
	1
	217
	361
	1967
	210
	2
	420
	4
	840
	8
	16
	240
	900
	1968
	281
	3
	843
	9
	2519
	27
	81
	266
	225
	1969315
	4
	1260
	16
	5040
	64
	256
	294
	441
	1970
	338
	5
	1690
	25
	8450
	125
	625
	325
	169
	1971
	344
	6
	2064
	36
	12384
	216
	1296
	360
	256
	(
	2.831
	0
	3.338
	182
	45.542
	0
	4.550
	-
	2.624
Y = a + bX + cX2
(Y = na + b(X + c(X2 ( 2.831 = 13 a +b.0 + 182c ( 13 a + 182 c = 2.831 (1)
(XY = a(X + b (X2 + c(X3 ( 3.338 = a . 0 + b.182 + c.0 ( 3.338 = 182b ( b = 18,34
(X2Y = a(X2 + b (X3 + c(X4 ( 42.542 = a .182 +b.0 + c.4.550 ( 182 a + 4.550 c = 42.542 (2)
De (1) e (2) vem: utilizando o processo de adição
13 a + 182 c = 2.831 [182] ( -2.366 a - 33.124 c = - 515.242
182 a + 4550 c = 42.542 [13 ] ( 2.366 a +59.150 c = 553.046
 0 + 26.026 c = 37.804 ( c = 1,45 
De (1) vem: utilizando o processo de substituição
 13 a + 182 c = 2.831 
13 a + 182(1,45) = 2.831 ( 13 a + 263,9 = 2.831 ( 13 a = 2.567,1 a = 197,47
 Yc = 197,47 + 18,34X + 1,45X2
Variância residual: 
(2 = ((Yi - Yc)2 = 2.624 = 202
 n 13
Para a Exponencial:
	Anos
	Produção
(1000 t)
	Xi
	logYi
	Xi.logYi
	X2
	Yc
	(Yi - Yc)2
�
	1959
	131
	-6
	2,1173
	-12,7038
	36
	126
	25
	1960
	146
	-5
	2,1644
	-10,8220
	25
	137
	81
	1961
	149
	-4
	2,1732
	-8,6928
	16
	148
	1
	1962
	163
	-3
	2,2122
	-6,6366
	9
	161
	4
	1963
	174
	-2
	2,2405
	-4,4810
	4
	175
	1
	1964
	188
	-1
	2,2742
	-2,2742
	1
	190
	4
	1965
	194
	0
	2,2878
	0
	0
	206
	144
	1966
	198
	1
	2,2967
	2,2967
	1
	225
	729
	1967
	210
	2
	2,3222
	4,6444
	4
	244
	1156
	1968
	281
	3
	2,.4487
	7,3461
	9
	265
	256
	1969
	315
	4
	2,4983
	9,9932
	16
	288
	729
	1970
	338
	5
	2,5289
	12,6445
	25
	313
	625
	1971
	344
	6
	2,5366
	15,2196
	36
	340
	16
	(
	2.831
	0
	30,1010
	6,5341
	182
	-
	3.771
Y = ABX [lembrar que a = log A e b = log B e que o antilogarítmo é 10log ] 
 
(y = na + b(X ( 30,1010 = 13. a + b.0 ( a = 2,315462 ( A = 102,315462 ( A = 206,758
(Xy = a(X + b (X2 ( 6,5341 = a . 0 + b.182 b = 0,0359 ( B = 100,0359 ( B = 1,086
 Yc = (206,758)(1,086)x
Variância residual: 
(2 = ((Yi - Yc)2 = 3.771 = 290
 n 13
Como a Parábola apresentou menor variância residual ela é a melhor função ajustante.
Desta forma, a projeção para os próximos cinco anos ficará assim determinada:
Yc = 197,47 + 18,34X + 1,45X2
Y1972 = 197,47 +18,34(7) +1,45(7)2 = 197,47 + 128,38 + 71,05 = 396,90 = 397
Y1973 = 197,47 +18,34(8) +1,45(8)2 = 197,47 + 146,72 + 92,80 = 436,99 = 437
Y1974 = 197,47 +18,34(9) +1,45(9)2 = 197,47 + 165,06 + 117,45 = 479,98 = 480
Y1975 = 197,47 +18,34(10) +1,45(10)2 = 197,47 + 183,40 + 145 = 525,87 = 526
 Y1976 = 197,47 +18,34(11) +1,45(11)2 = 197,47 + 201,74 + 175,45 = 574,66 = 575
- CORRELAÇÃO E REGRESSÃO 
5.4.1 Regressão Linear 
Regressão é a estimação de uma variável (dependente) em função de uma ou mais variáveis (independentes).
Exemplo: peso e altura.
Se X e Y representam as duas variáveis consideradas, um diagrama de dispersão mostra a localização dos pontos (X,Y) em um sistema de coordenadas retangulares. Se todos os pontos desse diagrama parecem cair nas proximidades de uma reta, a correlação é denominada linear.
Nos gráficos abaixo podemos verificar:
- Se Y tende a aumentar quando X cresce, como na parte (a), a correlação é denominada positiva ou direta.
- Se Y tende a diminuir quando X aumenta, como na parte (b), a correlação é negativa ou inversa. 
- Se todos os pontos parecem estar próximos de alguma curva, a correlação é denominada não linear e uma equação não linear é apropriada para a regressão ou a estimação.
Pode-se determinar, de modo qualitativo, quão bem certa reta ou curva representa a relação entre as variáveis, mediante a observação direta do próprio diagrama de dispersão. Nessa situação os dados são apresentados em “tabelas de dupla entrada”. Essa é uma tabela especial que consegue mostrar as frequências para todas as combinações possíveis de valores das duas variáveis.
Exemplo: Na tabela de dupla entrada Sexo(X) x Situação no Mercado(Y), abaixo 
	Sexo
	Empregado
	Desempregado
	Total
	Masculino
	1.000
	200
	1.200
	Feminino
	2.000
	500
	2.500
	Total
	3.000
	700
	3.700
 Essa tabela nos fornece as frequências observadas para cada possível combinação de valores das duas variáveis:
Masculino(X) empregado(Y) = 1.000 ; feminino(X) empregado(Y)= 2.000
Masculino(X) desempregado(Y) = 200 ; feminino(X) desempregado(Y) = 500
Para os dados quantitativos a ferramenta mais utilizada é o diagrama de dispersão.
Exemplo: Suponhamos o seguinte conjunto de dados, correspondente às notas de quatro alunos em duas provas – uma de Estatística e a outra de Cálculo. 
	Aluno
	Nota de Estatística
	Nota de Cálculo
	
	(X)
	(Y)
	1
	5
	6
	2
	8
	9
	3
	3
	5
	4
	9
	10
 Temos o gráfico de quatro pontinhos. Cada pontinho representa um aluno. Pelas coordenadas do ponto, temos como descobrir os valores das duas variáveis, ou seja, as notas de Estatística e Cálculo que o aluno tirou.
Quando as duas variáveis em estudo são de tipos diferentes (uma é quantitativa e a outra é qualitativa) é usual que a análise seja conduzida de forma a avaliar o comportamento da variável quantitativa para cada categoria da variável qualitativa.
Exemplo: Considere que as vendas diárias de dois setores da uma empresa (Setor A e Setor B) são monitoradas. 
O setor da empresa tem duas categorias, A e B, logo estas são as variáveis qualitativas. 
As vendas diárias são as variáveis quantitativas.
O resultado obtido para um período analisado consta da tabela abaixo: 
	
	Média
	Variância
	Setor A
	1.000
	10.000
	Setor B
	2.000
	40.000
	Outros Setores
	1.800
	190.000
 Podemos observar que para cada categoria da variável qualitativa identificamos o comportamento da variável quantitativa.
 
5.4.1.1 – Retas de Regressão
Sendo X uma variável independente e Y a variável dependente, podemos determinar uma relação funcional entre as mesmas Y = f(X) a partir de uma amostra de valores de X e Y.
A Regressão Linear busca determinar uma equação de reta que descreva uma correlação entre os valores das variáveis X e Y. É um modelo do tipo Y = a + bX ou X = a + bY sendo esta reta chamada de “reta de regressão” ou “reta de ajustamento”.
O método de regressão linear simples pode ser aplicado a outros casos, além do da relação linear entre duas variáveis, isto porque mediante uma adequada transformação de variáveis, as funções podem ser linearizadas.
 A Reta de Regressão de mínimos quadrados de Y para X é : Y = a + bX ( 1)
 (Y = Na + b(X
 (XY = a(X + b (X2
Os valores de a e b são obtidos através das fórmulas:
 
 a = (ΣY) (ΣX2) – (ΣX) (ΣXY)
 NΣX2 – (ΣX)2
 b = NΣXY – (ΣX) (ΣY)
 NΣX2 – (ΣX)2
 
A Reta de Regressão de mínimos quadrados de X para Y é : X = a + bY (2)
 (X = Na + b(Y
 (XY = a(Y + b (Y2
Os valores de a e b são obtidos através das fórmulas:
 
 a = (ΣX) (ΣY2) – (ΣY) (ΣXY)NΣY2 – (ΣY)2
 b = NΣXY – (ΣX) (ΣY)
 NΣY2 – (ΣY)2
 
Se desejarmos adotar o modelo centrado, aproveitamos os valores totais obtidos da tabela e usamos as seguintes expressões de recorrência: 
 Σyi2 = ΣY2 – (ΣY)2 ; Σxi2 = ΣX2 – (ΣX)2 ; Σxiyi = ΣXY - (ΣX) (ΣY)
 N N N
 Os valores de a e b da Reta de Regressão serão obtidos através da relação: 
 b = Σxiyi e a = Y - bX 
 Σx2 
 
Com tudo o que foi exposto devemos ter em mente as seguintes observações: Para Y = a + bX
a reta de regressão passa por (X,Y);
“b” que é o coeficiente de regressão, dá a variação de Y quando X aumenta 1;
quando b = 0, Y não depende de X;
o cálculo de “a” e “b” é simplificado se centramos X, mas, para obtermos a equação com X e Y originais devemos considerar que xi = Xi - X , onde xi é a variável centrada e X é o centro.
As equações (1) e (2) podem ser escritas, respectivamente, sob as formas:
y = ( Σxy ) x e x = (Σxy ) y , em que x = X – X e y = Y – Ῡ
 Σx2 Σy2
Exemplo:
 
Estime os parâmetros a e b da regressão de Y sobre X para os dados da tabela abaixo usando (a) o modelo não centrado, (b) o modelo centrado e estime o valor de Y quando X =15.
 Dado dado dado calculado
	Países
	X
	Y
	XY
	X2
	Y2
	A
	8
	6
	48
	64
	36
	B
	13
	8
	104
	169
	64
	C
	11
	8
	88
	121
	64
	D
	10
	7
	70
	100
	49
	E
	12
	7
	84
	144
	49
	F
	16
	12
	192
	256
	144
	G
	10
	9
	90
	100
	81
	H
	10
	8
	80
	100
	64
	Σ
	90
	65
	756
	1.054
	551
 n = 8
Y =a + bX
 (Y = Na + b(X
 (XY = a(X + b (X2
 65 = 8a + 90b 
 756 = 90a +1.054b
 
Dados não centrados: Y = a + bX
 a = (ΣY) (ΣX2) – (ΣX) (ΣXY) = (65)(1.054) – (90)(756) = 470 = 1,4157 =1,4
 NΣX2 – (ΣX)2 8(1.054) – (90)2 332
 b = NΣXY – (ΣX) (ΣY) = 8(756)- (90)(65) = 198 = 0,5964
 NΣX2 – (ΣX)2 8(1.054) – (90)2 332 
 
 Reta de Regressão Y = 1,4 + 0,5964X
Dados centrados: Y = a + bX
 Aproveitando os dados da tabela posso usar as fórmulas de transformação
X = ΣX = 90 = 11,25 ; Y = ΣY = 65 =8,125
 N 8 N 8 
Σxi2 = ΣX2 – (ΣX)2 = 1.054 – (90)2 = 1.054 – 1012,5 = 41,5 
 N 8
Σxiyi = ΣXY - (ΣX) (ΣY) = 756 – (90) (65) = 756 – 731,25 = 24,75
 N 8 
 b = Σxiyi = 24,75 = 0,5964
 Σxi2 41,5
 a = Y – bX = 8,125 – 0,5964(11,25) = 8,125 – 6,7093 = 1,4157 = 1,4
 Reta de Regressão Y = 1,4 + 0,5964X
Estimativa quando X = 15
 Y = 1,4 + 0,5964X = 1,4 + 0,5964(15) = 10,345
5.4.1.2 - COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON (r)
Um coeficiente de correlação r de Pearson mede a aderência linear entre duas variáveis X e Y conhecidas aos pares. Dá a medida da dispersão dos pontos X, Y em relação à reta ajustada pelo método dos mínimos quadrados.
“r” é a razão entre a covariância e o produto dos desvios padrões das variáveis X e Y, logo podemos escrever para obtermos o cálculo de r a expressão: 
 r = Cov(X, Y) ou r = ( xy 
 (X.(Y (( x2.(y2
OBS: este valor de r terá fórmula mais complexa quando se tratar de séries com frequências ( e ainda mais se for uma distribuição de frequências por classes).
O r de Pearson apresenta vantagens sobre a covariância na medida de correlação entre duas variáveis. A maior delas reside no fato de que o r de Pearson é sempre um valor compreendido no intervalo fechado de -1 a +1. 
 -1 ( r ( 1
A magnitude de r nos diz sobre a qualidade da correlação linear:
r = -1, existe perfeita correlação inversa entre as variáveis.
r >-0,9, existe correlação indireta e forte entre as variáveis.
r ( - 0,7, existem correlação indireta e moderada entre as variáveis.
r < -0,5, existem correlação indireta e fraca entre as variáveis. 
r < 0, existe correlação indireta (inversa) inversa entre as variáveis.
r = 0, não existe correlação entre as variáveis.
r > 0, existe correlação direta entre as variáveis.
r < 0,5, existe correlação direta e fraca entre as variáveis. 
r ( 0,7, existe correlação direta e moderada entre as variáveis. 
r > 0,9, existe correlação direta e forte entre as variáveis.
r = +1, existe correlação perfeita e direta entre Y e X, isto é se a variável X aumenta a variável Y aumenta em consequência.
Exemplo: Determinar o coeficiente de correlação linear para os dados:
	Anos
	1951
	1952
	1953
	1954
	1955
	1956
	1957
	Volumes
	8.826
	9.277
	10.145
	10.798
	11.801
	12.634
	13.477
	Anos
	Yi
	Xi
	xi = Xi - X
	yi = Yi - Y 
	xi . yi
	x2
	y2
	1951
	8.826
	1
	-3
	-2.168
	6.504
	9
	4.700.224
	1952
	9.277
	2
	-2
	-1.717
	3.434
	4
	2.948.089
	1953
	10.145
	3
	-1
	-849
	849
	1
	720.801
	1954
	10.798
	4
	0
	-196
	0
	0
	38.416
	1955
	11.801
	5
	1
	807
	807
	1
	651.249
	1956
	12.634
	6
	2
	1.640
	3.280
	4
	2.689.600
	1957
	13.477
	7
	3
	2.483
	7.449
	9
	6.165.259
	(
	76.958
	28
	-
	-
	22.323
	28
	17.913.668
Média aritmética: 
 X = (X = 28 = 4 ; Y = (Y = 76.958 = 10.994
 n 7 n 7
desvio padrão:
 (x = ( (x2/n = ( 28/7 = ( 4 = 2
 (y = ( (y2/n = (17.913.668/7 = ( 2.559.095,4 = 1.599,7
covariância:
 Cov(X,Y) = (xy = 22.323 = 3.189
 n 7
coeficiente de correlação:
 r = Cov(X,Y) = 3.189 = 3.189 = 0,9967
 (X.(Y (2).(1.599,7) 3.199,4
r = 0,9967 ( 1, logo correlação direta e perfeita.
Exercícios:
Calcular o coeficiente de Correlação linear de Pearson para os dados da tabela abaixo:
	Aluno
	Nota de Estatística
	Nota de Cálculo
	
	(X)
	(Y)
	1
	5
	6
	2
	8
	9
	3
	3
	5
	4
	9
	10
 
	Aluno
	X
	Y
	x =X - X
	y =Y - Y
	x.y
	x2
	y2
	1
	5
	6
	-1,25
	-1,5
	1,875
	1,5625
	2,25
	2
	8
	9
	1,75
	1,5
	2,625
	3,0625
	2,25
	3
	3
	5
	-3,25
	-2,5
	8,125
	10,5625
	6,25
	4
	9
	10
	2,75
	2,5
	6,875
	7,5625
	6,25
	(
	25
	30
	0
	0
	19,500
	22,7520
	17,00
 
Média aritmética: 
 X = (X = 25 = 6,25 ; Y = (Y = 30 = 7,5
 n 4 n 4
coeficiente de correlação:
r = Σ xiyi = 19,5 = 19,5 = 19,5 = 0,9915 existe correlação perfeita
 (xi2yi2 ((22,752)(17) (386,784 19,6668
 
 
Exemplo: Dada a Tabela:
	Peso X dos pais (kg)
	65
	63
	67
	64
	68
	62
	70
	66
	6867
	69
	71
	Peso Y dos filhos (kg)
	68
	66
	68
	65
	69
	66
	68
	65
	71
	67
	68
	70
Determinar: a) a linha de regressão dos mínimos quadrados de Y para X; b) o valor do peso de um filho quando o pai pesa 75; c) o coeficiente de correlação;.
Memória de cálculo
	Xi
	Yi
	Xi Yi
	Xi2
	Y2
	65
	68
	4.420
	4.225
	4.624
	63
	66
	4.158
	3.969
	4.356
	67
	68
	4.556
	4.489
	4.624
	64
	65
	4.160
	4.096
	4.225
	68
	69
	4.692
	4.624
	4.761
	62
	66
	4.092
	3.844
	4.356
	70
	68
	4.760
	4.900
	4.624
	66
	65
	4.290
	4.356
	4.225
	68
	71
	4.828
	4.624
	5.041
	67
	67
	4.489
	4.489
	4.489
	69
	68
	4.692
	4.761
	4.624
	71
	70
	4.970
	5.041
	4.900
	800
	811
	54.107
	53.418
	54.849
linha de regressão de mínimos quadrados de Y para X ( valores não centrados).
 Y = a + bX 
 (Y = na + b(X 
 (XY = a (X + b(X2
 811 = 12a + 800b
 54.107 = 800ª + 53.418b 
 a = (ΣY) (ΣX2) – (ΣX) (ΣXY) = (811)(53.418) – (800)(54.107) = 43.321.998 – 43.285.600 = 36.398
 NΣX2 – (ΣX)2 12(53.418) - (800)2 641.016 - 640.000 1,016
 a = 35,82
 b = NΣXY – (ΣX) (ΣY) = 12(54.107) – (800)(811) = 649.284 – 648.800 = 484 = 0,476
 NΣX2 – (ΣX)2 12(53.418) - 8002 641.016 – 640.000 1.016
 Reta de Regressão Y = 35,82 + 0,476X
Peso do filho para um pai com 75 kg.
 X = 75kg
 Y = 35,82 + 0,476X = 35,82 + 0,476(75) = 35,82 + 35,7 = 71,52 kg
Coeficiente de correlação.
Σxiyi = ΣXY - (ΣX) (ΣY) = 54.107 – 800) (811) = 54.107 – 648.800 = 54.107 – 54.066,667 = 40,333
 N 12 12
Σxi2 = ΣX2 – (ΣX)2 = 53.418 – (800)2 = 53.418 – 53.333,333 = 84,667 
 N 12
Σyi2 = ΣY2 – (ΣY)2 = 54.849 – (811)2 = 54.849 – 54.810,083 = 38,917 
 N 12
 r = Σxiyi = 40,333 = 40,333 = 0,72 
 (xi2.yi2 ((84,667)(38,917) 57,402
 r = 0,72 existe correlação direta e moderada entre as variáveis. 
Exercícios:
A tabela seguinte apresenta o número de agricultores nos Estados Unidos (em milhões), durante os anos 1949 e 1957.
 
	Anos
	1949
	1950
	1951
	1952
	1953
	1954
	1955
	1956
	1957
	Nº de agricultores
(milhões)
	9,96
	9,93
	9,55
	9,15
	8,86
	8,64
	8,36
	7,82
	7,58
Fonte: Department of Agriculture
Sabendo-se que a reta dos mínimos quadrados que se ajusta a essa série é Y = 8,872 – 0,312X, em que Y é o número de agricultores(em milhões) e que X é expresso em função dos anos, com origem em 1º de julho de 1953.
a) Prediga o número de agricultores em 1º de julho de 1958.
 b) Avalie o número de agricultores no ano de 1948 ( em 1º de julho).
2) O tempo total necessário para que se faça um automóvel parar, depois de perceber-se um perigo, é composto do tempo de reação (decorrido entre o reconhecimento do perigo e a aplicação dos freios) e o tempo de freagem (necessário para a parada, depois da aplicação dos freios). A seguinte tabela dá as distâncias de para D ( em pés) de um automóvel que desenvolve as velocidades V (em mph).
	Velocidade V
	20
	30
	40
	50
	60
	70
	Distância para parada D
	54
	90
	138
	206
	292
	396
 Sabendo- se que a parábola dos mínimos quadrados que se ajusta a esses dados é D = 41,77 – 1,096V + 0,08786V2 , em que D é distância em pés e V é a velocidade em mph. 
a) Prediga a distância de parada para V = 45 mph.
 b) Prediga a distância para parada para V = 80mph.
(3) O número de bactérias, por unidade de volume existente em uma cultura depois de X horas, é apresentado na tabela seguinte:
	Nº de horas
	0
	1
	2
	3
	4
	5
	6
	Nº de bactérias
Por volume unitário
	32
	47
	65
	92
	132
	190
	275
 
Sabendo-se que a exponencial dos mínimos quadrados que se ajusta a esses dados é Y = 32,14(1,427)X , onde Y é o número de bactérias por volume unitário e X é o número de horas, encontre o número de bactérias para o período de 7 horas.
_1176563825.xls

Outros materiais

Materiais relacionados

Perguntas relacionadas

Materiais recentes

Perguntas Recentes