Buscar

Correlação e regressão linear

Prévia do material em texto

*
*
*
*
*
Correlação e Regressão linear
Rodrigo Ferreira de Moura
*
Correlação
Medida de relacionamento:
 associação entre 2 variáveis
 estudos de relacionamento são muito utilizados em diversas áreas de conhecimento nas ciências comportamentais
um exemplo ...
*
Correlação
um exemplo ...
Aluno	horas	nota final
1	595	68
2	502	55
3	715	65
4	405	42
5	680	64
6	490	45
7	565	56
8	580	59
9	615	56
10	435	42
11	440	38
12	515	50
13	380	37
14	510	42
15	565	53
-----------------------------------
Soma	8010	772
Média	534	51,47
DP	96,53	10,11
Primeira análise:
 mais horas, nota mais alta;
 menos horas, nota mais baixa;
Parece existir uma correlação entre estas duas variáveis
relacionamento melhor visualizado ... gráfico
*
Diagrama de Dispersão
(scattergrams)
Aluno	horas	nota final
1	595	68
2	502	55
3	715	65
4	405	42
5	680	64
6	490	45
7	565	56
8	580	59
9	615	56
10	435	42
11	440	38
12	515	50
13	380	37
14	510	42
15	565	53
-----------------------------------
Soma	8010	772
Média	534	51,47
DP	96,53	10,11
... correlação positiva ...
*
Correlação
Coeficiente de correlação
é um índice que descreve a intensidade que os dois conjuntos de dados são relacionados ... é a medida do relacionamento entre duas variáveis
 pode variar entre -1.0 e 1.0;
 o sinal indica a direção do relacionamento
 o valor absoluto do coeficiente indica a magnitude de relacionamento
Coeficiente de Pearson
*
Coeficiente de Pearson (r) – coeficiente de correlação 				produto-momento
Karl Pearson (1857-1936)
Coeficiente: computar o produto cruzado (usando score z) e dividir pelo número de participantes
*
Aluno	horas	nota	z(hora)	z(nota)	z(h)*z(n)
1	595	68	0.63	1.64	1.03
2	502	55	-0.15	0.35	-0.05
3	715	65	1.88	1.34	2.52
4	405	42	-1.34	-0.94	1.26
5	680	64	1.51	1.24	1.87
6	490	45	-0.46	-0.64	0.29
7	565	56	0.32	0.45	0.14
8	580	59	0.48	0.74	0.36
9	615	56	0.84	0.45	0.38
10	435	42	-1.03	-.094	0.97
11	440	38	-0.97	-1.33	1.29
12	515	50	-0.20	-0.15	0.03
13	380	37	-1.60	-1.43	2.29
14	510	42	-0.25	-0.94	0.24
15	565	53	0.32	0.15	0.05
-----------------------------------------------------------------
Soma	8010	772	0.0	0.0	12.67
Média	534	51,47
DP	96,53	10,11
Coeficiente de Pearson (r) – coeficiente de correlação 				produto-momento
*
Coeficiente de Pearson (r) – coeficiente de correlação 				produto-momento
Coeficiente de Pearson (r)
(deviation score formula)
*
Aluno	horas	nota	z(hora)	z(nota)	z(h)*z(n)
1	595	68	61	16.53	1008.33	3721	273.24
2	502	55	-14	3.53	-49.42	196	12.46
3	715	65	181	13.53	2448,93	32761	183.06
4	405	42	-129	-9.47	1221.63	16641	89.98
5	680	64	146	12.53	1829.38	21316	157
6	490	45	-44	-6.47	284.68	1936	41.86
7	565	56	31	4.53	140.43	961	20.52
8	580	59	46	7.53	346.38	2116	56.70
9	615	56	81	4,53	366.93	6561	20.52
10	435	42	-99	-9.47	937.53	9801	89.68
11	440	38	-94	-13.47	1266.18	8836	181.44
12	515	50	-19	-1.47	27.93	361	2.16
13	380	37	-154	-14.47	2228.38	23716	209.38
14	510	42	-24	-9.47	227.28	576	89.68
15	565	53	31	1.53	47.43	961	2.34
---------------------------------------------------------------------------------------------
Soma	8010	772	0.0	0.0	12332	130460	1429.72
Média	534	51,47
DP	96,53	10,11
Coeficiente de Pearson (r)
(deviation score formula)
*
Coeficiente de Pearson (r)
Fatores afetando a estimativa
Primeiro passo:
 as duas variáveis devem ser pareadas: MESMO GRUPO de participantes;
 medidas devem ser provenientes de uma intervalo ou escala;
Segundo:
 Linearidade entre as variáveis;
 Homogeneidade 
*
Coeficiente de Pearson (r)
Fatores afetando a estimativa
Linearidade
O coeficiente de Pearson (r) é um índice do relacionamento LINEAR entre as 2 variáveis ... se o relacionamento não for linear o valor do coeficiente será SUB-ESTIMADO
X	Y
----------
16
3	9
2	4
1	1
0	0
-1	1
-2	4
-3	9
-4	16
r = 0
Dado o relacionamento não-linear entre X e Y, o valor de r não reflete o relacionamento real entre as variáveis
*
Coeficiente de Pearson (r)
Fatores afetando a estimativa
Homogeneidade do Grupo
Conforme o grupo torna-se homogêneo, em uma ou em ambas variáveis, o valor absoluto do coeficiente de Pearson (r) tende a se tornar zero
Se o objetivo é buscar relacionamento entre variáveis, há necessidade de ter variação suficiente ou heterogeneidade nos valores para que este relacionamento seja manifestado
Mais ainda, o tamanho do grupo, geralmente, não afeta a acurácia do coeficiente
*
Coeficiente de Pearson (r)
Interpretando o Coeficiente
0.9 – 1.0		muita alto
0.7 – 0.9		alto
0.5 – 0.7		moderado
0.3 – 0.5		baixo
0.0 – 0.3		pequeno (se algum)
Mais importante do que determinar o relacionamento, é possível determinar a proporção da diferença total em uma variável que pode ser associada à outra variável
*
Coeficiente de Pearson (r)
Interpretando o Coeficiente
O coeficiente ao quadrado (r2) indica a proporção da variância em uma variável que pode estar associada com a variância na outra variável
*
Coeficiente de Pearson (r) - SPSS
*
REGRESSÃO LINEAR
Processo de estimar valores de uma variável baseado no conhecimento de valores de outra variável:
 variável critério
 variável estimada
Linha de regressão:
Representa, na média, o quão a mudança de uma variável (X) está associada com mudaça de outra variável (Y).
onde ...
*
REGRESSÃO LINEAR
onde ...
Y^= valor estimado
b = inclinação (coeficiente angular)
a = parâmetro ou coeficiente linear (intercepto)
X = variável independente
Coeficiente angular (b):
Quantidade de mudança em Y que corresponde à mudança de uma unidade de X;
Coeficiente linear (a):
Valor de Y, quando X é zero.
*
REGRESSÃO LINEAR
determinando ...
Método dos Mínimos Quadrados:
Ajuste de uma reta de forma que a soma das distâncias entre os pontos e a reta, elevadas ao quadrado, é a menor possível
Aluno	X	Y
1	15	12
2	10	13
3	7	9
4	18	18
5	5	7
6	10	9
7	7	14
8	17	16
9	15	10
10	9	12
11	8	7
12	15	13
13	11	14
14	17	19
15	8	10
15	11	16
17	12	12
18	13	16
19	18	19
20	7	11
Soma	233	257
Média	11.65	12.85
DP	4.12	3.66
*
REGRESSÃO LINEAR
Método dos Mínimos Quadrados:
*
REGRESSÃO LINEAR
Cálculo:
onde:
r = correlação entre X e Y
Sy = desvio-padrão dos valores de Y
Sx = desvio-padrão dos valores de X
exemplo:
*
REGRESSÃO LINEAR
Aluno	X	Y
1	15	12
2	10	13
3	7	9
4	18	18
5	5	7
6	10	9
7	7	14
8	17	16
9	15	10
10	9	12
11	8	7
12	15	13
13	11	14
14	17	19
15	8	10
15	11	16
17	12	12
18	13	16
19	18	19
20	7	11
Soma	233	257
Média	11.65	12.85
DP	4.12	3.66
r=0.74
Equação:
*
Aluno	X	Y	Y^	e	e2
1	15	12	15.03	-3.03	9.18
2	10	13	11.78	1.22	1.49
3	7	9	9.83	-0.83	0.69
4	18	18	16.98	1.02	1.04
5	5	7	8.53	-1.53	2.34
6	10	9	11.78	-2.78	7.73
7	7	14	9.83	4.17	17.39
8	17	16	16.33	-0.33	0.11
9	15	10	15.03	-5.03	25.30
10	9	12	11.13	0.87	0.76
11	8	7	10.48	-3.48	12.11
12	15	13	15.03	-2.03	4.12
13	11	14	12.43	1.57	2.46
14	17	19	16.33	2.67	7.13
15	8	10	10.48	-0.48	0.23
15	11	16	12.43	3.57	12.74
17	12	12	13.08	-1.08	1.17
18	13	16	13.73	2.27	5.15
19	18	19	16.98	2.02	4.08
20	7	11	9.83	1.17	1.37
Soma	233	257		0	116.59
Média	11.65	12.85
DP	4.12	3.66
r=0.74
*
REGRESSÃO LINEAR
Testando a Significância do Coeficiente de Regressão
Quando r=0:
b=0
a = média de Y
Portanto, o crucial é testar se o coeficiente de regressão é diferente de 0 e, consequentemente, possibilitar qualquer predição.
*
REGRESSÃO LINEAR
Testando a Significância do Coeficiente de Regressão
Graus de liberdade: n-2
E neste caso, tcrítico(18)=2.01
*
Aluno	X	Y	Y^	e	e2
1	15	12	15.03	-3.03	9.18
2	10	13	11.78	1.22	1.49
3	7	9	9.83	-0.83	0.69
4	18	18	16.98	1.02	1.04
5	5	7	8.53	-1.53	2.34
6	10	9	11.78	-2.78	7.73
7	7	14	9.83	4.17	17.39
8	17	16	16.33	-0.33	0.11
9	15	10	15.03-5.03	25.30
10	9	12	11.13	0.87	0.76
11	8	7	10.48	-3.48	12.11
12	15	13	15.03	-2.03	4.12
13	11	14	12.43	1.57	2.46
14	17	19	16.33	2.67	7.13
15	8	10	10.48	-0.48	0.23
15	11	16	12.43	3.57	12.74
17	12	12	13.08	-1.08	1.17
18	13	16	13.73	2.27	5.15
19	18	19	16.98	2.02	4.08
20	7	11	9.83	1.17	1.37
Soma	233	257		0	116.59
Média	11.65	12.85
DP	4.12	3.66
r=0.74
REGRESSÃO LINEAR
*
REGRESSÃO LINEAR
Graus de liberdade: n-2
E neste caso, tcrítico(18)=2.01
REJEITA H0 e aceita Ha. O coeficiente de regressão é diferente de zero e, portanto, o conhecimento de X possibilitará a predição de Y.
*
Calculando regressão linear no excel
Triplicata das leituras 
Concentração conhecida do padrão
Calcular as médias
*
*
*
*
Atenção! Como o objetivo é estimar a concentração a partir da leitura, deve-se inverter a equação, ou plotar os valores de concentração conhecida da curva no eixo y
*
(Slope da equação * leitura da amostra) - intercepto
Valor encontrado para a concentração * fator de diluiçao da amostra * 1.2 ( fator de correção para o laemmli)
Para encontrar o volume a ser aplicado:
Quantidade de proteina desejada / concentração em ug/ul

Continue navegando