Buscar

Aula 3_Correlacao

Prévia do material em texto

Medidas de Associação 
entre variáveis:
Covariância, Correlação e 
Regressão
Psicologia
2010/2
Permitem avaliar se existe relação
entre o comportamento de duas ou
mais variáveis e em que medida se
dá tal interação.
Desvio padrão e variância são medidas de
dispersão de uma variável... Certo?
Então, uma medida de dispersão conjunta de
duas variáveis é o que chamamos de Covariância!
E o cálculo da Covariância é o seguinte:
1
)).((
),(




n
yyxx
yxCov
ii
Portanto, ela nos dirá se os pares de informação (xi, yi)
coletados na pesquisa estão próximos ou afastados do
par que representa a média das variáveis
Por sua vez, os testes utilizados para detectar
essa covariância entre variáveis envolvem duas
operações importantes:
1) uma delas é a correlação, que tem como
unidade convencional de medida uma grandeza
chamada coeficiente de correlação, em geral
indicada pela letra grega r, que se lê "rô" (ou
rho),
2) a outra é quase gráfica, embora utilize
cálculos matemáticos para realizá-la. É a
operação chamada regressão, que pode ser
linear (ou reta), ou curvilínea.
Gráfico ou Diagrama de 
Dispersão
A relação entre duas variáveis pode ser
analisada por meio de um gráfico de dispersão.
A reta de tendência plotada a partir da
distribuição dos pares x,y pode indicar
correlação linear positiva, negativa ou
inexistência de correlação.
Quando duas variáveis (x e y) são dispostas em um
diagrama de dispersão e seus pares se localizam
próximos a uma reta, chama-se tal relação de linear.
OBS: Este gráfico também é útil para identificar a
existência de valores discrepantes.
Correlação Linear
752F
683E
885D
571C
632B
826A
NotaHoras 
estudadas
Aluno
Diagrama de Dispersão
Exemplo: Notas vs Horas de estudo
Por convenção, a variável independente é 
considerada no eixo horizontal x. 
A dependente é considerada no eixo 
vertical y.
Diagrama de Dispersão
Horas Notas
1 57
2 63
2 75
3 68
5 88
6 82 C1
C2
6543210
90
85
80
75
70
65
60
55
50
75
68
88
57
63
82
Diagrama de Dispersão: Notas vs Horas de Estudo
C1: Horas de Estudo ; C2: Notas dos Alunos
Diagrama de Dispersão
Exemplo
x x
yy y
x
(a) Positiva (b) Forte
positiva
(c) Perfeita
positiva
Correlação Positiva Linear
x x
yy y
x
(d) Negativa (e) Negativa
Forte
(f) Negativa
Perfeita
Correlação Negativa Linear
x x
yy
(g) Nenhuma Correlação (h) Correlação Não linear
Correlação Não Linear
Mede a força do relacionamento
linear entre valores pareados x e y
na amostra
Correlação Linear de 
Pearson (r)
Pode ser visto como a razão entre a 
covariância de duas variáveis pelo produto 
dos desvios-padrão de cada
uma delas
Correlação Linear de Pearson (r)
yx
xy
ss
yxCov
r
),(


 


n
i
i
n
xx
s
1
2
1
)(
 
• Este coeficiente pode variar de -1
a +1 e mostra a intensidade da
relação linear entre as duas
variáveis estudadas.
• r (rho) não possui dimensão, isto é,
não depende da unidade de medida
das variáveis X e Y.
Sinal da Correlação
Uma correlação positiva (0 < r < 1)
indica que as duas variáveis tendem a
aumentar ou diminuir simultaneamente
Sinal da Correlação
Uma correlação negativa (-1 < r < 0) diz que 
quando uma variável tende a aumentar de 
valor a outra tende a diminuir e vice-versa.
O valor "1" ou “-1” 
indica uma relação 
linear perfeita.
O valor "0" indica que não 
existe relação linear entre
as variáveis.
Valores de r (+ ou -) Interpretação
0,00 a 0,19 Correlação inexistente a bem fraca
0,20 a 0,39 Correlação fraca
0,40 a 0,69 Correlação moderada
0,70 a 0,89 Correlação forte
0,90 a 1,0 Correlação muito forte
Proposta de Classificação
O quadrado da Correlação (R2)
Mostra o percentual da variância de uma
das variáveis que pode ser explicado a
partir do valor da outra (coeficiente de
determinação).
Cuidado
•É importante lembrar que o conceito de
correlação refere-se a uma associação
numérica entre duas variáveis, não
implicando necessariamente numa
relação de causa-efeito.
•Portanto, mesmo que duas variáveis
apresentem-se matematicamente
relacionadas, não significa que deva
existir uma relação lógica entre elas.
Cuidado
Coeficientes de correlação
matematicamente significativos (mas não
explicativos) podem ser obtidos quando:
• Mudanças em outras variáveis causam
mudanças tanto na variável x quanto em y.
• A relação observada entre duas
variáveis é aleatória e a correlação é uma
coincidência que não se repete.
O valor da Probabilidade (p)
Toda a correlação apresenta uma
probabilidade de ter ocorrido devido ao
acaso.
Quando p<0,05, considera-se que a
correlação é estatisticamente
significativa, ou seja, apresenta 95% de
probabilidade de não ser aleatória, ou ao
acaso.
Caso contrário, rejeita-se a correlação.
Cuidado
Não confunda o nível de significância (p) e a
magnitude de um coeficiente de correlação (valor de
r).
O nível de significância apenas nos indica a
probabilidade da correlação ser diferente de zero.
Uma vez garantido que tal probabilidade é inferior a
0,05, todas as interpretações devem ser feitas em
termos de magnitude do próprio coeficiente de
correlação.
A melhor estratégia consiste em calcular R2
(coeficiente de determinação) e considerar este
valor (multiplicado por 100) como a percentagem de
variância comum às duas variáveis.

Continue navegando