Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Análise de Correlação e Regressão
Professora: Alessandra dos Santos
November 27, 2023 1 / 29
Objetivo da correlação
Medir a associação linear entre duas variáveis quantitativas.
O coeficiente de correlação é uma medida numérica da “força” da relação
ou associação entre duas variáveis quantitativas contínuas X e Y. Esse
valor é um resultado entre -1 e 1.
Figure: Diagrama de dispersão das variáveis X e Y.
November 27, 2023 2 / 29
Objetivo da correlação
Medir a associação linear entre duas variáveis quantitativas.
O coeficiente de correlação é uma medida numérica da “força” da relação
ou associação entre duas variáveis quantitativas contínuas X e Y. Esse
valor é um resultado entre -1 e 1.
Figure: Diagrama de dispersão das variáveis X e Y.
November 27, 2023 2 / 29
Tipos de correlação
Coeficientes de correlação informam:
Intensidade
* Fortemente relacionadas (Valores próximos de 1 ou -1)
* Fracamente relacionadas (Valores próximos de 0)
Direção
* Positiva (Se ambas as variáveis crescem no mesmo sentido)
* Negativa (Se as variáveis crescem em sentidos opostos)
O fato de duas variáveis serem fortemente correlacionadas não implica, em
uma relação de causa e efeito entre elas.
November 27, 2023 3 / 29
Tipos de correlação
Coeficientes de correlação informam:
Intensidade
* Fortemente relacionadas (Valores próximos de 1 ou -1)
* Fracamente relacionadas (Valores próximos de 0)
Direção
* Positiva (Se ambas as variáveis crescem no mesmo sentido)
* Negativa (Se as variáveis crescem em sentidos opostos)
O fato de duas variáveis serem fortemente correlacionadas não implica, em
uma relação de causa e efeito entre elas.
November 27, 2023 3 / 29
Coeficiente de correlação de Pearson
Desenvolvido por Karl Pearson em 1896 - Mede a associação linear de X e
Y. (ρ ou r)
r =
cov(X ,Y )√
Var(X )Var(Y )
=
cov(X ,Y )
D.p(X )D.p(Y )
(1)
Table: Interpretação do coeficiente de correlação
Valor do coeficiente (r) Direção e força de associação
1,0 perfeito e positivo
0,8 forte e positivo
0,5 moderado e positivo
0,2 fraco e positivo
0 ausência de associação
-0,2 fraco e negativo
-0,5 moderado e negativo
-0,8 forte e negativo
-1,0 perfeito e negativo
November 27, 2023 4 / 29
Coeficiente de correlação de Pearson
Desenvolvido por Karl Pearson em 1896 - Mede a associação linear de X e
Y. (ρ ou r)
r =
cov(X ,Y )√
Var(X )Var(Y )
=
cov(X ,Y )
D.p(X )D.p(Y )
(1)
Table: Interpretação do coeficiente de correlação
Valor do coeficiente (r) Direção e força de associação
1,0 perfeito e positivo
0,8 forte e positivo
0,5 moderado e positivo
0,2 fraco e positivo
0 ausência de associação
-0,2 fraco e negativo
-0,5 moderado e negativo
-0,8 forte e negativo
-1,0 perfeito e negativo
November 27, 2023 4 / 29
Covariância entre X e Y
é uma medida do quanto uma das variáveis se modifica quando a
outra se modifica.
cov(X ,Y ) =
n∑
i=1
(xi − x̄)(yi − ȳ)
n − 1
=
n∑
i=1
xiyi − nx̄ ȳ
n − 1
Exemplo hipotético
Idade (X) Peso (Y)
10 45,2
15 60
12 51
14 49
November 27, 2023 5 / 29
Covariância entre X e Y
é uma medida do quanto uma das variáveis se modifica quando a
outra se modifica.
cov(X ,Y ) =
n∑
i=1
(xi − x̄)(yi − ȳ)
n − 1
=
n∑
i=1
xiyi − nx̄ ȳ
n − 1
Exemplo hipotético
Idade (X) Peso (Y)
10 45,2
15 60
12 51
14 49
November 27, 2023 5 / 29
Exemplo hipotético
Idade (X) Peso (Y) XY
10 45,2
15 60
12 51
14 49
Total
Média
desvio padrão (s)
cov(X ,Y ) =
n∑
i=1
xiyi − nx̄ ȳ
n − 1
=
2650− 4.12, 75.51, 3
3
=
33, 7
3
= 11, 23
ρ =
cov(X ,Y )
sxsy
=
11, 23
2, 28.6, 28
= 0, 78
November 27, 2023 6 / 29
Exemplo hipotético
Idade (X) Peso (Y) XY
10 45,2
15 60
12 51
14 49
Total
Média
desvio padrão (s)
cov(X ,Y ) =
n∑
i=1
xiyi − nx̄ ȳ
n − 1
=
2650− 4.12, 75.51, 3
3
=
33, 7
3
= 11, 23
ρ =
cov(X ,Y )
sxsy
=
11, 23
2, 28.6, 28
= 0, 78
November 27, 2023 6 / 29
Considerações
Variáveis são provindas dos mesmos elementos pesquisados
Elemento Variável X Variável Y
1 x1 Y1
2 x2 Y2
...
...
...
n xn Yn
os dados precisam satisfazer a condição de normalidade.
November 27, 2023 7 / 29
Coeficiente de Correlação de Spearman
Utilizado quando não existe normalidade e/ou não existe relação linear,
deve ser usado quando não se deseja utilizar nenhuma suposição de
normalidade ou da presença de qualquer outra distribuição para a variável
ou para a estatística de teste.
Este coeficiente se baseia nos postos das observações dentro de cada
variável e se baseia sobre as diferenças entre os postos observados, nas
variáveis X e Y, para um mesmo objeto de estudo.
Ideal quando temos variáveis medidas apenas em uma escala ordinal.
r = 1− 6D
n3 − n
, sendo: D =
n∑
i=1
(Posto.xi − Posto.yi )
2
November 27, 2023 8 / 29
Exemplo hipotético
Idade (X) Posto(X) Peso (Y) Posto(Y)
10 45,2
15 60
12 51
14 49
November 27, 2023 9 / 29
Exemplo hipotético
Idade (X) Posto(X) Peso (Y) Posto(Y)
10 1 45,2 1
15 4 60 4
12 2 51 3
14 3 49 2
D =
n∑
i=1
(Posto.xi−Posto.yi )2 = (1−1)2 +(4−4)2 +(2−3)2 +(3−2)2 = 2
r = 1− 6D
n3 − n
= 1− 6.2
43 − 4
= 1− 12
60
= 1− 0, 2 = 0, 8
November 27, 2023 10 / 29
Exemplo hipotético
Idade (X) Posto(X) Peso (Y) Posto(Y)
10 1 45,2 1
15 4 60 4
12 2 51 3
14 3 49 2
D =
n∑
i=1
(Posto.xi−Posto.yi )2 = (1−1)2 +(4−4)2 +(2−3)2 +(3−2)2 = 2
r = 1− 6D
n3 − n
= 1− 6.2
43 − 4
= 1− 12
60
= 1− 0, 2 = 0, 8
November 27, 2023 10 / 29
Coeficiente de Correlação de Kendall
O coeficiente de correlação Tau de Kendall serve para verificar se existe
correlação entre duas variáveis ordinais. É um método adequado quando
amostras têm tamanhos reduzidos, pois o método é mais preciso. E pode
ser estendido a correlações parciais, quando o efeito de uma terceira
variável, que age sobre X e Y, é retirado antes de determinar se X e Y
estão relacionadas.
Coeficiente de Kendall é, muitas vezes, interpretado como uma medida de
concordância entre dois conjuntos de classificações relativas a um conjunto
de objetos de estudo.
τ =
Quantidade de pares concordantes - quantidade de pares discordantes
n(n − 1)/2
November 27, 2023 11 / 29
Exemplo hipotético
Idade (X) Posto(X) Peso (Y) Posto(Y)
10 45,2
15 60
12 51
14 49
November 27, 2023 12 / 29
Exemplo hipotético
Idade (X) Posto(X) Peso (Y) Posto(Y)
10 1 45,2 1
15 4 60 4
12 2 51 3
14 3 49 2
τ =
Quantidade de pares concordantes - quantidade de pares discordantes
n(n − 1)/2
τ =
2 - 2
4.3/2
= 0
November 27, 2023 13 / 29
Exemplo hipotético
Idade (X) Posto(X) Peso (Y) Posto(Y)
10 1 45,2 1
15 4 60 4
12 2 51 3
14 3 49 2
τ =
Quantidade de pares concordantes - quantidade de pares discordantes
n(n − 1)/2
τ =
2 - 2
4.3/2
= 0
November 27, 2023 13 / 29
Objetivos da regressão
Determinação da forma da relação entre as variáveis - ou seja, uma
equação matemática;
Verificação de hipóteses deduzidas de alguma teoria analisada;
previsão de valores para a variável dependente a partir das variáveis
independentes, realizando simulações,
Em um sentido empírico, a relação raramente é exata, trata-se em geral, de
uma aproximação da realidade, em que outras variáveis de importância
menor talvez tenham sido omitidas,
November 27, 2023 14 / 29
Interpretando
Figure: Diagrama de dispersão das variáveis X e Y,
November 27, 2023 15 / 29
Interpretando
Figure: Ajuste do modelo de regressão linear,
yi = β0 + β1xi + εi , i = 1, 2, , , , , n
November 27, 2023 16 / 29
Modelo Estatístico
yi = β0 + β1xi + εi , i = 1, 2, , , , , n
sendo β0 e β1 os parâmetros a serem estimados; εi é o erro não observável
associado a i-ésima observação,
Pressupõe-se que:
i) A relação entre X e Y é linear,
ii) Os valores de X são fixos (ou controlados)
iii) A média do erro é nula, isto é: E (x) = 0
iv) A variância do erro é constante, Var(εi ) = σ2;
v) Os erros são independentes, Cov(εi , εj) = 0, i 6= j
Existe normalidade dos erros, ou seja, ε
∼
∼ N(0, σ2In)
November 27, 2023 17 / 29
Estimação dos coeficientes de regressão
Critério dos mínimos quadrados
busca coeficientes β0 e β1 de modo a minimizar a soma de quadrados dos
erros, ouseja, minimizar a variância dos erros,
n∑
i=1
ε2i =
n∑
i=1
(yi − ŷi )
2 =
n∑
i=1
(yi − β0 − β1xi )
2
Utilizando conhecimentos matemáticos, encontra-se β̂0 e β̂1 pelas
derivadas ∂f (β0,β1)
∂β0
= 0 e ∂f (β0,β1)
∂β1
= 0, respectivamente,
Dado f (β0, β1) =
n∑
i=1
(yi − β0 − β1xi )
2 e o determinante da matriz
Hessiana é positivo,
November 27, 2023 18 / 29
Estimação dos coeficientes de regressão
Critério dos mínimos quadrados
busca coeficientes β0 e β1 de modo a minimizar a soma de quadrados dos
erros, ou seja, minimizar a variância dos erros,
n∑
i=1
ε2i =
n∑
i=1
(yi − ŷi )
2 =
n∑
i=1
(yi − β0 − β1xi )
2
Utilizando conhecimentos matemáticos, encontra-se β̂0 e β̂1 pelas
derivadas ∂f (β0,β1)
∂β0
= 0 e ∂f (β0,β1)
∂β1
= 0, respectivamente,
Dado f (β0, β1) =
n∑
i=1
(yi − β0 − β1xi )
2 e o determinante da matriz
Hessiana é positivo,
November 27, 2023 18 / 29
Estimadores
Portanto:
β̂1 =
∑n
i=1(xi − x̄)(yi − ȳ)∑n
i=1(xi − x̄)2 =
∑n
i=1(xiyi )−
∑n
i=1 xi
∑n
i=1 yi
n∑n
i=1(xi − x̄)2 =
Sxy
Sx2
β̂0 = ȳ − β̂1x̄
Logo a reta estimada pelo método dos mínimos quadrados é dada por:
ŷi = β̂0 + β̂1xi
November 27, 2023 19 / 29
Relação entre β̂1 e a correlação de Pearson (rxy)
Como: 
β̂1 =
Sxy
Sx2
rxy =
Sxy√
Sx2Sy2
Então: β̂1 = rxy
√
Sy2
Sx2
November 27, 2023 20 / 29
Propriedades
1 O ponto (x̄ , ȳ) é um ponto da reta estimada ŷi = β̂0 + β̂1xi ,
2 O resíduos, ou erros do modelo, compensam-se aritmeticamente, ou
seja, sua some é nula,
n∑
i=1
εi = 0
November 27, 2023 21 / 29
Qualidade do ajuste
fazer uma análise de variância do modelo
análise dos resíduos
calcular medidas da qualidade de ajuste - exemplo o coeficiente de
determinação (R2)
R2 =
variação explicada
variação total
=
∑
(ŷi − ȳ)2∑
(yi − ȳ)2 = Correlação de Pearson2
sendo que 0 ≤ R2 ≤ 1
November 27, 2023 22 / 29
Limitações
1 Não extrapole a faixa de dados, Para além do domínio a relação linear
pode não ser mantida,
2 Não use a reta de regressão linear simples quando os dados não são
lineares,
3 Observe se há pontos atípicos e influentes,
November 27, 2023 23 / 29
Pontos atípicos ou influentes
1 Ajuste a reta para todo o conjunto de dados,
2 Exclua o ponto atípico e faça um novo ajuste de reta,
- Se não houver diferença perceptível no ajuste após a remoção do ponto,
então use o ajuste sem o valor discrepante,
- Se houver diferença quando removido o valor, então a faixa de valores dos
coeficientes de regressão deve ser notificada,
ponto influente é um valor atípico que quando removido provoca uma
diferença significável para o ajuste de regressão,
November 27, 2023 24 / 29
Exercício
Um pesquisador deseja verificar se um instrumento para medir a
concentração de determinada substância no sangue está bem calibrado,
Para isto, ele tomou 15 amostras de concentrações conhecidas (X) e
determinou a respectiva concentração através do instrumento (Y), obtendo:
X 2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0
10,0 10,0 10,0
Y 2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7
9,6 10,0 10,1
a) Analise o diagrama de dispersão entre X e Y,
b) Analise o coeficiente de correlação entre as variáveis X e Y,
c) Obtenha e analise a reta de regressão da variável Y em função de X,
d) De acordo com o modelo de regressão, qual o resultado esperado
quando X=3,5?
November 27, 2023 25 / 29
Resolução - item a
November 27, 2023 26 / 29
Resolução - item b
i X (Xi − X̄) (Xi − X̄ )2 Y (Yi − Ȳ ) (Yi − Ȳ )2 Xi ∗ Yi (Xi − X̄).(Yi − Ȳ )
1 2,00 -4,00 16,00 2,10 -3,94 15,52 4,20 15,76
2 2,00 -4,00 16,00 1,80 -4,24 17,98 3,60 16,96
3 2,00 -4,00 16,00 1,90 -4,14 17,14 3,80 16,56
4 4,00 -2,00 4,00 4,50 -1,54 2,37 18,00 3,08
5 4,00 -2,00 4,00 4,20 -1,84 3,39 16,80 3,68
6 4,00 -2,00 4,00 4,00 -2,04 4,16 16,00 4,08
7 6,00 0,00 0,00 6,20 0,16 0,03 37,20 0,00
8 6,00 0,00 0,00 6,00 -0,04 0,00 36,00 -0,00
9 6,00 0,00 0,00 6,50 0,46 0,21 39,00 0,00
10 8,00 2,00 4,00 8,20 2,16 4,67 65,60 4,32
11 8,00 2,00 4,00 7,80 1,76 3,10 62,40 3,52
12 8,00 2,00 4,00 7,70 1,66 2,76 61,60 3,32
13 10,00 4,00 16,00 9,60 3,56 12,67 96,00 14,24
14 10,00 4,00 16,00 10,00 3,96 15,68 100,00 15,84
15 10,00 4,00 16,00 10,10 4,06 16,48 101,00 16,24
TOTAL 90 0 120 90,6 0 116,156 661,2 117,6
Cov(X,Y) =
∑
(Xi − X̄ )(Yi − Ȳ )
n − 1
=
117, 6
14
= 8, 4
ou
Cov(X,Y) =
∑
(Xi .Yi ) − n.X̄ Ȳ
n − 1
=
661, 2 − 15.6.6, 04
14
=
117, 6
14
= 8, 4
r =
Cov(X,Y)√
s2x .s
2
y
=
8, 4√
120/14 ∗ 116, 156/14
=
8, 4
8, 433
0, 99608
November 27, 2023 27 / 29
Resolução - item c)
Modelo de regressão: ŷi = β̂0 + β̂1.xi
β̂1 =
∑n
i=1(xi − x̄)(yi − ȳ)∑n
i=1(xi − x̄)2 =
117, 6
120
= 0, 98
β̂0 = ȳ − β̂1x̄ = 6, 04− 0, 98 ∗ 6 = 0, 16
Logo: ŷi = 0, 16 + 0, 98.xi
November 27, 2023 28 / 29
Resolução - item d)
Modelo de regressão: ŷi = 0, 16 + 0, 98.xi
Para xi = 3, 5, então
ŷi = 0, 16 + 0, 98.3, 5 = 3, 59
November 27, 2023 29 / 29

Mais conteúdos dessa disciplina