Baixe o app para aproveitar ainda mais
Prévia do material em texto
Correlação linear simples e coeficiente de correlação e covariância José Tadeu de Almeida Introdução Nesta aula, estudaremos indicadores que permitem avaliar o grau de associação entre diferen- tes variáveis. Por meio dos conceitos de correlação e covariância, veremos em quais situações a tra- jetória de uma variável afeta uma segunda variável, e em qual medida tal situação pode se verificar. Objetivos de aprendizagem Ao final desta aula, você será capaz de: • compreender os conceitos de correlação linear e covariância. 1 Correlação Linear Um levantamento estatístico pode trazer, como resultado, dados que se entrecruzam e se relacionam. Tal situação ocorre, por exemplo, quando o pesquisador efetua análises conhecidas como bidimensionais. Imagine um caso em que se associa o tempo de estudo às notas conse- guidas na prova por um grupo de pessoas: são tomadas observações de cada aluno em relação a essas duas variáveis. Com base nos resultados obtidos, será possível verificar a relação entre o tempo de estudo e a nota. Pode-se esperar que haja notas melhores entre os alunos que mais estudaram? Se a res- posta for positiva, teremos uma relação entre variáveis. FIQUE ATENTO! Análises também podem ser multidimensionais. Podemos, por exemplo, estudar a altura, o peso e a idade de uma população, e efetuar deduções sobre o comporta- mento dessas variáveis em conjunto. Nesse sentido, para podermos saber se a relação é mais ou menos intensa, sobretudo para amostras com um número grande de elementos, utilizamos o coeficiente de correlação. Este índice nos mostra, por meio de um único número, o grau de associação de uma variável em relação a outra (BUSSAB; MORETTIN, 2010). SAIBA MAIS! Esse índice também é conhecido como coeficiente de correlação de Pearson, em referência a Karl Pearson (1857-1936). Quando essas variáveis são quantitativas, ou seja, envolvem valores que podem ser separa- dos por frequências (que são o número de vezes que um determinado valor é observado), verifi- camos o grau de associação entre variáveis por meio da análise da correlação existente entre as elas, e também por análise gráfica. FIQUE ATENTO! Pode-se também usar variáveis qualitativas em análises bidimensionais, como a análise do peso e do gênero de uma população, por exemplo. Pela análise gráfica, podemos verificar – embora não de forma conclusiva – a relação entre diferentes variáveis de pesquisa. Tomemos, como exemplo, um estudo que procurou avaliar a relação entre altura e idade de um grupo de crianças entre oito e nove anos. Confira a disposição dos dados coletados. Figura 1 – Amostras de altura e idade de um grupo 95 100 105 110 110 115 120 125 130 135 Al tu ra (c m ) Idade (meses) Fonte: elaborada pelo autor, 2017 Você pode observar, pelo gráfico apresentado, que parece não haver uma relação intensa entre o aumento da idade e o aumento da estatura das crianças, uma vez que há algumas com menor idade e altura maior, e outras com menor altura e maior idade. Agora, considere o segundo exemplo: um indivíduo deseja efetuar um teste ergométrico em esteira para verifi car sua saúde cardíaca. Para isso, foi medida sua frequência cardíaca (em bati- mentos por minuto) ao longo de vinte minutos. Os dados colhidos estão dados a seguir. Figura 2 – Frequência cardíaca em um intervalo de tempo 70 0 5 10 15 Tempo (minutos) 50 90 110 130 150 170 190 210 20 FC (B pm ) Fonte: elaborada pelo autor, 2017. Aqui, podemos concluir que há uma relação entre variáveis bastante signifi cativa: à medida que o exame prossegue, a frequência cardíaca segue aumentando. Figura 3 – Correlação de frequência cardíaca e tempo Fonte: Ververidis Vasilis / Shutterstock.com Nesse caso, portanto, visualizamos, pela análise gráfi ca, uma correlação linear entre variá- veis: o tempo e a frequência cardíaca (BUSSAB; MORETTIN, 2010). 2 Correlação Simples Tenha em mente que a análise gráfi ca é bastante útil para verifi carmos as correlações, porém nem sempre é efi ciente. Podemos, com ela, saber se há uma relação entre as variáveis e o modo como ela ocorre (se é direta ou inversamente proporcional), mas não sua intensidade. Assim, precisamos abordar novos conceitos. Com a correlação linear simples, podemos veri- fi car em que medida uma variável dita independente (ou seja, que não é gerada por nenhuma outra) afeta uma variável dependente, cujas observações dependem de outra variável para serem geradas (BUSSAB; MORETTIN, 2010). Se voltarmos ao exemplo anterior, a frequência cardíaca é a variável dependente, pois seus resultados estão associados ao tempo de desenvolvimento do exame. Por outro lado, quando tratamos de correlação, não estamos atribuindo relações de causa e efeito. Não se trata de defi nir que Y ocorre apenas porque X ocorre! A correlação demonstra a tendência da variação de uma variável Y perante a variação de X. Há diversos tipos de associação entre variáveis, mas, aqui, trataremos do exemplo mais sim- ples para estudo: a correlação linear simples. Neste caso, por meio do exame do comportamento de duas variáveis, podemos obter o grau de correlação entre elas. Observe! Figura 4 – Perfi s de correlação entre variáveis Y X Fonte: elaborada pelo autor, 2017. Você pode perceber que no conjunto de dados mais à esquerda, há um perfi l de crescimento das observações da variável dependente Y em relação à variável independente X: os valores de Y crescem à medida que crescem os valores de X. Assim, podemos afi rmar que a correlação é positiva. No conjunto à direita, verifi camos uma situação de correlação negativa, ou inversa, pois as observações de Y diminuem à medida que X cresce. Por fi m, o conjunto de dados ao meio não aparenta nenhuma inclinação, podendo-se assim afi rmar que a correlação é nula (BUSSAB; MORETTIN, 2010). Para obtermos com precisão a correlação entre diferentes variáveis, lançamos mão do coefi - ciente de correlação de Pearson, sobre o qual trataremos na próxima seção. 3 Coefi ciente de correlação O coefi ciente de correlação é um indicador que permite ao pesquisador avaliar o grau de associação entre variáveis em uma pesquisa. Por meio dele, podemos detectar precisamente em que proporção a variável independente afeta a variável dependente (BUSSAB; MORETTIN, 2010). O coefi ciente de correlação entre duas variáveis (X,Y), é dado pela seguinte fórmula: ( ) 1, = ×= × = × = × ( ( ( ( ) ) ) ) ( ( ( ( ) ) ) ) = × = × = × = ×( = × ( ( = × ( ( = × ( ( = × ( ) = × ) ) = × ) ) = × ) ) = × ) = × = × = × = × ( ( ) ) ( ( ) ) ) ) ) ) ) ) ) ) ) ) ) )∑= ×∑= × n i i = × = × = × = × i i= × = × = × = × x X y Y − − x X y Y − − x X y Y x X y Y x X y Y x X y Y = × = × x X y Y = × = × x X y Y = × = × = × = × x X y Y = × = × = × = × i i x X y Y i i i i x X y Y i i i i x X y Y i i = × = ×i i= × = × x X y Y = × = ×i i= × = × i i x X y Y i i = × = × = × = × i i= × = × = × = × x X y Y = × = × = × = × i i= × = × = × = ×Corr X Y(Corr X Y( ,Corr X Y, n dp X dp Y1n dp X dp Y1=n dp X dp Y= n dp X dp Y ( ( ( (n dp X dp Y( ( ( ( ) ) ) )n dp X dp Y) ) ) ) ( ( ( (n dp X dp Y( ( ( ( n dp X dp Y ( (n dp X dp Y( ( ) )n dp X dp Y) ) ( (n dp X dp Y( ( n dp X dp Y ( ( ( (n dp X dp Y( ( ( ( ) ) ) )n dp X dp Y) ) ) ) ( ( ( (n dp X dp Y( ( ( ( n dp X dp Y ( ( ( ( ( ( ( (n dp X dp Y( ( ( ( ( ( ( ( ) ) ) ) ) ) ) )n dp X dp Y) ) ) ) ) ) ) ) ( ( ( ( ( ( ( (n dp X dp Y( ( ( ( ( ( ( (∑n dp X dp Y∑in dp X dp Yi Estamos, portanto, efetuando um cálculo da média da somatória dos desvios médios padronizados. Perceba que as identidades ( )i( )i( )( )x X( )( )−( )x X( )−( )( )i( )x X( )i( ) e ( )i( )i( )( )y Y( )( )−( )y Y( )−( )( )i( )y Y( )i( ) representam os desvios médios de cada valor das variáveis, ou seja, demonstram a distância entre cada valor i (sendo i = 1, 2, 3...n) e a média da variável. Se temos, por exemplo, que a média Y é 3, e o valor 1y é igual a 5, o desvio médio de 1y é igual a 2. Os desvios padrões ( )dp X(dp X( de uma amostra são dados pela raiz quadrada da soma dos des- vios médios divididos por (n-1) graus de liberdade, por meio da fórmula: ( ) ( )22 1 1 == − ∑ n ii x X−x X−ix Xidp X(dp X( n O desvio padrão, enquanto raiz quadrada da variância, que é uma medida da dispersão geral dos dados em torno da média, demonstra se a distribuição dos dados de uma variável é ou não sig- nifi cativa. Valores baixos de desvio padrão demonstram uma baixa dispersão, e vice-versa (BUS- SAB; MORETTIN, 2010). Com base nesses conceitos, percebemos que o coefi ciente de correlação ( ) 1, ), )corr X Y(corr X Y( , corr X Y, n dp X dp Y , n dp X dp Y , x X y Y x X y Yi ix X y Yi i i ix X y Yi ix X y Y x X y Y− −x X y Y x X y Y= ×= ×, = ×, x X y Y x X y Yi ix X y Yi i i i x X y Yi i x X y Y x X y Y x X y Y x X y Yi ix X y Yi i i ix X y Yi i i i x X y Yi i i ix X y Yi i= × = × x X y Y = × x X y Y x X y Y = × x X y Yi ix X y Yi i= ×i ix X y Yi i i i x X y Yi i= ×i ix X y Yi i ( ( ( ( ) ) ) ) ( ( ( ( ) ) ) ) i i i i i i i i x X y Y x X y Y x X y Y x X y Yi ix X y Yi i i i x X y Yi i i ix X y Yi i i i x X y Yi i n dp X dp Y n dp X dp Y n dp X dp Y n dp X dp Y(n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( )n dp X dp Y) )n dp X dp Y) )n dp X dp Y) )n dp X dp Y) (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( = × = × = × = ×( = × ( ( = × ( ( = × ( ( = × ( ) = × ) ) = × ) ) = × ) ) = × ) = × = × = × = × i i= ×i i i i= ×i i i i= ×i i i i= ×i i x X y Y = × x X y Y x X y Y = × x X y Y x X y Y = × x X y Y x X y Y = × x X y Yi ix X y Yi i= ×i ix X y Yi i i i x X y Yi i= ×i ix X y Yi i i ix X y Yi i= ×i ix X y Yi i i i x X y Yi i= ×i ix X y Yi i ( ( ) ) ( ( ) )n dp X dp Y n dp X dp Y(n dp X dp Y( (n dp X dp Y( )n dp X dp Y) )n dp X dp Y) (n dp X dp Y( (n dp X dp Y( ) ) ) )n dp X dp Y n dp X dp Y n dp X dp Y n dp X dp Y(n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( )n dp X dp Y) )n dp X dp Y) )n dp X dp Y) )n dp X dp Y) (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( ) ) ) ) ) ) ) )n dp X dp Y n dp X dp Y n dp X dp Y n dp X dp Y n dp X dp Y n dp X dp Y n dp X dp Y n dp X dp Y(n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( )n dp X dp Y) )n dp X dp Y) )n dp X dp Y) )n dp X dp Y) )n dp X dp Y) )n dp X dp Y) )n dp X dp Y) )n dp X dp Y) (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y( (n dp X dp Y(∑, ∑, n dp X dp Y∑n dp X dp Y, n dp X dp Y, ∑, n dp X dp Y, = ×∑= ×, = ×, ∑, = ×, consiste em uma padronização dos dados da distribuição. Ao dividir a soma dos desvios médios pelo desvio padrão, e depois novamente pelo total de dados, podemos confi nar os valores de qualquer distribuição em torno de um conjunto de valores com- preendido por A = {-1, 1}, de modo que: ( )1 , 1(1 , 1( )1 , 1)− ≤ ≤1 , 1− ≤ ≤1 , 1)1 , 1)− ≤ ≤)1 , 1)1 , 1corr X Y1 , 1(1 , 1(corr X Y(1 , 1(1 , 1− ≤ ≤1 , 1corr X Y1 , 1− ≤ ≤1 , 1(1 , 1(− ≤ ≤(1 , 1(corr X Y(1 , 1(− ≤ ≤(1 , 1( Assim, se o coefi ciente de correlação linear entre duas variáveis X e Y é 1 dizemos que existe uma forte correlação linear positiva entre as mesmas. O mesmo pode ser dito se o coefi ciente de correlação entre X e Y for -1, nesse caso, há uma forte correlação linear negativa entre X e Y. n i=1 SAIBA MAIS! Conheça mais sobre a correlação com a leitura do artigo de Maria Eugénia Martins, no link: <https://www.fc.up.pt/pessoas/jfgomes/pdf/vol_2_num_2_69_art_coefi cien- teCorrelacaoAmostral.pdf>. Continuemos a análise da fórmula do coefi ciente de correlação. Transformando essa fórmula algebricamente a partir de um conjunto fi nito de dados de associação entre variáveis ( ) ( ) ( ){ }1 1 2 2)1 1 2 2) (1 1 2 2( n nx y x y x y)x y x y x y) (x y x y x y( )x y x y x y) (x y x y x y(x y x y x y)x y x y x y) (x y x y x y(1 1 2 2x y x y x y1 1 2 2)1 1 2 2)x y x y x y)1 1 2 2) (1 1 2 2(x y x y x y(1 1 2 2(, , , , , ,x y x y x y, , , , , ,), , , , , ,)x y x y x y), , , , , ,) (, , , , , ,(x y x y x y(, , , , , ,(1 1 2 2, , , , , ,1 1 2 2x y x y x y1 1 2 2, , , , , ,1 1 2 2)1 1 2 2), , , , , ,)1 1 2 2)x y x y x y)1 1 2 2), , , , , ,)1 1 2 2) (1 1 2 2(, , , , , ,(1 1 2 2(x y x y x y(1 1 2 2(, , , , , ,(1 1 2 2( …x y x y x y…, , , , , ,…, , , , , ,x y x y x y, , , , , ,…, , , , , ,n nx y x y x yn n, , , , , ,n n, , , , , ,x y x y x y, , , , , ,n n, , , , , , , temos a seguinte expressão: ( ) ( ) ( )( )2 2 2 22 2 2 2 1, ∑ −)∑ −) = × == × = = × = = × = ( ( ( ( ) ) ) ) ( ( ( ( ) ) ) ) = × = = × = = × = = × =( = × = ( ( = × = ( ( = × = ( ( = × = ( ) = × = ) ) = × = ) ) = × = ) ) = × = ) = × = = × = = × = = × =( = × = ( ( = × = ( ( = × = ( ( = × = ( ) = × = ) ) = × = ) ) = × = ) ) = × = ) = × = = × = = × = = × = ) )( (2 2 2 2 2 2 2 22 2 2 2 2 2 2 2)2 2 2 2) )2 2 2 2)(2 2 2 2( (2 2 2 2( ( ( ) ) ( ( ) ) ) ) ) ) ) ) ) ) ) ) ) ) 2 2 2 2∑ − ∑ −2 2 2 2 ∑ − ∑ − 2 2 2 2 2 2 2 2∑ − ∑ −2 2 2 2 2 2 2 2)2 2 2 2) )2 2 2 2)∑ − ∑ −)2 2 2 2) )2 2 2 2)(2 2 2 2( (2 2 2 2(∑ − ∑ −(2 2 2 2( (2 2 2 2( ) )( ( ∑ − ∑ − ∑ − ∑ − ∑ − ∑ − ∑ − ∑ − ∑= × =∑= × = n i i= × = = × = = × = = × = i i= × = = × = = × = = × = i i ) )i i) )( (i i( ( x y nXY)x y nXY)∑ −x y nXY∑ −)∑ −)x y nXY)∑ −)i ix y nXYi i∑ −i i∑ −x y nXY∑ −i i∑ − x X y Y − − x X y Y − − x X y Y x X y Y = × = = × = x X y Y = × = = × == × = = × = = × = = × = x X y Y = × = = × = = × = = × = i i x X y Y i i i i x X y Y i i i i x X y Y i i = × = = × =i i= × = = × = x X y Y = × = = × =i i= × = = × == × = = × = = × = = × = i i= × = = × = = × = = × = x X y Y = × = = × = = × = = × = i i= × = = × = = × = = × =Corr X Y(Corr X Y( ,Corr X Y, n dp X dp Y1n dp X dp Y1=n dp X dp Y= n dp X dp Y ( ( ( (n dp X dp Y( ( ( ( ) ) ) )n dp X dp Y) ) ) ) ( ( ( (n dp X dp Y( ( ( ( n dp X dp Y ( (n dp X dp Y( ( ) )n dp X dp Y) ) ( (n dp X dp Y( ( n dp X dp Y ( ( ( (n dp X dp Y( ( ( ( ) ) ) )n dp X dp Y) ) ) ) ( ( ( (n dp X dp Y( ( ( ( n dp X dp Y ( ( ( ( ( ( ( (n dp X dp Y( ( ( ( ( ( ( ( ) ) ) ) ) ) ) )n dp X dp Y) ) ) ) ) ) ) ) ( ( ( ( ( ( ( (n dp X dp Y( ( ( ( ( ( ( (∑n dp X dp Y∑in dp X dp Yi x nX y nY2 2 2 2x nX y nY2 2 2 2∑ − ∑ −x nX y nY∑ − ∑ −2 2 2 2∑ − ∑ −2 2 2 2x nX y nY2 2 2 2∑ − ∑ −2 2 2 2 ∑ − ∑ − x nX y nY ∑ − ∑ − 2 2 2 2 2 2 2 2∑ − ∑ −2 2 2 2 2 2 2 2x nX y nY2 2 2 2 2 2 2 2∑ − ∑ −2 2 2 2 2 2 2 2)2 2 2 2) )2 2 2 2)∑ − ∑ −)2 2 2 2) )2 2 2 2)x nX y nY)2 2 2 2) )2 2 2 2)∑ − ∑ −)2 2 2 2) )2 2 2 2)(2 2 2 2( (2 2 2 2(∑ − ∑ −(2 2 2 2( (2 2 2 2(x nX y nY(2 2 2 2( (2 2 2 2(∑ − ∑ −(2 2 2 2( (2 2 2 2( x nX y nY ∑ − ∑ − ∑ − ∑ −x nX y nY∑ − ∑ − ∑ − ∑ −∑ − ∑ − ∑ − ∑ −x nX y nY∑ − ∑ − ∑ − ∑ − ∑ − ∑ − ∑ − ∑ − x nX y nY ∑ − ∑ − ∑ − ∑ − ) )∑ − ∑ −) ) ) )∑ − ∑ −) )x nX y nY) )∑ − ∑ −) ) ) )∑ − ∑ −) )( (∑ − ∑ −( ( ( (∑ − ∑ −( (x nX y nY( (∑ − ∑ −( ( ( (∑ − ∑ −( (2 2 2 2 2 2 2 2∑ − ∑ −2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2∑ − ∑ −2 2 2 2 2 2 2 2x nX y nY2 2 2 2 2 2 2 2∑ − ∑ −2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2∑ − ∑ −2 2 2 2 2 2 2 2)2 2 2 2) )2 2 2 2)∑ − ∑ −)2 2 2 2) )2 2 2 2) )2 2 2 2) )2 2 2 2)∑ − ∑ −)2 2 2 2) )2 2 2 2)x nX y nY)2 2 2 2) )2 2 2 2)∑ − ∑ −)2 2 2 2) )2 2 2 2) )2 2 2 2) )2 2 2 2)∑ − ∑ −)2 2 2 2) )2 2 2 2)(2 2 2 2( (2 2 2 2(∑ − ∑ −(2 2 2 2( (2 2 2 2( (2 2 2 2( (2 2 2 2(∑ − ∑ −(2 2 2 2( (2 2 2 2(x nX y nY(2 2 2 2( (2 2 2 2(∑ − ∑ −(2 2 2 2( (2 2 2 2( (2 2 2 2( (2 2 2 2(∑ − ∑ −(2 2 2 2( (2 2 2 2( i i x nX y nY i i ) )i i) )x nX y nY) )i i) )( (i i( (x nX y nY( (i i( (∑ − ∑ − ∑ − ∑ −i i∑ − ∑ − ∑ − ∑ −x nX y nY∑ − ∑ − ∑ − ∑ −i i∑ − ∑ − ∑ − ∑ −)∑ − ∑ −) )∑ − ∑ −)i i)∑ − ∑ −) )∑ − ∑ −)x nX y nY)∑ − ∑ −) )∑ − ∑ −)i i)∑ − ∑ −) )∑ − ∑ −)(∑ − ∑ −( (∑ − ∑ −(i i(∑ − ∑ −( (∑ − ∑ −(x nX y nY(∑ − ∑ −( (∑ − ∑ −(i i(∑ − ∑ −( (∑ − ∑ −( ∑ − ∑ − ∑ − ∑ − i i ∑ − ∑ − ∑ − ∑ − x nX y nY ∑ − ∑ − ∑ − ∑ − i i ∑ − ∑ − ∑ − ∑ − ) )∑ − ∑ −) ) ) )∑ − ∑ −) )i i) )∑ − ∑ −) ) ) )∑ − ∑ −) )x nX y nY) )∑ − ∑ −) ) ) )∑ − ∑ −) )i i) )∑ − ∑ −) ) ) )∑ − ∑ −) )( (∑ − ∑ −( ( ( (∑ − ∑ −( (i i( (∑ − ∑ −( ( ( (∑ − ∑ −( (x nX y nY( (∑ − ∑ −( ( ( (∑ − ∑ −( (i i( (∑ − ∑ −( ( ( (∑ − ∑ −( ( Quanto mais o coefi ciente estiver próximo de -1, a correlação entre duas variáveis será inversa (observe o conjunto de dados à direita última fi gura); estando próximo de 1, a correlação é positiva, sendo nula quando for igual a zero. EXEMPLO Qual o coefi ciente de correlação entre os pares ordenados (X,Y) = {(1,3), (2,2), (3,1)}? Para responder a essa questão, trace o gráfi co correspondente. Você verá que a correlação é inversa. Porém, para o cálculo preciso, iniciemos pelas médias: 1 1 2 3 6 2 3 3 = 1 2 3 6+ +1 2 3 6= = = == = = == = = == = = =∑ n ii x X n 1 3 2 1 6 2 3 3 = 3 2 1 6+ +3 2 1 6= = = == = = == = = == = = =∑ n ii y Y n Calculamos, por fi m, o coefi ciente de correlação: ( ) ( ) ( ) ( )2 2 2 22 2 2 2)2 2 2 2)2 2 2 2(2 2 2 2( 1, ∑ −)∑ −) = × == × = = × = = × = ( ( ( ( ) ) ) ) ( ( ( ( ) ) ) ) = × = = × = = × = = × =( = × = ( ( = × = ( ( = × = ( ( = × = ( ) = × = ) ) = × = ) ) = × = ) ) = × = ) = × = = × = = × = = × =( = × = ( ( = × = ( ( = × = ( ( = × = ( ) = × = ) ) = × = ) ) = × = ) ) = × = ) = × = = × = = × = = × = ∑ − × ∑ −2 2 2 2∑ − × ∑ −2 2 2 2)2 2 2 2)∑ − × ∑ −)2 2 2 2) (2 2 2 2(∑ − × ∑ −(2 2 2 2( ( ( ) ) ( ( ) ) ) ) ) ) ) ) ) ) ) ) ) )∑= × =∑= × = n i i= × = = × = = × = = × = i i= × = = × = = × = = × = i i)i i) (i i( x y nXY)x y nXY)x y nXY∑ −x y nXY∑ −)∑ −)x y nXY)∑ −)i ix y nXYi i∑ −i i∑ −x y nXY∑ −i i∑ − x X y Y − − x X y Y − − x X y Y x X y Y = × = = × = x X y Y = × = = × == × = = × = = × = = × = x X y Y = × = = × = = × = = × = i i x X y Y i i i i x X y Y i i i i x X y Y i i = × = = × =i i= × = = × = x X y Y = × = = × =i i= × = = × == × = = × = = × = = × = i i= × = = × = = × = = × = x X y Y = × = = × = = × = = × = i i= × = = × = = × = = × =Corr X Y(Corr X Y( ,Corr X Y, n dp X dp Y1n dp X dp Y1=n dp X dp Y= n dp X dp Y ( ( ( (n dp X dp Y( ( ( ( ) ) ) )n dp X dp Y) ) ) ) ( ( ( (n dp X dp Y( ( ( ( n dp X dp Y ( (n dp X dp Y( ( ) )n dp X dp Y) ) ( (n dp X dp Y( ( n dp X dp Y ( ( ( (n dp X dp Y( ( ( ( ) ) ) )n dp X dp Y) ) ) ) ( ( ( (n dp X dp Y( ( ( ( n dp X dp Y ( ( ( ( ( ( ( (n dp X dp Y( ( ( ( ( ( ( ( ) ) ) ) ) ) ) )n dp X dp Y) ) ) ) ) ) ) ) ( ( ( ( ( ( ( (n dp X dp Y( ( ( ( ( ( ( (∑n dp X dp Y∑in dp X dp Yi x nX y nY2 2 2 2x nX y nY2 2 2 2x nX y nY∑ − × ∑ −x nX y nY∑ − × ∑ −)∑ − × ∑ −)x nX y nY)∑ − × ∑ −) (∑ − × ∑ −(x nX y nY(∑ − × ∑ −(2 2 2 2∑ − × ∑ −2 2 2 2x nX y nY2 2 2 2∑ − × ∑ −2 2 2 2)2 2 2 2)∑ − × ∑ −)2 2 2 2)x nX y nY)2 2 2 2)∑ − × ∑ −)2 2 2 2) (2 2 2 2(∑ − × ∑ −(2 2 2 2(x nX y nY(2 2 2 2(∑ − × ∑ −(2 2 2 2(i ix nX y nYi i)i i)x nX y nY)i i) (i i(x nX y nY(i i(∑ − × ∑ −i i∑ − × ∑ −x nX y nY∑ − × ∑ −i i∑ − × ∑ −)∑ − × ∑ −)i i)∑ − × ∑ −)x nX y nY)∑ − × ∑ −)i i)∑ − × ∑ −) (∑ − × ∑ −(i i(∑ − × ∑ −(x nX y nY(∑ − × ∑ −(i i(∑ − × ∑ −( ( ) ( ) ( ) ( ) ( )2 1 3 2 2 3 1 3 2 2)1 3 2 2 3 1 3 2 2) (1 3 2 2 3 1 3 2 2( )1 3 2 2 3 1 3 2 2) (1 3 2 2 3 1 3 2 2( )1 3 2 2 3 1 3 2 2) 2 1 21 4 9 12 9 4 1 12)1 4 9 12 9 4 1 12) (1 4 9 12 9 4 1 12( 1 3 2 2 3 1 3 2 2× + × + × − × ×1 3 2 2 3 1 3 2 2)1 3 2 2 3 1 3 2 2)× + × + × − × ×)1 3 2 2 3 1 3 2 2) (1 3 2 2 3 1 3 2 2(× + × + × − × ×(1 3 2 2 3 1 3 2 2( )1 3 2 2 3 1 3 2 2)× + × + × − × ×)1 3 2 2 3 1 3 2 2) (1 3 2 2 3 1 3 2 2(× + × + × − × ×(1 3 2 2 3 1 3 2 2( )1 3 2 2 3 1 3 2 2)× + × + × − × ×)1 3 2 2 3 1 3 2 2) − = = = − ( = = = − ( ) = = = − ) ( = = = − ( ) = = = − ) ( = = = − ( ) = = = − ) = = = −= = = − 1 4 9 12 9 4 1 12+ + − × + + −1 4 9 12 9 4 1 12)1 4 9 12 9 4 1 12)+ + − × + + −)1 4 9 12 9 4 1 12) (1 4 9 12 9 4 1 12(+ + − × + + −(1 4 9 12 9 4 1 12( Desse modo, obtemos uma estimação precisa das relações entre variáveis e seu grau de associação. FIQUE ATENTO! Apenas como referência, o coefi ciente de correlação associado à distribuição de dados da fi gura 2 é de 0,99. Há, portanto, uma associação muito forte entre a dura- ção do teste ergométrico e a aceleração dos batimentos cardíacos de um paciente. Por sua vez, o coefi ciente associado aos dados da primeira fi gura é de 0,06. Há, portanto, uma relação muito fraca entre a idade e a altura da amostra selecionada. A partir do desvio padrão, porém, podemos transformar a fórmula do coefi ciente de correla- ção e incluir um novo conceito: o de covariância. Acompanhe! 4 Covariância Podemos separar o numerador da fórmula do coefi ciente de correlação e isolá-lo, obtendo o indicador conhecido como covariância. A covariância é a média dos produtos dos valores centra- dos das variáveis, como segue: ( ) ( ) ( )( )1, == ∑ n i i)i i) (i i(i x X y Y)x X y Y) (x X y Y(− × −x X y Y− × −)− × −)x X y Y)− × −) (− × −(x X y Y(− × −(i ix X y Yi i)i i)x X y Y)i i) (i i(x X y Y(i i(− × −i i− × −x X y Y− × −i i− × −)− × −)i i)− × −)x X y Y)− × −)i i)− × −) (− × −(i i(− × −(x X y Y(− × −(i i(− × −(Cov X Y(Cov X Y( ,Cov X Y, n Mas não confunda: a expressão ( )ix X−x X−ix Xi diz respeito aos desvios médios, ou seja, ao afas- tamento dos valores observados em relação à média. Se você somar todos os desvios médios, a soma fi nal será zero, logo, será que a fórmula da covariância dará sempre zero? De modo algum. O que estamos calculando primeiramente é um produto entre pares ordenados de valo- res ( ) ( )1 1)1 1)1 1(1 1(x X y Y)x X y Y) (x X y Y(1 1x X y Y1 1)1 1)x X y Y)1 1)1 1x X y Y1 1(1 1(x X y Y(1 1(− × −x X y Y− × −)− × −)x X y Y)− × −) (− × −(x X y Y(− × −(1 1− × −1 1x X y Y1 1− × −1 1)1 1)− × −)1 1)x X y Y)1 1)− × −)1 1) (1 1(− × −(1 1(x X y Y(1 1(− × −(1 1( , por exemplo. Nesse caso, teremos como resultado um valor que demons- tra o grau de afastamento de cada par ordenado ( , )n n( , )n n( , )( , )x y( , )( , )n n( , )x y( , )n n( , ) em relação à média ( ),X Y,X Y, (BUSSAB; MORETTIN, 2010). EXEMPLO Considere os pares ordenados (X,Y) = {(2,3), (3,5), (4,7)}. Observamos que n=3 e as médias ( ),X Y,X Y, têm, respectivamente, valor 3 e 5. Assim, a covariância entre as variáveis X e Y é dada por: ( ) ( ) ( )( )1, == ∑ n i i)i i) (i i(i x X y Y)x X y Y) (x X y Y(− × −x X y Y− × −)− × −)x X y Y)− × −) (− × −(x X y Y(− × −(i ix X y Yi i)i i)x X y Y)i i) (i i(x X y Y(i i(− × −i i− × −x X y Y− × −i i− × −)− × −)i i)− × −)x X y Y)− × −)i i)− × −) (− × −(i i(− × −(x X y Y(− × −(i i(− × −(Cov X Y(Cov X Y( ,Cov X Y, n ( ) ( ) ( ) ( ) ( ) ( )2 3 3 5 3 3 5 5 4 3 7 5)2 3 3 5 3 3 5 5 4 3 7 5) (2 3 3 5 3 3 5 5 4 3 7 5( )2 3 3 5 3 3 5 5 4 3 7 5) (2 3 3 5 3 3 5 5 4 3 7 5( )2 3 3 5 3 3 5 5 4 3 7 5) (2 3 3 5 3 3 5 5 4 3 7 5( )2 3 3 5 3 3 5 5 4 3 7 5) (2 3 3 5 3 3 5 5 4 3 7 5( )2 3 3 5 3 3 5 5 4 3 7 5) (2 3 3 5 3 3 5 5 4 3 7 5( 2 2 1,33 3 3 2 3 3 5 3 3 5 5 4 3 7 5− × − + − × − + − × −2 3 3 5 3 3 5 5 4 3 7 5)2 3 3 5 3 3 5 5 4 3 7 5)− × − + − × − + − × −)2 3 3 5 3 3 5 5 4 3 7 5) (2 3 3 5 3 3 5 5 4 3 7 5(− × − + − × − + − × −(2 3 3 5 3 3 5 5 4 3 7 5( )2 3 3 5 3 3 5 5 4 3 7 5)− × − + − × − + − × −)2 3 3 5 3 3 5 5 4 3 7 5) (2 3 3 5 3 3 5 5 4 3 7 5(− × − + − × − + − × −(2 3 3 5 3 3 5 5 4 3 7 5( )2 3 3 5 3 3 5 5 4 3 7 5)− × − + − × − + − × −)2 3 3 5 3 3 5 5 4 3 7 5) (2 3 3 5 3 3 5 5 4 3 7 5(− × − + − × − + − × −(2 3 3 5 3 3 5 5 4 3 7 5( )2 3 3 5 3 3 5 5 4 3 7 5)− × − + − × − + − × −)2 3 3 5 3 3 5 5 4 3 7 5) (2 3 3 5 3 3 5 5 4 3 7 5(− × − + − × − + − × −(2 3 3 5 3 3 5 5 4 3 7 5( )2 3 3 5 3 3 5 5 4 3 7 5)− × − + − × − + − × −)2 3 3 5 3 3 5 5 4 3 7 5) (2 3 3 5 3 3 5 5 4 3 7 5(− × − + − × − + − × −(2 3 3 5 3 3 5 5 4 3 7 5( 2 2+2 2 = = = ( = = = ( ) = = = ) ( = = = ( ) = = = ) ( = = = ( ) = = = ) ( = = = ( ) = = = ) ( = = = ( ) = = = ) ( = = = ( ) = = = ) = = == = = Embora seja um importante indicador, entenda que a covariância não é um parâmetro con- sistente para calcularmos a associação entre variáveis. Ela não é um indicador padronizado, sendo então sensível à notação de cada conjunto de dados. Por exemplo, se uma covariância de duas amostras que estão expressas em reais é dada por ( ),Cov X Y n(Cov X Y n( )Cov X Y n),Cov X Y n, =Cov X Y n= , a mesma covariância, expressa em centavos, seria ( ), 100), 100)Cov X Y n(Cov X Y n( )Cov X Y n), 100Cov X Y n,100), 100)Cov X Y n), 100), 100=, 100Cov X Y n, 100=, 100 . Portanto, para eliminarmos imprecisões de cálculo, utilizamos o coefi ciente de correlação. Em resumo, recuperando a fórmula da covariância e aplicando-a sobre a fórmula do coefi - ciente de correlação, temos a seguinte expressão (BUSSAB; MORETTIN, 2010): ( ) ( )( ) ( ) ,1 , ( , ( ) , ) ( , ( , ), ) ) , ) = × == × =, = × =, = × =, = × =, = × = = × =, , , , ( , ( ( , ( ( , ( ( , ( ) , ) ) , ) ) , ) ) , ) ( , ( ( , ( ( , ( ( , ( ) , ) ) , ) ) , ) ) , ) = × = = × = = × = = × == × = = × = = × = = × == × = = × = = × = = × =, = × =, , = × =, , = × =, , = × =, ( , ( = × = ( , ( ( , ( = × = ( , ( ( , ( = × = ( , ( ( , ( = × = ( , ( ) , ) = × = ) , ) ) , ) = × = ) , ) ) , ) = × = ) , ) ) , ) = × = ) , ) ( , ( = × = ( , ( ( , ( = × = ( , ( ( , ( = × = ( , ( ( , ( = × = ( , ( ) , ) = × = ) , ) ) , ) = × = ) , ) ) , ) = × = ) , ) ) , ) = × = ) , ) ( ( ) ) ( ( ) ) ∑, ∑, = × =∑= × =, = × =, ∑, = × =, n = × = = × = = × = = × = i i= × = = × = = × = = × = Cov X Y(Cov X Y( ,Cov X Y, x X y Y − − x X y Y − − x X y Y x X y Y = × = = × = x X y Y = × = = × == × = = × = = × = = × = x X y Y = × = = × = = × = = × = i i x X y Y i i i i x X y Y i i i i x X y Y i i = × = = × =i i= × = = × = x X y Y = × = = × =i i= × = = × == × = = × = = × = = × = i i= × = = × = = × = = × = x X y Y = × = = × = = × = = × = i i= × = = × = = × = = × =Corr X Y(Corr X Y( , Corr X Y, n dp X dp Y dp X dp Y(n dp X dp Y dp X dp Y( )n dp X dp Y dp X dp Y) (n dp X dp Y dp X dp Y(1n dp X dp Y dp X dp Y1 , n dp X dp Y dp X dp Y , ( , (n dp X dp Y dp X dp Y( , ( ) , )n dp X dp Y dp X dp Y) , ) ( , (n dp X dp Y dp X dp Y( , ( , n dp X dp Y dp X dp Y , *n dp X dp Y dp X dp Y* , * , n dp X dp Y dp X dp Y , * , =n dp X dp Y dp X dp Y= n dp X dp Y dp X dp Y ( ( ( (n dp X dp Y dp X dp Y( ( ( ( ) ) ) )n dp X dp Y dp X dp Y) ) ) ) ( ( ( (n dp X dp Y dp X dp Y( ( ( ( ) ) ) )n dp X dp Y dp X dp Y) ) ) ) , , , , n dp X dp Y dp X dp Y , , , , ( , ( ( , ( ( , ( ( , (n dp X dp Y dp X dp Y( , ( ( , ( ( , ( ( , ( ) , ) ) , ) ) , ) ) , )n dp X dp Y dp X dp Y) , ) ) , ) ) , ) ) , ) ( , ( ( , ( ( , ( ( , (n dp X dp Y dp X dp Y( , ( ( , ( ( , ( ( , ( ) , ) ) , ) ) , ) ) , )n dp X dp Y dp X dp Y) , ) ) , ) ) , ) ) , ) n dp X dp Y dp X dp Y ( (n dp X dp Y dp X dp Y( ( ) )n dp X dp Y dp X dp Y) ) ( (n dp X dp Y dp X dp Y( ( ) )n dp X dp Y dp X dp Y) ) n dp X dp Y dp X dp Y ( ( ( (n dp X dp Y dp X dp Y( ( ( ( ) ) ) )n dp X dp Y dp X dp Y) ) ) ) ( ( ( (n dp X dp Y dp X dp Y( ( ( ( ) ) ) )n dp X dp Y dp X dp Y) ) ) ) n dp X dp Y dp X dp Y ( ( ( ( ( ( ( (n dp X dp Y dp X dp Y( ( ( ( ( ( ( ( ) ) ) ) ) ) ) )n dp X dp Y dp X dp Y) ) ) ) ) ) ) ) ( ( ( ( ( ( ( (n dp X dp Y dp X dp Y( ( ( ( ( ( ( ( ) ) ) ) ) ) ) )n dp X dp Y dp X dp Y) ) ) ) ) ) ) )∑n dp X dp Y dp X dp Y∑, ∑, n dp X dp Y dp X dp Y, ∑, in dp X dp Y dp X dp Yi Fechamento Nesta aula, você teve oportunidade de: • entender e aplicar os conceitos de correlação linear e correlação simples; • conhecer o conceito de covariância e sua função para a avaliação da associação entre variáveis de pesquisa. Referências BUSSAB, Wilton de Oliveira; MORETTIN, Pedro. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010. MARTINS, Maria Eugénia Graça. Coefi ciente de Correlação amostral. Revista de Ciência elementar, v.2, n.2, Lisboa, 2014. Disponível em: <https://www.fc.up.pt/pessoas/jfgomes/pdf/vol_2_ num_2_69_art_coefi cienteCorrelacaoAmostral.pdf>. Acesso em: 16 mar. 2017.
Compartilhar