Baixe o app para aproveitar ainda mais
Prévia do material em texto
AULA 6 - CORRELAÇÃO • Aplicar e diferenciar Correlação CONTEXTUALIZANDO A APRENDIZAGEM Prezado(a) Aluno(a), estudamos nas Aulas anteriores as medidas de Tendência Central e Medidas de Dispersão. Nesta Aula, vamos trabalhar a correlação. Você sabe o que é correlação? Qual a importância do estudo? Aqui, trabalharemos com duas ou mais variáveis para sabermos se elas se relacionam entre si, isto é, se valores altos (baixos) de uma das variáveis implicam em valores altos (baixos) de outra variável. Além disso, vamos verificar se existe associação entre a taxa de desemprego e a taxa de criminalidade em uma grande cidade, entre verba investida em propaganda e retorno nas verbas. Preparado(a) para conhecer esses assuntos? Então, prossiga e bons estudos! Mapa mental panorâmico Para contextualizar e ajudá-lo(a) a obter uma visão panorâmica dos conteúdos que você estudará na Aula 6, bem como entender a inter- relação entre eles, é importante que se atente para o Mapa Mental, apresentado a seguir: CORRELAÇÃO 1 CORRELAÇÃO 1.1 O QUE É CORRELAÇÃO? 1.2 DIAGRAMA DE DISPERSÃO 1.3 COEFICIENTE DE CORRELAÇÃO LINEAR DE PERSON 1.4 PROPRIEDADES DO COEFICIENTE DE CORRELAÇÃO “R” CORRELAÇÃO 1 CORRELAÇÃO Quando um valor em um conjunto de dados corresponde a um valor em um segundo conjunto de dados, tais conjuntos são chamados de dados emparelhados. Um conjunto de dados contém as quantidades de vendas correspondentes e cada custo corresponde a uma quantidade de vendas. Esses conjuntos de dados são emparelhados. Uma maneira de representar graficamente conjuntos com dados emparelhados é usando o gráfico de dispersão, no qual os pares ordenados são representados como pontos em um plano coordenado (plano cartesiano). Um gráfico de dispersão é usado para mostrar a relação entre duas variáveis quantitativas. O estatístico britânico, Ronald Fisher, apresentou um famoso conjunto de dados chamado conjunto de dados de Íris de Fisher. Esse conjunto de dados descreve várias características físicas, tais como comprimento e a largura das pétalas (em milímetros), para três espécies da flor íris. No gráfico de dispersão a seguir, o comprimento das pétalas forma o primeiro conjunto de dados e a largura forma o segundo. Figura 1: Conjunto de dados de Íris de Fisher Fonte: Larson (2008, p. 58). Conforme o comprimento da pétala aumenta, o que tende a acontecer com a largura? O eixo horizontal representa o comprimento da pétala e o vertical, a largura. Cada ponto do gráfico de dispersão corresponde ao comprimento e a largura da pétala de uma flor. Com base no gráfico de dispersão, podemos ver que, conforme o comprimento da pétala aumenta, a largura também tende a aumentar. 1.1 O QUE É CORRELAÇÃO? Uma correlação é uma relação entre duas variáveis. Os dados podem ser apresentados por pares ordenados (x, y), sendo x a variável independente e y a variável dependente. Podemos citar como exemplos de variáveis: · Número de peças produzidas e número de peças defeituosas. · Número de falhas em uma obra e a satisfação média dos construtores. · Dias de atraso de entrega e número de dias chuvosos. · Média de tempo de atraso de pagamento e número de erros de fatura. · Porcentagem de imóveis vendidos na data de entrega da obra e satisfação dos clientes nos últimos 10 empreendimentos. Saiba ainda que representamos as variáveis em diagramas de dispersão, conforme veremos a seguir. 1.2 DIAGRAMA DE DISPERSÃO Em um diagrama de dispersão, os pares ordenados são colocados no gráfico como pontos em um plano coordenado. A variável independente x é indicada no eixo horizontal e a variável dependente y, no eixo vertical. Um diagrama de dispersão pode ser usado para averiguar sobre a existência de uma correlação linear (linha reta) entre duas variáveis. Veja alguns exemplos de diagramas de dispersão que mostram os tipos de correlação. Figura 2: Tipos de correlação . Acesso em 23 de mai. 2019. Para entender melhor, veremos um exemplo de um economista que deseja determinar se existe relação linear entre o Produto Interno Bruto (PIB) de alguns países e as respectivas emissões de dióxido de carbono. Os dados estão descritos na Tabela 1: Tabela 1: Dados do PIB e da quantidade de emitida em 10 países Fonte: Larson (2008). Solução: O diagrama de dispersão é mostrado na Figura 3. Note que nele parece que existe uma correlação linear positiva entre as variáveis. Figura 3: Gráfico de dispersão relacionando o PIB versus emissão de dióxido de carbono Fonte: Elaborada pela Autora. Observando o gráfico da esquerda para direita, verifica-se que conforme o produto interno bruto cresce, as emissões de dióxido de carbono também tendem a crescer e por isso, a correlação é dita positiva. Para construir gráficos você pode utilizar o Excel. Insira os dados das duas colunas da tabela na planilha, selecione os dados e vá em inserir gráfico de dispersão. À direita do gráfico, no sinal de +, você pode configurar dados e rótulos. Figura 4: Construindo um gráfico de dispersão no excel Fonte: Elaborada pela Autora. Em outro exemplo, um aluno do curso de Administração de Empresas participa do projeto de iniciação científica e conduz um estudo para determinar se existe uma relação linear entre o número de horas que um aluno faz exercícios de cálculo a cada semana e seu coeficiente de rendimento (CR). Os dados são mostrados na Tabela 2: Tabela 2: Dados alunos do curso de Administração de Empresas Fonte: Elaborado pela Autora. Que tal exibir os pontos em um diagrama de dispersão e descrever o tipo de correlação? Solução: O diagrama de dispersão é mostrado na Figura a seguir. Nele não parece que existe correlação linear entre as variáveis. Figura 5: Relação entre o tempo dedicado aos exercícios e ao rendimento de um aluno Fonte: Elaborada pela Autora. Em uma interpretação do gráfico, podemos entender que o número de horas que um estudante faz exercícios a cada semana não parece estar relacionado ao seu coeficiente de rendimento. 1.3 COEFICIENTE DE CORRELAÇÃO LINEAR DE PERSON Interpretar a correlação usando um diagrama de dispersão pode ser subjetivo. Uma maneira adequada de obter a direção e medir a força de uma correlação linear entre duas variáveis é calcular o coeficiente de correlação. O coeficiente de correlação é uma medida da força e da direção de uma relação linear entre duas variáveis. O símbolo “r” representa o coeficiente de correlação amostral. Uma fórmula para calcular o coeficiente de correlação é: Onde “n” é o número de pares ordenados. Essa fórmula é conhecida como coeficiente de correlação de Pearson ou coeficiente de correlação linear. A variação do coeficiente de correlação é de -1 a 1, inclusive. Quando x e y têm uma correlação linear positiva forte, r está próximo de 1. Quando x e y têm uma correlação linear negativa forte, r está próximo de -1. Quando x e y têm correlação linear positiva perfeita ou correlação linear negativa perfeita, r é igual a 1 ou -1, respectivamente. Quando não há correlação linear, r está próximo de 0. É importante lembrar que quando r está próximo de 0 não significa que não há relação entre x e y, significa apenas que não há relação linear. Veja alguns exemplos. Figura 6: Exemplos de correlações e os respectivos valores do coeficiente “r” . Acesso em 23 de mai. 2019. Para calcular o coeficiente de correlação linear, basta seguir alguns passos: 1º passo: Encontrar a soma dos valores de x: 2º passo: Encontrar a soma dos valores de y: 3º passo: Multiplicar cada valor de x pelo correspondente valor de y e encontrar a soma: 4º passo: Elevar ao quadrado cada valor de x e encontrar sua soma: 5º passo: Elevar ao quadrado cada valor de y e encontrar sua soma: 6º passo: Usar essas cinco somas para calcular o coeficiente de correlação. Para entender melhor, vamos analisar um exemplo, onde vamos calcular o coeficiente de correlação para os dados do produto interno bruto e da emissão dedióxido de carbono. Veja os dados na Tabela 3: Tabela 3: Dados Fonte: Larson (2008). Solução: Para solucionar, primeiro, vamos organizar os dados em uma tabela. Tabela 4: Organização dos dados Fonte: Larson (2008). Agora, vamos preencher os dados. Tabela 5: Organização dos dados Fonte: Elaborada pela Autora. Com essas somas e n=10, o coeficiente de correlação é: O resultado sugere uma correlação linear positiva forte. Interpretando o resultado no contexto dos dados, conforme o produto interno bruto do país aumenta, as emissões de dióxido de carbono tendem a aumentar. O fato de duas variáveis serem fortemente correlacionadas não implica, em si, numa relação de causa e efeito entre elas. Um estudo mais profundo é usualmente necessário para determinar se há uma relação causal entre duas variáveis. Segundo Larson (2008), quando há uma correlação significativa entre duas variáveis, um pesquisador deve considerar as seguintes possibilidades. • Há uma relação direta de causa e efeito entre as variáveis? • Há uma relação reversa de causa e efeito entre as variáveis? Não confunda com . é a soma dos quadrados, ou seja, primeiro você eleva ao quadrado a variável x e depois soma os resultados. Já é o quadrado da soma, isto é, primeiro você soma os valores da variável x e depois eleve o resultado ao quadrado. • É possível que a relação entre duas variáveis possa ser causada por uma terceira variável ou talvez pela combinação de diversas outras variáveis? • É possível que a relação entre duas variáveis seja uma coincidência? O Excel disponibiliza a função chamada CORREL que retorna o coeficiente de correlação entre duas variáveis de dois conjuntos de dados. A sintaxe é: CORREL (matriz1; matriz2). Figura 7: Coeficiente de correlação e EXCEL Fonte: Elaborada pela Autora. A matriz 1 corresponde aos dados da primeira coluna e a matriz 2 corresponde aos dados da segunda coluna. Vamos determinar o coeficiente de correlação através da função CORREL do Excel para as variáveis peso e altura da amostra de 10 alunos da engenharia. Tabela 6: Dados Fonte: Elaborada pela Autora. Agora, veja a solução na Tabela 7: Tabela 7: Solução Fonte: Elaborada pela Autora. Podemos utilizar a tecnologia para encontrar o coeficiente de correlação linear. Para conhecer um pouco mais sobre o Coeficiente de Correlação de Person, leia o artigo: Desvendando os Mistérios do Coeficiente de Correlação de Pearson (r). Nele, você verá as principais propriedades do coeficiente de correlação de Pearson (r), suas respectivas aplicações e limites a partir de uma abordagem descritiva. Para ler o artigo, clique aqui! Acesso em 12 de fev. 2021. Muito bem, após a leitura, você acredita que existe uma relação entre X e Y? O que significa dizer que duas variáveis estão correlacionadas? Bom, é fato que compreender melhor o significado do coeficiente de correlação de Pearson (r) é um passo fundamental para usar um diagrama de dispersão. 1.4 PROPRIEDADES DO COEFICIENTE DE CORRELAÇÃO “R” O coeficiente de correlação apresenta algumas propriedades importantes dentre elas podemos citar: • O intervalo de variação do coeficiente de variação “r “ vai de -1 a +1. • O coeficiente de correlação não possui unidade de medida, ou seja, é uma medida adimensional. • Quanto mais “r” se aproxima de +1, maior é o grau de relacionamento linear positivo entre x e y, ou seja, se x varia em uma direção y variará na mesma direção. • Quanto mais próximo de -1 for “r”, maior será o grau de relacionamento linear negativo entre x e y, ou seja, se x varia em um sentido y variará no sentido inverso. • Quanto mais próximo de zero estiver “r” menor será o relacionamento linear entre x e y. Um valor igual a zero, indicará ausência apenas de relacionamento linear. Para exemplificar, vamos usar uma empresa de cosméticos que desconfia que exista uma forte correlação positiva entre a quantidade de vendedores de produtos a domicílio e o volume de vendas. Para tanto, realizou uma coleta de dados. O resultado dessa coleta é apresentado a seguir: Tabela 8: Dados da coleta Fonte: Elaborado pela Autora. Muito bem, vamos verificar se existe uma correlação forte entre números de vendedores e quantidades de vendas. Resolução: No primeiro passo, para compreendermos o que ocorre, primeiramente, vamos construir o diagrama de dispersão da situação apresentada. Figura 8: Vendas de cosméticos Fonte: Elaborada pela Autora. Quando analisamos percebemos que o diagrama de dispersão nos dá uma boa ideia do comportamento das variáveis. De acordo com o diagrama, aparentemente há correlação positiva forte, pois o número de vendedores está aumentando e a quantidade vendida aumenta também. No segundo passo, vamos calcular o coeficiente de correlação. Veja a Tabela 9: https://periodicos.ufpe.br/revistas/politicahoje/article/viewFile/3852/3156 Tabela 9: Coeficiente de correlação Número de vendedores x Quantidades vendidas y X² Y² x.y 6 340 36 11560 2040 8 356 64 126736 2848 9 400 81 160000 3600 10 398 100 158404 3980 11 421 121 177241 4631 11 444 121 197136 4884 12 433 144 187489 5196 13 464 169 215296 6032 14 467 196 218089 6538 14 500 196 250000 7000 15 521 225 271441 7815 15 489 225 239121 7335 16 566 256 320356 9056 17 580 289 336400 9860 19 602 361 362404 11438 21 631 441 398161 13251 21 645 441 416025 13545 24 662 576 444889 16008 25 700 625 490000 17500 Fonte: Elaborada pela Autora. Para calcularmos o coeficiente de correlação, aplicamos a fórmula: Como encontramos o valor de r = 1, significa que as variáveis em estudo estão relacionadas perfeitamente. Construindo o diagrama de dispersão temos: Figura 9: Diagrama de dispersão Fonte: Elaborada pela Autora. Note na Figura 9 que o diagrama de dispersão segue exatamente uma reta. Bem fácil de identificar, não é mesmo? O coeficiente de correlação é muito utilizado na área de pesquisa clínica ou biomédica. Geralmente um pesquisador se interessa em investigar se os valores de duas ou mais variáveis quantitativas se modificam de forma conjunta em um mesmo sujeito ou objeto de estudo. Nesse sentido, quando o valor de uma variável aumenta, o valor de outra tende a aumentar; ou, inversamente, reduza-se progressivamente. Há uma série de testes estatísticos que exploram a intensidade e o sentido desse comportamento mútuo entre variáveis, os chamados testes de correlação 1,2. O primeiro passo para analisar a correlação entre duas variáveis quantitativas deve ser a visualização do diagrama de dispersão, a fim de identificar se existe uma variabilidade gradual entre os conjuntos de dados, se essa variação é monotônica (predominantemente ascendente ou descendente), se assume uma tendência proporcional (linear) e se a distribuição subjacente dos dados é norma. Após a Aula 6, você é capaz de calcular o coeficiente de correlação entre duas variáveis e identificar se há relação entre elas? Consegue construir o diagrama de dispersão verificando se a relação é forte ou fraca? Caso você tenha conseguido responder a essa questão, parabéns! Você atingiu os objetivos específicos da Aula 6. Caso tenha dificuldades para responder a algumas delas, aproveite para reler o conteúdo desta Aula; e acesse o UNIARAXÁ Virtual e interaja com seus Colegas, Tutor(a) e Professor(a). Você não está sozinho(a) nessa caminhada. Conte conosco! Chegou o momento de complementar seu conhecimento. Vá até seu Ambiente Virtual de Aprendizagem e acesse esta aula para assistir a Video Aula RECAPITULANDO Ao longo desta Aula, estudamos a existência do grau de relação e as variáveis, ou seja, o objetivo de medir e de avaliar o grau de relação existente entre duas variáveis aleatórias. Assim, percebemos que o vínculo entre o número de filhos de uma família e sua renda, por exemplo, pode ser forte, fraca ou nula. Vimos, também, que a correlação linear procura medir a relação entre as variáveis x e y através da disposição dos pontos (x, y) em torno de uma reta e, para isso,utilizamos como instrumento de medida da correlação linear é o coeficiente de correlação de Pearson. Na próxima Aula, estudaremos como aplicar e diferenciar a regressão linear. Encontramo-nos na Aula 7. Até lá! REFERÊNCIAS BARBETTA, P. A. Estatística para cursos de engenharia e informática. 2. ed. São Paulo: Atlas, 2009. BUSSAB, W. O. e MORETTIN, P. A. Estatística Básica. São Paulo: Editora Saraiva, 2003. COSTA NETO, P. L. O. Estatística. 2. ed. São Paulo: Edgard Blücher, 2009. COSTA, Paulo Roberto da. Estatística. 3. ed. Santa Maria: Universidade Federal de Santa Maria, 2011. COUTINHO, Cileda de Q. S.; SILVA, Cláudia B. O nascimento da estatística e sua relação com o surgimento da Teoria de Probabilidade. Revista Integração, n. 41, p.191-196, 2005. CRESPO, Antônio Arnot. Estatística Fácil. 17. ed. São Paulo: Saraiva, 2002. FONSECA, J. S. Estatística aplicada. 2. ed. São Paulo: Atlas, 2013. LARSON, R. Estatística aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2008. MIOT, Hélio Amante. Análise de correlação em estudos clínicos e experimentais. Jornal Vascular Brasileiro, São Paulo;2018. 17(4):275-279. Disponível em < https://www.scielo.br/pdf/jvb/v17n4/1677-5449-jvb-1677-5449174118.pdf> Acesso: jan.2021 MORETTIN, L. G. Estatística básica: probabilidade e inferência. São Paulo: Pearson Prentice Hall, 2010. OLIVEIRA, F. E. M. Estatística e probabilidade: teoria, exercícios resolvidos, exercícios propostos. 2. ed. São Paulo: Atlas, 1999. RAMOS, Raniere. O estatístico. 2015. Site disponível em: https://oestatistico.com.br. Acesso em: 23 de dez. 2018. REIS, Elizabeth. Estatística descritiva. Lisboa: Silabo, 1998. https://www.scielo.br/pdf/jvb/v17n4/1677-5449-jvb-1677-5449174118.pdf https://oestatistico.com.br/
Compartilhar