Prévia do material em texto
ESTATÍSTICA BÁSICA CORRELAÇÃO E REGRESSÃO LINEAR 1. INTRODUÇÃO ........................................................................................................... 3 2. CORRELAÇÃO .......................................................................................................... 4 3. REGRESSÃO ............................................................................................................. 7 4. REVISÃO DA AULA ................................................................................................ 10 5. REFERÊNCIAS ........................................................................................................ 11 8 2 AULA 8 CORRELAÇÃO E REGRESSÃO LINEAR Conhecer a definição; o coeficiente de correlação linear - análise do grau. Aprender a identificar o Diagramas de dispersão - esboço. Interpretar a Equação de regressão linear - método dos mínimos quadrados (estimativas). Outliers. 3 1. INTRODUÇÃO Existem vários tipos diferentes de relacionamentos entre variáveis. Antes de tirar uma conclusão sobre os dados obtidos, você deve primeiro entender como uma variável pode mudar em função de outra variável. Isso significa que você precisa estabelecer como as variáveis estão relacionadas. Relações entre variáveis são estudadas e analisadas antes de se tirar conclusões baseadas nelas. Em ciências naturais e engenharias, isso geralmente é mais simples, pois você pode manter todos os parâmetros, exceto uma delas constante, e estudar como esse parâmetro afeta o resultado em estudo. No entanto, nas ciências sociais, as coisas ficam muito mais complicadas porque os parâmetros podem ou não estar diretamente relacionados. Pode haver várias consequências indiretas e deduzir causa e efeito pode ser desafiador. Somente quando a mudança em uma variável realmente causa a mudança em outro parâmetro existe uma relação causal. Caso contrário, é simplesmente uma correlação. Devido ao fato da relação entre as variáveis ser de natureza quantitativa, a correlação é um instrumento utilizado para descobrir e medir essa relação. A correlação entre variáveis pode ser positiva ou negativa. A correlação positiva implica que um aumento de uma quantidade provoca um aumento na outra, enquanto que, em correlação negativa, um aumento em uma variável causará uma diminuição na outra. Uma descrição através de uma função matemática é possível ser realizada após a identificação de existência de uma relação entre as variáveis. Figura 1.1 1 Fonte: http://www.abgconsultoria.com.br/blog/coeficientes-de-correlacao/. 4 2. CORRELAÇÃO Duas ou mais variáveis são consideradas relacionadas, em um contexto estatístico, se seus valores se alteram de maneira que, quando o valor de uma variável aumenta ou diminui, o mesmo ocorre com o valor da outra variável (embora possa ser na direção oposta). Existirá correlação entre duas variáveis quando estiverem ligadas por uma relação estatística. As técnicas mais utilizadas para investigar a relação entre duas variáveis quantitativas são a correlação e a regressão linear. A correlação quantifica a força da relação linear entre um par de variáveis. A correlação é uma medida estatística (expressa como um número) que descreve o tamanho e a direção de um relacionamento entre duas ou mais variáveis. Uma correlação entre variáveis, entretanto, não significa automaticamente que a mudança em uma variável é a causa da mudança nos valores da outra variável. FIQUE ATENTO Caso seja identificada uma relação entre as variáveis, iremos descrevê-la através de uma função matemática. Um instrumento adequado para a determinação dos parâmetros da função é a regressão. Ao investigar um relacionamento entre duas variáveis, o primeiro passo é mostrar graficamente os valores dos dados em um diagrama de dispersão. Figura 2.2 2 Fonte: https://estatistic.weebly.com/vocabulario. 5 Como você pode observar no gráfico, os pontos se concentram num formato elíptico em diagonal. Podemos imaginar que, quanto mais fina for a elipse, mais ela se aproximará de uma reta. Podemos afirmar então, que a correlação de forma elíptica tem como “imagem” uma reta. Figura 3.3 Como a relação em estudo tem como “imagem” uma reta ascendente, ela é chamada correlação linear positiva. Assim, uma correlação é: Linear positiva se os pontos têm como imagem uma reta ascendente; Linear negativa se os pontos têm como imagem uma reta descendente; Não-linear se os pontos têm como imagem uma curva. 3 Fonte: https://estatistic.weebly.com/vocabulario. 6 EXEMPLIFICANDO Os diagramas apresentam quatro situações distintas: A reta representa a relação perfeita entre X e Y. A relação entre as duas variáveis é negativa, i.e., quando X aumenta Y diminui. A reta é uma boa aproximação da relação entre X e Y. A relação entre as duas variáveis é positiva, i.e., quando X aumenta Y também aumenta. A reta não é uma boa aproximação pois não há relação entre X e Y. A reta não é uma boa aproximação da relação entre X e Y. A relação entre X e Y não é linear. Em um diagrama de dispersão, quanto mais próximos os pontos estiverem de uma linha reta, mais forte será o relacionamento linear entre duas variáveis. Para quantificar a força do relacionamento, podemos calcular o coeficiente de correlação. Coeficiente de correlação linear Na estatística, o coeficiente de correlação r mede a força e a direção de uma relação linear entre duas variáveis em um gráfico de dispersão. O coeficiente de correlação é uma medida que determina o grau em que os movimentos de duas variáveis estão associados. O coeficiente de correlação mais comum, denominado correlação de Pearson, pode ser usado para medir a relação linear entre duas variáveis. Onde n é o número de observações 7 SAIBA MAIS Cálculo do coeficiente de correlação r. Raciocínio por trás do cálculo e r: (https://pt.khanacademy.org/math/statistics-probability/describing- relationships-quantitative-data/scatterplots-and-correlation/v/calculating- correlation-coefficient-r) O valor de r estará sempre entre +1 e -1, ou seja, no intervalo [+1,-1]. Assim: a. Exatamente - 1. Um perfeito relacionamento linear em declive (negativo) b. - 0,70. Um forte relacionamento linear negativo (negativo) c. - 0,50 Um relacionamento moderado em declive (negativo) d. - 0,30. Um fraco relacionamento linear em declive (negativo) e. Nenhum relacionamento linear f. +0,30. Um relacionamento linear ascendente (positivo) fraco g. +0,50. Um relacionamento positivo (positivo) h. +0,70. Um forte relacionamento linear positivo (positivo) i. Exatamente +1. Um relacionamento linear ascendente (positivo) perfeito 3. REGRESSÃO A análise de regressão descreve matematicamente a relação entre um conjunto de variáveis independentes e uma variável dependente. Imaginando que temos X como uma variável independente e Y como uma variável dependente, vamos procurar determinar o ajustamento de uma reta à relação entre essas variáveis, ou seja, vamos obter uma função definida por: Y = aX + b, onde a e b são parâmetros. Sejam duas variáveis X e Y, entre as quais exista uma correlação acentuada, embora não perfeita, como as que formam a tabela a seguir: xi 5 8 7 10 6 7 9 3 8 2 yi 6 9 8 10 5 7 8 4 6 2 Podemos observar o gráfico de dispersão desta correlação: 8 Podemos concluir, pela forma do diagrama, que se trata de uma correlação retilínea, de modo a permitir o ajustamento de uma reta, imagem da função definida por: Y = aX + b Vamos, então,calcular os valores dos parâmetros a e b com a ajuda das fórmulas: e Formemos então a tabela de valores: 9 Teremos então, Para traçarmos a reta no gráfico, basta determinar dois de seus pontos: X = 0 -> Y = 0,89 X = 5 -> Y = 0,86 * 5 + 0,89 = 5,19 Assim, temos: 10 4. REVISÃO DA AULA Vimos que: Existem vários tipos diferentes de relacionamentos entre variáveis; Somente quando a mudança em uma variável realmente causa a mudança em outro parâmetro existe uma relação causal. Caso contrário, é simplesmente uma correlação; A correlação entre variáveis pode ser positiva ou negativa; As técnicas mais utilizadas para investigar a relação entre duas variáveis quantitativas são a correlação e a regressão linear; Em um diagrama de dispersão, quanto mais próximos os pontos estiverem de uma linha reta, mais forte será o relacionamento linear entre duas variáveis; O coeficiente de correlação é uma medida que determina o grau em que os movimentos de duas variáveis estão associados; A análise de regressão descreve matematicamente a relação entre um conjunto de variáveis independentes e uma variável dependente. Este conteúdo foi produzido pelo Núcleo de Educação a Distância da Universidade Brasil e sua reprodução e distribuição são autorizadas apenas para alunos regularmente matriculados em cursos de graduação, pós-graduação e extensão da Universidade Brasil e das Faculdades e dos Centros Universitários que mantêm Convênios de Parceria Educacional ou Acordos de Cooperação Técnica com a Universidade Brasil, devidamente celebrados em contrato. 11 5. REFERÊNCIAS CLARK, Jeffrey; DOWNING, Douglas. Estatística aplicada. São Paulo: Saraiva, 2011. CRESPO, Antonio Arnot. Estatística fácil. São Paulo: Saraiva, 2009. FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Curso de estatística. São Paulo: Atlas, 1996. SPIEGEL, Murray R. Estatística. São Paulo: Pearson, 2009. TRIOLA, Mario F. Introdução à estatística: atualização da tecnologia. Rio de Janeiro: LTC, 2014.