Prévia do material em texto
Correlação e Regressão Linear Núcleo de Educação a Distância www.unigranrio.com.br Rua Prof. José de Souza Herdy, 1.160 25 de Agosto – Duque de Caxias - RJ Reitor Arody Cordeiro Herdy Pró-Reitoria de Programas de Pós-Graduação Nara Pires Pró-Reitoria de Programas de Graduação Lívia Maria Figueiredo Lacerda Produção: Gerência de Desenho Educacional - NEAD Desenvolvimento do material: Jhoab Pessoa de Negreiros, Sergio Ricardo Pereira de Mattos e Tereza Luzia de Mello Canalli 1ª Edição Copyright © 2019, Unigranrio Nenhuma parte deste material poderá ser reproduzida, transmitida e gravada, por qualquer meio eletrônico, mecânico, por fotocópia e outros, sem a prévia autorização, por escrito, da Unigranrio. Pró-Reitoria Administrativa e Comunitária Carlos de Oliveira Varella Núcleo de Educação a Distância (NEAD) Márcia Loch Sumário Correlação e Regressão Linear Para início de conversa… .................................................................. 04 Objetivos ......................................................................................... 05 1. Diagrama de Dispersão ......................................................... 06 2. Coeficiente de Correlação Linear de Pearson ............................ 08 2.1 Nível de Significância ........................................................... 12 3. Equação de Regressão .......................................................... 14 Referências ....................................................................................... 20 Exercícios ......................................................................................... 21 4 Estatística Para início de conversa… Neste capítulo, estudaremos as Medidas de Correlação e Regressão Linear em distribuições normais (ou que se comportem como tal). O coeficiente de correlação linear de Pearson visa verificar a existência de correlação linear entre duas variáveis quantitativas e, em caso afirmativo, determinar sua intensidade e o seu tipo (correlação positiva ou negativa). Já a regressão se propõe a estimar o valor de uma variável (dependente), baseada no conhecimento da outra (independente), com o auxílio de uma equação de regressão. Apesar de existirem correlações não lineares (quadrática, exponencial, logarítmica e cúbica), trataremos apenas da correlação linear simples. Também veremos a aplicabilidade desses conceitos em diversas áreas do conhecimento e faremos os cálculos por meio da fórmula e com o auxílio do software Excel. 5Estatística Objetivos ▪ Fazer correlações entre variáveis e calcular o coeficiente. ▪ Identificar a reta de regressão e prever dados. 6 Estatística 1. Diagrama de Dispersão Em diversas situações do nosso cotidiano ou em pesquisas científicas, é comum fazermos a seguinte pergunta: “Será que isto tem alguma coisa a ver com aquilo?” Para respondermos tal indagação, estatisticamente falando, precisamos verificar se há correlação entre as variáveis e, em caso positivo, que tipo de correlação existe (linear, exponencial, quadrática etc.). Segundo Farber e Larson (2007), “Uma correlação é uma relação entre duas variáveis. Os dados podem ser representados por pares ordenados (x, y) onde x é a variável independente (variável explicativa) e y é a variável dependente (variável resposta)”. Ao representarmos, em um sistema cartesiano ortogonal, esses pares ordenados, teremos um gráfico denominado diagrama de dispersão. Esse gráfico é um bom indicativo da possível existência e do tipo de correlação entre as variáveis x e y, mas não pode ser o único parâmetro para classificação. Olhando para o diagrama, é possível imaginarmos o traçado de uma curva que mais se aproxime dos pontos marcados (dados) – essa curva recebe o nome de Curva de Ajustamento. Os gráficos a seguir são exemplos de diagramas de dispersão feitos no Excel. Observe que, na Figura 1, os dados estão dispostos de maneira “alinhada” (a curva de ajustamento é a reta desenhada em vermelho), na Figura 2, não há uma correlação entre os pontos, enquanto, na Figura 3, há uma correlação, porém, não é linear. Figura 1: Dados dispostos de forma alinhada. Fonte: Elaborado pelos autores. 2 4 6 8 10 12 0 5 10 15 20 25 30 7Estatística Figura 2: Ausência de correlação entre pontos. Fonte: Elaborado pelos autores. Figura 3: Correlação. Fonte: Elaborado pelos autores. É importante notar que não podemos julgar se duas variáveis têm correlação apenas pelo gráfico. Dependendo da escala utilizada, podemos ter impressões diferentes sobre o mesmo conjunto de dados. A Figura 4, por exemplo, é o mesmo diagrama da Figura 5, porém, a imagem foi “achatada”. Olhando a figura dessa maneira, temos a impressão que a curva de ajustamento é uma reta, o que não é verdadeiro (basta observar a Figura 3 para perceber o quão longe os pontos estão de formar uma reta). 2 4 6 8 10 12 0 5 10 15 20 25 30 2 31 4 5 6 7 8 9 10 11 0 0,2 0,4 0,6 0,8 1 1,2 8 Estatística Figura 4: Dados dispostos de forma alinhada. Fonte: Elaborado pelos autores. 2. Coeficiente de Correlação Linear de Pearson A fim de não dependermos da nossa percepção para verificarmos se há correlação linear entre duas variáveis, podemos utilizar o Coeficiente de Correlação Linear de Pearson (r) , definido por: 2 2 2 2 ( ) ( ) ( ) ( ) ( ) ( ( ) )( ) ) x y x y nr x y x y n n ⋅ ⋅ − = − − ∑ ∑∑ ∑ ∑∑ ∑ Em que n representa o número de pares da amostra. Esse coeficiente mede o grau de relacionamento linear entre os valores de duas variáveis quantitativas, “x” e “y”, de um mesmo conjunto de dados. Esse coeficiente pode assumir valores apenas no intervalo [-1, +1]. Isto é, o valor de r está entre -1 (inclusive) e +1 (inclusive). Dentro desse intervalo, quanto mais próximo o valor de r estiver de -1 ou +1, mais forte será a intensidade da correlação. Por outro lado, quanto mais o seu valor se aproximar de zero, mais fraca será a intensidade da correlação linear entre as variáveis em questão. De acordo com o valor de r , podemos classificar uma correlação linear da seguinte maneira: 21 4 6 8 10 120 0,2 0,4 0,6 0,8 1 1,2 9Estatística Valor do coeficiente de correlação linear ( r ) Tipo de correlação linear 0 < r ≤ 1 Correlação linear positiva r = 0 Não há correlação linear entre as variáveis -1 ≤ r < 0 Correlação linear negativa Tabela 1: Tipos de correlação linear simples. Fonte: Elaborado pelos autores. É importante observar que o resultado do coeficiente de correlação linear de Pearson nos indica apenas se há uma correlação linear entre as variáveis, nada diz a respeito de outros tipos de correlação. Ou seja, o fato de o valor de r ser nulo, não indica que não há correlação entre as variáveis, apenas que não tem correlação linear simples. Por exemplo, o coeficiente de correlação dos dados apresentados no diagrama de dispersão a seguir é quase nulo (r = 0,01), mas a existência de relação entre elas é nítida. Figura 5: Exemplo de coeficiente de correlação. Fonte: Elaborado pelos autores. Vamos ver outros exemplos? Exemplo 1 0 20 40 60 80 100 120 10 Estatística A tabela a seguir exibe as medidas das variáveis x e y de uma amostra de dados. Verifique se há correlação linear entre elas. Variáveis Dados x 2 4 3 5 6 8 10 8 6 7 y 5 7 8 9 11 15 18 14 11 12 Vamos completar a tabela com os valores que precisamos substituir na fórmula do coeficiente de Pearson. x y x y x . y 2 5 4 25 10 4 7 16 49 28 3 8 9 64 24 5 9 25 81 45 6 11 36 121 66 8 15 64 225 120 10 18 100 324 180 8 14 64 196 112 6 11 36 121 66 7 12 49 144 84 Somando todas as colunas, temos: 59x =∑ , 110y =∑ , 2 403x =∑ , 2 1350y =∑ e 735xy =∑ . Substituindo esses valores na fórmula, temos: 2 2 2 2 ( ) ( ) ( ) ( ) ( ) ( ( ) ) ( ) ) x y x y nr x y x y n n ⋅ ⋅ − = − ⋅ − ∑ ∑∑ ∑ ∑∑ ∑ 2 2 (59) (110)735 10 (59) (110)(403 ) (1350 ) 10 10 ⋅ − = − ⋅ − 735 649 (54,9) (140) − = ⋅ 11Estatística 86 87,669 = 0,9809=O valor de r é muito próximo de 1 e há correlação linear positiva e muito forte, ou seja, os pontos no diagrama de dispersão estão “bem próximos” da reta de ajustamento. Em situações práticas reais, não precisamos fazer todos esses cálculos manualmente. Há diversos softwares que nos fornecem esse resultado, apenas inserindo os dados. Optamos por fazê-lo passo a passo neste exemplo para que você entenda o processo utilizado na determinação do Coeficiente de Correlação Linear de Pearson. Exemplo 2 Com o auxílio do Excel, verifique se há correlação linear entre as variáveis “x” e “y”, exibidas na tabela a seguir: Variáveis Dados x 2 4 3 5 6 8 10 8 6 7 y 5 7 8 9 11 15 18 14 11 12 Observe que os dados são os mesmos do Exemplo 1, só que, agora, faremos o cálculo de r, com o auxílio do Excel. Primeiro digitamos, em uma planilha do Excel, as duas colunas de dados; em seguida, clicamos em qualquer célula em branco e nela digitamos a fórmula associada à correlação. No nosso caso, de acordo com a imagem a seguir, a primeira coluna começa em A2 e termina em A11, enquanto a segunda coluna começa em B2 e termina com B11. Assim, temos que digitar na “célula em branco” escolhida, a seguinte fórmula: =CORREL(A2:A11;B2:B11). Ao clicar na tecla “enter”, automaticamente o valor do coeficiente linear de Pearson aparecerá na célula. 12 Estatística Observe que o valor dado pelo Excel confere com o obtido por meio da fórmula. 2.1 Nível de Significância O fato de estarmos trabalhando com uma amostra visando extrapolar a conclusão para a população nos impõe a necessidade de verificação da significância do coeficiente de correlação amostral obtido, isto é, saber se ele realmente é significante para a população. Para verificarmos isso, utilizamos os valores críticos – esses valores são tabelados e estão disponíveis em vários livros de Estatística e também podem ser obtidos com o auxílio do Excel. A seguir, mostraremos uma parte dessa tabela e faremos o teste de significância do valor encontrado no Exemplo 1. Se |r| for maior do que o valor crítico, então, a correlação será significante para aquele valor de α. Em caso contrário, não há evidência que haja significância. Um valor de α = 0,05 significa que, em 5% das vezes, você estará considerando o coeficiente como significante, quando ele realmente não é. 13Estatística Valor de n Nível de significância αα = 0,05 Nível de significância αα = 0,01 4 0,950 0,999 5 0,878 0,959 6 0,811 0,917 7 0,754 0,875 8 0,707 0,834 9 0,666 0,798 10 0,632 0,765 11 0,602 0,735 12 0,576 0,708 13 0,553 0,684 14 0,532 0,661 15 0,514 0,641 16 0,497 0,623 17 0,482 0,606 18 0,468 0,590 19 0,456 0,575 20 0,444 0,561 25 0,396 0,505 30 0,361 0,463 35 0,334 0,430 40 0,312 0,403 Tabela 2: Valores críticos para o coeficiente de Correlação de Pearson (α = 0,05 e αα = 0,01). Fonte: Elaborado pelos autores. Como o valor do |r| encontrado no Exemplo 1 é igual a 0,9809, e esse valor é maior do que o tabelado (0,632) para uma amostra de 10 dados 14 Estatística (n = 10), então, a correlação é significante para α = 0,05. Observe que também seria significante para α = 0,01, pois 0,9809 também é maior do que o valor tabelado (0,765). Existem alguns outros testes que podem ser feitos para determinar se a correlação entre duas variáveis é significante, porém, não fazem parte do escopo deste capítulo. 3. Equação de Regressão Uma vez constatado que há correlação linear entre duas variáveis e que é significante, podemos determinar a equação da reta que melhor modela os dados. Essa reta é conhecida como Reta de Regressão e sua equação serve para estimarmos um valor para a variável dependente (y) a partir de um valor dado para a variável independente (x). Essa estimativa só pode ser feita dentro de um intervalo contemplado na amostra. Assim, dada uma amostra de dados emparelhados, a Equação de Regressão definida como ŷ = a . x + b descreve a relação entre as variáveis em questão. A seguir, temos as fórmulas para cálculo dos valores de “a” e de “b”, que compõem a equação de regressão acima. 2 2 ( ) ( ) ( ) ( ) ( ( ) x y x y na x x n ⋅ ⋅ − = − ∑ ∑∑ ∑∑ b y a x= − ⋅ Em que xx n = ∑ e yy n = ∑ são, respectivamente, as médias aritméticas entre as variáveis x e y. Vamos ver alguns exemplos? 15Estatística Exemplo 3 A tabela a seguir exibe o valor mensal gasto (x) com propagandas e o lucro líquido mensal (y), do respectivo mês, de uma rede de Pousadas. a. Calcule o coeficiente de correlação linear entre x e y. b. Verifique se há correlação linear significante para α = 0,05. c. Caso exista correlação linear significante, estime o valor do lucro, caso sejam investidos 2,7 mil reais em propagandas. Gasto mensal com propaganda (em milhares de Reais) Lucro mensal (em milhares de Reais) 3,5 84,0 2,8 69,5 2,0 46,0 1,8 42,2 2,2 56,0 3,8 91,5 4,0 94,0 2,4 57,0 3,1 75,9 2,9 72,2 3,0 73,2 3,6 87,0 a. Com o auxílio do Excel, determinamos o coeficiente de correlação linear de Pearson (r) e o somatório das variáveis x e y: 16 Estatística b. Como r = 0,995, existe forte correlação linear positiva entre x e y. Já que o valor do |r| é maior do que o valor crítico tabelado, que é 0,576 (Tabela 1, n = 12 e α = 0,05), então, a correlação é significante. c. Agora, determinaremos os valores de a e b para montarmos a equação de regressão: 2 2 ( ) ( ) ( ) ( ) ( ( ) x y x y na x x n ⋅ ⋅ − = − ∑ ∑∑ ∑∑ 2 (35,1) (848,52617,73 12 (35,1)108,4 12 a ⋅ − = − 135,87 5,74 a = 23,67a = 17Estatística 35,1 2,92 12 x x n = = =∑ 848,5 70,70 12 y y n = = =∑ b y a x= − ⋅ 70,70 (23,67) (2,92) 1,59 b b = − ⋅ = Daí, a equação de regressão será ŷ = 23,76 . x + 1,59. Para sabermos a estimativa para o valor de y quando x for igual a 2,7, substituímos “x” por “2,7”, na equação de regressão. Daí, temos: ŷ = 23,76 . (2,7) + 1,59 = 65,74. Ou seja, quando forem investidos R$ 2.700,00 em propaganda, estima-se um lucro de R$ 65.740,00. Porém, isso é apenas uma estimativa, uma previsão. É importante observar que só podemos estimar valores de y para x que estejam dentro do intervalo dessa amostra, ou seja, para valores entre o menor (1,8) e o maior (4,0) valor de x da tabela. Exemplo 4 A tabela a seguir exibe a medida do pH (variável x) e a porcentagem de área (variável y) do transepto de uma lagoa ocupada pela planta aquática da espécie Cabomba furcata, em diferentes análises. a. Calcule o coeficiente de correlação linear entre x e y. b. Verifique se há correlação linear significante para α = 0,01. 70,70 (23,67) (2,92) 1,59 b b = − ⋅ = 18 Estatística pH da água (x) Área ocupada do transepto, em % (y) 6,8 80 6,9 90 7,5 100 7,1 100 6,7 100 6,8 100 6,9 100 7,1 100 7,8 100 6,5 50 6,4 80 7,1 100 6,2 25 6,4 20 6,1 10 5,2 20 6,8 100 6,3 20 8,3 100 8,1 100 Tabela 3: Medida do pH da água e porcentagem de área ocupada pela Cabomba furcata, Silva Jardim, Rio de Janeiro, 2019. Fonte: Adaptado de Canalli (2019). 19Estatística Solução: a. Os dados foram digitados no Excel e, após a digitação da fórmula de correlação, nos foi dado o valor coeficiente de correlação linear de Pearson, que é igual a 0,7409. b. Como o valor do coeficiente de correlação é 0,7409, e esse valor é maior do que o encontrado na Tabela 2, para n = 20 e α = 0,01, que é 0,561, então, a correlação é significante. O coeficiente de correlação de Pearson serve para verificarmos se há uma correlação linear entre duas variáveis (x e y), seu tipo e intensidade. Caso a correlação exista e seja significante, podemos determinar a equação da reta de regressão. Essa equação nos permite estimar o valor de y, dado um x pertencente ao intervalo em estudo. 20 Estatística Referências CANALLI, Y. M. Dados Abióticos da Lagoa de Juturnaíba. Silva Jardim, 2019. FARBER, B.; LARSON, R. Estatística aplicada. São Paulo: Prentice Hall, 2007. 21Estatística Exercícios 1. Um pesquisador deseja descobrirse há alguma correlação entre a variável x e y. Para isso, ele determinou o coeficiente de correlação linear entre duas variáveis. Se o valor encontrado foi r = −0,985, podemos garantir que: a. Há uma correlação linear positiva e muito fraca entre as variáveis. b. Há uma correlação linear negativa e muito fraca entre as variáveis. c. Há uma correlação linear negativa e muito forte entre as variáveis. d. Há uma correlação linear positiva e muito forte entre as variáveis. e. Há uma correlação, mas não podemos garantir que seja linear. 2. A tabela a seguir exibe a idade (x) dos entrevistados e número de livros (y) lidos por eles nos últimos 12 meses. O valor do coeficiente de correlação linear de Pearson entre x e y é igual a 0,0374. De acordo com esses dados, é possível fazer uma estimativa de quantos livros uma pessoa de 19 anos teria lido no período citado? 22 Estatística 3. Dentre os valores a seguir, qual não pode representar o coeficiente de correlação linear de Pearson entre as variáveis x e y? a. r = −0,995 b. r = 0,625 c. r = 0 d. r = 1,1 e. r = 0,312 Respostas 1. Letra C. 2. Como o valor de r é muito próximo de zero, não há correlação linear significante entre a idade do leitor e o número de livros que ele lê. Observe que, para n = 15, com nível de significância igual 0,05, o valor do |r| deveria ser maior do que 0,514. Portanto, não há como estimar o valor de y apenas com esses dados. 3. Letra D, pois o valor de r tem que ser um número maior ou igual a −1 e menor ou igual a +1. Isto é, -1 ≤ r ≤ + 1 . Título da Unidade Objetivos Introdução _gjdgxs _dusx8w7xvgxr _j4xpihe7y0w4 Conceitos Básicos Para início de conversa... Objetivo 1. População 2. Amostra 2.1 Tamanho de uma Amostra 2.2 Amostragem 2.3 Técnicas de Amostragem 3. Variáveis Referências Representação Gráfica e Tabular Para início de conversa… Objetivo 1. Tipos de Gráficos 1.1 Gráficos em Coluna 1.2 Gráfico de Linha 1.3 Gráfico em Setor Circular 1.4 Histograma 1.5 Pictograma 2. Tipos de Tabelas 2.1 Confecção de uma Tabela Simples 2.1.1 Título da Tabela 2.1.2 Cabeçalho 2.1.3 Coluna Indicadora 2.1.4 Corpo da Tabela 2.2 Séries Estatísticas 2.2.1 Histórica, Cronológica ou Temporal 2.2.2 Geográfica, Espacial ou Territorial 2.2.3 Específica ou Categórica 3. Distribuição de Frequência 3.1 Tabela Primitiva 3.2 Rol 3.3 Construção de Distribuição de Frequências Referências _GoBack Medidas de Posição Para início de conversa… Objetivo 1. Média 1.1 Média Aritmética Simples de uma Amostra de Dados 1.1.2 Dados Agrupados em Classes 1.2 Média Aritmética Ponderada 1.3 Média Geométrica (G) 1.4 Média Harmônica Simples (H) 2. Moda 2.1 Dados Não Agrupados em Classes 2.2 Dados Agrupados em Classes 3. Mediana ( Md ) 3.1 Dados Não Agrupados em Classes 3.2 Dados Agrupados em Classes 3.3 Separatriz 3.3.1 Percentil 3.3.1.1 Dados Agrupados em Classes 3.3.2 Decil 3.3.2.1 Dados Agrupados em Classes 3.3.3 Quartil 2.3.3.1 Dados Agrupados em Classes Referências Exercícios Resolvidos MTBlankEqn _GoBack Medidas de Dispersão Para início de conversa… Objetivos 1. Variância e Desvio Padrão 1.1 Variância e Desvio Padrão de Dados Não Agrupados em Classes 1.1.1 Variância e Desvio Padrão de uma População 1.1.2 Variância e Desvio Padrão de uma Amostra de Dados 1.2 Variância e Desvio Padrão de Dados Agrupados em Classes 2. Coeficiente de Variação (CV) 3. Desvio Médio (DM) Referências Exercícios _GoBack Medidas de Assimetria e Curtose Para início de conversa… Objetivos 1. Assimetria 2. Curtose Referências Exercícios _GoBack _Hlk16375251 Correlação e Regressão Linear Para início de conversa… Objetivos 1. Diagrama de Dispersão 2. Coeficiente de Correlação Linear de Pearson 2.1 Nível de Significância 3. Equação de Regressão Referências Exercícios