Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística e Probabilidade Aplicada Prof. Diogo F. dos Santos Correlação e regressão linear Correlação e regressão linear Já aprendemos como representar um conjunto de dados a partir de medidas de tendência central e como medir a dispersão desses dados. Contudo, as vezes estamos interessados na relação entre duas variáveis e se é linear. Assim, é possível ajustar uma função para predizer o valor de uma variável, dado o valor da outra. Correlação A correlação entre duas variáveis existe quando os valores de uma variável estão relacionados com os valores de outra variável. Se a relação dos valores dessas variáveis for linear, então essa associação é chama de correlação linear. Correlação linear Inicialmente, a correlação linear é verificada fazendo um diagrama de dispersão, com os pares 𝑥𝑖 , 𝑦𝑖 , e a exploração visual do gráfico para verificar se existe uma tendência linear. Como nos gráficos (a) e (b) ao lado. Coeficiente de correlação linear De forma objetiva, a medida da força da correlação linear é calculada com o coeficiente de correlação linear 𝒓 , também chamado de Coeficiente de Pearson, em homenagem ao matemático Karl Pearson (1857-1936). O coeficiente de correlação linear 𝒓 é dado por 𝑟 = 𝑛σ𝑥𝑦 − σ𝑥σ𝑦 𝑛σ𝑥2 − σ𝑥 2 𝑛σ𝑦2 − σ𝑦 2 , onde 𝑥 e 𝑦 são as variáveis relacionada e 𝑛 é o número de pares de dados amostrais. O arredondamento do valor de 𝒓 pode ser calculado com 3 casas decimais. Propriedades do coeficiente de correlação linear 1) O valor de 𝒓 de está ente −1 e 1, isto é, −1 ≤ 𝑟 ≤ 1. 2) A correlação linear é verificada sempre aos pares. 3) O valor de 𝒓 não mede uma relação que não é linear. 4) O valor de 𝒓 não é afetado pela escolha de 𝑥 e 𝑦. 5) O valor de 𝒓 é muito sensível a valores atípicos. 6) O valor de 𝒓 independe das unidades de 𝑥 e 𝑦. Requisitos a serem satisfeitos para calcular o 𝒓 1) Os dados são uma amostra aleatória simples de dados quantitativos. 2) Os pontos grafados no diagrama de dispersão se aproximam do padrão de uma reta. 3) O diagrama de dispersão mostra que não há valores atípicos. Exemplo de como calcular o valor de 𝑟 Os custos emparelhados (aos pares) de um pedaço de pizza e da tarifa de uma passagem de metrô em Nova Iorque ao longo dos anos são mostrados a seguir: Ano 1960 1973 1986 1995 2002 2003 Custo da pizza 0,15 0,35 1,00 1,25 1,75 2,00 Tarifa de metrô 0,15 0,35 1,00 1,35 1,50 2,00 Passos para efetuar o cálculo de 𝑟 1) Escolher qual conjunto de dados é a variável 𝑥 e qual é 𝑦. 2) Verificar os requisitos a serem satisfeitos para calcular o 𝒓. 3) Colocar cada tipo de dado 𝑥 e 𝑦 nas colunas de uma tabela. 4) Acrescentar mais três colunas para 𝑥2, 𝑦2 e 𝑥𝑦 e realizar os cálculos. 5) Efetuar a somatória de todas as colunas. 6) Calcular o 𝒓 a partir da fórmula. Resolução do exercício Passo 1 𝑥 = Custo da pizza 𝑦 = Tarifa de metrô Custo da pizza ($) Ta ri fa d e m et rô ( $ ) Passo 2 0 0,3 0,6 0,9 1,2 1,5 1,8 2,1 0 0,3 0,6 0,9 1,2 1,5 1,8 2,1 𝑥 𝑦 0,15 0,15 0,35 0,35 1,00 1,00 1,25 1,35 1,75 1,50 2,00 2,00 Resolução do exercício 𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦 0,15 0,15 0,0225 0,0225 0,0225 0,35 0,35 0,1225 0,1225 0,1225 1,00 1,00 1 1 1 1,25 1,35 1,5625 1,8225 1,6875 1,75 1,50 3,0625 2,25 2,625 2,00 2,00 4 4 4 σ𝑥 = 6,5 σ𝑦 = 6,35 σ𝑥2 = 9,77 σ𝑦2 = 9,2175 σ𝑥𝑦 = 9,4575 𝑥 = Custo da pizza; 𝑦 = Tarifa de metrô Passo 3 Passo 4 Passo 5 Número de dados 𝑛 = 6 Resolução do exercício 𝑟 = 𝑛σ𝑥𝑦 − σ𝑥 σ𝑦 𝑛σ𝑥2 − σ𝑥 2 𝑛σ𝑦2 − σ𝑦 2 𝑟 = 6 ∙ 9,4575 − 6,5 ∙ 6,35 6 ∙ 9,77 − 6,5 2 6 ∙ 9,2175 − 6,35 2 𝑟 = 15,47 15,6609 𝑟 = 0,988 Passo 6 σ𝑥 = 6,5 σ𝑦 = 6,35 σ𝑥2 = 9,77 σ𝑦2 = 9,2175 σ𝑥𝑦 = 9,4575 Erros comuns envolvendo a correlação linear • Concluir que correlação implica causalidade. Exemplo: Quanto maior for o consumo de sorvete, maior será a taxa de crime. • Uma correlação mais forte que outra não significa que é melhor, só tem uma intensidade diferente. Exercícios para determinar o valor de 𝑟 1) Os valores emparelhados de Índice de Preço ao Consumidor (IPC), o custo de uma fatia de pizza e a tarifa de metrô em Nova Iorque são listados a seguir. Calcule os coeficientes de correlação entre (a) IPC e pizza e (b) IPC e metrô. Ano 1960 1973 1986 1995 2002 2003 IPC 30,2 48,3 112,3 162,2 191,9 197,8 Custo da pizza 0,15 0,35 1,00 1,25 1,75 2,00 Tarifa de mêtro 0,15 0,35 1,00 1,35 1,50 2,00 R.: 1a) 0,985 1b) 0,978 Exercícios para determinar o valor de 𝑟 2) Pesquisadores observaram que as adolescentes são muito mais propensas a gerar bebês com baixo peso ao nascer do que as mulheres adultas. Como esses bebês têm taxas de mortalidade mais altas, inúmeras investigações se concentraram na relação entre a idade da mãe e o peso do bebê ao nascer. Um desses estudos obteve os dados a seguir sobre x = idade materna (anos) e y = peso do bebê (g). x 15 17 18 15 16 19 17 16 18 19 y 2289 3393 3271 2648 2897 3327 2970 2535 3138 3573 R.: 0,884 Exercícios para determinar o valor de 𝑟 3) O Teste de Oxidação de Óleo de Turbina (TOST) e o Teste de Oxidação de Bomba Rotativa (RBOT) são dois procedimentos diferentes para avaliar a estabilidade de oxidação de óleos de turbina a vapor. Um artigo relatou as observações x = tempo TOST (h) e y = tempo RBOT (min) para 12 amostras de óleo. x 4200 3600 3750 3675 4050 2770 4870 4500 3450 2700 3750 3300 y 370 340 375 310 350 200 400 375 285 225 345 285 R.: 0,923 Exercícios para determinar o valor de 𝑟 4) O artigo “Size Effect in Shear Strength of Large Beams—Behavior and Finite Element Modelling” relatou um estudo de várias características de grandes vigas profundas e rasas de concreto armado testadas até a falha. Considere os seguintes dados sobre x = força do cubo e y = força do cilindro (ambos em MPa): x 55,1 44,83 46,32 51,1 49,89 45,2 48,18 46,7 54,31 41,5 y 49,1 31,2 32,8 42,6 42,5 32,7 36,21 40,4 37,42 30,8 x 47,5 52 52,25 50,86 51,66 54,77 57,06 57,84 55,22 y 35,34 44,8 41,75 39,35 44,07 43,4 45,3 39,08 41,89 R.: 0,761 Exercícios para determinar o valor de 𝑟 5) O arsênico é encontrado em muitas águas subterrâneas e em algumas águas superficiais. Pesquisas recentes sobre efeitos na saúde levaram a Agência de Proteção Ambiental a reduzir os níveis permitidos de arsênico na água potável, assim, muitos sistemas de água não são mais compatíveis com os padrões. Isso despertou interesse no desenvolvimento de métodos para remover o arsênico. Os dados que acompanham o x = pH e y = arsênio removido (%) por um processo específico foram lidos em um gráfico de dispersão no artigo “Optimizing Arsenic Removal During Iron Removal: Theoretical and Practical Considerations”. x 7,01 7,11 7,12 7,24 7,94 7,94 8,04 8,05 8,07 y 60 67 66 52 50 45 52 48 40 x 8,90 8,94 8,95 8,97 8,98 9,85 9,86 9,86 9,87 y 23 20 40 31 26 9 22 13 7 R.: -0,950 Regressão linear Regressão linear é o processo de traçar uma reta através dos pares de dados em um diagrama de dispersão. A reta resume esses dados, o que é útil quando fazemos previsões, conforme o gráfico ao lado. Essa reta de regressão ou de melhor ajuste é calculada a partir do coeficiente de correlação 𝒓 , obtendo uma equação de regressão linear. Equação de regressão Dada uma coleção de dados amostrais emparelhados, a equação de regressão 𝑦 = 𝑎 + 𝑏𝑥 descreve a relação entre as duas variáveis 𝑥 e 𝑦, onde 𝑎 é o intercepto e 𝑏 é a inclinação da reta. A equação de regressão expressa a relação entre 𝑥 e 𝑦. Geralmente, é utilizada para prever valores que estão fora do conjunto de dados, sendo dado o valor de 𝑥 para calcular o de 𝑦. Definição dos coeficientes 𝑎 e 𝑏 A inclinação 𝑎 e o intercepto 𝑏 são encontrados com as seguintes fórmulas. 𝑏 = 𝑛σ𝑥𝑦 − σ𝑥 σ𝑦 𝑛σ𝑥2 − σ𝑥 2 𝑒 𝑎 = σ𝑦σ𝑥2 −σ𝑥σ𝑥𝑦 𝑛σ𝑥2 − σ𝑥 2 ou de outro modo com 𝑏 = 𝑟 𝑠𝑦 𝑠𝑥 𝑒 𝑎 = ത𝑦 − 𝑏 ҧ𝑥 , sendo 𝑟 o coeficiente de correlação linear, 𝑠𝑥 e 𝑠𝑦 os desvios-padrão e ҧ𝑥 e ത𝑦 as média aritméticas dos dados de 𝑥e 𝑦. Na maioria das situações os coeficientes 𝑎 e 𝑏 podem ser arredondados para três dígitos significativos. Uso da equação de regressão para predições As equações de regressão podem ser úteis para a predição do valor da variável, dado algum valor da outra variável. Ao fazermos tais predições, devemos considerar o seguinte: A equação de regressão é um bom modelo? • A reta se ajusta aos dados • 𝒓 indica que há uma correlação linear • A predição não está muito além dos dados amostrais (extrapolação) Substitua o valor de 𝑥 na equação de regressão 𝑦 = 𝑎 + 𝑏𝑥 O melhor valor predito de 𝑦 é ത𝑦 (a média) Sim Não Exemplo Calcule e desenhe a reta de regressão para o exemplo anterior dos custos emparelhados do custo de um pedaço de pizza e da tarifa de uma passagem de metrô em Nova Iorque ao longo dos anos. Realize o cálculo para os dois pares de equações com os dados já calculados e preveja o valor da tarifa de metrô quando o custo do pedaço de pizza for 1,50 dólares. Exemplo Cálculo da equação de regressão com o primeiro par de equações: σ𝑥 = 6,5 σ𝑦 = 6,35 σ𝑥2 = 9,77 σ𝑦2 = 9,2175 σ𝑥𝑦 = 9,4575 𝑏 = 𝑛σ𝑥𝑦 − σ𝑥 σ𝑦 𝑛σ𝑥2 − σ𝑥 2 ⟹ 𝑏 = 6 ∙ 9,4575 − 6,5 ∙ 6,35 6 ∙ 9,77 − 6,5 2 ⟹ 𝑏 = 0,945 𝑥 = Custo da pizza; 𝑦 = Tarifa de metrô 𝑎 = σ𝑦σ𝑥2 − σ𝑥σ𝑥𝑦 𝑛σ𝑥2 − σ𝑥 2 ⟹ 𝑎 = 6,35 ∙ 9,77 − 6,5 ∙ 9,4575 6 ∙ 9,77 − 6,5 2 ⟹ 𝑎 = 0,0346 Logo, a equação da reta é dada por 𝑦 = 𝑎 + 𝑏𝑥 . Substituindo os coeficientes, obtém-se 𝑦 = 0,0346 + 0,945𝑥 Número de dados 𝑛 = 6 Exemplo Cálculo da equação de regressão com o segundo par de equações: Coeficientes 𝑏 = 0,988 ∙ 0,7067 0,7386 ⟹ 𝑏 = 0,945 𝑥 = Custo da pizza; 𝑦 = Tarifa de metrô 𝑥 𝑦 𝑥 − ҧ𝑥 2 0,15 0,15 0,871 0,35 0,35 0,538 1,00 1,00 0,00694 1,25 1,35 0,0278 1,75 1,50 0,444 2,00 2,00 0,840 σ𝑥 = 6,5 σ𝑦 = 6,35 σ =2,728 Desvio-padrão 𝑠𝑥 = σ 𝑥 − ҧ𝑥 2 𝑛 − 1 ⟹ 𝑠𝑥 = 0,7386 Logo, a equação da reta é dada por 𝑦 = 0,0346 + 0,945𝑥 . Médias ҧ𝑥 = σ𝑥 𝑛 = 6,5 6 = 1,0833 ത𝑦 = σ𝑦 𝑛 = 6,35 6 = 1,0583 𝑎 = ത𝑦 − 𝑏 ҧ𝑥 ⟹ 𝑎 = 1,0583 − 0,945 ∙ 1,0833 𝑎 =0,0346 𝑠𝑦 = σ 𝑦 − ത𝑦 2 𝑛 − 1 ⟹ 𝑠𝑦 = 0,7067 𝑟 = 0,988 Exemplo: Como fazer a reta de regressão Custo da pizza ($) Ta ri fa d e m et rô ( $ ) 0 0,3 0,6 0,9 1,2 1,5 1,8 2,1 0 0,3 0,6 0,9 1,2 1,5 1,8 2,1 Para fazer o gráfico da equação da reta de regressão linear são necessários dois pontos. Para isso, podemos calculá-los com uma tabela 𝑥𝑦, como a seguir. 𝑥 𝑦 = 0,0346 + 0,945𝑥 0,3 𝑦 = 0,3181 2 𝑦 = 1,9246 Exemplo: Como prever um valor O cálculo de um valor que não existe no conjunto de dados com a equação de regressão é realizado com a inserção do valor de uma das variáveis na equação, como a seguir. Equação de regressão → 𝑦 = 0,0346 + 0,945𝑥 Custo da pizza → 𝑥 = 1,50 Logo, 𝑦 = 0,0346 + 0,945 ∙ 1,50 𝑦 = 1,45 , Portanto, a tarifa de metrô será de $1,45 quando o custo de pedaço de pizza for $1,50.
Compartilhar