Baixe o app para aproveitar ainda mais
Prévia do material em texto
CORRELAÇÃO E REGRESSÃO LINEAR 1 Introdução Em experimentos que procuram determinar a relação existente entre duas variáveis, devemos observar as relações que podem existir entre estas variáveis. Como por exemplo: - Tempo de prática de esportes e ritmo cardíaco; - Resultado da produção e tempo do processo; - Número de cliente e vendas; - Tempo de estudo e nota na prova; Assim, quando consideramos essas variáveis procuramos verificar se existe alguma relação entre as variáveis de cada um dos pares e qual o grau dessa relação. Uma vez caracterizada a relação, procuramos descrevê-la através de uma função matemática. A regressão é o instrumento adequado para a determinação dos parâmetros da função. Sendo a relação entre as variáveis de natureza quantitativa, dizemos que a correlação é o instrumento adequado para descobrir e medir esta relação. 2 CORRELAÇÃO Definição: Existe uma correlação entre duas variáveis quando os valores de uma variável estão relacionados, de alguma maneira, com os valores da outra variável. Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre elas. 2.1 Diagrama de Dispersão O comportamento conjunto de variáveis pode ser observado através de um gráfico denominado diagrama de dispersão. O diagrama de dispersão dá ideia do comportamento de duas variáveis. Quando uma variável cresce e a outra em média também cresce, diz-se que entre as duas variáveis existe correlação positiva. Quando uma das variáveis cresce e a outra em média diminui, diz-se que entre as duas variáveis existe correlação negativa. Linear Positiva: se todos os pontos têm como imagem uma reta ascendente, ou seja, à medida que os valores de x crescem os valores correspondentes de y também crescem. Linear Negativa: se os pontos têm como imagem uma reta descendente, ou seja, à medida que os valores de x crescem os correspondentes de y decrescem. Não-Linear: se os pontos não possuem como imagem uma reta, sendo assim, no gráfico (a) tem correlação entre x e y, mas o padrão não é uma reta. No gráfico (b) não há correlação alguma entre x e y. A correlação entre duas variáveis pode ser perfeita. A correlação é perfeita positiva quando acréscimos constantes em uma das variáveis determinam acréscimos constantes na outra. A correlação é perfeita negativa quando acréscimos constantes em uma das variáveis determinam decréscimos constantes na outra variável. Contudo a correlação raramente é perfeita. O grau de correlação entre duas variáveis varia bastante. 2.2 Coeficiente de Correlação Linear O coeficiente de correlação linear mede a força da correlação linear entre valores quantitativos de x e y em uma amostra, e ainda o sentido dessa correlação (positivo ou negativo). O coeficiente de correlação linear é chamado de coeficiente de correlação de Pearson, em homenagem ao autor. Sendo assim, o coeficiente de correlação de Pearson é dado por: 𝑟 = 𝑛 ∑ 𝑥𝑦 − (∑ 𝑥)(∑ 𝑦) √[𝑛 ∑ 𝑥2 − (∑ 𝑥)2][𝑛 ∑ 𝑦2 − (∑ 𝑦)2] Onde r é o coeficiente de correlação, n é o número de observações, 𝑥 𝑒 𝑦 são as observações de uma mesma linha. Para que o Coeficiente de Correlação de Pearson possa descrever um resultado expressivo, é imprescindível que ele se aproxime de uma função linear. Isso ocorre quando verificamos que o diagrama de dispersão se comporta aparentemente como uma reta. O coeficiente de correlação r é uma medida cujo valor se situa no intervalo compreendido pelos valores [-1, +1]. Assim temos: r = 1, correlação linear perfeita positiva. r = -1, correlação linear perfeita negativa. r = 0, não há correlação linear entre as variáveis x e y. Algebricamente, podemos tirar conclusões segundo os parâmetros: 0,6 ≤ | r | ≤ 1 →Ideal 0,3 ≤ | r | < 0,6 →Correlação Média 0 < | r | < 0,3 →Correlação Muito Fraca. Não serve! r = 0 →Não existe Correlação. Exemplo 1: Um jornal quer verificar a eficácia de seus anúncios na venda de carros usados. A tabela a seguir mostra o número de anúncios e o correspondente número de carros vendidos por 6 companhias que usaram apenas este jornal como veículo de propaganda. Existe relação linear entre as variáveis? Construa o diagrama de dispersão e calcule o coeficiente de correlação linear r. Companhia Anúncios (X) Carros Vendidos (Y) A 74 139 B 45 108 C 48 98 D 36 76 E 27 62 F 16 57 Total 246 540 Tabela: Cálculo do Coeficiente de Correlação r Companhia Anúncios (X) Carros Vendidos (Y) yx 2x 2y A 74 139 B 45 108 C 48 98 D 36 76 E 27 62 F 16 57 Total 246 540 Exemplo 2: Faça um diagrama de dispersão e calcule o coeficiente de correlação para os dados apresentados na tabela. Discuta o resultado. Tabela 1: Peso (kg), e comprimento (cm) de sete recém-nascidos. Peso (X) Comprimento (Y) 3,5 51 3,7 49 3,1 48 4,2 53 2,8 48 3,5 50 3,2 49 Tabela: Cálculo do Coeficiente de Correlação r Peso (X) Comprimento (Y) yx 2x 2y 3,5 51 3,7 49 3,1 48 4,2 53 2,8 48 3,5 50 3,2 49 ∑ = 24 ∑ = 348 EXERCÍCIOS: 1) Explique o que cada um dos seguintes coeficientes de correlação informa sobre a relação entre X e Y: a) r = 1 b) r = -1 c) r = 0 d) r = 0,90 e) r = -0,90 2) O diagrama de dispersão deve ser feito para estabelecer: a) Se as variáveis estão ou não correlacionadas; b) Se as variáveis são positivas; c) Se as variáveis são negativas; d) A qualidade das variáveis; 3) Faça o diagrama de dispersão e calcule os valores de r para os conjuntos de dados da tabela 1. Tabela 1: Dois conjuntos de pares de valores de duas variáveis Conjunto A Conjunto B X y x y 1 1 1 1 2 3 1,5 2 3 6 3 3 4 5 4,5 2 5 8 5 1 4) Calcule o coeficiente de correlação para os dados apresentados na tabela 2. Tabela 2: Idade gestacional, em semanas, e peso ao nascer (kg), de recém-nascidos. Dade gestational Peso ao nascer 28 1,25 32 1,25 35 1,75 38 2,25 39 3,25 41 3,25 42 4,25 5) Suponha que os seguintes dados foram obtidos de pacientes com enfisema: X é o número de anos que o paciente fumou e Y é a avaliação (uma nota) do próprio médico do paciente sobre a diminuição da capacidade pulmonar (média numa escala de zero a 100). Os resultados para 10 pacientes estão na tabela. Calcule o valor do coeficiente de correlação. Tabela 3: Tempo do hábito de fumar (X), em anos, e diminuição da capacidade pulmonar (Y), avaliada pelo médico do paciente. Tempo do hábito de fumar (X) Diminuição da capacidade pulmonar (Y) 25 55 36 60 22 50 15 30 48 75 39 70 42 70 32 55 28 30 33 35 6) O volume máximo de oxigênio inalado (𝑉𝑂2 𝑚á𝑥) tem sido usado como medida da situação cardíaca tanto de indivíduos saudáveis como de pessoas que sofrem de doenças cardíacas. Os dados de 𝑉𝑂2 𝑚á𝑥 em mililitros por quilograma por minuto para 12 homens saudáveis depois de exercícios estão na tabela. Desenhe um diagrama de dispersão. Olhando o diagrama, você diria que 𝑉𝑂2 𝑚á𝑥 diminui quando aumenta a atividade? Tabela 4: Duração de exercícios (min), e 𝑉𝑂2 𝑚á𝑥, em mililitros por quilograma por minuto, para 12 homens saudáveis. Duração do exercício 𝑉𝑂2 𝑚á𝑥 10 82 9,5 73 10,2 68 10,5 74 11 66 11,3 63 11,6 58 12 54 12,1 56 12,5 51 12,8 55 13 44 3 REGRESSÃO LINEAR Sempre que desejamos estudar determinada variável em função de outra fazemos uma análise de regressão. A análise de regressão tem por objetivo descrever, através de um modelo matemático, a relação entre as duas variáveis. O termo regressão é usado para designar a expressão de uma variável dependente (y) em função de outra (x), considerada independente. Se a relação funcional entre elas é expressa por uma função do 1º grau, cuja representação geométrica é uma linha, a regressão é dita linear.Pode-se representar o conjunto de pontos (𝑥, 𝑦) pela equação da reta: 𝑦 = 𝛼 + 𝛽𝑥 Onde 𝛼 é o parâmetro que determina o intercepto e 𝛽 é o parâmetro que determina a inclinação. A inclinação 𝛽 e o intercepto 𝛼 também podem ser encontrados usando as seguintes fórmulas. 𝛽 = 𝑛 ∑ 𝑥𝑦 − (∑ 𝑥)(∑ 𝑦) 𝑛(∑ 𝑥2) − (∑ 𝑥) 2 𝛼 = �̅� − 𝛽�̅� onde n é o número de observações, �̅� é a média dos valores de x e �̅� é a média dos valores de y. 3.1 Coeficiente de determinação (𝑹𝟐). O coeficiente de determinação é a proporção da variação de y explicada pela variação de x. O coeficiente de determinação é dado pelo quadrado do coeficiente de correlação. Não pode portanto, ser negativo. Varia entre 0 e 1, inclusive. Para interpretar o coeficiente de determinação, é melhor transforma-lo em porcentagem, multiplicando seu resultado por 100. Exemplo: 𝑅2= 0,45 ou 45%. Significa que a variável x explica 45% dos valores de y. Os 55% são explicados por outros fatores (resíduos). Exemplo 1: Um jornal quer verificar a eficácia de seus anúncios na venda de carros usados. A tabela a seguir mostra o número de anúncios e o correspondente número de carros vendidos por 6 companhias, que usaram apenas este jornal como veículo de propaganda. Obtenha a equação de regressão linear. Qual a previsão do número de carros vendidos para um volume de 70 anúncios? Companhia Anúncios (X) Carros Vendidos (Y) yx 2x 2y A 74 139 10286 5476 19321 B 45 108 4860 2025 11664 C 48 98 4704 2304 9604 D 36 76 2736 1296 5776 E 27 62 1674 729 3844 F 16 57 912 256 3249 Total 246 540 25172 12086 53458 2) Ajuste uma reta de regressão aos dados apresentados na tabela, para estudar o comprimento dos recém- nascidos. Calcule o coeficiente de determinação. Peso (X) Comprimento (Y) yx 2x 2y 3,5 51 178,5 12,25 2 601 3,7 49 181,3 13,69 2 401 3,1 48 148,8 9,61 2 304 4,2 53 222,6 17,64 2 809 2,8 48 134,4 7,84 2 304 3,5 50 175 12,25 2 500 3,2 49 156,8 10,24 2 401 ∑ = 24 ∑ = 348 ∑ = 1197,4 ∑ = 83,52 ∑ = 17320 EXERCÍCIOS: 1) A tabela a seguir resume alguns dados de idade da pessoa e sua expectativa de vida, concluídos a partir de uma pesquisa realizada com certa comunidade. Pedem-se: a) o coeficiente de correlação e a equação de regressão linear; b) o diagrama de dispersão e o gráfico da equação de regressão linear; Idade da pessoa em anos (x) Expectativa de vida em anos (y) 20 51 25 50 30 45 35 44 40 28 45 27 50 23 55 18 60 9 65 8 70 10 2) É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y). Massa muscular (Y) Idade (X) 82.0 71.0 91.0 64.0 100.0 43.0 68.0 67.0 87.0 56.0 73.0 73.0 78.0 68.0 80.0 56.0 65.0 76.0 84.0 65.0 116.0 45.0 76.0 58.0 97.0 45.0 100.0 53.0 105.0 49.0 77.0 78.0 73.0 73.0 78.0 68.0 a) Construa o diagrama de dispersão e interprete-o. b) Calcule o coeficiente de correlação linear entre X e Y. c) Ajuste uma reta de regressão para a relação entre as variáveis Y: massa muscular (dependente) e X: idade (independente). d) Considerando a reta estimada dada no item (c), estime a massa muscular média de mulheres com 50 anos. 3) Um pesquisador deseja verificar se um instrumento para medir a concentração de determinada substância no sangue está bem calibrado. Para isto, ele tomou 15 amostras de concentrações conhecidas (X) e determinou a respectiva concentração através do instrumento (Y), obtendo: X 2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0 Y 2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7 9,6 10,0 10,1 a) Construa o diagrama de dispersão para esses dados. c) Calcule o coeficiente de correlação entre as variáveis X e Y. d) Obtenha a reta de regressão da variável Y em função de X.
Compartilhar