Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Disciplina de Estatística e Probabilidade Prof. André Gomes REGRESSÃO E CORRELAÇÃO 1. INTRODUÇÃO A regressão e a correlação são duas técnicas estreitamente relacionadas que envolvem uma forma de estimação. Mais especificamente, a análise de correlação e regressão compreende a análise de dados amostrais para saber se e como duas ou mais variáveis estão relacionadas uma com a outra. A correlação mede o grau, ou força, de relacionamento de duas variáveis. A regressão dá uma equação que descreve o relacionamento em termos matemáticos. 2. DIAGRAMA DE DISPERSÃO Primeiramente precisamos visualizar através de um gráfico se as variáveis em questão demonstram algum tipo de relacionamento. Construímos então o Diagrama de dispersão. Diagrama de dispersão é simplesmente uma representação de pontos de dados em um gráfico xy. O eixo y é utilizado para representar a variável dependente que interessa a quem toma as decisões, enquanto o eixo x é para representar uma variável que pode ser controlada ou medida por quem toma a decisão. Exemplo 1: A tabela abaixo nos fornece o valor investido em propaganda (em R$) e valores de venda (em R$) numa semana, que imagino estarem relacionadas de alguma forma. Neste caso a variável independente é valor em propaganda, pois, as vendas dependem das propagandas realizadas. Propaganda (em R$) Vendas (em R$) 5 80 6 70 9 80 10 90 12 95 14 140 16 140 22 230 28 250 32 280 O diagrama nos sugere que pode existir uma relação entre as vendas e os custos de propaganda. Em particular ele sugere que, quanto mais dinheiro for gasto em propaganda, maior será o valor das vendas (propaganda é a variável independente e a venda é a variável dependente). O padrão dos pontos forma aproximadamente uma linha reta, sugerindo que é possível que exista uma associação linear entre as duas variáveis. Diagrama de Dispersão 0 50 100 150 200 250 300 0 5 10 15 20 25 30 35 Propaganda (em R$) Ve nd as (e m R $) 2 3. COEFICIENTE DE CORRELAÇÃO DE PEARSEN Nosso próximo passo será medir a força desse relacionamento entre as variáveis através do coeficiente de correlação de Pearsen. Esse coeficiente resulta sempre em um valor entre −1 e 1 e sua interpretação depende do seu valor numérico e do seu sinal. Quanto mais próximo de −1 e 1, mais forte é o grau de relação linear existente entre X e Y e, quanto mais próximo de 0, mais fraco é o grau desta relação. Uma correlação linear negativa indica que quando o valor de uma variável aumenta, o valor da outra diminui (decrescente) e, uma correlação linear positiva, indica que quando o valor de uma variável aumenta, o valor da outra também aumenta (crescente). Para uma amostra de tamanho n, o coeficiente é calculado por: No Excel: 1º) Digitar a tabela 2º) Digitar numa célula qualquer =CORREL(coluna x; coluna y) enter. Assim: Valores próximos de +1 sugerem forte associação positiva entre as variáveis. (se aproxima de uma reta crescente) Valores próximos de -1 sugerem forte associação negativa entre as variáveis. (se aproxima de uma reta decrescente) Valores próximos a 0 sugerem possivelmente nenhuma correlação entre as variáveis – uma não depende da outra. (não se aproxima de uma reta). 2222 . . yynxxn yxyxn r 3 4 Calculando o coeficiente de correlação do Exemplo 1: 1º) organizar a tabela com colulas x, y, xy, x2 e y2 2º) Aplicar a fórmula. Propaganda Vendas x y xy x2 y2 5 80 400 25 6400 6 70 420 36 4900 9 80 720 81 6400 10 90 900 100 8100 12 95 1140 144 9025 14 140 1960 196 19600 16 140 2240 256 19600 22 230 5060 484 52900 28 250 7000 784 62500 32 280 8960 1024 78400 154 1455 28800 3130 267825 Exemplo 2 : Verifique se existe correlação e encontre o valor de r dos dados da tabela: Investimento (R$) Lucro (R$) 1,00 5,00 1,50 6,10 2,30 6,30 3,50 7,00 4,00 8,10 5,00 8,50 Solução: 1º) Construir o diagrama, X – investimento Y - Lucro 2º) Organizar a tabela com os valores da fórmula: Investi- mento Lucro X Y XY X2 Y2 1 5 5 1 25 1,5 6,1 9,15 2,25 37,21 2,3 6,3 14,49 5,29 39,69 3,5 7 24,5 12,25 49 4 8,1 32,4 16 65,61 5 8,5 42,5 25 72,25 17,3 41 128,04 61,79 288,76 3º) Aplicar a fórmula Somente visualizando o gráfico concluímos que existe correlação, verifiquemos agora a intensidade, encontrando o r. Investimento x Lucro 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 Investimento (R$) L u c ro ( R $ ) 97,0 4176,2886.3,1779,616 413,1704,1286 r 22 98,0 56,65240 63930 4256330400 63930 5612257584 63930 r 145526782510154313010 14551542880010 r yyn.xxn yxy.xn r 22 2222 Portanto, há uma forte associação positiva entre as variáveis 5 Concluímos que existe forte relação entre as variáveis. Do que foi apresentado, podemos observar que o coeficiente de correlação de Pearson é uma ferramenta útil para a investigação de relação linear entre duas variáveis quantitativas. A ausência de relação linear, quando indicada por este coeficiente, não implica na ausência de relação entre elas. Outro tipo de relação pode estar presente, como, por exemplo, a não-linear (curvas, parábolas...). 4. REGRESSÃO Depois de concluído que existe uma correlação entre os dados, podemos encontrar uma fórmula que os descreve para prever valores futuros, a regressão. No caso dos dados estarem distribuídos linearmente (reta), cuja fórmula geral é y = a.x + b precisamos encontrar os valores de a e b, sendo: a = inclinação da reta (função INCLINAÇÂO) b = o valor que intercepta o eixo y (função INTERCEPTAÇÃO) Para calcular os valores dos parâmetros a e b utilizamos as fórmulas: Reta de Regressão Linear do Exemplo 1: Reta de Regressão Linear do Exemplo 2: 22 xxn y.xy.xn a xayb ydevaloresdosmédiay xdevaloresdosmédiax :onde A tabela já fornece os dados É preciso calcular a média da coluna x e y. 684,154,154296,85,145b 4296,8 7584 63930 xxn y.xy.xn a 22 684,15x4296,8y bxay 4543,488,28249,083,6b 8249,0 45,71 94,58 xxn y.xy.xn a 22 454,4x823,0y bxay 6 Se quisemos descobrir o valor do lucro se o investimento for x = 10,50, substitui o valor de x na função e encontro y que representa o lucro, ou seja, Y = 0,825 . 10,50 + 4,46 Y = 13,12 5. EXERCÍCIOS Importante: Nos exercícios você pode utilizar os recursos do Excel para facilitar e verificar os cálculos, porém é importante que você aprenda a fazer os cálculos com as fórmulas. 1) Nas tabelas abaixo verifique a correlação entre as variáveis x e y construindo o diagrama de dispersão. a) X 2 3 4 5 6 Y 5 6,5 7 7,9 8,9 b) X 5 10 14 15 19 Y 5 12 15 17 20 c) X 4 6 8 10 12 Y 10 3 12 5 7 d) X 1 5 10 15 20 25 30 Y 20 17 14 11 8 5 2 2) Um grupo de pessoas fez uma avaliação de peso aparente de alguns objetos. Com o peso real e a média dos pesos aparentes, dados pelo grupo, obteve-se a tabela:Peso Real 18 30 42 62 73 97 120 Peso Aparente 10 23 33 60 91 98 159 Calcule o índice (coeficiente)de correlação. 3) A tabela abaixo apresenta valores que mostram como o comprimento de uma barra de aço varia conforme a temperatura, encontre o coeficiente de correlação: Temperatura °C 10 15 20 25 30 Comprimento (mm) 1003 1005 1010 1011 1014 Resp. 0,98 4) Considere os resultados de dois testes, X e Y, obtidos por um grupo de alunos da escola A: X 11 14 19 19 22 28 30 31 34 37 Y 13 14 18 15 22 17 24 22 24 25 a) Verifique, pelo diagrama, se existe correlação retilínea. b) Em caso afirmativo, calcule o coeficiente de correlação. Resp: 0,89 5) Encontre a reta de regressão linear dos três exercícios anteriores, usando as fórmulas. Depois faça o gráfico da dispersão com a reta de regressão no Excel. 7 6) Para o exercício (3) calcule: a) o valor estimado do comprimento da barra para a temperatura de 18°C. Resp. 1007,5 mm b) o valor estimado do comprimento da barra para a temperatura de 35°C. Resp. 1017 mm 7) Verifique se é possível encontrar uma equação que descreva aproximadamente bem os dados da tabela abaixo. Se sim, encontre essa equação. 8) O lucro mensal de certa empresa varia com o investimento em propaganda. A função que representa essa relação é Lucro = 6,2 . Investimento + 170, ou seja, y = 6,2.x+170. Calcule: a) o lucro obtido para um investimento de R$ 100,00. Resp: R$ 790,00 b) se a meta da empresa é lucrar R$ 2.000,00 no mês, quanto deverá investir? Resp: R$ 295,16 9) A tabela abaixo apresenta os custos (Reais por hora) de manutenção de máquinas conforme sua idade (meses). Determinar a reta dos custos sobre a idade e fazer uma previsão de custo para uma máquina de 45 meses. Resp. y = 0,4x + 8,4, R$ 26,40 por hora Idade (meses) 6 15 24 33 42 Custos 9,7 16,5 19,3 19,2 26,9 10) A partir da tabela: a) calcule o coeficiente de correlação, Resp: -0,99 b) determine a reta ajustada. Resp: Y = -11,4.X+76,6 c) estime o valor de Y para X = 0. Resp: 76,6 11) Certa empresa, estudando a variação da demanda de seu produto em relação à variação de preço de venda, obteve a tabela: Preço (X) 38 42 50 56 59 63 70 80 95 110 Demanda (Y) 350 325 297 270 256 246 238 223 215 208 a) Determine o coeficiente da correlação. Resp. - 0,90 b) Estabeleça a equação da reta ajustada. Resp. y = -1,87x + 386,8 c) Estime Y para X = 60 e X = 120. Resp. 274,6 e 162,4 X 1 2 3 4 5 Y 7 5 4 2 1 X 1 2 3 4 5 6 Y 70 50 40 30 20 10
Compartilhar