Baixe o app para aproveitar ainda mais
Prévia do material em texto
REGRESSÃO E CORRELAÇÃO LINEAR PROF. DR. EDMAN ALTHEMAN CONCEITO EM VÁRIOS ESTUDOS ESTATÍSTICOS, DESEJA-SE ESTABELECER RELAÇÕES QUE PERMITAM PREVER O VALOR DE UMA OU MAIS VARIÁVEIS EM TERMOS DO CONHECIMENTO QUE TEMOS DE OUTRA VARIÁVEL. NÃO É RAZOÁVEL SE PREVER QUE, COM O CONHECIMENTO DESSAS RELAÇÕES, POSSA-SE OBTER O VALOR EXATO ESPERADO PARA A VARIÁVEL SOB ESTUDO. NA MAIOR PARTE DOS CASOS, CONSEGUIREMOS ESTABELECER VALORES MÉDIOS. O MÉTODO MAIS UTILIZADO PARA O AJUSTE DE CURVAS NESSES ESTUDOS DE REGRESSÃO É O MÉTODO DOS MÍNIMOS QUADRADOS PASSO A PASSO PARA DETERMINAÇÃO DE UMA EQUAÇÃO MATEMÁTICA QUE ESTABELEÇA A RELAÇÃO ENTRE DUAS VARIÁVEIS (OU SEJA, ESTUDO DO AJUSTE DE CURVAS PARA ESSAS VARIÁVEIS) Devemos decidir que tipo de curva e, daí, que tipo de equação de previsão queremos utilizar Devemos encontrar a equação particular que seja a melhor em algum sentido Devemos investigar certas questões relativas aos méritos da equação escolhida e de previsões feitas a partir dela PASSO A PASSO PARA DETERMINAÇÃO DE UMA EQUAÇÃO MATEMÁTICA QUE ESTABELEÇA A RELAÇÃO ENTRE DUAS VARIÁVEIS O primeiro tipo de problema, em geral, é resolvido pela inspeção direta dos dados. Plotam-se os valores em gráficos de escalas convenientes ( métrica, logarítmica etc.) e verifica-se visualmente a adequação. PASSO A PASSO PARA DETERMINAÇÃO DE UMA EQUAÇÃO MATEMÁTICA QUE ESTABELEÇA A RELAÇÃO ENTRE DUAS VARIÁVEIS Para os problemas seguintes, podemos introduzir o conceito de correlação entre variáveis, o qual procura explicar como as variações de valores em uma variável (chamada independente) pode afetar as variações de valores da outra variável (chamada dependente) O coeficiente de correlação R, compreendido entre -1 < R < 1 , permite verificar a intensidade com as variáveis são afetadas. Em módulo, quanto maior o valor de R, maior o grau de correlação e maior a determinação da influencia da variável independente sobre a dependente R é calculado pela fórmula: R = / √ * , com = nΣ = nΣ = nΣxx)*( EXEMPLO Deseja-se verificar o grau de correlação existente entre o número de anos de estudo formal dos componentes com mais de 30 anos de uma pequena comunidade e o valor dos rendimentos mensais advindos do trabalho assalariado dessas pessoas. Os valores pesquisados foram: PESSOA ANOS DE ESTUDO SALÁRIO (SM/MÊS) 1 15 10 225 100 150 2 11 9 121 81 99 3 8 9 64 81 72 4 8 7 64 49 56 5 10 9 100 81 90 6 4 5 16 25 20 7 6 5 36 25 30 8 11 8 121 64 88 9 8 7 64 49 56 10 8 6 64 36 48 TOTAL 89 75 875 591 709 = nΣ 10*875 - = 829 = nΣ 10*591 - = 285 = nΣxx)*( 10*709 – 89*75 = 415 R = / √ * = 415/√ 829*285 = 0,85 = 85% Portanto, verifica-se que há uma forte correlação entre os anos de escolaridade e a remuneração recebida pela pessoa PASSO A PASSO PARA DETERMINAÇÃO DE UMA EQUAÇÃO MATEMÁTICA QUE ESTABELEÇA A RELAÇÃO ENTRE DUAS VARIÁVEIS A equação da reta que procura representar o gráfico linear obtido pela aplicação do método dos mínimos quadrados aos dados que relacionam as variáveis independente e dependente é a que segue: X Y / => EXEMPLO: No exemplo anterior, determine a equação da reta de regressão linear para os dados assinalados X Y / => = 415/829 = 0,50 = 75/10-0,50*89/10 = 3,05 Assim, por essa equação, uma pessoa com 11 anos de estudo formal (cursou até o ensino médio, por exemplo, teria remuneração de 8,55 SM. Com a mesma equação, verificamos que, para ter uma remuneração de 12 SM, a pessoa deveria ter desenvolvido 18 anos de estudo formal. Exemplo 1: Semana Altura (m) 1 5 2 12 3 16 4 22 5 34 6 38 7 41 8 45 9 50 Determine o coeficiente de correlação linear e interprete os resultados. Determine a equação da reta de regressão que define o crescimento do pé de feijão. Determine a altura que o pé de feijão tinha com 3,5 semanas de vida. Exemplo 2: É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y). Massa muscular (Y) Idade (X) 82.0 71.0 91.0 64.0 100.0 43.0 68.0 67.0 87.0 56.0 73.0 73.0 78.0 68.0 80.0 56.0 65.0 76.0 84.0 65.0 116.0 45.0 76.0 58.0 97.0 45.0 100.0 53.0 105.0 49.0 77.0 78.0 73.0 73.0 78.0 68.0 Exemplo 2: Massa muscular (Y) Idade (X) 82.0 71.0 91.0 64.0 100.0 43.0 68.0 67.0 87.0 56.0 73.0 73.0 78.0 68.0 80.0 56.0 65.0 76.0 84.0 65.0 116.0 45.0 76.0 58.0 97.0 45.0 100.0 53.0 105.0 49.0 77.0 78.0 73.0 73.0 78.0 68.0 a) Construa o diagrama de dispersão e interprete-o. b) Calcule o coeficiente de correlação linear entre X e Y. c) Ajuste uma reta de regressão para a relação entre as variáveis Y: massa muscular (dependente) e X: idade (independente). d) Considerando a reta estimada dada no item (c), estime a massa muscular média de mulheres com 50 anos Exemplo 3: Os dados a seguir correspondem à variável renda familiar e gasto com alimentação (em unidades monetárias) para uma amostra de 25 famílias. Construa o diagrama de dispersão da variável gasto com alimentação (Y) em função da renda familiar (X). b) Calcular o coeficiente de correlação entre essas variáveis c) Obtenha a equação de regressão do gasto com alimentação em função da renda familiar. d) Qual o significado prático do valor da inclinação da reta de regressão do item (c)? Renda Familiar (X) Gasto com Alimentação (Y) 3 1,5 5 2,0 10 6,0 10 7,0 20 10,0 20 12,0 20 15,0 30 8,0 40 10,0 50 20,0 60 20,0 70 25,0 Exemplo 4: Durante certo período, foram feitos investimentos numa empresa. A Tabela 12.17 mostra os benefícios colhidos nos períodos que correspondem aos investimentos realizados na empresa. Calcule o coeficiente de correlação de Pearson. Estabeleça uma função matemática (reta de ajuste) que explique a dependência existente entre os investimentos e os benefícios obtidos Exercícios de correlação e regressão linear 5- Determine o grau de correlação e a equação da reta de regressão linear simples para os dados abaixo: Gastos em treinamento (*U$1000) Receita após treinamento (*U$1000) XY X2 Y2 2,4 225 1,6 184 2,0 220 2,6 240 1,4 180 1,6 184 2,0 186 2,2 215 Exercícios de correlação e regressão linear 6- Dados o tempo de serviço de 10 funcionários de uma companhia de seguros e o número de clientes que cada um possui, verifique se existe uma associação entre estas variáveis: Anos de serviço (x) No. De clientes (y) XY X2 Y2 2 48 3 50 4 56 5 52 4 43 6 60 7 62 8 58 8 64 10 72 Calcule as medidas descritivas destas duas variáveis; b) Construa o diagrama de dispersão e anote os valores mínimo e máximo de X e Y que aparecem no gráfico; c) Trace no diagrama de dispersão as retas y =X e x =Y e analise o gráfico; d) Calcule e interprete o coeficiente de correlação. Maior valor de x=10, maior valor de y =72 Menor valor de x=2, menor valor de y= 43 No. De clientes (y) 2 3 4 5 4 6 7 8 8 10 48 50 56 52 43 60 62 58 64 72 Maior valor de x=10, maior valor de y =72 Menor valor de x=2, menor valor de y= 43 No. De clientes (y) 2 3 4 5 4 6 7 8 8 10 48 50 56 52 43 60 62 58 64 72 Exercícios de correlação e regressão linear 7- Uma pesquisa de perfil feita com investidores de um grande fundo, dentre outras questões, perguntou a idade dos aplicadores e o percentual de suas rendas utilizado para investimentos. Os dados obtidos foram: IDADE 20 25 30 35 40 45 50 55 60 %INVESTIIM. 10 15 24 30 40 43 36 41 41 Pode-se estimar se há correlação entre estas variáveis? Em qual grau? Qual seria a equação da reta media que expressaria esta correlação? Qual a estimativa de % de investimento de uma pessoa com 47 anos? Qual seria a idade esperada para um % de investimento de 28%? 36,703 X= 47 Y=28 36,0803 AJUSTE DE CURVA EXPONENCIAL Equaçãoda curva exponencial y = b y = b log y = log b => log y = log b + log log y = log b + xloga => Y= logy B=logb A=loga Y = B + Ax => Y = Ax+B equação da reta AJUSTE DE CURVA EXPONENCIAL Equação da curva exponencial y = b AJUSTE DE CURVA EXPONENCIAL Equação da curva exponencial y = b AJUSTE DE CURVA EXPONENCIAL Equação da curva exponencial y = b AJUSTE DE CURVA EXPONENCIAL EXERCÍCIO: Pretende-se fazer uma estimativa do número de pessoas contaminadas por um vírus, com a finalidade de guiar as politicas publicas para disponibilização de equipamentos, e pessoal médico para atendimento dos futuros pacientes. Os dados de que se dispõe permitem inferir que essa projeção deve ser baseada em um modelo exponencial de crescimento (pelo menos até seu pico). Com base nos dados, determine a equação de projeção dessa curva. Qual a estimativa de contaminados no 100º dia. DIA CONTAMINADOS X 1000 X2 Y2 XY 1 0,01 10 0,10 20 1 30 4 40 12 50 20 60 35 Elabore o diagrama dos dados e a curva da equação de regressão Gastos em treinamento (*U$1000) X Receita após treinamento (*U$1000) Y XYX2Y2 2,4 2255405,7650625 1,6 184294,42,5633856 2 220440448400 2,6 2406246,7657600 1,4 1802521,9632400 1,6 184294,42,5633856 2 186372434596 2,2 2154734,8446225 15,816343289,832,44337558 Sxy=501,2 Sxx=9,88R=0,912905285 91% Syy=30508 a=50,72874494 y=50,72a +104,06 b=104,0607287 Anos de serviço (x) No. De clientes (y) XYX2 Y2 2489642304 35015092500 456224163136 552260252704 443172161849 660360363600 762434493844 858464643364 864512644096 10727201005184 57565339238332581 Sxy=1715 a=2,951807 Sxx=581R=0,87679521 87,60%b=39,6747 Syy=6585 y=2,95x+39,67 4543193520251849 5036180025001296 5541225530251681 6041246036001681 36028012395159009908 Sxy=10755 Sxx=13500R=0,891857 89,20% Syy=10772 a=0,79666667 y=0,797x-0,756 b=-0,7555556 ANO X LUCRO LÍQUIDO Y Y = logyX2Y2XY 11122,04921814,1992952,049218 21492,17318644,7227394,346373 32382,37657795,6481187,129731 43542,549003166,49741810,19601 55802,763428257,63653413,81714 68672,938019368,63195617,62811 21230014,849439137,3360655,16659 Sxy=6*55,167-21*14,85019,161 B=19,161 =0,1825 Sxx=6*91-21*21105105 A=14,849 -0,1825 * 21 =1,8362 66 A=loga => a =65,58y=65,58 * B=logb => b = 1,522 ͳǡͷʹʹ௫ ANO X LUCRO LÍQUIDO Y 1 99,81 2 151,92 3 231,21 4 351,91 5 535,61 6 815,19
Compartilhar