Baixe o app para aproveitar ainda mais
Prévia do material em texto
165 CAPÍTULO 10 AJUSTAMENTO DE CURVAS: REGRESSÃO LINEAR E CORRELAÇÃO 1. Introdução São muitas as pesquisas que investigam as relações entre duas grandezas. Assim, sempre indagamos como a variação de uma grandeza acarreta variação em outra. Nas tabelas abaixo, podemos investigar: a) O aumento da área agricultável de soja no Estado do Paraná acarreta aumento da produção de grãos? Área 2,0 1.8 2,0 2,1 2,3 2,5 2,8 2,8 Produção 3,6 3,4 5,3 5,5 6,0 6,6 7,1 7,7 área: milhões de hectares e produção: milhões de toneladas Fonte: Armário Brasileiro de Agribusiness b) O saldo da caderneta de poupança aumentou no período de março a setembro? (Bilhões de reais). meses março abril maio junho julho agosto setembro valores 116,6 116,6 112,5 113,4 113,8 114,1 114,7 c) Diminuindo a taxa de analfabetismo diminui a taxa de mortalidade infantil? Região Taxa de mortalidade infantil Taxa de analfabetismo Sul 22,5 8,3 Sudeste 25,2 8,6 Centro Oeste 25,4 12,4 Norte 35,6 12,7 Nordeste 59,0 29,4 - Fonte: Ministério da Saúde - IBGE Para respondermos às perguntas formuladas em a, b e c, devemos conhecer os fenômenos que envolvem o problema e não somente os dados fornecidos. Assim é possível obter alguma previsão dentro de certas margens de erro. O modelo matemático que procura descrever a relação entre duas variáveis, em que se relacionam os n pares de pontos dados por uma reta tão próxima quanto possível do conjunto de pontos dados, denomina-se Regressão Linear. 166 y y Os gráficos acima denominam-se diagramas de dispersão. O método usado denomina-se método dos mínimos quadrados e tem como resultado uma equação que descreve o relacionamento entre duas variáveis. Observando o diagrama de dispersão é possível visualizar uma curva que se aproxima dos dados, a essa curva denominamos de ajustamento. 2. Regressão linear A regressão linear feita pelo método dos mínimos quadrados é aquela em que a soma quadrática da diferença entre os y dados pela tabela e os y obtidos pela reta seja mínima. Sejam os pontos 1 1 2 2, , , ,..., ,n nX Y X Y X Y , sendo iX a variável independente e iY a variável dependente. Desejamos obter a reta y = a x + b com o uso do método dos mínimos quadrados. Para isso determinamos uma reta do tipo y = a x + b, em que a e b são dados pelo método dos mínimos quadrados proposto por Carl Friedrich Gauss (1777 – 1855), tais que 2 2 1 1 ˆ( ) n n i i i i i Y Y D seja mínimo. Sendo ˆ i i iD Y Y , desvio ou erro ou resíduo, desvio de cada iY e o valor corresponde da reta y = a x + b. Sendo iY o valor observado da variável dependente para o i-ésima observação e ˆ iY o valor estimado da variável dependente para o i-ésima observação. y=ax+b x y x x 1 1( , )X Y 2 2( , )X Y 3 3( , )X Y ( , )n nX Y 167 Determinemos min 2 2 2 2 1 ( ) min ( ... ) n n i i n i D D D D min 2 1 ˆ( ) n i i i Y Y = min 2 1 [ ( ( )] 0, n i i i Y aX b denominamos 2 1 ( , ) ( ) n i i i f a b Y aX b função de duas variáveis. Neste caso devemos impor a condição para obter o mínimo e esta é dada por: 0 0 f f e a b , sendo as derivadas parciais da f em relação a a e b. Assim 1 2 ( )( ) 0 n i i i i f Y aX b x a 2 1 1 1 0 n n n i i i i i i i b x a x x y , segue 1 1 n n i i i i y bn a x (I) 1 2 ( ) 0 n i i i f Y b aX b 1 1 1 1 0 n n n i i i i i b a x y , segue 1 n i i i x y 2 1 1 n n i i i i b x a x (II) Resolvendo o sistema formado por (I) e (II) e por comodidade, deixamos de colocar os índices dos somatórios. 2 2 (II) (I) xy a x b x y a x bn Dividindo (II) por (I) segue: y x a b b y ax n n substituindo em (II) obtemos 2 ( )xy a x y ax x , desenvolvendo e colocando a em evidência obtemos: 22 . n xy x y a e b y ax n x x Para se ter as condições de mínimo, devemos impor ainda: 2 2 1 2 2 2 2 2 2 2 2 2 2 1 2 1 2 2 2 . 0 e 2 0 2 n i n i i n i i f n a f f f f f x n a bb a b a f x a b . Essas condições satisfazem as soluções do sistema: xay=b e xxn yxxyn =a 22 sendo n é o número de observações e 168 e x y x y n n médias aritméticas. Portanto, a reta y = a x + b nessas condições denomina-se reta dos mínimos quadrados ou reta regressão linear. Exemplo 1: Problema dos pesos dos pais e de seus respectivos filhos Uma clínica médica pesquisou o relacionamento dos pesos dos pais e dos filhos, os dois do sexo masculino, todos com idades superiores a 20 anos, e obteve a seguinte tabela: Peso dos pais (kg) x 80 84 86 90 92 96 100 102 Peso dos filhos(kg) y 82 86 88 86 90 100 98 104 Determinar a reta Regressão Linear para esse problema. Solução: Adotamos os seguintes passos para resolver este problema: i) Montar uma tabela com as colunas indicadas por x, y, x.y e x 2 . ii) Indicar a soma destas colunas na última linha da tabela. iii) Determinar a média. iv) Achar a e b, usando as fórmulas dadas. v) Construir o gráfico dos pontos dados e representar a reta y = ax + b. Como sugerido em i e ii, construímos a tabela: x y x.y x 2 80 82 6560 6400 84 86 7224 7056 86 88 7568 7396 90 86 770 8100 92 90 8280 8464 96 100 9600 9216 100 98 9800 10000 102 104 10608 10404 x 730 y 734 xy 67380 2x 67036 Com os valores obtidos na tabela podemos calcular o item iii. 730 91,25 91,3 8 x x n 734 91,75 91,8 8 y y n Os valores devem ser arredondados para um dígito significativo a mais do que os dados originais. Voltando à tabela, temos 67380xy e 67036x 2 iv) Com estes dados obtidos, podemos determinar a e b usando as fórmulas. 169 0,19504,0 3388 3220 532900536288 535820-539040 (730)-8(67036) 730.734-8(67380) xxn yxxyn =a 222 b=y ax 91,8 - 1,0(91,3) 91,8 - 91,3 0,5. Portanto a reta regressão linear é dada por y = x + 0,5 v) Construindo o gráfico e representando a reta y = x+0,5, temos: y y=x+0,5 80 82 84 86 88 90 92 94 96 98 100 102 104 106 80 82 84 86 88 90 92 94 96 98 100 102 104 106 A B x Para esboçarmos o gráfico da reta y = x + 0,5, tomemos dois valores de x,para x = 84, segue y = 84 + 0,5 = 84,5 e para x = 102, segue y = 102 + 0,5 = 102,5. Portanto a reta passa pelos pontos A(84; 84,5) e B(102; 102,5) A reta y = x + 0,5 é aquela em que a soma dos quadrados da diferença entre os pontos dados (y) e os valores yr (obtidos) da reta é mínima. Exemplo 2: Problema dos custos de televisores A tabela a seguir indica as quantidades de televisores da marca ABC produzidas mensalmente e os respectivos custos totais de produção. Quantidade produzida x 100 120 130 140 150 160 Custo total (R$) y 2000 2300 2700 2900 2800 3000 Pede-se a) A reta que melhor se ajusta a esses dados. b) O valor mais provável dos custos fixos. c) O valor do custo estimado para 180 televisores. d) A representação dos pontos e da reta regressão linear. Resolução: Construindo a tabela 170 7,2616 6 15700 n e 133,3= 6 800 = n y y x x . Assim: 17= 14000 238000 = 800-1090006 15700800-21330006 = xxn yxxyn =a 222 Logo a = 17 e b é dado por 2616,7 17 133,3 2616,7 2266,1 350,6b y ax a) Portanto a equação da reta que melhor se ajusta a esses dados é y = ax + b = 17x + 350,6 y 3000 2800 2600 2400 2200 2000 100 110 120 130 140 150 160 x b) Custo fixo é obtido para x = 0 em y = 17x + 350,6 é dado por: x y xy 2x 100 2000 200000 10000 120 2300 276000 14400 130 2700 351000 16900 140 2900 406000 19600 150 2800 420000 22500 160 3000 480000 25600 800 15700 2133000 109000 800x 15700y 2133000y x 109000x 2 171 y = 17(0) + 350,6 = 350,6 logo y (fixo) = R$ 350,60 c) O custo estimado para x = 180 televisores é dado por y = 17(180) + 350,6 = 3060 + 350,6 = R$ 3410,60 d) Para representarmos a reta no gráfico, tomamos dois pontos: x =100 e portanto, y = 2050,6 e como segundo ponto x =180 e y = 3410,6. Exemplo 3: Problema dos custos de bolas de futebol de salão A tabela abaixo indica a quantidade de bolas de futebol de salão produzidas mensalmente e os respectivos custos totais de produção. Quantidade (x) 10 11 12 13 14 15 Custos(y) em R$ 100 112 119 130 139 142 Pede-se: a) A reta que melhor se ajusta a esses dados. b) O valor mais provável do custo fixo. c) O custo para a quantidade de 16 bolas. d) Esboçar o gráfico. Resolução: Construímos a tabela abaixo para avaliar a e b x y yx 2x 10 100 1000 100 11 112 1232 121 12 119 1428 144 13 130 1690 169 14 139 1946 196 15 142 2130 225 75 742 9426 955 75x 742y 9426y x 955x 2 n = 6 5,12 6 75 n x x e 7,12367,123 6 743 n y y , assim 8,68,63 = 75-9556 74275-94266 = xxn yxxyn =a 222 172 123,7 8,6 12,5 16,2b y ax , logo y = 8,6x + 16,2 a) Assim a reta que melhor se ajusta a esses pontos dados é y = 8,6x +16,2 b) O valor mais provável do custo fixo é dado por x = 0; logo o valor é: Cf = 8,6.(0) + 16,2 = R$ 16,20 c) O custo para 16 bolas produzidas é dada por:C = 8,6.(16)+16,2 = 153,8. Assim, o custo para 16 bolas é R$153,80. d) Para a construção do gráfico da reta y=8,6x+16,2 é só tomarmos dois valores: para x=10, tem-se y=(8,6)(10)+16,2=102,2 e para x=15, tem-se y=(8,6)(15)+16,2=145,2 3. Correlação Correlação é o grau de relação entre as duas variáveis. A correlação tem por objetivo medir e avaliar o grau de relação existente entre duas variáveis aleatórias. 3.1. Coeficiente de correlação linear (Karl Pearson (1857 – 1936) O Coeficiente de correlação linear indica o grau de intensidade da correlação entre as duas variáveis e, ainda, o sentido dessa correlação ( positivo ou negativo). Se todos os valores das variáveis obedecem a uma equação, dizemos que elas estão relacionadas. Se ocorrerem duas variáveis, dizemos correlação ou regressão simples, Se ocorrerem mais que duas variáveis, dizemos correlação ou regressão múltipla. Enquanto a correlação mede a força ou grau de relacionamento entre duas variáveis, a regressão linear dá a equação que descreve o relacionamento. Neste estudo usaremos o coeficiente de correlação de Pearson que é dado por: 2 2 2 2 ( )( ) [ ( ) ][ ( ) ] n xy x y r n x x n y y Os valores de r estão no intervalo [ -1, +1] Se Coeficiente de correlação linear é tal que 0 1r , então a correlação se diz positiva. Se Coeficiente de correlação linear é tal que 1 0r , então a correlação se diz negativa. Se Coeficiente de correlação linear é tal que 1r , então a correlação se diz perfeita positiva. Se Coeficiente de correlação linear é tal que 1r , então a correlação se diz perfeita negativa. 120 100 110 130 140 150 10 11 12 13 14 15 x y 16 A B y=8,6x+16,2 173 Exemplo 4: A seguir segue dados de 10 famílias de uma determinada região, sendo a renda dada em R$100,00. Famílias Renda Poupança Nº de filhos 1 10 5 8 2 12 6 7 3 15 7 6 4 30 15 2 5 50 20 2 6 80 40 1 7 40 20 2 8 30 15 5 9 20 10 6 10 10 5 5 Calcular o coeficiente de correlação linear entre Renda familiar e a Poupança Renda(y) Poupança(x) 2x 2y xy 10 5 25 100 50 12 6 36 144 72 15 7 49 225 105 30 15 225 900 450 50 20 400 2500 1000 80 40 1600 6400 3200 40 20 400 1600 800 30 15 225 900 450 20 10 100 400 200 10 5 25 100 50 297 143 3085 13269 6377 O coeficiente de correlação linear é dado por: 2 2 2 2 ( )( ) [ ( ) ][ ( ) ] n xy x y r n x x n y y = 2 2 10(6377) (143)(297 [10 3085 143 ][10 13269 297 ] r = 63770 42471 (10401)(44481) 0,99 Conclusão: O valor r = 0,99 indica que a correlação é positiva, existe uma forte correlação entre a renda a poupança. 174 Exercícios de aplicação 26: 1. A seguir segue dados da renda e número de filhos de 10 famílias de uma determinada região. Nº filhos (x) 8 7 6 4 3 3 2 3 2 1 Renda (y) 10 12 15 20 20 30 40 50 60 70 Determinar a) A equação da reta que melhor se ajusta aos dados. b) Calcular o coeficiente de correlação linear entre e o número de filhos e a renda (R$ 100,00). 2. Os dados a seguir apresentam o número de horas diárias, extraclasse, de estudo de matemática, dos alunos do Colégio Pedro Henrique e as respectivas notas obtidas na primeira prova semestral de 15 alunos. a) Calcular a equação da reta que melhor se ajusta aos dados. b) Qual a nota que se espera para quem estuda 9 horas diárias? c) Calcular o coeficiente de correlação linear entre as horas de estudo e a respectivas notas. 3. Os dados a seguir apresentam o tempo em anos de trabalho e os salários mensais em R$ 1 00,00,de 10 operários. Tempos em anos 10 12 14 16 16 20 20 22 22 22 Salários 12 15 17 19 20 22 27 25 28 30 a) Calcular a equação da reta que melhor se ajusta aos dados. b) Qual o salário que se espera para quem trabalhou 23 anos? c) Calcular o coeficiente de correlação linear entre os anos de trabalho e os respectivos salários. Horas estudo 0 1 2 2 3 3 3 4 5 6 6 7 8 8 8 Notas obtidas 3 4,5 5 5,5 6 6,2 6,3 6,7 7 8 8,2 8,5 9 9 9,5
Compartilhar