Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Prof. Dr. Hercules de Souza REGRESSÃO E CORRELAÇÃO LINEAR 1 2 Prof. Dr. Hercules de Souza Análise de regressão é utilizada com o objetivo de previsão. O propósito é o desenvolvimento de um modelo estatístico que possa ser utilizado para prever os valores de uma variável dependente ou variável de resposta. 2 3 Prof. Dr. Hercules de Souza Análise de correlação é utilizada para medir a força de associação entre variáveis numéricas, por exemplo, determinar a correlação entre o preço de embalagem com seis unidades de refrigerante e o preço do frango em locais diferentes. 3 4 Prof. Dr. Hercules de Souza Diagrama de dispersão: Suponha que um engenheiro de uma grande empresa queira desenvolver um modelo estatístico para prever a concentração de um componente e o tempo de uma reação química. 4 5 Prof. Dr. Hercules de Souza Para tanto foi coletada uma amostra aleatória com 20 elementos. Por questões de simplicidade vamos considerar como variável explicativa ou independente, a concentração, para prever os valores de uma variável dependente, no caso, o tempo de reação. 5 6 Prof. Dr. Hercules de Souza Elementos Concentração (ppm) Tempo de reação (s) 1 907 11,20 2 926 11,05 3 506 6,84 4 741 9,21 5 789 9,42 6 889 10,08 7 874 9,45 8 510 6,73 9 529 7,24 10 420 6,12 11 679 7,63 12 872 9,43 13 924 9,46 14 607 7,64 15 452 6,92 16 729 8,95 17 794 9,33 18 844 10,23 19 1010 11,77 20 621 7,41 6 7 Prof. Dr. Hercules de Souza Diagrama de dispersão 7 8 Prof. Dr. Hercules de Souza Tipos De Modelos De Regressão 8 9 Prof. Dr. Hercules de Souza Determinação da equação da Regressão Linear Simples A questão principal é determinar um modelo que melhor se ajuste aos dados. Para o exemplo apresentado pode-se perceber que existe uma relação linear, entre concentração e tempo de reação. 9 10 Prof. Dr. Hercules de Souza Y corresponde à variável dependente, no caso tempo de reação (s); X corresponde à variável independente, no caso concentração (ppm). AXBY __ 10 11 Prof. Dr. Hercules de Souza A análise de regressão significa encontrar a linha reta que melhor se ajuste aos dados. 11 12 Prof. Dr. Hercules de Souza O melhor ajuste significa a tentativa de encontrar a linha reta para a qual as diferenças entre os valores reais de Y, tempo de reação, e os valores que seriam previstos a partir da linha de regressão sejam os menores possíveis. 12 13 Prof. Dr. Hercules de Souza A equação acima depende da determinação dos dois coeficientes A e B. Uma técnica matemática que determina esses valores e que minimiza essa diferença é conhecida como: MÉTODO DOS MÍNIMOS QUADRADOS. AXBY __ 13 14 Prof. Dr. Hercules de Souza n 1i _ 22 i n 1i __ ii n 1i i_ n 1i i_ __ XnX YXnYX B n X X n Y Y XBYA 14 15 Prof. Dr. Hercules de Souza O Termo n, nas equações, corresponde ao número de elementos da amostra, no caso n é igual a 20, pois são consideradas 20 elementos na amostra considerada. 15 16 Prof. Dr. Hercules de Souza Amostra Concent. T. reação X 2 Y 2 XY 1 907 11,20 822649 125,44 10158,40 2 926 11,05 857476 122,10 10232,30 3 506 6,84 256036 46,79 3461,04 4 741 9,21 549081 84,82 6824,61 5 789 9,42 622521 88,74 7432,38 6 889 10,08 790321 101,61 8961,12 7 874 9,45 763876 89,30 8259,30 8 510 6,73 260100 45,29 3432,30 9 529 7,24 279841 52,42 3829,96 10 420 6,12 176400 37,45 2570,40 11 679 7,63 461041 58,22 5180,77 12 872 9,43 760384 88,92 8222,96 13 924 9,46 853776 89,49 8741,04 14 607 7,64 368449 58,37 4637,48 15 452 6,92 204304 47,89 3127,84 16 729 8,95 531441 80,10 6524,55 17 794 9,33 630436 87,05 7408,02 18 844 10,23 712336 104,24 8617,24 19 1010 11,77 1020100 138,53 11887,70 20 621 7,41 385641 54,91 4601,61 ∑ 14.623 176,11 11.306.209 1.602,10 134.127,90 16 17 Prof. Dr. Hercules de Souza 423,2)15,731()00873,0(8055,8XBYA 00873,0 55,602.614 07,365.5 B )15,731(20209.306.11 )8055,8()15,731()20(90,127.134 XnX YXnYX B 15,731 20 623.14 n X X 8055,8 20 11,176 n Y Y 2n 1i _ 22 i n 1i __ ii n 1i i_ n 1i i_ 17 18 Prof. Dr. Hercules de Souza Portanto, a equação que melhor se ajusta aos dados do exemplo inicial será: 423,2X00873,0Y 18 19 Prof. Dr. Hercules de Souza Agora inserindo a equação obtida acima no diagrama de dispersão, teríamos: 19 20 Prof. Dr. Hercules de Souza ERRO PADRÃO DA ESTIMATIVA 20 21 Prof. Dr. Hercules de Souza A curva de regressão, obtida anteriormente pelo MÉTODO DOS MÍNIMOS QUADRADOS, é útil para previsões de um valor Y (variável dependente) em função de um valor de X (variável independente). 21 22 Prof. Dr. Hercules de Souza É importante também desenvolver uma estatística que mensure a variabilidade dos reais valores de Y, através dos valores previstos de Y. 22 23 Prof. Dr. Hercules de Souza Uma medida dessa variabilidade em torno da linha de regressão é chamada de ERRO PADRÃO DA ESTIMATIVA, se assemelhando ao desvio padrão visto anteriormente, e definido como: 23 24 Prof. Dr. Hercules de Souza 2n )YY( S n 1i 2 î ^ i YX onde Yi corresponde ao valor real de Y para um dado valor de X, e î ^ Y corresponde ao valor previsto de Y para um dado valor de X. 24 25 Prof. Dr. Hercules de Souza 134.127,90YX 176,11Y 1.602,10Y 2n YXBYAY S n 1i ii n 1i i n 1i 2 i n 1i ii n 1i i n 1i 2 i YX 25 26 Prof. Dr. Hercules de Souza 497,0247,0 18 449,4 S 220 90,127.13400873,011,176423,210,602.1 S 00873,0Be423,2A YX YX 26 27 Prof. Dr. Hercules de Souza Ou seja, o ERRO PADRÃO DA ESTIMATIVA, no exemplo dado, é igual a 0,497, e representa uma medida da variação em torno da linha ajustada da regressão. 27 28 Prof. Dr. Hercules de Souza A interpretação do erro padrão da estimativa é análoga a do desvio padrão. Assim como o desvio padrão mede a variabilidade em torno da média aritmética, o erro padrão da estimativa mede a variabilidade em torno da linha ajustada da regressão. 28 29 Prof. Dr. Hercules de Souza O erro padrão da estimativa pode ser utilizado para se fazerem inferências sobre um valor previsto de Y e para determinar se existe relação estatisticamente significativa entre as duas variáveis. 29 30 Prof. Dr. Hercules de Souza MEDIDAS DE VARIAÇÃO NA REGRESSÃO E NA CORRELAÇÃO 30 31 Prof. Dr. Hercules de Souza Para examinar como a variável independente, (concentração), prevê bem a variável dependente, (tempo de reação), são desenvolvidas algumas medidas de variação. 31 32 Prof. Dr. Hercules de Souza A primeira medida é chamada SOMA TOTAL DOS QUADRADOS (STQ), sendo uma medida de variação dos valores de Y em torno da sua média aritmética. 32 33 Prof. Dr. Hercules de Souza Essa somatotal dos quadrados pode ser subdividida em VARIAÇÕES EXPLICADAS ou SOMA DOS QUADRADOS DEVIDA À REGRESSÃO (SQReg), que é atribuída à relação entre X e Y, e 33 34 Prof. Dr. Hercules de Souza VARIAÇÕES INEXPLICADAS OU SOMA DE QUADRADOS DOS RESÍDUOS (SQR), que é atribuída a outros fatores diferentes da relação entre X e Y. SQRgSQSTQ Re 34 35 Prof. Dr. Hercules de Souza SQRSTQgReSQ YnY)YY(STQ SQRYXBYAY)YY( n 1i n 1i _ 22 i 2 _ i n 1i n 1i ii n 1i i n 1i 2 i 2 ^ ii 35 36 Prof. Dr. Hercules de Souza 3635,51449,49145,46SQRgReSQSTQ :sejaou 9145,468055,82090,127.13400873,011,176423,2gReSQ YnYXBYAgReSQ 3634,51)8055,8(2010,602.1YnYSTQ 449,490,127.13400873,011,176423,210,602.1SQR 2 n 1i n 1i 2 iii n 1i 222 i 36 37 Prof. Dr. Hercules de Souza COEFICIENTE DE DETERMINAÇÃO 37 38 Prof. Dr. Hercules de Souza O coeficiente de determinação mede a proporção da variação, que é explicada pela variável independente no modelo de regressão. Esse coeficiente é igual à SOMA DOS QUADRADOS DEVIDA À REGRESSÃO, dividida pela SOMA TOTAL DOS QUADRADOS: 38 39 Prof. Dr. Hercules de Souza STQ gReSQ r 2 39 40 Prof. Dr. Hercules de Souza Para o exemplo de tempo de reação relacionado à concentração, temos, que esse coeficiente será: 913,0 3635,51 9145,46 STQ gReSQ r 2 40 41 Prof. Dr. Hercules de Souza Isso significa que aproximadamente 91,3% da variação no tempo de reação podem ser explicados pela variabilidade na concentração 41 42 Prof. Dr. Hercules de Souza Esse é um exemplo em que existe uma forte relação linear entre duas variáveis. Podemos também dizer que somente 8,7 % da variabilidade da amostra podem ser explicados por fatores diferentes daquele que é levado em conta no modelo de regressão linear. 42 43 Prof. Dr. Hercules de Souza Para interpretar o COEFICIENTE DE DETERMINAÇÃO, alguns estatísticos sugerem que seja calculado um r2 ajustado para refletir tanto número de variáveis explicativas no modelo quanto o tamanho da amostra 43 44 Prof. Dr. Hercules de Souza 2n 1n )r1(1r 22 ajustado 44 45 Prof. Dr. Hercules de Souza 908,0 220 120 )913,01(1 2n 1n )r1(1r 22 ajustado Ou seja, 90,8%, que não deixa de ser um resultado semelhante a 91,3%. 45 46 Prof. Dr. Hercules de Souza COEFICIENTE DE CORRELAÇÃO 46 47 Prof. Dr. Hercules de Souza A regressão e a correlação são duas técnicas separadas, a regressão se refere à previsão e a correlação se refere à associação. 47 48 Prof. Dr. Hercules de Souza Em uma análise de correlação estamos interessados em medir o grau de associação entre duas variáveis, esses valores abrangem desde -1 para a correlação negativa perfeita até +1 para a correlação positiva perfeita, indicando que todos os pontos estão sobre uma linha reta com inclinação positiva. 48 49 Prof. Dr. Hercules de Souza Valores do coeficiente de correlação próximos de zero indicam que X e Y não estão linearmente relacionados. 49 50 Prof. Dr. Hercules de Souza Se uma análise de regressão já foi feita e o coeficiente de determinação já foi calculado, o coeficiente de correlação pode ser calculado pelo simples cálculo da raiz quadrada do coeficiente de determinação. 50 51 Prof. Dr. Hercules de Souza Logo para o nosso exemplo inicial: 955,0913,0 Indicando uma forte associação entre a concentração e o tempo de reação. 51 52 OUTROS MODELOS DE REGRESSÃO Prof. Dr. Hercules de Souza 53 Existe muitas situações nas quais não é desejável, ou mesmo possível, descrever um fenômeno através de um modelo de regressão linear. Prof. Dr. Hercules de Souza 54 REGRESSÃO LOGARÍTMICA Y = A +B·ln x REGRESSÃO EXPONENCIAL Y= A·eB·x ln Y = ln A + Bx Prof. Dr. Hercules de Souza 55 REGRESSÃO DE POTÊNCIA Y = A·xB ln Y = ln A + B ln x REGRESSÃO INVERSA Y= A + B·1/x REGRESSÃO QUADRÁTICA Y = A + Bx + Cx2 Prof. Dr. Hercules de Souza
Compartilhar