Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA INDUTIVA Regressão e Correlação MÓDULO 4 1 Prof. DSc. Eng. Braitner Lobato – Notas de Aula 02/2013 1. Análise de regressão 2. Análise de regressão linear 3. Método dos mínimos quadrados 4. Correlação 5. Classificação da correlação 6. Coeficiente de determinação 1. ANÁLISE DE REGRESSÃO No cotidiano, muitos experimentos envolvem a medição de uma variável dependente y, que pode ser dependente de uma ou mais variáveis independentes, x1, x2, ... , xk. A análise de regressão provê uma abordagem estatística para relacionar os dados obtidos a partir de experimentos onde duas ou mais quantidades relacionadas são medidas. Qual a relação entre a quantidade de combustível e a quilometragem rodada para um determinado modelo de carro? Qual a relação entre a renda per capita e o número de homicídios? De que forma a resistência mecânica de uma viga de concreto armado se relaciona com a quantidade de carbono do aço usado? De que maneira a durabilidade de um equipamento eletrônico se comporta em relação à temperatura de funcionamento do seu microchip? Nesses exemplos, as variáveis independentes seriam a quantidade de combustível, a renda per capita, a quantidade de carbono do aço utilizada e a temperatura de funcionamento do microchip. Elas são chamadas de independentes ou regressores, porque são valores de entrada, a partir dos quais se deseja obter uma resposta. Já a quilometragem rodada, o número de homicídios, a resistência mecânica da viga de concreto armado e a durabilidade do equipamento eletrônico são chamados de variáveis dependentes ou respostas, uma vez que elas dependem diretamente da respectiva variável dependente. A análise de regressão visa encontrar a melhor relação entre a resposta, variável dependente, Y; e o regressor, variável independente, x. Essa relação não é determinística, ou seja, não é exata, logo o mesmo valor de x nem sempre fornece o mesmo valor de Y pois nessa relação há componentes aleatórias, probabilísticas. A força e a forma em que essa relação se dá podem ser quantificadas por métodos apropriados, que serão estudados a seguir, de forma a permitir a previsão de valores da resposta, Y, a partir de um dado valor para o regressor, x. Como visto anteriormente, a análise de regressão refere-se à relação entre variáveis. No caso da relação entre apenas uma variável independente e uma dependente, denomina-se análise de regressão simples, Eq. (1). No caso em que há mais de uma variável independente a ser analisada como fator de influência na resposta da variável dependente, chama-se de análise de regressão múltipla, Eq. (2). Todavia, há também relações na forma de uma função potencial. Dessa forma temos a função de Cobb- Douglas, Eq. (3); a função exponencial, Eq. (4); e a função logística, Eq. (5). Y x (1) 1 1 1 2 2 ... k kY x x x (2) Y x (3) x Y (4) xY e (5) ESTATÍSTICA INDUTIVA Regressão e Correlação MÓDULO 4 2 Prof. DSc. Eng. Braitner Lobato – Notas de Aula 02/2013 2. ANÁLISE DE REGRESSÃO LINEAR No caso de uma única variável independente, a relação pode ser descrita linearmente pelo modelo estatístico descrito pela Eq. (1). De forma que e são os coeficientes de regressão e corresponde ao erro aleatório que evita que o modelo seja apenas uma equação determinística, conforme a Fig. 1. 1 2 3 4 x Y Figura 1. Diagrama de dispersão para uma relação linear. 3. MÉTODO DOS MÍNIMOS QUADRADOS O método mais adotado para ajustar um conjunto de pontos é o Método de Mínimos Quadrados. Este método consiste em adotar como estimativa dos parâmetros os valores que minimizem a soma dos quadrados dos desvios. Suas principais características são: (i) a soma dos desvios verticais dos pontos em relação à reta é zero e (ii) a soma dos quadrados desses desvios é mínima. A soma mínima dos quadrados dos resíduos é comumente chamada de soma dos quadrados dos erros em torno da reta de regressão e pode ser expressa pela Eq. (2), onde a e b são estimadores para e . 22 1 1 n n i i ii i SQE e y a bx (2) A partir das derivadas de SQE com relação à a e b é possível estimar os coeficientes de regressão através das Equações (3) e (4). 1 1 11 22 2 1 1 1 n n nn i i i ii i ii ii n n n ii i ii i b n x y x yx x y y x x n x x (3) 1 1 n n i ii i y b x a y bx n (4) ESTATÍSTICA INDUTIVA Regressão e Correlação MÓDULO 4 3 Prof. DSc. Eng. Braitner Lobato – Notas de Aula 02/2013 Exemplo 01. Francisvaldo, empreendedor sagaz, decidiu investigar a relação entre a autonomia de carga de um aparelho eletrônico portátil, em horas, e a quantidade de baterias AA utilizadas. O conjunto de dados abaixo foi extraído de um experimento aleatório com o propósito de avaliar a relação linear entre a variável dependente y, autonomia de carga; e uma variável independente x, quantidade de baterias. Utilize o método dos mínimos quadrados para determinar os coeficientes da equação matemática que descreve o fenômeno. x 0 1 2 3 y 2 5 8 11 a) Esboce o diagrama de dispersão dos dados extraídos do experimento aleatório citado. 0 2 4 6 8 10 12 0 1 2 3 4 b) Ajuste um modelo de regressão linear simples entre x e y determinando as estimativas do intercepto e da inclinação. iX x iY y i iXY x y 2 2 iX x 2 2 iY y 0 2 0 0 4 1 5 5 1 25 2 8 16 4 64 3 11 33 9 121 X 6 Y 26 XY 54 2X 14 2Y 214 n = 4 2 2 X Y XY b X X n n Y b X a n Y ESTATÍSTICA INDUTIVA Regressão e Correlação MÓDULO 4 4 Prof. DSc. Eng. Braitner Lobato – Notas de Aula 02/2013 4. CORRELAÇÃO A correlação é o parâmetro estatístico que mede o grau de relação entre as variáveis. No caso da correlação simples entre duas variáveis, o mesmo é denominado de coeficiente de correlação de Pearson, rxy, e pode ser determinado matematicamente através das Eqs. (5), (6) e (7). covariância x,y desvio padrão (x).desvio padrão (y) xy xy xx yy r S S S (5) 2 2 2 2 1 1 1 xyr X Y XY n n X Y X Y n n n n (6) 2 2 22 xyr X Y XY n X Y Y n n X (7) 5. CLASSIFICAÇÃO DA CORRELAÇÃO Negativa forte Negativa fraca Negativa moderada Positiva fraca Positiva forte Positiva moderada -1 +1 -0,5 +0,50 Figura 2. Classificação do coeficiente de correlação de Pearson 0 5 10 15 20 25 30 0 1 2 3 4 5 6 0 5 10 15 20 25 30 0 1 2 3 4 5 6 Figura 3. Correlação linear positiva e perfeita: 1r Figura 4. Correlação linear negativa e perfeita: 1r ESTATÍSTICA INDUTIVA Regressãoe Correlação MÓDULO 4 5 Prof. DSc. Eng. Braitner Lobato – Notas de Aula 02/2013 0 5 10 15 20 25 30 35 0 1 2 3 4 5 6 0 5 10 15 20 25 30 35 0 1 2 3 4 5 6 Figura 5. Correlação linear positiva: 0 1r Figura 6. Correlação linear negativa 1 0r 0 10 20 30 40 50 0 1 2 3 4 5 6 0 5 10 15 20 0 1 2 3 4 5 6 Figura 7. Inexistência de correlação linear: 0r Figura 8. Inexistência de correlação linear: 0r 0 10 20 30 40 50 60 0 1 2 3 4 5 6 7 8 0 10 20 30 40 50 60 0 1 2 3 4 5 6 Figura 9. Inexistência de correlação linear: 0r Figura 10. Correlação linear: 0r 0 10 20 30 40 50 60 0 1 2 3 4 5 6 -1,5 -1 -0,5 0 0,5 1 1,5 -1 1 3 5 7 9 11 13 15 Figura 11. Correlação linear: 0,91r Figura 12. Inexistência de correlação linear: 0,01r ESTATÍSTICA INDUTIVA Regressão e Correlação MÓDULO 4 6 Prof. DSc. Eng. Braitner Lobato – Notas de Aula 02/2013 Exemplo 03. Ainda com base no enunciado do Exemplo 01, determine o coeficiente de correlação de Pearson e interprete o resultado obtido. 6X 26Y 2 14X 2 214Y 54XY 2 2 22 X Y XY n X Y Y n n R X Comentário: A correlação é linear, positiva e perfeita. 6. COEFICIENTE DE DETERMINAÇÃO A qualidade do ajustamento dos dados com relação à reta de regressão estimada é quantificada através do coeficiente de determinação, R 2 . Este parâmetro é uma medida que representa a quantidade de variabilidade nos dados que é explicada pelo modelo de regressão ajustado. A confiabilidade de R 2 é uma função do tamanho do conjunto de dados da regressão, dos tipos de aplicação e está compreendido no seguinte intervalo: 2 0 1R , de forma que o limite superior é alcançado quando o ajuste dos dados é perfeito, ou seja, quando os resíduos ou erro aleatório são nulos. A variação oriunda do erro é a variação não explicada, esta pode ser quantificada através da Equação (8) a seguir 2 2 xy yy xx yy S S S SQR R S (7) 2 22 covariância x,y desvio padrão (x).desvio padrão (y) xy xx yy S S S R (8) 2 2 2 2 2 2 X Y Y n n X Y XY n R X (9) O coeficiente de determinação representa a proporção da variação de Syy explicada pela regressão de Y em x, ou seja, por SQR. R 2 expressa a proporção da variação total nos valores da variável Y que é devida a, ou pode ser explicada por uma relação linear com os valores da variável aleatória X (Walpole et al., 2009). ESTATÍSTICA INDUTIVA Regressão e Correlação MÓDULO 4 7 Prof. DSc. Eng. Braitner Lobato – Notas de Aula 02/2013 Exemplo 04. Com base no problema proposto pelo Exemplo 01, determine o coeficiente de determinação e comente o resultado. 6X 26Y 2 14X 2 214Y 54XY 2 2 2 2 2 2 R X Y Y n n X Y XY n X Exemplo 05. Francisvaldo Jr., destaque do ano em agro business, em Cabrobó da Serra, precisa investigar a relação entre a quantidade de sementes de milho plantadas e a quantidade de espigas colhidas, a fim de prever futuras colheitas. Na safra passada, Júnior loteou suas subdividiu suas terras em zonas e coletou os dados dispostos no quadro abaixo. A partir das informações colhidas, responda os seguintes itens e comente os resultados interpretando-os: a) Diagrama de dispersão. b) Reta de regressão. c) Coeficiente de correlação de Pearson. d) Coeficiente de Determinação. x 2 4 6 8 10 y 3 6 5 9 9 X Y X 2 Y 2 XY X 30 Y 32 2 X 220 2 Y 232 XY 222 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 11 ESTATÍSTICA INDUTIVA Regressão e Correlação MÓDULO 4 8 Prof. DSc. Eng. Braitner Lobato – Notas de Aula 02/2013 2 2 X Y XY b X X n n Y b X a n y 2 2 22 X Y XY n X Y Y n n R X 2 2 2 2 2 2 X Y Y n n X Y XY n R X ESTATÍSTICA INDUTIVA Regressão e Correlação MÓDULO 4 9 Prof. DSc. Eng. Braitner Lobato – Notas de Aula 02/2013 EXERCÍCIOS PROPOSTOS Questão 01 (Oliveira). É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação uma nutricionista selecionou 18 mulheres com idade entre 40 e 79 anos, e observou em cada uma delas a idade (x) e a massa muscular (y). x 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78 73 68 y 82 91 100 68 87 73 78 80 65 84 116 76 97 100 105 77 73 78 a) Faça o diagrama de dispersão dos dados b) Calcule o coeficiente de correlação linear entre x e y e interprete-o. c) Ajuste uma reta de regressão para mostrar a relação linear entre as variáveis y: massa muscular (dependente) e x: idade (independente) e interprete os coeficientes. Resultados disponíveis: 18n 18 1 1108i i x 18 2 1 70362i i x 18 1 1530i i y 18 2 1 133300i i y 18 1 91964i i i x y Questão 02 (Lopes, 2003 - adaptada). Para os dados abaixo, onde a variável independente é a quantidade de horas de estudo e a variável dependente é a respectiva nota na prova, determine o que se pede: a) Diagrama de dispersão b) Reta de regressão c) Coeficiente de Determinação d) Coeficiente de correlação de Pearson Questão 03 (Walpode, 2009). Um professor em uma escola de negócios de uma universidade entrevistou uma dúzia de colegas sobre o número de reuniões profissionais de que eles participaram nos últimos cinco anos (X) e o número de trabalhos enviados por eles a revistas especializadas (Y) durante o mesmo período. Ajuste um modelo de regressão linear simples entre x e y determinando as estimativas do intercepto e da inclinação. Comente se o comparecimento em reuniões profissionais resultaria em mais trabalhos publicados. Um resumo dos dados é fornecido a seguir: 12n 4x 12y 2 1 232 n i i x 1 318 n i i i x y Questão 04 (Lopes, 2003 - adaptada). Para os dados abaixo, onde a variável independente é o peso do pai e a variável dependente, o peso do filho. Determine o que se pede: a) Diagrama de dispersão b) Reta de regressãoc) Coeficiente de Determinação d) Coeficiente de correlação de Pearson ESTATÍSTICA INDUTIVA Regressão e Correlação MÓDULO 4 10 Prof. DSc. Eng. Braitner Lobato – Notas de Aula 02/2013 Questão 05 (Walpode, 2009). A propulsão de um motor (y) é uma função da temperatura de exaustão (x) em o F quando outras importantes variáveis são mantidas constantes. Considere os dados: y 4.300 4.650 3.200 3.150 4.950 4.010 3.810 4.500 3.008 x 1.760 1.652 1.485 1.390 1.820 1.665 1.550 1.700 1.270 a) Represente os dados em um gráfico b) Ajuste uma reta de regressão linear simples para os dados e esboce-a no gráfico. Questão 06 (Montgomery e Runger, 2003). Um artigo publicado na Concrete Research, Near surface characteristics of concrete: instrinsic permeability, apresentou dados para a resistência à compressão x versus a permeabilidade y de várias misturas e tempos de cura de concreto. Os valores encontrados são 14n , 572iy , 2 23.530iy , 43ix , 2 157,42ix , 1.697,8i ix y . Assumindo que as duas variáveis estão relacionadas de acordo com um modelo de regressão linear simples. a) Calcule pelo método dos mínimos quadrados a estimativa para a inclinação e o intercepto da curva. b) Usando a equação de ajuste linear, prediga o valor da permeabilidade que se observaria quando a resistência à compressão for de 4,3. c) Determine uma estimativa média para a permeabilidade quando a resistência à compressão for 3.7. d) Suponha que o valor observado para a permeabilidade quando x = 3,7 é y = 46,1. Calcule o valor do resíduo correspondente. Questão 07 (Montgomery e Runger, 2003). Um artigo publicado na Technometrics por S. C. Narula e J. F. Wellington apresenta dados dos preços de venda e suas respectivas taxas de impostos para 24 casas. Preço /1000 Taxa /1000 25.9 4.9176 29.5 5.0208 27.9 4.5429 25.9 4.5573 29.9 5.0597 29.9 3.8910 30.9 5.8980 28.9 5.6039 35.9 5.8282 31.5 5.3003 31.0 6.2712 30.9 5.9592 Preço /1000 Taxa /1000 30.0 5.0500 36.9 8.2464 41.9 6.6969 40.5 7.7841 43.9 9.0384 37.5 5.9894 37.9 7.5422 44.5 8.7951 37.9 6.0831 38.9 8.3607 36.9 8.1400 45.8 9.1416 a) Assumindo que o modelo de regressão linear é apropriado, obtenha o ajuste de mínimos quadrados que relaciona o preço de venda e as taxas a serem pagas. b) Encontre o preço de venda médio dado que a taxa paga foi de x = 7,50. c) Calcule o valor ajustado de y correspondente a x = 5,8980 e encontre o valor residual. REFERÊNCIA BIBLIOGRÁFICA Lopes, Luis Felipe Dias (2003); Apostila de estatística, UFSM. Montgomery, Douglas C., Runger, George C. (2003), Applied statistics and probability for engineers, Ed. John Wiley & Sons, England. Teixeira, Daniel Mandin (2008); Estatística descomplicada; Vestcon; 12ª ed.; Brasília. Walpole, Ronald E., Myers, Raymond H., Myers, Sharon L., Ye, Keying (2009); Probabilidade e Estatística para Engenharia e Ciências; Ed. Pearson, Ed. 8ª; São Paulo. ESTATÍSTICA INDUTIVA Teste de Hipóteses MÓDULO 2 11 Prof. M.Sc. Eng. Braitner Lobato 02/2010 GABARITO Questão 01. a) 50 60 70 80 90 100 110 50 55 60 65 70 75 80 M as sa m us cu la r Idade b) 0,837r . O coeficiente de correlação indica que as variáveis idade e massa muscular estão relacionadas linearmente de forma negativa, ou seja, quanto maior a idade menor é a massa muscular. c) 148,197 1,027y x . O coeficiente 148,197a (intercepto) não pode ser interpretado, porque a variação de x não contém o valor 0. O coeficiente 1,027b (inclinação) indica que a cada aumento de uma ano de idade, espera um decréscimo de aproximadamente 1 da massa muscular. Questão 02. b) 0,79 157,25y x c) 2 53,29%r d) 0,73r Questão 03. 37,8 6,45y x . De acordo com a equação de regressão parece que participar de reuniões profissionais não deveria resultar em mais publicações de artigos. Questão 04. b) 0,48 35,48y x c) 2 40,58%r d) 0,64r Questão 05. b) 1847,69 3,6529y x Questão 06. a) a = 48.013, b = - 2,33 b) 37,99 c) 39,39 d) 6,71 Questão 07. a) a = 13,3202, b = 3,32437 b) 38,253 c) -2,0273 “Alegrai-vos na esperança, sede pacientes na tribulação, perseverai na oração” Romanos 12.12
Compartilhar