Baixe o app para aproveitar ainda mais
Prévia do material em texto
* * * 4- ANÁLISE DE REGRESSÃO E CORRELAÇÃO DIAGRAMA DE DISPERSÃO O diagrama de dispersão é um gráfico utilizado para a visualização de relacionamento existente entre duas variáveis. Gráfico1 32 34 28 38 37 42 30 30 40 34 Peso Altura Peso Relação entre Peso e Altura Plan1 Altura Peso 136 32 142 34 132 28 145 38 144 37 147 42 137 30 136 30 142 40 144 34 Plan1 Peso Altura Peso Relação entre Peso e Altura Plan2 Plan3 * * * 4 ANÁLISE DE REGRESSÃO E CORRELAÇÃO * * * Um “outlier” é uma observação extrema, que não é condizente com o restante da massa de dados. Um aspecto importante é que a existência de uma correlação entre as variáveis não implica necessariamente na existência de uma relação de causa e efeito entre x e y. Ex.: Numero de aparelhos de rádio em MG (x) e Número de doentes mentais em MG (y). 4- ANÁLISE DE REGRESSÃO E CORRELAÇÃO * * * 4- ANÁLISE DE REGRESSÃO E CORRELAÇÃO Coeficiente de Correlação de Pearson Mede o grau de relacionamento linear entre duas variáveis quando ambas podem variar. O valor de r estará compreendido entre -1 e 1. * * * 4 Análise de Regressão Linear A situação geral envolve um par de n observações das variáveis Y (variável dependente) e X (variável independente) que pode ser o tempo. Podemos descrever este relacionamento através de uma reta. * * * 4 Análise de Regressão Linear Podemos descrever este relacionamento através de uma reta. Y = 0 + 1X + Os parâmetros 0 e 1 são respectivamente, o intercepto e a inclinação da reta. onde irá captar todas as influências sobre Y não explicadas por X. Esse termo é conhecido com erro aleatório * * * 4 Análise de Regressão Linear A estimação dos parâmetros pode ser feita através do método dos mínimos quadrado. E a reta pode ser escrita assim * * * Exemplo: Calcular a venda de pares de sapatos para 2004 com os dados abaixo Ano Y X X2 X . Y 1999 108 0 0 0 2000 119 1 1 119 2001 110 2 4 220 2002 122 3 9 366 2003 130 4 16 520 Soma 589 10 30 1.225 * * * Exemplo: Calcular a venda de pares de sapatos para 2004 com os dados abaixo Ano Y X X2 X . Y 1999 108 0 0 0 2000 119 1 1 119 2001 110 2 4 220 2002 122 3 9 366 2003 130 4 16 520 Soma 589 10 30 1.225 * * * Exemplo: Calcule a previsão para ano de 2004 na casio Mode 3 1 0,1000 m+ 1,1300 m+ 2,1800 m+ 3,2000 m+ 4,2000 m= shift 2 3 →→ a = shift 2 3 →→ b = * * * 4 Análise de Regressão Linear Exemplo: Calcular o consumo para novembro de 1997 com os dados abaixo. Tempo Consumo de Banana (X) (Y) 0 (jan/97) 300 1 200 2 450 3 350 4 300 5 600 6 400 7 500 8 450 9 650 * * * Análise do modelo * * * Coeficiente de Determinação - R2 Mede a proporção de variabilidade em Y explicada pela variável X * * * Coeficiente de Determinação - R2 Exemplo : Calcule R2 para os dados abaixo ANO Consumo-Y 1994 900 1995 1.300 1996 1.200 1997 2.000 1998 2.200 1999 2.700 2000 2.800 2001 2.600 2002 3.700 2003 3.200 * * * Coeficiente de Determinação - R2 Exemplo : Calcule R2 para os dados abaixo utilizando os resultados da reta ANO Consumo-Y 1994 900 1995 1.300 1996 1.200 1997 2.000 1998 2.200 1999 2.700 2000 2.800 2001 2.600 2002 3.700 2003 3.200 Resultados (1 = 287,27 (0 = 967,29 ŷ2004 = 3840 X 10 ŷ2005 = 4127 X 11 ŷ2006 = 4415 X 12 * * * Coeficiente de Determinação - R2 ANO Consumo y Previsão ŷ Y Médio (y ŷ - (y (ŷ - (y)2 y - (y (y - (y) 2 1994 900 967 2.260 -1.293 1.671.112 -1.360 1.849.600 1995 1.300 1.255 2.260 -1.005 1.010.920 -960 921.600 1996 1.200 1.542 2.260 -718 515.775 -1.060 1.123.600 1997 2.000 1.829 2.260 -431 185.679 -260 67.600 1998 2.200 2.116 2.260 -144 20.631 -60 3.600 1999 2.700 2.404 2.260 144 20.631 440 193.600 2000 2.800 2.691 2.260 431 185.679 540 291.600 2001 2.600 2.978 2.260 718 515.775 340 115.600 2002 3.700 3.265 2.260 1.005 1.010.920 1.440 2.073.600 2003 3.200 3.553 2.260 1.293 1.671.112 940 883.600 6.808.234 7.524.000 * * * Teste de Hipóteses e Intervalo de Confiança para 1 Testar a hipótese de que a inclinação da reta de regressão seja igual a zero, ou seja H0 : 1 = 0 H1 : 1 0 Neste caso, não rejeitar H0 é dizer que X é pouco importante para explicar a variação em Y. A rejeição de H0 implica que X é importante para explicar a variabilidade em Y. * * * Sob H0 essa estatística tem distribuição F com (1, n-2) graus de liberdade. Para um teste de significância , a hipótese H0 deverá ser rejeitada se F0 > F (1, n-2) REGRESSÃO LINEAR * * * Custo aluno por Ano=2007 (Dados fictícios) Exemplo:A Secretaria de Planejamento de um estado estava relizando estudos com o objetivo de reduzir o custo aluno * * * Saída do Excel * * * Análise de Regressão Linear Analisando a saída do Excel, verificamos que ambos os parâmetros do modelo (0 e 1) são significativamente (p=0,00) diferentes de zero. * * * Análise de Regressão Linear O p-valor do modelo (p=0,00) para um Fo =74,16 indica que o modelo é adequado, isto é, que o número de matriculados é importante para explicar o custo * * * Análise de Regressão Linear Uma outra maneira de testar a hipótese de que a inclinação da reta de regressão seja igual a zero H0 : 1 = 0 H1 : 1 0 Rejeitar H0 se | to | > t /2, n-2. * * * Análise de Regressão Linear Vamos utilizar o R2 já calculado he regression equation is Custo = 1012 - 0,293 Matriculados Predictor Coef SE Coef T P Constant 1011,61 32,57 31,06 0,000 Matriculados -0,29312 0,03404 -8,61 0,000 S = 33,9315 R-Sq = 80,5% R-Sq(adj) = 79,4% Desta maneira, Como | -8,61 | > 2,101 rejeitar H0. Concluímos que o número de matriculados é importante para explicar o custo * * * Regressão Linear Múltipla É uma extensão do modelo de regressão linear simples Deve ser utilizada quando há necessidade de mais de uma variável explicativa para estimar os valores da variável dependente. * * * Podemos escrever a seguinte equação : Y = 0 + 1X1 + 2X2 +.... + kXk + Onde : k = número de variáveis explicativas. 0 é o intercepto da reta. 1, 2 k, são os coeficientes das variáveis explicativas. irá captar todas as influências sobre Y não explicadas pelas variáveis X’s REGRESSÃO MÚLTIPLA * * * Podemos escrever a seguinte equação : Y = 0 + 1X1 + 2X2 +.... + kXk + 1,é variaçãoprovocada em Y pelo variação de uma unidade em X1, consideradas constantes todas as outras variáveis explicativas. REGRESSÃO MÚLTIPLA * * * Exemplo : Desenvolver um modelo de regressão para prever o consumo de óleo para calefação em domicílios. Uma amostra de 15 domicílios, com metragem idêntica foi selecionada. REGRESSÃO MÚLTIPLA * * * As variáveis explicativas selecionadas são: X1 : temperatura média diária (F) do lado de fora do domicílio (X1) e X2 : quantidade de isolamento térmico, medidas em polegadas, no sótão da casa. REGRESSÃO MÚLTIPLA * * * REGRESSÃO MÚLTIPLA Plan4 RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0.9772514969 R-Quadrado 0.9550204883 R-quadrado ajustado 0.947523903 Erro padrão 29.007180889 Observações 15 ANOVA gl SQ MQ F F de significação Regressão 2 214382.9508158382 107191.4754079191 127.39406693 0.00000001 Resíduo 12 10096.9985174951 841.4165431246 Total 14 224479.9493333334 Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0% Interseção 539.2595107154 23.5202810499 22.9274263165 0.00000000 488.01322148 590.505799948 488.0132214828 590.505799948 Temperatura atmosférica média diária (F) -5.4052747892 0.3749044526 -14.417739646 0.00000001 -6.22212141 -4.588428172 -6.2221214064 -4.588428172 Quantidade de Isolamento térmico no sótão (polegadas) -17.5548072428 2.6120565485 -6.7206842259 0.00002132 -23.24598947 -11.8636250204 -23.2459894652 -11.8636250204 Plan1 Consumo mensal de óleo para calefação (Galões) Temperatura atmosférica média diária (F) Quantidade de Isolamento 275.3 40 3 363.8 27 3 164.3 40 10 40.8 73 6 94.3 64 6 230.9 34 6 366.7 9 6 300.6 8 10 237.8 23 10 121.4 63 3 31.4 65 10 203.5 41 6 441.1 21 3 232 38 3 52.5 58 10 Plan2 Plan3 * * * REGRESSÃO MÚLTIPLA * * * REGRESSÃO MÚLTIPLA * * * REGRESSÃO MÚLTIPLA * * * REGRESSÃO MÚLTIPLA Plan4 RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0.9772514969 R-Quadrado 0.9550204883 R-quadrado ajustado 0.947523903 Erro padrão 29.007180889 Observações 15 ANOVA gl SQ MQ F F de significação Regressão 2 214382.9508158382 107191.4754079191 127.39406693 0.00000001 Resíduo 12 10096.9985174951 841.4165431246 Total 14 224479.9493333334 Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0% Interseção 539.2595107154 23.5202810499 22.9274263165 0.00000000 488.01322148 590.505799948 488.0132214828 590.505799948 Temperatura atmosférica média diária (F) -5.4052747892 0.3749044526 -14.417739646 0.00000001 -6.22212141 -4.588428172 -6.2221214064 -4.588428172 Quantidade de Isolamento térmico no sótão (polegadas) -17.5548072428 2.6120565485 -6.7206842259 0.00002132 -23.24598947 -11.8636250204 -23.2459894652 -11.8636250204 Plan5 RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0.9772514969 R-Quadrado 0.9550204883 R-quadrado ajustado 0.947523903 Erro padrão 29.007180889 Observações 15 ANOVA gl SQ MQ F F de significação Regressão 2 214382.9508158382 107191.4754079191 127.3940669265 0.0000000083 Resíduo 12 10096.9985174951 841.4165431246 Total 14 224479.9493333334 Coeficientes Erro padrão Stat t valor-P 95% inferiores Interseção 539.2595107154 23.5202810499 22.9274263165 0 488.0132214828 Temperatura atmosférica média diária (F) -5.4052747892 0.3749044526 -14.417739646 0.0000000061 -6.2221214064 Quantidade de Isolamento -17.5548072428 2.6120565485 -6.7206842259 0.0000213172 -23.2459894652 Plan6 RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0.9826547566 R-Quadrado 0.9656103706 R-quadrado ajustado 0.9598787657 Erro padrão 26.0137832312 Observações 15 ANOVA gl SQ MQ F F de significação Regressão 2 228014.6263173599 114007.31315868 168.4712028421 0.0000000017 Resíduo 12 8120.6030159734 676.7169179978 Total 14 236135.2293333334 Coeficientes Erro padrão Stat t valor-P 95% inferiores Interseção 562.1510092285 21.0931043286 26.6509376937 0 516.1930836858 Temperatura atmosférica média diária (F) -5.436580588 0.3362161666 -16.1698964196 0.0000000016 -6.1691326727 Quantidade de Isolamento -20.0123206662 2.3425052266 -8.5431274343 0.0000019073 -25.1162010201 Plan1 Consumo mensal de óleo para calefação (Galões) Temperatura atmosférica média diária (F) Quantidade de Isolamento 275.3 40 3 363.8 27 3 164.3 40 10 40.8 73 6 94.3 64 6 230.9 34 6 366.7 9 6 300.6 8 10 237.8 23 10 121.4 63 3 31.4 65 10 203.5 41 6 441.1 21 3 323 38 3 52.5 58 10 Plan2 Plan3 * * * REGRESSÃO MÚLTIPLA Y = 562,1 - 5,44 tempetura - 20,01 isolamento A cada aumento de 1 F na temperatura o consumo de óleo (Y) diminui 5,44 galões por mês, considerando um dado valor para o isolamento térmico O modelo explica 96,99% (R2ajustado) da variação em Y. O coeficiente ajustado considera o número de variáveis explicativas na reta de regressão. * * * REGRESSÃO MÚLTIPLA TESTE DE HIPÓTES DA REGRESSÃO H0 = não existe relação entre Y e os X’s H1 = pelo menos um coeficiente é dif. de zero. Como o valor-p da regressão (F de signific) é menor que 0,05, podemos concluir que o pelo menos uma variável está relacionada ao consumo mensal de óleo para calefação. * * * REGRESSÃO MÚLTIPLA Devemos verificar a existência de correlação entre pares de variáveis explicativas. Quando há presença de correlação devemos eliminar do modelo aquela que menos contribui para explicar a variação em Y. * * * REGRESSÃO MÚLTIPLA No exemplo anterior a correlação entre X1 e X2 é de 0,00892. Portanto não há correlação entre temperatura e isolamento térmico. Devemos manter ambas variáveis no modelo.
Compartilhar