Baixe o app para aproveitar ainda mais
Prévia do material em texto
189 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear Essa Unidade está no capítulo 11 do livro base: MONTGOMERY, Douglas C, RUNGER, George C. Estatística aplicada e Probabilidade para Engenheiros. 4ª edição. Rio de Janeiro: LTC, 2009. Você também pode, se preferir, fazer a leitura do capítulo 10 do livro do Mario Triola, Introdução à Estatística, LTC, 2005. Cópias desses capítulos podem ser obtidas por meio da Pasta do Professor Professor (www.pastadoprofessor.com.br), fazendo login nessa página e enviando-as para serem impressas na Copiadora Set (casa amarela) da Unidade do Coração Eucarístico, ou em alguma outra copiadora da Unidade a que o aluno pertence. Não deixem de ler! Nota importante: • Essas aulas foram produzidas por meio de coletânea dos textos indicados na bibliografia. Não são citadas diretamente para não poluir o visual dos mesmos. • Os textos estão organizados e traduzidos para minha linguagem didática pessoal. • Um estudo mais aprofundado deverá ser baseado nas referências bibliográficas indicadas. Algumas notas de aulas: 1. Introdução A associação entre duas variáveis quantitativas também é chamada de medida de relação. As medidas de relação aqui estudadas são as que objetivam linearidade: correlação e regressão. Segundo ou dicionário Aurélio, correlação significa relação mútua entre dois termos, qualidade de correlativo, correspondência. Correlacionar significa estabelecer relação ou correlação entre; ter correlação. Enquanto que a palavra regressão significa: ato ou efeito de regressar, de voltar, retorno, regresso; dependência funcional entre duas ou mais variáveis aleatórias. A palavra regredir significa ir em marcha regressiva, retroceder. Os termos correlação e regressão surgiram com Francis Galton (1822-1911), primo de Charles Darwin, que usou pela primeira vez esses termos. Seu trabalho influenciou a Estatística e a Psicologia. Galton publicou o livro Gênio Hereditário, em 1869, onde aplicou conceitos estatísticos a problemas da hereditariedade. Galton ficou impressionado com a distribuição normal aplicada a área de biologia por Adolph Quételet (1796-1874), que mostrara no livro “O homem Médio”, que a estatura de dez mil sujeitos seguia uma distribuição normal, ou seja, a maioria dos sujeitos tinha suas estaturas em torno da média e que uma quantidade, cada vez menor, vai sendo encontrado à medida que se afasta da média. 190 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear Galton cunhou o termo regressão quando observou que filhos de homens altos, não são, em média, tão altos quanto os pais, enquanto que os filhos de homens muito baixos são, em média, mais altos do que os pais. Ele concebeu uma forma gráfica de representar as propriedades básicas do coeficiente de correlação. Ele aplicou o seu método de correlação a variações de medidas físicas, por exemplo, mostrou a correlação entre a altura do corpo e o comprimento da cabeça. Seu aluno Karl Pearson desenvolveu a fórmula matemática, que usamos hoje e que tem o seu nome em homenagem. O símbolo do coeficiente de correlação r, vem da primeira letra de regressão, em reconhecimento a Galton. 2. A Covariância e o Coeficiente de Correlação de Pearson Quando estudamos a relação entre duas variáveis X e Y devemos apreender um novo conceito que é a covariância. Se a variância é uma estatística através da qual chegamos ao desvio- padrão que é uma medida da dispersão dos dados. Semelhantemente, a covariância é uma medida da variação (dispersão) conjunta entre os dados de X e Y. Essa medida estatística nos possibilita chegar ao coeficiente de correlação o qual mede o grau de associação “linear” entre duas variáveis aleatórias. Apresentaremos esses conceitos por meio do exemplo a seguir. Exemplo 1: Sejam as variáveis aleatórias X, renda bruta anual em milhões de reais e Y, percentual da renda bruta gasto com assistência médica, que tomam os seguintes valores: Calculando as estatísticas descritivas temos: Uma forma mais simplificada para os cálculos é por meio da utilização da escrita de algumas somas intermediárias, tais como: n x xS n i i n i ixx 2 1 1 2 n yx yxS n i i n i i n i iixy 11 1 A covariância é obtida por meio da seguinte fórmula: 11 ),cov( n S n yyxx YX xy Renda bruta (X), em R$ 12 16 18 20 28 30 40 48 50 54 % gasta (Y) 7,2 7,4 7,0 6,5 6,6 6,7 6,0 5,6 6,0 5,5 Variável n Média Variância Desvio-padrão Renda bruta (X), em R$ 10 31,60 238,04 15,43 % gasta (Y) 10 6,45 0,43 0,66 191 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear O próximo quadro apresenta alguns cálculos intermediários para esse banco de dados: Renda bruta (X) % gasto (Y) XY X 2 Y 2 12 7,2 86,4 144 51,84 16 7,4 118,4 256 54,76 18 7,0 126,0 324 49,00 20 6,5 130,0 400 42,25 28 6,6 184,8 784 43,56 30 6,7 201,0 900 44,89 40 6,0 240,0 1600 36,00 48 5,6 268,8 2304 31,36 50 6,0 300,0 2500 36,00 54 5,5 297,0 2916 30,25 X = 316 Y = 64,5 X Y = 1952,4 X 2 = 12128 Y 2 =419,91 8,852,20384,1952 10 )5,64)(316( 4,1952 xyS 53,9 9 8,85 ),cov( YX Verifica-se graficamente a relação entre duas variáveis por meio do diagrama de dispersão entre elas. Nesse gráfico foram desenhadas as linhas das médias de X, E(X), e de Y , E(Y), e indicados os sinais da covariância em cada um dos quadrantes determinados por essas linhas: X: Renda bruta Y: % ga sto co m as sis t. m éd ica 605040302010 7,5 7,0 6,5 6,0 5,5 E(X) E(Y) Diagrama de dispersão: % gasto com assist. médica vs Renda bruta X-E(X)<0 e Y-E(Y)<0 X-E(X)<0 e Y-E(Y)>0 X-E(X)>0 e Y-E(Y)<0 X-E(X)>0 e Y-E(Y)>0 I III II IV Cov(X,Y) < 0 Cov(X,Y) > 0 Cov(X,Y) < 0 Cov(X,Y) > 0 X: Renda bruta Y: % ga sto co m as sis t. m éd ica 605040302010 7,5 7,0 6,5 6,0 5,5 E(X) E(Y) Diagrama de dispersão: % gasto com assist. médica vs Renda bruta X-E(X)<0 e Y-E(Y)<0 X-E(X)<0 e Y-E(Y)>0 X-E(X)>0 e Y-E(Y)<0 X-E(X)>0 e Y-E(Y)>0 I III II IV Cov(X,Y) < 0 Cov(X,Y) > 0 Cov(X,Y) < 0 Cov(X,Y) > 0 192 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear Observe que os desvios dos pontos que caem no quadrante II (supondo x e y os eixos centrais do plano cartesiano) tomam valores positivos, por tanto seus produtos, também, tomarão valores positivos. O mesmo acontece quando os pontos caem no IV quadrante, os dois desvios tomarão valores negativos, portanto seus produtos tomarão valores positivos. Se a maioria dos pontos estiverem espalhados no II e IV quadrante, a soma dos produtos dos desvios sempre será positivo, logo afirmaremos que a covariância destas duas variáveis é positiva, ou em outras palavras, a relação entre elas é direta, ou seja, a medida que uma cresce, a outra, também cresce e vice-versa. Agora,vejamos o que acontece se os pontos estivessem no quadrante I. Neste caso, os desvios de X seriam todos positivos, enquanto que os desvios de Y seriam todos negativos, logo os produtos tomarão valores negativos. O mesmo vai acontecer com os pontos do quadrante III, nele, os desvios de X tomarão valores negativos e os desvios de Y, valores positivos, logo os produtos tomarão valores negativos. Assim, se a maioria dos pontos cai nos quadrantes I e III a covariância tomará valores negativos, indicando que essas duas variáveis se relacionam de forma negativa ou inversa, ou seja, que quando uma cresce a outra diminui e vice-versa. Quando os pontos se distribuem nos quatro quadrantes, haverá valores positivos e negativos, logo a soma tenderá para zero, e neste caso, afirmaremos que não existe relação linear entre essas variáveis. Observamos que esta estatística tenderá para zero, mesmo havendo uma relação que não for linear, por exemplo, se os dados tivessem o formato de uma parábola, ou relação quadrática. A pesar de a covariância ser uma estatística adequada para medir relação linear entre duas variáveis, ela é complicada para comparar graus de relação entre variáveis devido a influencia das unidades de medida de cada variável, que pode ser metros, quilometro, quilogramas, centímetros, etc... Para evitar a influência da ordem de grandeza e unidades de cada variável, dividimos a covariância pelo desvio padrão de X e de Y, dando origem ao coeficiente de correlação de Pearson: 2222 yynxxn yxxyn )Y(dp)X(dp )Y,Xcov( r No conjunto de dados do exemplo, temos: 43,15 110 10 316 12128 1 )( 22 2 n n x x Xdp e 66,0 110 10 5,64 91,419 1 )( 22 2 n n y y Ydp Logo, 9401,0 )66,0)(43,15( 53,9 )()( ),cov( YdpXdp YX r 193 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear O coeficiente de correlação também pode ser calculado utilizando as somas intermediárias: Txx xy SQS S r Dessa maneiira, tem-se: 4,85xyS 4,2142 10 316 12128 2 2 1 1 2 n x xS n i in i ixx 885,3 10 5,64 91,419 2 2 1 1 2 2 1 1 22 1 2 n y y n y nyynySSQ n i in i i n i in i i n i iyyT Logo, 9401,0 )885,3)(4,2142( 8,85 Txx xy SQS S r O coeficiente de correlação mede a força da relação entre as duas variáveis. O sinal representa se a relação é positiva ou negativa conforme as explicações fornecidas para a covariância. Uma sugestão de classificação para essa força é: Correlação (r) Significado - 1 Relação linear negativa perfeita |r| < 0,4 Relação linear fraca 0,4 |r| 0,7 Relação linear moderada |r| > 0,7 Relação linear forte 1 Relação linear positiva perfeita Portanto, no nosso exemplo, a relação linear é negativa forte, o que significa que quanto maior a renda anual menor o percentual gasto com assistência médica. Podemos observar os seguintes tipos de correlação: 194 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear Vale a pena considerar que o fato de duas variáveis estarem fortemente correlacionadas por si só não implica em uma relação de causa e efeito entre elas. Exemplo, podemos ter em uma certa região um grande número de cegonhas e um alta taxa de nascimento de bebes. Essas duas variáveis podem estar altamente correlacionadas, mas não podemos acreditar numa relação de causa e efeito entre elas (ainda...). Esse tipo de correlação é chamado de “espúria”. Exemplo 2: O estatístico F. J. Anscombe preparou os seguintes conjuntos de dados para exemplificar a correlação, os quais são bastante utilizados para efeitos didáticos: 195 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear Observe que esses dados produzem as mesmas estatísticas descritivas. No entanto, o gráfico de dispersão para cada um desses conjuntos apresenta configurações completamente diferentes: 3. Modelamento por Regressão Linear Simples Essa técnica é uma maneira útil de estudar relações entre variáveis, quando fizer sentido tentar predizer ou explicar o comportamento de uma variável, em termos do comportamento de outra ou de outras variáveis. A variável cujo comportamento queremos explicar ou predizer é chamada de variável resposta, ou dependente e, por convenção é denotada por Y. As outras variáveis são de X1 Y1 X2 Y2 X3 Y3 X4 Y4 10 8,04 10 9,14 10 7,46 8 6,58 8 6,95 8 8,14 8 6,77 8 5,76 13 7,58 13 8,74 13 12,74 8 7,71 9 8,81 9 8,77 9 7,11 8 8,84 11 8,33 11 9,26 11 7,81 8 8,47 14 9,96 14 8,1 14 8,84 8 7,04 6 7,24 6 6,13 6 6,08 8 5,25 4 4,26 4 3,1 4 5,39 19 12,5 12 10,84 12 9,13 12 8,15 8 5,56 7 4,82 7 7,26 7 6,42 8 7,91 5 5,68 5 4,74 5 5,73 8 6,89 Média 9,0 7,5 9,0 7,5 9,0 7,5 9,0 7,5 Desvio-padrão 3,3 2,0 3,3 2,0 3,3 2,0 3,3 2,0 Covariância Correlação 5,0 0,82 0,82 0,82 0,82 E s t D e s c r i t 5,0 5,0 5,0 2015105 12 10 8 6 4 2015105 12 10 8 6 4 Y1*X1 Y2*X2 Y3*X3 Y4*X4 Diagrama de Dispersão: Y1 vs X1; Y2 vs X2; Y3 vs X3; Y4 vs X4 196 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear interesse apenas para nos ajudar a entender, explicar ou predizer o comportamento de Y e são chamadas de variáveis explicativas ou preditoras ou independentes. Na análise de regressão linear utilizamos a equação matemática de uma reta para descrevermos a relação entre Y e X. Essa reta é ajustada aos dados da melhor maneira possível, ou seja, de tal forma que as distâncias das observações a ela sejam as menores possíveis. Esse método é conhecido como “mínimos quadrados”, por considerar o quadrado dessas distâncias (ou resíduos). A equação de uma reta em matemática é: Y = a + bX. Em estatística é usual descrever essa reta como: XY 10 Em que 0 é o valor do intercepto, ponto em que a reta cruza o eixo das coordenadas, Y e 1 é a taxa de acréscimo ou decréscimo que cada unidade de X produz em Y. O gráfico a seguir exemplifica a equação de uma reta e seu significado, por eixo coordenado, para a reta de regressão estimada: Considerando que estamos ajustando uma reta aos dados, costuma-se escrever essa reta de maneira indicada de estimação, ou seja, colocamos um “chapéu” na variável resposta Y e nos valores dos ’s, isto é: XˆˆYˆ 10 O valor de yˆ é o valor previsto para certo valor de x observado. As estimativas de mínimos quadrados para os valores do intercepto e da taxa ou inclinação são: xˆyˆ 10 Em que, n 1i iy n 1 y e n 1i ix n 1 x 0 x (variável independente ou explicativa ou preditora) y (variável dependente ou resposta) Y = b0 + b1 xb0 y x x y )(tgb 1 0 x (variável independente ou explicativa ou preditora) y (variável dependente ou resposta) Y = b0 + b1 x b0 y x x y )(tgb 1 197 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear xx xy 1 S S ˆ Lembrando que, n x x)xx(S 2 n 1i in 1i 2 i n 1i 2 ixx e n yx yx)yy)(xx(S n 1i i n 1i in 1i ii n 1i iixy Obs.: Sxx e Sxy são convenientes expressões facilitadoras para a notação dos numeradores e dos denominadores aqui utilizados. Considerando os dados apresentados no exemplo 1, temos os seguintes resultados: 6,31x ; 45,6y ; 316x ; 5,64y ; 4,1952xy ; 12128x2 Com esses dados podemos calcular: 8,85 10 5,64316 4,1952Sxy e 4,2142 10 316 12128S 2 xx Dessa maneira, os coeficientes estimados são: 04005,0 4,2142 8,85ˆ 1 xx xy S S e 716,7)6,31)(04007,0(5,64xˆyˆ 10 Dessa maneira temos que a reta de regressão linear simples ajustada a esses dados é: x04,072,7yˆ Em que Y significa o percentual gasto em assistência médica e X é a renda bruta anual. Essa reta indica que cada unidade da renda bruta anual produz um decréscimo 0,04 na previsão do percentual da renda bruta gasto em assistência médica. Em termos numéricos, se a renda bruta anual for de 22 milhões de reais, espera-se em média um percentual de 6,9% de gasto com assistência médica. Em termos de reais, o gasto com assistência médica, considerando essa renda bruta anual é de aproximadamente 1,38 milhões, em média. Nesse exemplo em particular, os planos de saúde estarão em situação de determinar as políticas de vendas por segmentos de rendas anuais. Importante: Essa técnica só poderá ser utilizada se existir correlação linear significativa entre as variáveis Y e X. A reta de regressão ajustada pelo software Minitab para esse exemplo é: 198 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear O coeficiente de determinação R2 é obtido facilmente pelo quadrado do coeficiente de correlação linear e multiplicando esse valor por 100, ele fornece o percentual da variação em Y explicada pela variável X. No exemplo acima, temos R2 = 0,884 = 88,4% da variação no percentual de gasto com assistência médica é explicada pela renda bruta anual. Observe que 0,884= (-0,9401)2. De maneira geral, o coeficiente de determinação é calculado por: T ET2 SQ SQSQ R , em que 2 1 2 ynySQ n i iT é a soma dos quadrados dos erros sem considerar o efeito da variável Y, e n 1i 2 iE )yˆy(SQ é a soma dos quadrados dos erros considerando o efeito da variável X. Um estimador não-tendencioso da variância do termo do erro (resíduos: diferença entre o y observado e o Y estimado) é: 2 ˆ 2 n SQE O termo SQE pode ser mais convenientemente calculado pela fórmula: xyTE SSQSQ 1ˆ O coeficiente de correlação também pode ser calculado por meio dessas expressões facilitadoras: Txx xy SQS S r Para efeito de demonstração, para os dados do exemplo 1: O coeficiente de correlação r = -0,9401 Renda Bruta % g as to 605040302010 7,5 7,0 6,5 6,0 5,5 S 0,236864 R-Sq 88,4% R-Sq(adj) 87,0% Reta de Regressão Linear ajustada % gasto = 7,716 - 0,04005 Renda Bruta 199 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear Para o cálculo da variância estimado dos resíduos, tem-se: 4487,0)8,85)(04005,0(885,3ˆ1 xyTE SSQSQ Então, 0561,0 210 4487,0 2 ˆ 2 n SQE Os resultados estimados pelo software Minitab forneceram: Regression Analysis: % gasto versus Renda Bruta The regression equation is % gasto = 7,72 - 0,0400 Renda Bruta Predictor Coef SE Coef T P Constant 7,7155 0,1782 43,29 0,000 Renda Bruta -0,040049 0,005117 -7,83 0,000 S = 0,236864 R-Sq = 88,4% R-Sq(adj) = 87,0% Analysis of Variance Source DF SS MS F P Regression 1 3,4362 3,4362 61,25 0,000 Residual Error 8 0,4488 0,0561 Total 9 3,8850 2 ESQ Obs.: os valores não são exatamente iguais devidos a erros de arredondamentos e interações utilizados no ajuste do modelo pelo software (SS=SQ e MS = MQ) 3.1 Analise de variância para testar a significância do modelo ajustado pela técnica da Regressão Linear: Fonte de Variação Graus de liberdade Soma dos Quadrados Quadrados Médios F0 Regressão 1 xy1R SˆSQ 1 SQ MQ RR E R MQ MQ Erro (Resíduos) n-2 xyTE SSQSQ 1ˆ 2n SQ MQ EE Total n-1 SQT = SQR + SQE Esse procedimento divide a variância total (SQT) da variável resposta em componentes significantes obtidos pela variação da Soma dos Quadrados da Regressão: SQR e a Soma dos Quadrados dos erros (resíduos). A estatística F0 testa a significância da regressão utilizando a distribuição de Fisher. A hipótese nula desse teste é: H0 : 1 =0, e essa hipótese será rejeitada para valores grandes de F considerando os graus de liberdade do numerador e do denominador. Essa rejeição é equivalente ao p-valor menor que 5% (p < 0,05), por exemplo. 200 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear Resolução de um exercício 1) (Montgomery, adaptado) Os dados referentes ao peso, em kg, e à pressão sanguínea sistólica de 26 homens selecionados aleatoriamente, na faixa etária de 25 a 30 anos, estão apresentados na tabela seguinte. Considere que o peso e pressão sanguínea sejam distribuídos normal e conjuntamente. Solução: Indivíduo Peso (X) Pressão Sistólica (Y) XY X 2 Y 2 1 74,8 13 972,4 5595,04 169 2 75,8 13,3 1008,14 5745,64 176,89 3 81,7 15 1225,5 6674,89 225 4 70,3 12,8 899,84 4942,09 163,84 5 96,2 15,1 1452,62 9254,44 228,01 6 79,4 14,6 1159,24 6304,36 213,16 7 86,2 15 1293 7430,44 225 8 95,3 14 1334,2 9082,09 196 9 90,7 14,8 1342,36 8226,49 219,04 10 67,6 12,5 845 4569,76 156,25 11 71,7 13,3 953,61 5140,89 176,89 12 76,7 13,5 1035,45 5882,89 182,25 13 77,1 15 1156,5 5944,41 225 14 78 15,3 1193,4 6084 234,09 15 72,1 12,8 922,88 5198,41 163,84 16 76,2 13,2 1005,84 5806,44 174,24 17 78,9 14,9 1175,61 6225,21 222,01 18 83 15,8 1311,4 6889 249,64 19 97,5 15 1462,5 9506,25 225 20 88,5 16,3 1442,55 7832,25 265,69 21 81,7 15,6 1274,52 6674,89 243,36 22 64,9 12,4 804,76 4212,01 153,76 23 108,9 17 1851,3 11859,21 289 24 106,6 16,5 1758,9 11363,56 272,25 25 87,1 16 1393,6 7586,41 256 26 84,8 15,9 1348,32 7191,04 252,81 Total 2151,7 378,6 31623,44 181222,1 5558,02 Faça o que se pede: a) Verifique graficamente se existe tendência linear entre Y e X; 201© Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear A nuvem de dados parece indicar relação linear entre X e Y b) Calcule a covariância entre Y e X; Cálculos intermediários: 11010090807060 17 16 15 14 13 12 Peso (X) Pr es sã o Si st ól ic a (Y ) Diagrama de dispersão: Pressão Sistólica (Y) vs Peso (X) 655,11 25 378,291 25 26 )6,378)(7,2151( 44,31623 1 ),cov( n n yx xy YX 3777,291 26 )6,378)(7,2151( 44,31623 11 1 n yx yxS n i i n i in i iixy 3735,3152 26 )7,2151( 1,181222 2 2 1 1 2 n x xS n i in i ixx 7577,82 26 7,21511 1 n i ix n x 5615,14 26 6,3781 1 n i iy n y 202 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear c) Calcule o coeficiente de correlação linear entre Y e X; d) Ajuste um modelo de regressão linear simples; e) Interprete os resultados do item anterior (d); : significa que para um homem com peso de 0 kg, a pressão sistólica média é de 6,91147 (unidade de medida – u.m.) : indica que cada aumento de 1 kg no peso de um homem, na faixa etária de 25 30 anos, produz uma taxa de aumento de 0,0924 u.m. na pressão sistólica. f) Teste a significância da regressão ao nível de significância de 5%, considerando que o valor tabelado da estatística F é 4,26; 0307,45)5615,14)(26(0,5558 2 1 22 n i itotal ynySQ 0924,0 3835,3152 3777,291ˆ 1 xx xy S S 9147,6)7577,82)(0924,0(5615,14ˆˆ 10 xy 1111,18)3777,291)(0924,0(0307,45ˆ1 xyTE SSQSQ 7733,0 )0307,45)(3835,3152( 3777,291 ˆ Txx xy SQS S r xxy 0924,09147,6ˆˆˆ 10 0ˆ 1ˆ 9196,261111,180307,45 ETR SQSQSQ 9196,26 1 RR SQ QM 7546,0 24 1111,18 2 n SQ QM ee 674,35 7546,0 9196,26 0 e R QM QM F 203 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear O valor crítico tabelado da distribuição de Fisher ao nível de 5% de significância é apresentado na figura abaixo: Como F0 >> 4,26 , isso significa que o teste está na região de rejeição de H0, logo a regressão é significativa ao nível de 5% . g) Estime a variância residual, 2; h) Encontre a pressão sistólica média prevista para um homem com 92,5 kg, na faixa etária entre 25 e 30 anos. A pressão sistólica média prevista é de 15,4617 u.m. Obs.: O modelo ajustado pelo software Minitab: Regression Analysis: Pressão Sistólica (Y) versus Peso (X) The regression equation is Pressão Sistólica (Y) = 6,91 + 0,0924 Peso (X) Predictor Coef SE Coef T P Constant 6,912 1,291 5,35 0,000 Peso (X) 0,09243 0,01546 5,98 0,000 S = 0,868169 R-Sq = 59,8% R-Sq(adj) = 58,1% Analysis of Variance Source DF SS MS F P 7546,0 226 1111,18 2 ˆ 2 n SQE 4617,15)5,92)(0924,0(9147,6ˆ y 26,405,0)( 24;1 xxFP 204 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear Regression 1 26,932 26,932 35,73 0,000 Residual Error 24 18,089 0,754 Total 25 45,022
Compartilhar