Prévia do material em texto
1 � Coeficiente de Correlação � Regressão Linear Simples Inferência Estatística Correlação e Regressão Profª Lisiane Selau Correlação � Os testes de hipóteses vistos até agora analisam informações referentes a uma única variável, porém frequentemente estamos interessados em analisar o comportamento conjunto de duas variáveis. � Com duas variáveis também pode ser de interesse conhecer se elas têm algum tipo de associação entre si. � se valores baixos (altos) de uma das variáveis implicam em valores altos (ou baixos) da outra variável. Exemplos: � relação entre a altura dos pais e a altura dos filhos, � relação entre renda familiar e número de filhos. 2 Profª Lisiane Selau �Uma forma bastante útil de se observar a relação entre duas variáveis é o gráfico de dispersão. �Em geral vamos supor que há uma variável dependente (Y) que depende de outra variável preditora (X). �O diagrama de dispersão fornece uma ideia do tipo de relacionamento entre as duas variáveis. � pais altos (X) e filhos altos (Y), � renda familiar alta (X) e baixo número de filhos (Y). Gráfico de Dispersão 3 Profª Lisiane Selau Exemplo: Observe os seguintes diagramas de dispersão que dizem respeito ao número do calçado (tamanho da sapatilha) e a altura dos atletas que estão a escalar uma montanha e, no segundo caso, à relação entre a altitude e a temperatura. 4 Pode concluir-se que há uma relação entre a altura de uma pessoa e o número de sapatilha que usa? À medida que se subia a montanha a temperatura subia ou descia? Profª Lisiane Selau 4 Exemplo: Após uma regulagem eletrônica um veículo apresenta um rendimento ideal no que tange a consumo de combustível. Contudo, com o passar do tempo esse rendimento vai se degradando. Os dados a seguir representam o rendimento medido mês a mês após a regulagem. X: meses após a regulagem 1 2 3 4 5 6 Y: rendimento 10,7 10,9 10,8 9,3 9,5 10,4 X: meses após a regulagem 7 8 9 10 11 12 Y: rendimento 9,0 9,3 7,6 7,6 7,9 7,7 5 Profª Lisiane Selau Rendimento de combustível 6 Tempo após a regulagem Co 0 2 4 6 8 10 12 7 8 9 10 11 12 Profª Lisiane Selau Coeficiente de Correlação de Pearson ( S x y n x y xy i i i i = -∑ ∑∑ )( ) n S x x xx i i = -∑ ∑2 2( ) -S y n y yy i i= ∑ ∑2 2( ) yyxx xy SS S r × = 7 � Para uma amostra de n pares de valores (x,y) o coeficiente de correlação linear de Pearson r fornece uma medida da relação linear que existe entre duas variáveis X e Y. Profª Lisiane Selau Apesar de r ser um valor adimensional, ele não é uma taxa e, portanto, o resultado não deve ser expresso em percentagem. � r positivo ⇒ correlação positiva entre x e y � r negativo ⇒ correlação negativa entre x e y � r próximo de 0 indica uma correlação fraca entre x e y Interpretação do coeficiente r Interpretação da correlação 0 a 0,40 Fraca 0,40 a 0,60 Regular 0,60 a 0,80 Boa 0,80 a 0,99 Forte 1 Perfeita 8 Profª Lisiane Selau 9 Interpretação do coeficiente r=+1 Positiva perfeita r=+0,9 Positiva forte r=+0,1 Positiva fraca r=-1 Negativa perfeita r= -0,5 Negativa regular Profª Lisiane Selau 10 Interpretação do coeficiente r=0 r=0 r=0 Profª Lisiane Selau 11 Exercício: Observe os seguintes diagramas de dispersão. 1 Indique, pela letra correspondente, aqueles em que se observa: a) uma associação positiva; b) uma associação negativa. 2 Indique, pela letra correspondente, o diagrama em que não há uma associação clara entre as duas variáveis. Profª Lisiane Selau 11 12 Exercício: Observe os diagramas de dispersão. Em qual deles lhe parece haver um maior grau de associação entre as variáveis x e y ? Explique o seu raciocínio. Profª Lisiane Selau 12 Voltando ao exemplo: cálculos iniciais Meses(X) Rendimento(Y) X^2 Y^2 X*Y 1 10,7 1 114,49 10,7 2 10,9 4 118,81 21,8 3 10,8 9 116,64 32,4 4 9,3 16 86,49 37,2 5 9,5 25 90,25 47,5 6 10,4 36 108,16 62,4 7 9 49 81 63 8 9,3 64 86,49 74,4 9 7,6 81 57,76 68,4 10 7,6 100 57,76 76 11 7,9 121 62,41 86,9 12 7,7 144 59,29 92,4 78 110,7 650 1039,55 673,1 6,5 9,225 Σxi = 78 Σxi2 = 650 Σyi = 110,7 Σyi2 = 1039,55 Σxi yi = 673,1 13 Profª Lisiane Selau Cálculos Interpretação: Existe uma correlação linear inversa na amostra entre tempo após a regulagem e rendimento; passa o tempo e diminui o rendimento do combustível. A intensidade desta correlação é forte. ( ) ( ) 143/1278650nxxS 22i2ixx =−=−=∑ ∑ ( ) ( ) 18,34/12110,71039,55nyyS 22i2iyy =−=−=∑ ∑ ( )( ) 46,45110,7)/12(78673,1nyxyxS iiiixy −=×−=−=∑ ∑∑ 0,907 18,34 x 143 46,45 SS S r yyxx xy −= − = × = 14 Σxi = 78 Σxi2 = 650 Σyi = 110,7 Σyi2 = 1039,55 Σxi yi = 673,1 Profª Lisiane Selau 15 Correlação ≠≠≠≠ Causalidade � O coeficiente de correlação não mede a relação causa e efeito entre as variáveis, apesar de que essa relação possa estar presente. � Um exemplo é a forte correlação positiva entre as vendas anuais de chicletes e a taxa de criminalidade nos EUA. � Obviamente, não podemos concluir que haja a relação de causa e efeito e que para reduzir a taxa de criminalidade bastaria proibir a venda de chicletes. � O que se observa é que as duas variáveis são dependentes do tamanho da população, e é essa relação mútua com a terceira variável (tamanho da população) que produz a correlação forte e positiva entre a venda de chicletes e a incidência de crimes nos EUA. Profª Lisiane Selau � Observada uma amostra de seis pares, pode-se perceber que a correlação é quase um, isto é, r ≅ 1. No entanto, observe o que ocorre quando mais pontos são acrescentados, isto é, quando se observa a população! Teste de hipótese para coeficiente de correlação 16 0 10 20 30 40 50 10 15 20 25 30 r r r r ≅≅≅≅ 1111 ρ ρ ρ ρ ≅≅≅≅ 0000 Profª Lisiane Selau 16 � Uma correlação amostral não significa necessariamente uma correlação populacional. É necessário testar o coeficiente de correlação para verificar se a correlação amostral é também populacional. � A hipótese da existência de uma relação entre X e Y, pode ser formulada usando-se: H0 : ρ = 0 (não existe correlação) HA : ρ ≠ 0 (existe correlação) onde a letra ρ é usada para representar o valor populacional do coeficiente de correlação. Pode ser demonstrado que o valor da estatística T pode ser calculado usando: 2n2 t~ r1 2nrT − − − = Teste de hipótese para coeficiente de correlação 17 Profª Lisiane Selau 0-tαααα/2 tαααα/2 αααα/2 αααα/2 Teste de hipótese para coeficiente de correlação � Assim a hipótese da existência de uma relação entre X e Y pode ser verificada diretamente a partir do valor amostral do coeficiente de correlação. Assim, a hipótese nula será rejeitada se o valor t calculado for maior que o tabelado: � Para o exemplo em estudo tem-se: ou seja, descarta-se a hipótese nula e conclui-se que deve existir correlação entre as variáveis estudadas. 2n/2,tt −> α 0,0,025;102 H se-rejeita 2,228t6,82 0,907)(1 2120,907t ⇒=>−= −− −− = 18 Profª Lisiane Selau 19 Outro exemplo: Suponha que uma amostra de n = 12, alunos forneceu um coeficiente de correlação amostral de r = 0,66, entre X = “nota em cálculo” e Y = “nota em estatística”. Verifique se é possível afirmar que uma nota boa em cálculo está relacionada com uma nota boa em estatística a 5% de significância. 19 H0 : ρ = 0 HA : ρ ≠ 0 2r1 2nrt − − = 2,778 0,661 2120,66 2 = − − = 2,228-2,228 � α = 5% e ν = n - 2 = 10 Conclusão: Rejeita-se H0, isto é, a 5% de significância, pode- se afirmar que a notade cálculo deve estar relacionada com a de estatística. Profª Lisiane Selau 19 20 Outra opção de análise é trabalhar com a significância do resultado obtido (2,778), isto é, o valor p. Para isto, deve-se calcular P(|t10| > 2,778). Utilizando o Excel, tem-se: 20 Conclusão: Como a significância do resultado (1,95%) é menor que a significância do teste (5%) é possível rejeitar a hipótese nula. Profª Lisiane Selau 20 21 Exercício: Considere os dados abaixo, referentes às variáveis vendas e espaço nas prateleiras (em cm2) para produtos. Calcule o valor do coeficiente de correlação, interprete e teste sua significância a 5%. Espaço (X): 340 230 405 325 280 195 265 300 350 410 Vendas (Y): 71 65 83 74 67 56 57 78 84 65 r = 0,6420 tc = 2,368 e ttab = 2,306 21 Profª Lisiane Selau Regressão Linear Simples � Em muitos problemas há duas ou mais variáveis que são relacionadas, e pode ser importante modelar essa relação. � Por exemplo, pode-se ter interesse em predizer � as vendas futuras de um produto em função do seu preço, � a perda de peso de uma pessoa em decorrência do número de dias que se submete a uma determinada dieta, � a despesa de uma família com médico e remédios em função da renda, � o consumo per capita de certos alimentos em função do seu valor nutritivo e do gasto com propaganda na TV, � a produção de uma determinada cultura em função da quantidade de nutriente aplicada no solo. Profª Lisiane Selau 22 � Outro exemplo, as vendas de um produto podem estar relacionadas ao valor gasto em marketing com esse produto. Assim, é possível construir um modelo relacionando vendas a gastos com marketing, e então pode-se usar esse modelo para fins previsão de vendas. � Em geral vamos supor que há uma variável dependente (ou variável de resposta) Y que depende de uma variável preditora (ou variável explicativa) X. �A regressão linear simples estima uma equação matemática (ou modelo) que dado o valor de X (variável preditora), prevê o valor de Y (variável dependente). � É dito regressão linear simples, pois supõe-se tendência linear entre as variáveis e simples por ser uma única variável preditora. Profª Lisiane Selau 23 � Modelo de regressão linear simples Y = β0 + β1 X + ε erro aleatório � O coeficiente β0 é a interseção (valor de Y para X = 0). �O coeficiente β1 é a inclinação da reta, que pode ser positiva, negativa ou nula. � Se há n pares de dados (y1, x1), ..., (yn, xn) é possível estimar os parâmetros β0 e β1 usando o Método dos Mínimos Quadrados. � Temos então , estimativas amostrais de β0 e β1. O uso do método conduz às seguintes estimativas: XY 1ββ ˆˆ −=0 10 ββ ˆˆ e ( )( ) ( )∑ ∑ ∑ ∑∑ − − = nxx nyxyx 2 i 2 i iiii 1βˆ Profª Lisiane Selau 24 Exemplo: Após uma regulagem eletrônica um veículo apresenta um rendimento ideal no que tange a consumo de combustível. Contudo, com o passar do tempo esse rendimento vai se degradando. Os dados a seguir representam o rendimento medido mês a mês após a regulagem. Ajuste um modelo linear a esses dados. X:meses após a regulagem 1 2 3 4 5 6 Y : rendimento 10,7 10,9 10,8 9,3 9,5 10,4 X:meses após a regulagem 7 8 9 10 11 12 Y : rendimento 9,0 9,3 7,6 7,6 7,9 7,7 Profª Lisiane Selau 25 Rendimento de combustível Tempo após a regulagem Co 0 2 4 6 8 10 12 7 8 9 10 11 12 Profª Lisiane Selau 26 Cálculos iniciais Meses(X) Rendimento(Y) X^2 Y^2 X*Y 1 10,7 1 114,49 10,7 2 10,9 4 118,81 21,8 3 10,8 9 116,64 32,4 4 9,3 16 86,49 37,2 5 9,5 25 90,25 47,5 6 10,4 36 108,16 62,4 7 9 49 81 63 8 9,3 64 86,49 74,4 9 7,6 81 57,76 68,4 10 7,6 100 57,76 76 11 7,9 121 62,41 86,9 12 7,7 144 59,29 92,4 78 110,7 650 1039,55 673,1 6,5 9,225 Σ x = 78 Σ x2 = 650 Σ y = 110,7 Σ y2 = 1039,55 Σ x y = 673,1 6,50X = 9,225Y = Profª Lisiane Selau 27 Estimativa dos parâmetros: = -46,45 / 143,00 = -0,325 = 9,225 - (-0,325) 6,50 = 11,34 Equação de regressão Y = 11,34 - 0,325 X 6,50X = 9,225Y = Σ x = 78 Σ x2 = 650 Σ y = 110,7 Σ x y = 637,1 Cálculos ( )( ) ( )∑ ∑ ∑ ∑∑ − − = nxx nyxyx 2 i 2 i iiii 1βˆ XY 1ββ ˆˆ −=0 ( ) ( ) 143/1278650nxx 22i2i =−=−∑ ∑ 1βˆ 0βˆ ( )( ) 46,45110,70)/12(78673,1nyxyx iiii −=×−=−∑ ∑∑ Profª Lisiane Selau 28 Coeficiente de Determinação r2 é conhecido como Coeficiente de Determinação r2 = quadrado do coeficiente de correlação r r2 equivale a proporção da variância dos valores de Y que pode ser atribuída à regressão com a variável X. � Para o exemplo, resultou r2 =(-0,907)2 = 0,82, ou seja, 82% da variabilidade nos resultados de rendimento de combustível pode ser devida ao tempo decorrido após a regulagem. 18% da variabilidade total é devido a outros fatores que não foram investigados. Profª Lisiane Selau 29 Variância dos Estimadores Para verificar a precisão das estimativas, determinar intervalos de confiança e testar hipóteses é importante conhecer a variância dos estimadores. Uma estimativa da variância residual, σ2, vem dada por S2 = SQR / (n-2), onde E a partir de S2 obtém-se as estimativas das variâncias de b1 e b0 : += = XX 2 22 0 b XX 22 1 b S X n 1SS SSS XY1YY SbSSQR −= Profª Lisiane Selau 30 Intervalos de Confiança e Testes de Hipótese Como os resíduos de Y supostamente seguem a distribuição Normal, e como os valores de a e b são funções lineares de Y: Esses resultados podem ser usados em testes de hipótese. Por exemplo, se a hipótese é: então calcula-se: t = (b1 - β10) / Sb1 � H0 é rejeitada se . ( ) ( )21 1120 00 , , bb NbNb σβσβ →→ 0 0 11 110 : : ββ ββ ≠ = AH H 2n,2/tt −α> Profª Lisiane Selau 31 O intervalo de confiança para β1 virá dado por Uma hipótese testada com frequência é: Isto é, testa-se se a inclinação é igual a zero, o que equivale a testar se existe uma relação entre Y e X. t = (b1 - β10) / Sb1 � t = b1 / Sb1 que deve ser comparado com o valor tabelado . Como sempre, H0 será rejeitado se . 2n,2/t −α 22 −> ,nα/tt 1 b2/111 b2/1 StbStb αα +<β<− 0: 0: 1 10 ≠ = β β AH H Profª Lisiane Selau 32 � Usando os dados do problema do consumo de combustível, obtenha as estimativas para a variância residual e para a variância dos parâmetros b0 e b1. Construa um intervalo de confiança para a inclinação b1 e verifique a hipótese . Estimativa das variâncias SQR S b SYY XY= − =1 3 24, 0,351=S ; 123,0 S X n 1SS 0476,0S ; 00227,0S/SS 569,0S ; 324,0)2n/(SQRS 0 b XX 2 22 0 b 1 bXX 22 1 b 2 = += === ==−= Profª Lisiane Selau 33 Intervalo de confiança para b1 t0,025;10 = 2,228 -0,325 - 2,228 (0,0476)< β1 < -0,325 + 2,228 (0,0476) -0,431< β1 < -0,219 Como esse intervalo não inclui o zero, a hipótese β1 = 0 é rejeitada, ou seja, existe uma relação entre o consumo de combustível e o tempo decorrido após a regulagem. Profª Lisiane Selau 34 Previsão de valores de Y � A análise de regressão produz uma relação entre as variáveis consideradas, a qual pode ser usada para prever valores de Y. � Dado um certo valor de X = x0, há dois tipos de previsão: previsão de um valor médio de Y e previsão de um valor individual de Y. � Nos dois casos a estimativa pontual de Y é a mesma, mas a amplitude do intervalo de confiança é diferente. � O intervalo de confiança é mais amplo para o caso de previsões de valores individuais. Profª Lisiane Selau 35 Previsão de um valor médio de Y � A variância da previsão de um valormédio de Y vem dada por: �Como pode ser visto, a variância da previsão é mínima quando x0 = e aumenta quando x0 afasta-se de . � Assim, o intervalo de confiança para a previsão de um valor médio virá dado por: µY = (b0 + b1 X0) ± tα/2 ; n-2 p YS X X ( ) − += XX 2 022 pY S Xx n 1SS Profª Lisiane Selau 36 � A variância da previsão de valores individuais de Y segue o mesmo comportamento observado para os valores médios. Contudo, a variância é maior no caso de valores individuais. � A variância da previsão de um valor individual de Y vem dada por: � De modo que o intervalo de confiança para a previsão de um valor individual de Y é: Y = (b0 + b1 X0) ± tα/2 ; n-2 ( ) − ++= XX 2 022 Yp S Xx n 11SS p YS Previsão de um valor individual de Y Profª Lisiane Selau 37 Usando os dados do problema do consumo de combustível, obtenha os intervalos de confiança de 95% para a previsão de um valor médio e um valor individual de Y para um tempo x0 = 8 meses. Y = 11,34 - 0,325 X = 8,74 ; = 0,0157( ) XXS X 20 −x 597,0S ; 356,00157,0 12 11324,0S 179,0S ; 0321,00157,0 12 1324,0S p Y 2 p Y p Y 2 p Y == ++= == += Profª Lisiane Selau 38 � Valor médio para x0 = 8 µY = 8,74 ± 2,228 . (0,179) µY = 8,74 ± 0,399 ⇒ (8,341 – 9,139) � Valor individual para x0 = 8 Y = 8,74 ± 2,228 . (0,597) Y = 8,74 ± 1,33 ⇒ (7,41 – 10,07) Tempo após a regulagem Co 0 2 4 6 8 10 12 7 8 9 10 11 12 Profª Lisiane Selau 39 Análise da Validade do Modelo A adequação do ajuste e as suposições do modelo podem ser verificadas através de uma análise dos resíduos. Os resíduos padronizados são calculados como: Ri = Adequação do ajuste A adequação do ajuste é testada plotando os resíduos em função de X. Se o ajuste for bom, os resíduos seguirão um padrão aleatório. Caso contrário, alguma tendência curvilínea será observada. ( )y b b x S i i− +0 1 XY1YY SbSSQR −= 2n/SQRS2 −= Profª Lisiane Selau 40 Na figura a seguir, (a) representa uma situação onde o ajuste é adequado, enquanto (b) representa uma situação onde o modelo linear não se ajusta bem aos dados. X Re 0 4 8 12 16 20 -2 -1 0 1 2 Re 0 4 8 12 16 20 -2 -1 0 1 2 X (a) (b) Figura 10.3: Análise de Resíduos Profª Lisiane Selau 41 X Re 0 4 8 12 16 20 -2 -1 0 1 2 (a) X Re 0 4 8 12 16 20 -3 -2 -1 0 1 2 3 (b) Figura 10.4: Verificação da Homogeneidade da Variança Homogeneidade da variância � A suposição de homogeneidade da variância σ2 ao longo de todo o intervalo de X também pode ser verificada analisando o gráfico de Resíduos × X. � A figura a seguir apresenta uma situação (a) onde verifica-se a suposição de homogeneidade, enquanto que em (b) essa suposição é violada. Profª Lisiane Selau 42 Normalidade dos Resíduos � O teste da normalidade da distribuição dos resíduos pode ser feito plotando-se os resíduos em papel de probabilidade ou utilizando testes analíticos de normalidade, como o teste do Chi-quadrado ou o teste de Kolmorov-Smirnov. � Se as suposições são rejeitadas, muitas vezes uma transformação matemática nos valores de X e Y (logaritmo, inverso, raiz quadrada) irá gerar valores transformados com resíduos normalmente distribuídos. � Então o problema é analisado no espaço das variáveis transformadas e ao final retorna-se ao espaço original. Profª Lisiane Selau 43 Intervalo de Variação para X � A variância da inclinação b1 aumenta quando se reduz o intervalo de variação de X. Se o intervalo é pequeno, Sb1 será grande e nesse caso será difícil rejeitar a hipótese H0 : b1 = 0. � Em outras palavras, se a relação entre X e Y é medida em um intervalo reduzido de X, os parâmetros estimados não terão muito significado estatístico. � Se o objetivo é construir um modelo de regressão, deve-se coletar dados nos extremos do intervalo de X, ou seja, nos limites de interesse e viabilidade práticos ou nos limites em que se supõe válida a relação linear. Profª Lisiane Selau 44 Dados Atípicos � Algumas vezes, o conjunto de dados pode estar contaminado com alguns dados atípicos. Esses dados atípicos podem ser o resultado do efeito de algum fator externo ao estudo, ou podem ser simplesmente um erro de leitura e registro. � Existe um procedimento para testar a significância de um dado atípico. Este procedimento está baseado na determinação de uma nova equação, com o dado atípico eliminado, seguido de um teste de hipótese comparando os valores preditos pela equação original com aqueles preditos pela nova equação. Profª Lisiane Selau 45 � A análise de variância também é aplicável aos problemas de regressão. � A hipótese nula, H0 : β1 = 0, será rejeitada sempre que f > fα, 1, n-2 � A tabela ANOVA, contendo o formulário prático para o cálculo das Somas Quadradas e os demais desenvolvimentos até o teste F: Fonte de Variação SQ GDL MQ F Regressão SQReg = b1 SXY 1 MQReg MQReg/MQR Residual SQR=SYY - b1SXY n - 2 MQR Total SYY n - 1 A Análise de Variância e a Regressão Profª Lisiane Selau 46 Exemplo: Faça a análise de variância para o problema do consumo de combustível e confirme a significância do modelo de regressão linear. Solução: Já tínhamos calculado as Somas Quadradas SYY e SQR como: SYY = 18,34 ; SXY = - 46,45 ; b1 = - 0,325 SQR = 3,24 Assim SQReg = b1 SXY = - 0,325 (- 46,45) = 15,10 De modo que a ANOVA resulta: Profª Lisiane Selau 47 O valor de F calculado (46,6) é muito maior que o tabelado (4,96) e assim confirma-se a significância do modelo. Nota: o coeficiente de determinação r2 também pode ser calculado usando: r2 = Fonte de Variação SQ GDL MQ F Regressão 15,10 1 15,10 46,6 Residual 3,24 10 0,324 Total 18,34 11 SQ g SYY Re , , ,= = 1510 18 34 0 82 ou 82% Profª Lisiane Selau 48