Baixe o app para aproveitar ainda mais
Prévia do material em texto
Objetivo: � Estudar a relação entre duas variáveis quantitativas Exemplos: � Idade e altura das crianças � Tempo de prática de esportes e ritmo cardíaco � Tempo de estudo e nota na prova � Taxa de desemprego e taxa de criminalidade � Expectativa de vida e taxa de analfabetismo Correlação e Regressão Linear Simples Prof. Ricardo Tavares – DEEST/UFOP Estudo da relação entre variáveis � Investigar a presença ou ausência de relação linear sob dois pontos de vista: a) Quantificando a força dessa relação: correlação; b) Explicitando a forma dessa relação: regressão; Diagrama de dispersão: representação gráfica das duas variáveis quantitativas Exemplo 1: nota na prova e tempo de estudo X : tempo de estudo (em horas) Y : nota na prova Pares de observações (Xi , Yi) Tempo Nota 3,0 4,5 7,0 6,5 2,0 3,7 1,5 4,0 12,0 9,3 Coeficiente de correlação linear de Pearson � O coeficiente de correlação linear é definido como: Propriedades do coeficiente de correlação linear � Propriedade: -1 ≤ r ≤ 1 � Classificação da correlação: r = 1, correlação linear positiva e perfeita r = -1, correlação linear negativa e perfeita r = 0, inexistência de correlação linear exemplos da classificação da correlação 0 < r < 1 -1 < r < 0 r = 1 r = -1 exemplos da classificação da correlação r = 0 Exemplo 2: criminalidade e analfabetismo � Considere as duas variáveis abaixo observadas em 50 estados norte-americanos. Y: taxa de criminalidade X: taxa de analfabetismo � Na figura a seguir, temos o diagrama de dispersão de X e Y e podemos notar que, conforme aumenta a taxa de analfabetismo, a taxa de criminalidade tende a aumentar. Nota-se também uma tendência linear. Obs. Estado Tanalf-70 Exvida-70 Tcrime-75 Obs. Estado Tanalf-70 Exvida-70 Tcrime-75 1 Alabama 2.1 69.05 15.1 26 Montana 0.6 70.56 5 2 Alaska 1.5 69.31 11.3 27 Nebraska 0.6 72.6 2.9 3 Arizona 1.8 70.55 7.8 28 Nevada 0.5 69.03 11.5 4 Arkansas 1.9 70.66 10.1 29 New-Hampshire 0.7 71.23 3.3 5 California 1.1 71.71 10.3 30 New-Jersey 1.1 70.93 5.2 6 Colorado 0.7 72.06 6.8 31 New-Mexico 2.2 70.32 9.7 7 Connecticut 1.1 72.48 3.1 32 New-York 1.4 70.55 10.9 8 Delaware 0.9 70.06 6.2 33 North-Carolina 1.8 69.21 11.1 9 Florida 1.3 70.66 10.7 34 North-Dakota 0.8 72.78 1.4 10 Georgia 2 68.54 13.9 35 Ohio 0.8 70.82 7.4 11 Hawaii 1.9 73.6 6.2 36 Oklahoma 1.1 71.42 6.4 12 Idaho 0.6 71.87 5.3 37 Oregon 0.6 72.13 4.2 13 Illinois 0.9 70.14 10.3 38 Pennsylvania 1 70.43 6.1 14 Indiana 0.7 70.88 7.1 39 Rhode-Island 1.3 71.9 2.4 15 Iowa 0.5 72.56 2.3 40 South-Carolina 2.3 67.96 11.6 16 Kansas 0.6 72.58 4.5 41 South-Dakota 0.5 72.08 1.7 17 Kentucky 1.6 70.1 10.6 42 Tennessee 1.7 70.11 11 18 Louisiana 2.8 68.76 13.2 43 Texas 2.2 70.9 12.2 19 Maine 0.7 70.39 2.7 44 Utah 0.6 72.9 4.5 20 Maryland 0.9 70.22 8.5 45 Vermont 0.6 71.64 5.5 21 Massachusetts 1.1 71.83 3.3 46 Virginia 1.4 70.08 9.5 22 Michigan 0.9 70.63 11.1 47 Washington 0.6 71.72 4.3 23 Minnesota 0.6 72.96 2.3 48 West-Virginia 1.4 69.48 6.7 24 Mississippi 2.4 68.09 12.5 49 Wisconsin 0.7 72.48 3 25 Missouri 0.8 70.69 9.3 50 Wyoming 0.6 70.29 6.9 Exemplo 2: diagrama de dispersão 28 Exemplo 2: cálculo da correlação � média de Y = 7,38 e SY = 3,692 � média de X = 1,17 e SX = 0,609 � somatório de XiYi = 509,12 � Cálculo da correlação entre X e Y: Exemplo 3: expectativa de vida e analfabetismo � Considere as duas variáveis abaixo observadas em 50 estados norte-americanos. Y: expectativa de vida X: taxa de analfabetismo � Na figura a seguir, temos o diagrama de dispersão de X e Y e podemos notar que, conforme aumenta a taxa de analfabetismo, a expectativa de vida tende a diminuir. Nota-se também uma tendência linear. Exemplo 3: diagrama de dispersão 11 28 Exemplo 3: cálculo da correlação � média de Y = 70,88 e SY = 1,342 � média de X = 1,17 e SX = 0,609 � somatório de XiYi = 4122,8 � Cálculo da correlação entre X e Y: Teste de hipótese sob o coeficiente de correlação linear � Testamos a hipótese nula: H0: r = 0 vs HA: r!=0 � A estatística do teste é dada por � E sob H0, tobs tem distribuição t-Student com n-2 graus de liberdade. 21 2 r n rtobs − − = Regressão linear simples Um Professor deseja avaliar se o peso dos seus 40 alunos está associado com as suas respectivas alturas. Pergunta: Como os pesos e as alturas se relacionam? DIAGRAMA DE DISPERSÃO 55 60 65 70 75 80 85 90 95 150 160 170 180 190 ALTURA (CM) P E S O ( K G ) �Análise de Regressão é uma técnica estatística utilizada para investigar a relação existente entre variáveis através da construção de uma equação (um modelo); �Este modelo pode ser utilizado para “escrever” o valor esperado de uma variável (resposta) como uma função dos valores das outras variáveis (explicativas). �Relações entre Variáveis: Y : variável resposta ou dependente X : variável explicativa ou independente ou preditora � Esta relação pode ser classificada como: (ii) Funcional: quando a relação é exata, expressa por uma fórmula matemática Y = f(X). Exemplo: a relação entre o valor total das vendas (Y ) de um produto com preço unitário de 2 reais e o número de unidade vendidas (X), dada por Y = 2X. (ii) Estatística: quando a relação não é exata, ou seja, está sujeita a um erro aleatório. Exemplo: a relação entre o nível de colesterol (Y ) e a idade de pacientes (X). Alguns Objetivos da Análise de Regressão � (1) Descrever a relação entre variáveis para entender um processo ou fenômeno. Ex.: Entender o efeito, no preço de venda de um imóvel, de características como área construída, número de cômodos, idade, localização, etc. � (2) Prever o valor de uma variável a partir do conhecimento dos valores de outras variáveis. Ex.: Prever a probabilidade de ocorrência de um tornado a partir de medições de vento, umidade, temperatura, pressão, etc. � (3) Substituir a medição de uma variável pela observação dos valores de outras variáveis. Ex.: Substituir a medição da quantidade de gordura abdominal feita através de tomografia (muito cara disponível em poucos consultórios médicos) por medidas de fácil obtenção como circunferência da cintura, circunferência e prega cutânea do abdômem. � (4) Controlar os valores de uma variável em uma faixa de interesse. Ex.: Através de um estudo de regressão, a Sony Music identificou as principais variáveis que afetavam a ocorrência de defeitos durante a fabricação dos CDs. Assim, o controle destas variáveis (como tempo de exposição do laser no processo fotográfico), levou à uma redução do prejuízo com produtos defeituosos. O modelo de regressão linear simples � A regressão é chamada linear, pois a relação da variável resposta às variáveis explicativas é uma função linear dos parâmetros. E é simples pois envolve apenas uma variável explicativa. Interpretação dos coeficientes do modelo � Somas dos Quadrados dos Erros para todas as observações: � Método dos Mínimos Quadrados: encontrar as estimativas que minimizem S. Ajustando uma reta por mínimos quadrados Procedimento � Para encontrar as estimativas b0 e b1 (os valores de B0 e B1 que minimizam S), precisamos derivar S em função de B0 e B1, igualar a zero estas duas expressões resultantes, para finalmente, resolver o sistema de duas equações com duas incógnitas (B0 e B1). Obs.: Este sistema é conhecido como equações normais. A solução do sistema é Notação mais simples � Os estimadores de mínimos quadrados (EQM) ficam da seguinte forma: Exemplo 02: reta ajustada � A reta ajustada para este exemploé: Y: valor predito para a taxa de criminalidade X: taxa de analfabetismo ^ Interpretação: Para um aumento de uma unidade na taxa do analfabetismo, a taxa de criminalidade aumenta, em média, 4,257 unidades. Exemplo 2: gráfico da reta ajustada 28 Exemplo 3: reta ajustada � A reta ajustada para este exemplo é: Interpretação: Para um aumento de uma unidade na taxa do analfabetismo, a expectativa de vida diminui, em média, 1,296 anos. Y: valor predito para a expectativa de vida X: taxa de analfabetismo ^ Exemplo 3: gráfico da reta ajustada 11 28 Exemplo 4: consumo de cerveja e temperatura � Y: consumo de cerveja em um dia (em 100 litros) � X: temperatura máxima (em ºC) � As variáveis foram observadas em nove localidades com as mesmas características demográficas e sócio-econômicas. � A seguir, apresentamos a tabela com os dados amostrais: Exemplo 4: dados amostrais Temperatura Consumo 16 290 31 374 38 393 39 425 37 406 36 370 36 365 22 320 10 269 Resumo destes dados Exemplo 4: coeficiente de correlação e reta ajustada � A correlação entre X e Y é r = 0,962. � A reta ajustada para este exemplo é: � Exercícios a) Qual a interpretação de b? b) Qual o consumo previsto para uma temperatura de 25ºC? Exemplo 4: gráfico da reta ajustada Análise de Variância (ANOVA) � Com o auxílio da análise de variância podemos responder algumas questões: i) A variável X é um bom preditor da resposta Y? ii) Quanto da variação da variável resposta é explicada pela reta de regressão? �Para verificar a adequação do modelo aos dados, a análise de variância da regressão é uma das técnicas mais usadas. Ela decompõe a variação (variância) total: Desvio Explicado Desvio Não Explicado Desvio Total �Temos então que: �SQTotal: mede a variação dos valores de Y na amostra. �SQReg: mede quanto da SQTotal é explicada pela variação dos valores de X, ou seja, pelo modelo de regressão ajustado. �SQRes: mede quanto da SQT não é explicada pelo modelo de regressão ajustado. �ANOVA H0: o modelo está bem ajustado. As somas de quadrados Estimativa da variância dos erros: Coeficiente de Determinação (R2) � Mede a proporção da variação total da resposta explicada pela regressão. � Por exemplo, suponha que ajustamos um modelo para o consumo mensal de gás em função da temperatura média do mês, e o seu coeficiente de determinação foi de 0,71; � Isto quer dizer que cerca de 71% da variação total do consumo mensal de gás nesta amostra é explicada pela variação na temperatura mensal média. Suposições do Modelo Testes para os parâmetros Intervalos de confiança � Parâmetros: Obs.: QMR=QMRes Intervalos de confiança � Resposta média: � Uma nova observação Obs.: QMR=QMRes Resíduos � Para verificar a adequação do ajuste deve-se construir o gráfico dos resíduos padronizados: R/SR � Se os pontos estiverem distribuídos dentro do intervalo [-2,2], é uma indicação que o modelo está bem ajustado. � Resíduo é a diferença R = Y - Y.^ QMRSR = Exemplo 2: gráfico de resíduos padronizados 28 39 Exemplo 2: análise do gráfico de resíduos padronizados Nota-se duas observações fora do intervalo [- 2,2], uma acima do valor 2 (#28) e outra um pouco abaixo do valor -2 (#39). Tais observações são denominadas pontos aberrantes. Espera-se menos de 5% dos resíduos fora do intervalo [-2.2] Exemplo 2: resultados eliminando-se a observação #28 (Nevada) � Correlação com todos r = 0,702 � Correlação sem Nevada r = 0,748 � Variação: 6,55% � Nova equação: Ŷ = 1,936 + 4,526X Exemplo 3: gráfico de resíduos padronizados 28 11 Exemplo 3: análise do gráfico de resíduos padronizados � Neste exemplo nota-se também duas observações fora do intervalo [-2,2], uma bem acima do valor 2 (#11) e outra abaixo do valor -2 (#28). Exemplo 3: resultados eliminando-se as observações #11 (Hawaii) e #28 (Nevada) � Correlação com todos os estados r = -0,590 � Correlação sem Nevada e Hawaii r = -0,797 � Variação: 35,08% � Nova equação: Ŷ = 72,680 - 1,557X Análise Gráfica dos Resíduos: �Gráfico dos resíduos versus valores ajustados e �Gráfico dos resíduos versus xi São úteis para detectar: •Variância não constante; •Não-linearidade; •Pontos discrepantes; •Se a média dos erros é zero; �Gráfico dos resíduos versus ordem de coleta • Pode indicar se os erros em um período de tempo são correlacionados com aqueles em outro período de tempo; • A correlação em diferentes períodos de tempo é chamado de “autocorrelação”; uso: AR, ARMA, ... Teste Durbin-Watson: H0: não existe autocorrelação nos erros H1: existe e é positiva, ou H1: existe e é negativa; �Gráfico dos resíduos versus regressoras omitidas •Qualquer padrão exibido por este gráfico, que não o aleatório, indica que o modelo pode ser melhorado adicionando a nova variável regressora; �Gráfico de probabilidade normal dos resíduos •Para obtermos Intervalos confiança e testes de hipóteses, necessitamos da suposição de normalidade dos erros; Uma maneira simples de verificar tal suposição é através do gráfico de probabilidade normal dos resíduos; •Mais formalmente, faz-se o teste do Anderson-Darling (H0: A distribuição dos resíduos é normal); Descriptive Statistics 1,90 1,761 1507 12,89 2,986 1507 Number of Children Highest Year of School Completed Mean Std. Deviation N Correlations 1,000 -,270 -,270 1,000 . ,000 ,000 . 1507 1507 1507 1507 Number of Children Highest Year of School Completed Number of Children Highest Year of School Completed Number of Children Highest Year of School Completed Pearson Correlation Sig. (1-tailed) N Number of Children Highest Year of School Completed Casewise Diagnosticsa 3,421 8 3,514 8 3,514 8 3,019 7 3,112 7 3,327 8 3,206 7 3,394 7 3,300 7 3,139 8 3,514 8 3,112 7 3,421 8 3,421 8 3,327 8 3,488 7 3,300 7 4,171 8 3,233 8 3,045 8 3,139 8 3,019 7 3,045 8 3,045 8 Case Number 46 71 107 138 146 239 286 566 625 694 699 717 733 776 815 968 1085 1088 1144 1276 1331 1411 1443 1510 Std. Residual Number of Children Dependent Variable: Number of Childrena. Exemplo: Número de filhos vs ano mais elevado de estudo completo ANOVAb 340,282 1 340,282 118,296 ,000a 4329,185 1505 2,877 4669,466 1506 Regression Residual Total Model 1 Sum of Squares df Mean Square F Sig. Predictors: (Constant), Highest Year of School Completeda. Dependent Variable: Number of Childrenb. Coefficientsa 3,950 ,194 20,402 ,000 3,570 4,330 -,159 ,015 -,270 -10,876 ,000 -,188 -,130 (Constant) Highest Year of School Completed Model 1 B Std. Error Unstandardized Coefficients Beta Standardized Coefficients t Sig. Lower Bound Upper Bound 95% Confidence Interval for B Dependent Variable: Number of Childrena. -3 -2 -1 0 1 2 3 4 5 Regression Standardized Residual 0 30 60 90 120 150 F r e q u e n c y Mean = 1,48E-16 Std. Dev. = 1 N = 1.507 Dependent Variable: Number of Children Histogram 0,0 0,2 0,4 0,6 0,8 1,0 Observed Cum Prob 0,0 0,2 0,4 0,6 0,8 1,0 E x p e c t e d C u m P r o b Dependent Variable: Number of Children Normal P-P Plot of Regression Standardized Residual
Compartilhar