Baixe o app para aproveitar ainda mais
Prévia do material em texto
Correlação e Regressão Prof. Erimar dos Santos Oliveira Estatística * Associação &Variáveis Quantitativas Situação 1: Deseja-se realizar uma investigação sobre a ocorrência de anemia e infecção em uma comunidade. Seria interessante poder estimar a concentração de hemoglobina e a contagem de eritrócitos e leucócitos no sangue pela medida do hematócrito. Para verificar a possibilidade de se usar tal procedimento, é conduzido um estudo-piloto a partir dos resultados da rotina de um laboratório de hematologia. Como verificar se essas variáveis estão associadas? Testes de Hipóteses? Estabelecem se existe associação entre duas variáveis, mas... Não quantificam a força da associação; e Não permitem representar a relação existente sob uma forma funcional. Associação &Variáveis Quantitativas É possível fazer um gráfico das variáveis de interesse e analisar a existência de uma relação a partir da análise desse gráfico. Plan1 Exame Leucócito Eritrócito Hemoglobina Hematócrito (103/mm3) (106/mm3) (g/dl) (%) 1 6.8 4.50 14.6 41 2 9.7 5.20 15.6 47 3 4.3 4.55 14.4 41 4 7.9 4.65 14.4 41 5 7.4 4.40 13.8 40 6 7.6 4.40 14.0 40 7 2.8 4.30 13.6 40 8 7.8 4.60 13.8 42 9 5.5 4.90 15.2 44 10 4.6 4.10 13.0 39 11 8.0 5.00 17.0 46 12 7.0 5.17 16.0 47 13 7.1 4.20 11.7 35 ... ... ... ... ... 138 10.5 4.50 13.4 39 139 6.9 4.50 14.2 40 140 13.5 4.45 13.6 40 141 8.3 3.70 11.0 33 142 7.0 4.30 12.7 38 143 4.3 4.67 14.0 43 144 2.7 4.40 12.7 39 145 11.2 4.40 13.3 38 147 5.9 4.40 11.9 37 148 12.3 4.24 10.0 31 Plan2 Plan3 Associação &Variáveis Quantitativas Diagrama de Dispersão Representação gráfica que permite a visualização do comportamento conjunto das duas variáveis. É gráfico sobre o qual cada medida individual é representada por um ponto, sendo que a posição de cada ponto é determinada pelos valores observados em um indivíduo, para as duas características medidas (por exemplo, hematócrito e hemoglobina). É denominado, também, de gráfico XY. Diagrama de Dispersão Análise Parece não haver uma relação entre o valor do hematócrito e o valor do leucócito. Diagrama de Dispersão Análise Há uma relação crescente entre o valor do hematócrito e o valor de hemoglobina. Esta relação parece ser linear. Diagrama de Dispersão Análise Há uma relação crescente entre o valor do hematócrito e o valor do eritrócito. Esta relação parece ser linear. Diagramas de Dispersão A análise não é alterada, se trocamos as variáveis X e Y, ou seja, a existência ou não da relação não depende de qual variável é considerada independente. O modelo matemático, porém, será alterado a depender de quem é X. Associação &Variáveis Quantitativas Coeficiente de correlação linear de Pearson Valor numérico que mede a intensidade da associação linear existente entre as duas variáveis, medida a partir de uma série de observações. Karl Pearson (1857 – 1936) Coeficiente de Correlação Linear Medindo a Força da Associação Coeficiente de Correlação Linear Interpretando o valor de r r - assume valores entre – 1 e + 1 inclusive. r – 1 associação linear negativa; x y x y r 0 ausência de associação linear; r + 1 associação linear positiva; Coeficiente de Correlação Linear r = +1 r 0 r + 0,80 r - 0,80 r = - 1 Relação perfeita Relação perfeita Teste de Hipóteses sob o Coeficiente de Correlação Linear Testamos a hipótese nula: (bicaudal) A estatística do teste é dada por: e sob H0 , t tem distribuição t-Student com (n - 2) graus de liberdade. Coeficiente de Correlação Linear Teste de Hipóteses Exemplo 1: Vamos calcular o coeficiente de Pearson entre as variáveis hemoglobina e hematócrito. Há correlação entre hematócrito e hemoglobina. Para = 0,05 temos: Exemplo 2: Vamos calcular o coeficiente de Pearson entre as variáveis leucócito e hematócrito. Não há correlação entre hematócrito e leucócito. Coeficiente de Correlação Linear Teste de Hipóteses Para = 0,05 temos: Associação &Variáveis Quantitativas Modelos de Regressão Modelo matemático para a relação linear analisada. Permite a predição de uma variável em função de outra. Modelos Lineares Situação 2: Uma vez verificada a existência de uma relação entre a quantidade de hemoglobina e o número de hematócritos, desejamos desenvolver um modelo para estimar a medida de hemoglobina (variável y) a partir da medida de hematócrito (variável x). Qual a reta que melhor se ajusta a estes dados? Modelos Lineares Equação da Reta Intercepto y a a e b - parâmetros da reta b Inclinação da reta Gráf1 Visão Geral Livro de Exercícios - Dados sobre Lojas de Remessa de Carga Objetivo: Ponto de partida para os exemplos do Excel das Seções 11.6.2 e 11.7. Referência: Seções 11.6.3, 11.7 Conteúdo do Livro de Exercícios (duas planilhas): Planilha Visão Geral Resumo deste livro de exercícios. Planilha Dados Dados sobre o número de clientes e vendas semanais para uma amostra de 20 lojas de remessa de carga. Variável Intervalo Valores Número da Loja A2:A21 Clientes B2:B21 Vendas C2:C21 semanais, em milhares de dólares &L&F/&A Dados Loja Clientes Vendas Loja Clientes Vendas ($1000) Loja Clientes Vendas 1 907 11.20 1 907 11.20 11 679 7.63 2 926 11.05 2 926 11.05 12 872 9.43 3 506 6.84 3 506 6.84 13 924 9.46 4 741 9.21 4 741 9.21 14 607 7.64 5 789 9.42 5 789 9.42 15 452 6.92 6 889 10.08 6 889 10.08 16 729 8.95 7 874 9.45 7 874 9.45 17 794 9.33 8 510 6.73 8 510 6.73 18 844 10.23 9 529 7.24 9 529 7.24 19 1010 11.77 10 420 6.12 10 420 6.12 20 621 7.41 11 679 7.63 12 872 9.43 13 924 9.46 14 607 7.64 Loja Clientes Vendas ($1000) 15 452 6.92 11 679 7.63 16 729 8.95 12 872 9.43 17 794 9.33 13 924 9.46 18 844 10.23 14 607 7.64 19 1010 11.77 15 452 6.92 20 621 7.41 16 729 8.95 17 794 9.33 18 844 10.23 19 1010 11.77 20 621 7.41 &L&F/&A Dados Vendas Número de clientes Quantidade de vendas ($1000) Diagrama de Dispersão - Dados das 20 empresas Regressão Linear Simples Método dos Mínimos Quadrados O objetivo é minimizar a soma do quadrado dos erros: Obtendo os valores de e que minimizam a equação acima. erro Regressão Linear Simples Método dos Mínimos Quadrados Podemos utilizar a reta de regressão para estimar os valores de . Reta de Regressão & Estimativa Estimativa da Medida de Hemoglobina Análise O valor de homoglobina média estimada, para um valor observado de hematócrito igual a 40%, é de 13,97 g/dl. Suponha que desejemos considerar o hematócrito como variável dependente. Neste caso, podemos calcular outra reta de regressão, pelo método dos mínimos quadrados, considerando a hemoglobina como variável x (independente) e o hematócrito como variável y (dependente). Reta de Regressão & Estimativa Estimativa da Medida de Hematócrito O valor de hematócrito médio estimado, para um valor observado de hemoglobina Hb = 13,97 g/dl, é de 40,54%. Note que a reta, para Ht, não é a inversa da obtida para Hb. Exemplo 1: Encontre a linha de regressão dos mínimos quadrados para os dados sobre renda e gasto com alimentação nos sete domicílios apresentados na tabela abaixo. Utilize renda como uma variável independente e gasto com alimentação como uma variável dependente. Renda x Gasto com Alimentação y xy x2 35 9 315 1225 49 15 735 2401 21 7 147 441 39 11 429 1521 15 5 75 225 28 8 224 784 25 9 225 625 212 64 21507222 Qualidade do Ajuste na Regressão Coeficiente de Determinação R2 = proporção da variabilidade de y que é explicada pelo modelo (reta de regressão) Se R2 = 0,90 significa que 90% da variação em y pode ser explicada pela equação obtida. Qualidade do Ajuste na Regressão Coeficiente de Determinação Quando fazemos uma regressão linear, os valores observados (x,y) estão espalhados ao redor da reta de regressão. Quanto menor for este espalhamento, melhor a reta de regressão representa o conjunto de valores observados. A variância amostral total, como estimador do espalhamento, pode ser decomposta da seguinte forma: Qualidade do Ajuste na Regressão Coeficiente de Determinação Exemplo 2: Para os dados da tabela do exemplo 1, sobre rendas mensais e gastos mensais com alimentação de sete domicílios, calcule o coeficiente de determinação. b=0,2642 SQxy=211,7143 SQyy=60,8571 ExameLeucócito EritrócitoHemoglobinaHematócrito (103/mm3)(106/mm3)(g/dl)(%) 16.8 4.50 14.6 41 29.7 5.20 15.6 47 34.3 4.55 14.4 41 47.9 4.65 14.4 41 57.4 4.40 13.8 40 67.6 4.40 14.0 40 72.8 4.30 13.6 40 87.8 4.60 13.8 42 95.5 4.90 15.2 44 104.6 4.10 13.0 39 118.0 5.00 17.0 46 127.0 5.17 16.0 47 137.1 4.20 11.7 35 ... ... ... ... ... 13810.5 4.50 13.4 39 1396.9 4.50 14.2 40 14013.5 4.45 13.6 40 1418.3 3.70 11.0 33 1427.0 4.30 12.7 38 1434.3 4.67 14.0 43 1442.7 4.40 12.7 39 14511.2 4.40 13.3 38 1475.9 4.40 11.9 37 14812.3 4.24 10.0 31 ( ) ( ) ú ú û ù ê ê ë é - ´ ú ú û ù ê ê ë é - - = å å å å å å å n y y n x x n y x xy r 2 2 2 2 0 5 10 15 20 25 30 0510 0 5 10 15 20 25 30 0510 0 5 10 15 20 0510 0 10 20 30 40 50 60 0510 0 5 10 15 20 0510 2 1 2 r n r t - - = 0 : 0 = r H 98 , 21 148 , 88 , 0 = = » t n r 2,5%2,5% 0 1,96 Rejeitase . críticocrítico t tt H =\> Þ- 3492 , 0 148 , 0289 , 0 = = » t n r 2,5%2,5% 0 1,96 Aceitase . críticocrítico t tt H =\< Þ- 4,00 6,00 8,00 10,00 12,00 14,00 20040060080010001200 hematócrito hemoglobina bx a y + = 0 5 10 15 20 25 0246 x y 0 b 1 b 2 ^ å ÷ ø ö ç è æ - = y y SQR 0 2 4 6 8 10 12 0246810 x y $ () i i yy - bxay ˆ n x x n yx xy b 2 2 xbya $ y Ht Hb ´ + = 2434 , 0 2327 , 4 ) / ( 97 , 13 % 40 Se dl g Hb Ht = ® = 4,00 6,00 8,00 10,00 12,00 14,00 20040060080010001200 hematócrito hemoglobina Hb Ht ´ + - = 9017 , 2 00073 , 0 % 54 , 40 ) / ( 97 , 13 Se = ® = Ht dl g Hb 1429 , 9 7 64 2857 , 30 7 212 7222 2150 64 212 2 = = = = = = = = = = å å å å å å n y y n x x x xy y x ( ) ( ) ( ) 2642 , 0 7 212 7222 7 64 212 2150 2 = - - = b b 1414 , 1 ) 2857 , 30 ).( 2642 , 0 ( 1429 , 9 = - = a x y 2642 , 0 1414 , 1 ^ + = 201R n y y n yx xyb r 2 2 2 ( ) ( ) 92 , 0 8571 , 60 7143 , 211 2642 , 0 2 = = r
Compartilhar