Baixe o app para aproveitar ainda mais
Prévia do material em texto
Correlação e RegressãoCorrelação e Regressão 1 Associação entre Variáveis Quantitativas Associação entre variáveis qualitativas Na aula passada estudamos a relação entre duas variáveis qualitativas. Tabelas de Contingência 2 Podemos construir tabelas de frequências conjuntas (tabelas de contingência), relacionando duas variáveis qualitativas. Exemplo 1Exemplo 1: Há indícios de associação entre Sexo e Hábito de fumar? Sexo Fuma Não Fuma Total Hábito de Fumar Como concluir? Sexo Fuma Não Fuma Total Masculino 20 37 57 Feminino 8 27 35 Total 28 64 92 → TESTE DE INDEPENDÊNCIA (Quiquadrado) Associação entre variáveis quantitativas Correlação e Regressão 4 Exemplos:: Idade e altura das crianças Tempo de prática de esportes e ritmo cardíaco Objetivo Estudar a relação entre duas variáveis quantitativas. Tempo de prática de esportes e ritmo cardíaco Tempo de estudo e nota na prova Taxa de desemprego e taxa de criminalidade Expectativa de vida e taxa de analfabetismo 5 a) Quantificando a força dessa relação: correlação b) Explicitando a forma dessa relação: regressão Investigaremos a presença ou ausência de relação linear sob dois pontos de vista: Representação gráfica de duas variáveis quantitativas: Diagrama de dispersão 6 Exemplo 2: nota da prova e tempo de estudo X : tempo de estudo (em horas) Y : nota da prova Tempo(X) Nota(Y) 3,0 4,5 7,0 6,5 Pares de observações (Xi , Yi) para cada estudante 7,0 6,5 2,0 3,7 1,5 4,0 12,0 9,3 7 Coeficiente de correlação linear É uma medida que avalia o quanto a “nuvem de pontos” no diagrama de dispersão aproxima-se de uma reta. 8 O coeficiente de correlação linear de Pearson é calculado por: YX n i ii SSn YYXX r )1( ))(( 1 − −− = ∑ = sendo que mente.respectiva, e de padrão desvios os sãoe mente,respectiva ,ede amostrais médias as sãoe YXSS YXYX YX 9 Fórmula alternativa para o coeficiente de correlação: , )1( 1 YX n i ii SSn YXnYX r − − = ∑ = . 1 2n 1i 2 − − = ∑ = n XnX S i 2 X 10 sendo Voltando ao Exemplo 2: Tempo (X) Nota (Y) 3,0 4,5 7,0 6,5 2,0 3,7 1,5 4,0 12,0 9,3 25,5 28,0 41,2 25,53 5,76 5,89 1,71 2,31 )-X - (X )-Y - (Y 5,6 - Y 5,1 - X == 00 3,76,9 -1,6-3,6 -1,9-3,1 0,91,9 -1,1-2,1 )-X - (X )-Y - (Y 2,34 5,47 4 21,9 4 (3,7)... (-1,1) 4,42 19,55 4 78,2 4 (6,9)... (-2,1) 22 2 22 2 =⇒== ++ = =⇒== ++ = yy xx SS SS Então, r = 41,2 4 . 4,42 . 2,34 = 0,9959 11 Propriedade: -1 ≤≤≤≤ r ≤≤≤≤ 1 Casos particulares: r = 1⇒ correlação linear positiva e perfeita r = -1⇒ correlação linear negativa e perfeitar = -1⇒ correlação linear negativa e perfeita r = 0⇒ inexistência de correlação linear 12 r = 1, correlação linear positiva e perfeita r = -1r = -1, correlação linear negativa e perfeita 13 r 0≅ 5040302010 40 30 20 10 X Y X Y 121086420 6 5 4 3 2 1 14 r 1≅ r -1≅ 15 Considere as duas variáveis observadas em 50 estados norte-americanos. Y: taxa de criminalidade X: taxa de analfabetismo Exemplo 3: criminalidade e analfabetismo X: taxa de analfabetismo 16 Obs. Estado TAnalf ExpVida TCrime Obs. Estado TAnalf ExpVida TCrime 1 Alabama 2.1 69.05 15.1 26 Montana 0.6 70.56 5 2 Alaska 1.5 69.31 11.3 27 Nebraska 0.6 72.6 2.9 3 Arizona 1.8 70.55 7.8 28 Nevada 0.5 69.03 11.5 4 Arkansas 1.9 70.66 10.1 29 New-Hampshire 0.7 71.23 3.3 5 California 1.1 71.71 10.3 30 New-Jersey 1.1 70.93 5.2 6 Colorado 0.7 72.06 6.8 31 New-Mexico 2.2 70.32 9.7 7 Connecticut 1.1 72.48 3.1 32 New-York 1.4 70.55 10.9 8 Delaware 0.9 70.06 6.2 33 North-Carolina 1.8 69.21 11.1 9 Florida 1.3 70.66 10.7 34 North-Dakota 0.8 72.78 1.4 10 Georgia 2 68.54 13.9 35 Ohio 0.8 70.82 7.4 11 Hawaii 1.9 73.6 6.2 36 Oklahoma 1.1 71.42 6.4 12 Idaho 0.6 71.87 5.3 37 Oregon 0.6 72.13 4.2 13 Illinois 0.9 70.14 10.3 38 Pennsylvania 1 70.43 6.113 Illinois 0.9 70.14 10.3 38 Pennsylvania 1 70.43 6.1 14 Indiana 0.7 70.88 7.1 39 Rhode-Island 1.3 71.9 2.4 15 Iowa 0.5 72.56 2.3 40 South-Carolina 2.3 67.96 11.6 16 Kansas 0.6 72.58 4.5 41 South-Dakota 0.5 72.08 1.7 17 Kentucky 1.6 70.1 10.6 42 Tennessee 1.7 70.11 11 18 Louisiana 2.8 68.76 13.2 43 Texas 2.2 70.9 12.2 19 Maine 0.7 70.39 2.7 44 Utah 0.6 72.9 4.5 20 Maryland 0.9 70.22 8.5 45 Vermont 0.6 71.64 5.5 21 Massachusetts 1.1 71.83 3.3 46 Virginia 1.4 70.08 9.5 22 Michigan 0.9 70.63 11.1 47 Washington 0.6 71.72 4.3 23 Minnesota 0.6 72.96 2.3 48 West-Virginia 1.4 69.48 6.7 24 Mississippi 2.4 68.09 12.5 49 Wisconsin 0.7 72.48 3 25 Missouri 0.8 70.69 9.3 50 Wyoming 0.6 70.29 6.9 Diagrama de dispersão Pode-se notar que, conforme aumenta a taxa de analfabetismo (X), a taxa de criminalidade (Y) tende a aumentar. Nota-se também uma tendência linear. 18 Cálculo da correlação Correlação entre X e Y: Y= 7,38 _ (média de Y) e SY = 3,692 (desvio padrão de Y) (média de X) e SX = 0,609 (desvio padrão de X)X= 1,17 _ ΣXiYi= 509,12 19 Considere o mesmo conjunto de dados, mas agora as duas variáveis observadas em 50 estados norte- americanos são W: expectativa de vida Exemplo 4: expectativa de vida e analfabetismo W: expectativa de vida X: taxa de analfabetismo 20 Diagrama de dispersão Pode-se notar que, conforme aumenta a taxa de analfabetismo (X), a expectativa de vida (W) tende a diminuir. Nota-se também uma tendência linear. 21 Correlação entre X eW: W= 70,88 _ (média de W) e SW = 1,342 (desvio padrão de W) (média de X) e SX = 0,609 (desvio padrão de X)X= 1,17 ΣXiWi= 4122,8 Cálculo da correlação 22 Atenção: • Na interpretação do coeficiente de correlação é importante visualizar o diagrama de dispersão. X Y1 Y2 Y3 X4 Y4 1 10 8,04 9,14 7,46 8 6,58 2 8 6,95 8,14 6,77 8 5,76 3 13 7,58 8,74 12,74 8 7,71 Considere o seguinte exemplo: 6 variáveis são medidas em 11 indivíduos. correlação linear de X e Y1 = 0,816 correlação linear de X e Y2 = 0,816 correlação linear de X e Y3 = 0,8164 9 8,81 8,77 7,11 8 8,84 5 11 8,33 9,26 7,81 8 8,47 6 14 9,96 8,10 8,84 8 7,04 7 6 7,24 6,13 6,08 8 5,25 8 4 4,26 3,10 5,39 19 12,50 9 12 10,84 9,13 8,15 8 5,56 10 7 4,82 7,26 6,42 8 7,91 11 5 5,68 4,74 5,73 8 6,89 correlação linear de X e Y3 = 0,816 correlação linear de X4 e Y4 = 0,817 ⇒ Mesmos valores de correlação. ⇒ Qual é a forma esperada da dispersão conjunta destas variáveis? 23 Diagramas de dispersão dos dados anteriores, todos com coeficientes de correlação rr = = 0,8160,816 Y 2 10 9 8 7 6 5 4 3 Dispersão esperada! Y 1 11 10 9 8 7 6 5 4 X4 Y 4 2018161412108 13 12 11 10 9 8 7 6 5 X Y 3 15,012,510,07,55,0 13 12 11 10 9 8 7 6 5 X 15,012,510,07,55,0 3 X 15,012,510,07,55,0 4 Pontos influentes! 24 Diagramas de Dispersão Análise de Regressão ⇒⇒⇒⇒ Explicar a forma da relação por meio de uma função matemática: Y = a + bX 25 Reta ajustada: O que são a e b? a : intercepto b : inclinação ou coeficiente angular Análise de Regressão bXaY +=ˆ b : inclinação ou coeficiente angular 26 Análise de Regressão • Coeficientesangulares iguais • Interceptos diferentes • Coeficientes angulares diferentes • Interceptos iguais 27 Interpretação de b: Para cada aumento de uma unidade em X, tem-se um aumento, em média, de b unidades em Y. y − y y − y Reta ajustada: bXaY +=ˆ tg(α) = y2 − y1 x2 − x1 = y2 − y1 x1 +1− x1 = y2 − y1 = b b 11 +x1x 2y 1y 28 Reta ajustada (método de mínimos quadrados) e1 e2 29 Reta ajustada (método de mínimos quadrados) Os coeficientes a e b são calculados da seguinte maneira: 1 n i ii YXnYX b − = ∑ = ( ) 2 1 1 X i Sn b − = = XbYa −= 30 No Exemplo 3, A reta ajustada é: XY 257,4397,2ˆ += Se a taxa do analfabetismo (X) aumenta de uma unidade, a taxa de criminalidade (Y) aumenta, em média, 4,257 unidades. Interpretação de b: 31 : : smoanalfabeti de taxa adecriminalid de taxa a para predito valor X Y ) A reta ajustada é: No Exemplo 4, : vida de aexpectativ a para predito valorY ) XY 296,1395,72ˆ −= Interpretação de b: Para um aumento de uma unidade na taxa do analfabetismo (X), a expectativa de vida (Y) diminui, em média, 1,296 anos. 32 : : smoanalfabeti de taxa vida de aexpectativ a para predito valor X Y ) Y: consumo de cerveja diário por mil habitantes, em litros. X: temperatura máxima (em ºC). As variáveis foram observadas em nove localidades com as Exemplo 5: consumo de cerveja e temperatura As variáveis foram observadas em nove localidades com as mesmas características demográficas e socioeconômicas. 33 Localidade Temperatura Consumo (X) (Y) 1 16 290 2 31 374 3 38 393 4 39 425 Dados: 4 39 425 5 37 406 6 36 370 7 36 365 8 22 320 9 10 269 34 400 350 o n s u m o Diagrama de dispersão 40302010 300 Temperatura C o A correlação entre X e Y é r = 0,962. 35 A reta ajustada é: Qual é a interpretação de b? Aumentando-se um grau na temperatura (X), o consumo de cerveja (Y) aumenta, em média, 4,74 litros por mil habitantes. Qual é o consumo previsto para uma temperatura de 25ºC? habitantes. ( ) litros 87,3352574,437,217ˆ =+=Y 36
Compartilhar