Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Relacionando Variáveis Exemplo: Para 68 empregados de uma empresa foram medidas as variáveis salário Inicial no emprego, Salário atual,,Sexo, Idade, número de anos de estudo (Anos_escola) , e anos de experiência no trabalho (Exp) 26.5856.92817942,6322247,868 0.9227.581614105,166768,367 15.0851.501217785,3617326,666 6.2559.08815377,618266,865 0.2544.501214064,317863,664 ::::::: 2.9230.0819012835,927173,66 5.7535.1716010938,020333,05 20.0046.2512010721,412332,64 12.0041.1715010721,422697,33 13.0041.9219017326,628282,52 0.2528.501608349,915994,51 ExpIdadeAnos_escolaSexoSal_atualSal_inicialIndivíduo O salário atual varia com sexo? 24.83513.6329.8018.3516.3114.89411.76932F 41.35725.02217.10512.4588.9558.06919.50736M Maximo Q3MedianaQ1MinimoD.PadrãoMédianSexo 40000350003000025000200001500010000 9 8 7 6 5 4 3 2 1 0 salFinal Fr e q u e n c y Histogram of salFinal -Homens 250002250020000175001500012500100007500 12 10 8 6 4 2 0 salFinal Fr e q u e n c y Histogram of salFinal - Mulheres MF 45000 40000 35000 30000 25000 20000 15000 10000 5000 Sexo sa lF in a l Boxplot of salFinal MF 17500 15000 12500 10000 7500 5000 Sexo s a lI n ic ia l Boxplot of salInicial 2 Considerando 2 variáveis categóricas Exemplo: Vamos categorizar a variável anos de estudo Até 8 anos – categoria 1 De 9 a 12 anos – categoria 2 13 ou mais anos – categoria 3 AnosEstudo Frequencia Absoluta Porcentagem 1 11 16,18 2 23 33,82 3 34 50,00 Freqüência Sexo Absoluta Porcentagem Feminino 32 47,05 Masculino 36 52,95 Como investigar a associação entre duas variáveis categóricas? A distribuição de anos de estudo depende do sexo? Distribuição dos trabalhadores segundo sexo e anos de estudo 68342311Total 362295M 3212146F >129 a 12<=8 TotalAnos de EstudoSexo 68 (100) 34 (50,0 0) 23 (33,8 2) 11 (16,18)Total 36 (100) 22 (61,11) 9 (25,00) 5 (13,89)M 32 (100) 12 (37,50) 14 (43,75) 6 (18,75)F >129 a 12<=8 Total Anos de Estudo Sexo A distribuição de sexos depende da categoria de anos de estudo? 68 (100)34 (100)23 (100) 11 (100)Total 36 (52,94) 22 (64,71) 9 (39,13) 5 (45,45)F 32 (47,06) 12 (35,29) 14 (60,87) 6 (54,55)M >129 a 12<=8 Total Anos de Estudo Sexo 1 2 3 M F distribuição de sexo por caegoria de anos de estudo anos de estudo 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 F M 13ou mais 9 a 12 <=8 distribuição de anos de estudo por caegoria de sexo sexo 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 3 A distribuição do salário atual depende da distribuição do salário inicial? Isto é existe associação entre as variáveis? 1750015000125001000075005000 45000 40000 35000 30000 25000 20000 15000 10000 5000 Sal_inicial S a l_ a tu a l Diagrama de dispersão de salário atual versus salario Inicial Construir diagramas de dispersão Quantificar a força da associação (a) Ausência de associação linear r= 0,056 (b) Associação linear positiva r=0,94 ( c) Associação linear negativa r = -0,94 (d) Associação linear positiva r = 0,49 (e) Associação linear negativa r = -0,61 (f) Associação não linear r=0,061 ( g) Associação lienar positiva perfeita r = 1 (h) Associação lienar negativa perfeita r = -1 O diagrama de dispersão é construído a partir das observações (x,y) das varáveis X e Y de interesse, obtidas para n indivíduos. xnynn ::: ::: x4y44 x3y33 x2y22 x1y11 Variável XVariável YIndivíduo • Cada ponto no gráfico representa um indivíduo. • Ao construir o diagrama o comprimento do eixo vertical não deve ser muito menor que o comprimento do eixo horizontal. • A Associação entre as variáveis é linear (pontos estão próximos de uma reta) • A associação é positiva (Quanto maior o salário inicial maior o salário atual) 4 Como quantificar a associação entre 2 variáveis quantitativas? Vamos apresentar duas medidas: covariância e correlação 615,69695,0510 645,03757,859 1050,071137,828 981,88629,317 1295,871842,96 1544,751280,505 744,90695,194 1737,321933,513 1951,002486,122 1166,771117,251 Y – Gastos (reais)X – Renda (reais)Indivíduo Dados de renda e gastos mensais de 10 pessoas 2500200015001000500 2000 1750 1500 1250 1000 750 500 Renda G a s to s Diagrama de Dsipersão de Gastos versus Renda Covariância amostral entre 2 variáveis X e Y ( )( )yyxx n s i n i ixy −− − = ∑ =11 1 • A covariância a variação conjunta de 2 variáveis. Ela é positiva se Y aumenta com o aumento de X é negativa quanto Y decresce com o aumento de X. • O valor da covariância pode variar de ∞− a ∞+ . • A unidade de medida da covariância é dada pelo produto das unidades de medida das variáveis em questão. Para o exemplo acima sxy = 263496 reais x reais Na tabela abaixo é exemplificado o cálculo da covariância Indivíduo x y )( xx − )( yy − ))(( yyxx −− 1 1117.25 1166.77 -140,3, -90,78 12736,43 2 2486.12 1951.00 1228,57 693,45 851951,90 3 1933.51 1737.32 675,96 479,77 324305,30 4 695.19 744.90 -562,36 -512,65 288293,90 5 1280.50 1544.75 22,95 287,20 6591,24 6 1842.90 1295.87 585,35 38,32 22430,61 7 629.31 981.88 -628,24 -275,67 173186,90 8 1137.82 1050.07 -119,73 -207,48 24841,58 9 757.85 645.03 -499,70 -612,52 306076,20 10 695.05 615.69 -562,50 -641,86 361046,30 Soma 0 0 2371460 55,1257=x 33,1173=y 233496 110 2371460 = − =xys 5 Entendendo a covariância Qual o sinal das contribuições )yy)(xx( ii −− em cada um dos quadrantes definidos por x e y? E usual apresentar as covariâncias entre vários pares de variáveis na forma de uma matriz: matriz de variâncias e covariâncias Exemplo: Matriz de covariâncias anosestudo idade exp salfinal salinicial anosestudo 11.87 -18.04 -9.52 17778.41 8885.53 idade -18.04 163.13 104.92 -35860.51 -10187.53 exp -9.52 104.92 109.55 -17600.28 -2167.16 salfinal 17778.41 -35860.51 -17600.28 60231619.28 20931398.72 salinicial 8885.53 -10187.53 -2167.16 20931398.72 11180536.00 • A matriz simétrica: COV(x1,x2) = COV(x2,x1) • Na diagonal da matriz temos as Variâncias: COV(x1,x1) = VAR(x1) COV(idade, anosestudo) = COV(anosestudo, idade) = -18,04 anos x anos COV(anosestudo,anoestudo) = VAR(anosestudo) = 11,87 anos2 O salário final está mais fortemente associado com a idade ou com o salário inicial? Não podemos responder esta pergunta usando a covariância. Ela depende da unidade de medida. Para responder esta pergunta vamos utilizar o coeficiente de correlação de linear de Pearson Correlação linear yx xy y i n i x i xy ss s s yy s xx n r = − − − = ∑ =11 1 onde sx e sy são os desvios padrão das variáveis X e Y. ⇒ O coeficiente de correlação linear rxy mede o grau de associação linear entre duas variáveis. ⇒ O coeficiente de correlação não possui unidade de medida. -1 < r < 1 r < 0 → associação linear negativa entre as variáveis r = 0 → não há associaçãolinear entre as variáveis r > 0 → associação linear positiva entre as variáveis r = -1 → correlação linear inversa perfeita r = 1 → correlação linear direta perfeita 6 ⇒ Quanto mais próximos os pontos no diagrama de dispersão estiverem de uma reta, mais próxima a correlação estará de 1 ou –1 ⇒ Observe o gráfico (f). Mesmo com uma forte associação entre as variáveis a correlação é próxima de zero. Isto acontece porque o coeficiente de Pearson é adequado para medir associações lineares. Portanto é boa pratica construir o diagrama de dispersão antes de interpretar os coeficientes reais 62,459 s reais 25,634 s reais x reais 233496s yx xy == = 0,9038 reais 62,459 x reais 25,634 reais x reais 233496 rxy == Cálculo da correlação entre gasto e renda Y – gastos X – renda Exemplo: Matriz de correlação anosestudo idade exp salfinal salinicial anosestudo 1.00 -0.41 -0.26 0.66 0.77 idade -0.41 1.00 0.78 -0.36 -0.24 exp -0.26 0.78 1.00 -0.22 -0.06 salfinal 0.66 -0.36 -0.22 1.00 0.81 salinicial 0.77 -0.24 -0.06 0.81 1.00 ⇒ A matriz é simétrica corr(exp, idade) = corr(idade, exp) = 0,78 ⇒ Os elementos da diagonal são iguais a 1. (grafico de x versus x é uma reta)
Compartilhar