Prévia do material em texto
Atividade R Studio – Case 1 1) Faça uma análise exploratória de todas as variáveis. ANOS_ESTUDO SUL SEXO ANOS_MESMA_EMPRESA Min. : 2.00 Min. :0.0000 Length:534 Min. : 0.00 1st Qu.:12.00 1st Qu.:0.0000 Class :character 1st Qu.: 8.00 Median :12.00 Median :0.0000 Mode :character Median :15.00 Mean :13.02 Mean :0.2921 Mean :17.82 3rd Qu.:15.00 3rd Qu.:1.0000 3rd Qu.:26.00 Max. :18.00 Max. :1.0000 Max. :55.00 IDADE ESTADO_CIVIL SALARIO SALARIO_10M Min. :18.00 Length:534 Min. : 1.000 Min. :0.0000 1st Qu.:28.00 Class :character 1st Qu.: 5.250 1st Qu.:0.0000 Median :35.00 Mode :character Median : 7.780 Median :0.0000 Mean :36.83 Mean : 9.024 Mean :0.3109 3rd Qu.:44.00 3rd Qu.:11.250 3rd Qu.:1.0000 Max. :64.00 Max. :44.500 Max. :1.0000 2) Qual a proporção de funcionários do SUL? > table(salario$SUL) 0 1 378 156 > prop.table(table(salario$SUL)) 0 1 0.7078652 0.2921348 Cerca de 70,78% dos funcionários são da região Sul. 3) Qual a proporção de mulheres? > table(salario$SEXO) F M 245 289 > prop.table(table(salario$SEXO)) F M 0.4588015 0.5411985 Cerca de 45,88% dos funcionários são mulheres. 4) Qual a proporção de casados? > table(salario$ESTADO_CIVIL) CASADO OUTROS 350 184 > prop.table(table(salario$ESTADO_CIVIL)) CASADO OUTROS 0.6554307 0.3445693 Cerca de 65,54% dos funcionários são casados 5) Qual a proporção de colaboradores com salário superior a 10 mil? > table(salario$SALARIO_10M) 0 1 368 166 > prop.table(table(salario$SALARIO_10M)) 0 1 0.6891386 0.3108614 Cerca de 31,09% dos colaboradores possuem salário superior a 10 mil. 6) Apresente a tabela de coeficiente. Considerando 90% de confiança, qual variável é removida em primeiro lugar? Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -26.0387 803.1172 -0.032 0.974 ANOS_ESTUDO -2.6461 133.8528 -0.020 0.984 (1) SUL -0.3638 0.2471 -1.472 0.141 (4) SEXO 1.0093 0.2216 4.555 0.00000524 *** ANOS_MESMA_EMPRESA -3.0154 133.8528 -0.023 0.982 (2) IDADE 3.0648 133.8528 0.023 0.982 (3) ESTADO_CIVILOUTROS -0.3561 0.2376 -1.499 0.134 (5) --- Como há cinco valores na coluna Pr que são maiores que 0,10, desconsidero o maior valor, ou seja, desconsidero ANOS_ESTUDO. 7) Apresente a tabela de coeficiente. Considerando 90% de confiança, qual variável é removida em segundo lugar? Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -10.17380 1.11042 -9.162 < 0.0000000000000002 *** SUL -0.36301 0.24712 -1.469 0.142 (1) SEXO 1.01113 0.22152 4.565 0.00000500413611191 *** ANOS_MESMA_EMPRESA -0.36962 0.04617 -8.006 0.00000000000000119 *** IDADE 0.41912 0.04956 8.457 < 0.0000000000000002 *** ESTADO_CIVILOUTROS -0.35745 0.23759 -1.504 0.132 (2) --- Como há dois valores na coluna Pr que são maiores que 0,10, desconsidero o maior valor, ou seja, desconsidero sul. Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -10.43038 1.09978 -9.484 < 0.0000000000000002 *** SEXO 1.00240 0.22088 4.538 0.00000567387579574 *** ANOS_MESMA_EMPRESA -0.37632 0.04586 -8.206 0.00000000000000023 *** IDADE 0.42673 0.04928 8.660 < 0.0000000000000002 *** ESTADO_CIVILOUTROS -0.34984 0.23719 -1.475 0.14 --- Como há um valor na coluna Pr maior que 0,10, desconsidero ESTADO_CIVILOUTROS. Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -10.68958 1.09085 -9.799 < 0.0000000000000002 *** SEXO 1.00919 0.22074 4.572 0.00000483 *** ANOS_MESMA_EMPRESA -0.37621 0.04577 -8.220 < 0.0000000000000002 *** IDADE 0.43042 0.04923 8.743 < 0.0000000000000002 *** --- Como todos os valores na coluna Pr são inferiores a 0,10, não é necessário excluir qualquer variável e o modelo explica a relação entre as variáveis. 8) Qual a equação do modelo final? p = 9) Qual a probabilidade ajustada para os 10 primeiros colaboradores? ANOS ESTUDO SUL SEXO ANOS_ MESMA_ EMPRESA IDADE ESTADO _CIVIL SALARIO SALARIO _10M probabilidade 8 0 F 21 35 CASADO 5.10 0 0.02860223 9 0 F 42 57 CASADO 4.95 0 0.12385958 12 0 M 1 19 OUTROS 6.67 0 0.13254692 12 0 M 4 22 OUTROS 4.00 0 0.15238859 12 0 M 17 35 CASADO 7.50 0 0.26673892 13 0 M 9 28 OUTROS 13.07 1 0.26609850 10 1 M 27 43 OUTROS 4.45 0 0.20916759 12 0 M 9 27 OUTROS 19.47 1 0.19078336 16 0 M 11 33 CASADO 13.28 1 0.59512073 12 0 M 9 27 OUTROS 8.75 0 0.19078336 10) Considerando o ponto de corte como 0,3 classifique os colaboradores com potencial para ganhar mais do que 10 mil reais. a) Obtenha a tabela de classificação b) Qual o percentual de classificação correta? > (263+111)/(534) [1] 0.7003745 O percentual global de classificação correto é 70,04%. 11. Considerando o ponto de corte como 0,5 classifique os colaboradores com potencial para ganhar mais do que 10 mil reais. a) Obtenha a tabela de classificação. b) Qual o percentual de classificação correta? > (329+74)/(534) [1] 0.7546816 O percentual global de classificação correto é 75,47%. 12. Considerando o ponto de corte como 0,7 classifique os colaboradores com potencial para ganhar mais do que 10 mil reais. a) Obtenha a tabela de classificação. b) Qual o percentual de classificação correta? > (358+30)/(534) [1] 0.7265918 O percentual global de classificação correto é 72,66%. Atividade R Studio – Case 1 1) Faça uma análise exploratória de todas as variáveis. ANOS_ESTUDO SUL SEXO ANOS_MESMA_EMPRESA Min. : 2.00 Min. :0.0000 Length:534 Min. : 0.00 1st Qu.:12.00 1st Qu.:0.0000 Class :character 1st Qu.: 8.00 Median :12.00 Median :0.0000 Mode :character Median :15.00 Mean :13.02 Mean :0.2921 Mean :17.82 3rd Qu.:15.00 3rd Qu.:1.0000 3rd Qu.:26.00 Max. :18.00 Max. :1.0000 Max. :55.00 IDADE ESTADO_CIVIL SALARIO SALARIO_10M Min. :18.00 Length:534 Min. : 1.000 Min. :0.0000 1st Qu.:28.00 Class :character 1st Qu.: 5.250 1st Qu.:0.0000 Median :35.00 Mode :character Median : 7.780 Median :0.0000 Mean :36.83 Mean : 9.024 Mean :0.3109 3rd Qu.:44.00 3rd Qu.:11.250 3rd Qu.:1.0000 Max. :64.00 Max. :44.500 Max. :1.0000 2) Qual a proporção de funcionários do SUL? > table(salario$SUL) 0 1 378 156 > prop.table(table(salario$SUL)) 0 1 0.70786520.2921348 Cerca de 70,78% dos funcionários são da região Sul. 3) Qual a proporção de mulheres? > table(salario$SEXO) F M 245 289 > prop.table(table(salario$SEXO)) F M 0.4588015 0.5411985 Cerca de 45,88 % dos funcionários são mulheres. 4) Qual a proporção de casados? > table(salario$ESTADO_CIVIL) Atividade R Studio – Case 1 1) Faça uma análise exploratória de todas as variáveis. ANOS_ESTUDO SUL SEXO ANOS_MESMA_EMPRESA Min. : 2.00 Min. :0.0000 Length:534 Min. : 0.00 1st Qu.:12.00 1st Qu.:0.0000 Class :character 1st Qu.: 8.00 Median :12.00 Median :0.0000 Mode :character Median :15.00 Mean :13.02 Mean :0.2921 Mean :17.82 3rd Qu.:15.00 3rd Qu.:1.0000 3rd Qu.:26.00 Max. :18.00 Max. :1.0000 Max. :55.00 IDADE ESTADO_CIVIL SALARIO SALARIO_10M Min. :18.00 Length:534 Min. : 1.000 Min. :0.0000 1st Qu.:28.00 Class :character 1st Qu.: 5.250 1st Qu.:0.0000 Median :35.00 Mode :character Median : 7.780 Median :0.0000 Mean :36.83 Mean : 9.024 Mean :0.3109 3rd Qu.:44.00 3rd Qu.:11.250 3rd Qu.:1.0000 Max. :64.00 Max. :44.500 Max. :1.0000 2) Qual a proporção de funcionários do SUL? > table(salario$SUL) 0 1 378 156 > prop.table(table(salario$SUL)) 0 1 0.7078652 0.2921348 Cerca de 70,78% dos funcionários são da região Sul. 3) Qual a proporção de mulheres? > table(salario$SEXO) F M 245 289 > prop.table(table(salario$SEXO)) F M 0.4588015 0.5411985 Cerca de 45,88% dos funcionários são mulheres. 4) Qual a proporção de casados? > table(salario$ESTADO_CIVIL)