Buscar

Regressão Logística - Case 1


Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Atividade R Studio – Case 1
1) Faça uma análise exploratória de todas as variáveis.
 ANOS_ESTUDO SUL SEXO ANOS_MESMA_EMPRESA
 Min. : 2.00 Min. :0.0000 Length:534 Min. : 0.00 
 1st Qu.:12.00 1st Qu.:0.0000 Class :character 1st Qu.: 8.00 
 Median :12.00 Median :0.0000 Mode :character Median :15.00 
 Mean :13.02 Mean :0.2921 Mean :17.82 
 3rd Qu.:15.00 3rd Qu.:1.0000 3rd Qu.:26.00 
 Max. :18.00 Max. :1.0000 Max. :55.00 
 
 IDADE ESTADO_CIVIL SALARIO SALARIO_10M 
 Min. :18.00 Length:534 Min. : 1.000 Min. :0.0000 
 1st Qu.:28.00 Class :character 1st Qu.: 5.250 1st Qu.:0.0000 
 Median :35.00 Mode :character Median : 7.780 Median :0.0000 
 Mean :36.83 Mean : 9.024 Mean :0.3109 
 3rd Qu.:44.00 3rd Qu.:11.250 3rd Qu.:1.0000 
 Max. :64.00 Max. :44.500 Max. :1.0000 
2) Qual a proporção de funcionários do SUL?
> table(salario$SUL)
 0 1 
378 156 
> prop.table(table(salario$SUL))
 0 1 
0.7078652 0.2921348 
Cerca de 70,78% dos funcionários são da região Sul.
3) Qual a proporção de mulheres?
> table(salario$SEXO)
 F M 
245 289 
> prop.table(table(salario$SEXO))
 F M 
0.4588015 0.5411985 
Cerca de 45,88% dos funcionários são mulheres.
4) Qual a proporção de casados?
> table(salario$ESTADO_CIVIL)
CASADO OUTROS 
 350 184 
> prop.table(table(salario$ESTADO_CIVIL))
 CASADO OUTROS 
0.6554307 0.3445693
Cerca de 65,54% dos funcionários são casados
5) Qual a proporção de colaboradores com salário superior a 10 mil?
> table(salario$SALARIO_10M)
 0 1 
368 166 
> prop.table(table(salario$SALARIO_10M))
 0 1 
0.6891386 0.3108614
Cerca de 31,09% dos colaboradores possuem salário superior a 10 mil.
6) Apresente a tabela de coeficiente. Considerando 90% de confiança, qual variável é removida em primeiro lugar?
Coefficients:
 Estimate Std. Error z value Pr(>|z|) 
(Intercept) -26.0387 803.1172 -0.032 0.974 
ANOS_ESTUDO -2.6461 133.8528 -0.020 0.984 (1) 
SUL -0.3638 0.2471 -1.472 0.141 (4) 
SEXO 1.0093 0.2216 4.555 0.00000524 ***
ANOS_MESMA_EMPRESA -3.0154 133.8528 -0.023 0.982 (2) 
IDADE 3.0648 133.8528 0.023 0.982 (3) 
ESTADO_CIVILOUTROS -0.3561 0.2376 -1.499 0.134 (5) 
---
Como há cinco valores na coluna Pr que são maiores que 0,10, desconsidero o 
maior valor, ou seja, desconsidero ANOS_ESTUDO.
7) Apresente a tabela de coeficiente. Considerando 90% de confiança, qual variável é removida em segundo lugar?
Coefficients:
 Estimate Std. Error z value Pr(>|z|) 
(Intercept) -10.17380 1.11042 -9.162 < 0.0000000000000002 ***
SUL -0.36301 0.24712 -1.469 0.142 (1) 
SEXO 1.01113 0.22152 4.565 0.00000500413611191 ***
ANOS_MESMA_EMPRESA -0.36962 0.04617 -8.006 0.00000000000000119 ***
IDADE 0.41912 0.04956 8.457 < 0.0000000000000002 ***
ESTADO_CIVILOUTROS -0.35745 0.23759 -1.504 0.132 (2) 
---
Como há dois valores na coluna Pr que são maiores que 0,10, desconsidero o maior valor, ou seja, desconsidero sul.
Coefficients:
 Estimate Std. Error z value Pr(>|z|) 
(Intercept) -10.43038 1.09978 -9.484 < 0.0000000000000002 ***
SEXO 1.00240 0.22088 4.538 0.00000567387579574 ***
ANOS_MESMA_EMPRESA -0.37632 0.04586 -8.206 0.00000000000000023 ***
IDADE 0.42673 0.04928 8.660 < 0.0000000000000002 ***
ESTADO_CIVILOUTROS -0.34984 0.23719 -1.475 0.14 
---
Como há um valor na coluna Pr maior que 0,10, desconsidero ESTADO_CIVILOUTROS.
Coefficients:
 Estimate Std. Error z value Pr(>|z|) 
(Intercept) -10.68958 1.09085 -9.799 < 0.0000000000000002 ***
SEXO 1.00919 0.22074 4.572 0.00000483 ***
ANOS_MESMA_EMPRESA -0.37621 0.04577 -8.220 < 0.0000000000000002 ***
IDADE 0.43042 0.04923 8.743 < 0.0000000000000002 ***
---
Como todos os valores na coluna Pr são inferiores a 0,10, não é necessário excluir 
qualquer variável e o modelo explica a relação entre as variáveis.
8) Qual a equação do modelo final?
p = 
9) Qual a probabilidade ajustada para os 10 primeiros colaboradores?
	ANOS
ESTUDO
	SUL
	SEXO
	ANOS_
MESMA_
EMPRESA
	IDADE
	ESTADO
_CIVIL
	SALARIO
	SALARIO
_10M
	probabilidade
	
	
	
	
	
	
	
	
	
	
	8
	0
	F
	21
	35
	CASADO
	5.10
	0
	0.02860223
	9
	0
	F
	42
	57
	CASADO
	4.95
	0
	0.12385958
	12
	0
	M
	1
	19
	OUTROS
	6.67
	0
	0.13254692
	12
	0
	M
	4
	22
	OUTROS
	4.00
	0
	0.15238859
	12
	0
	M
	17
	35
	CASADO
	7.50
	0
	0.26673892
	13
	0
	M
	9
	28
	OUTROS
	13.07
	1
	0.26609850
	10
	1
	M
	27
	43
	OUTROS
	4.45
	0
	0.20916759
	12
	0
	M
	9
	27
	OUTROS
	19.47
	1
	0.19078336
	16
	0
	M
	11
	33
	CASADO
	13.28
	1
	0.59512073
	12
	0
	M
	9
	27
	OUTROS
	8.75
	 0
	0.19078336
10) Considerando o ponto de corte como 0,3 classifique os colaboradores com potencial para ganhar mais do que 10 mil reais.
a) Obtenha a tabela de classificação
b) Qual o percentual de classificação correta?
> (263+111)/(534)
[1] 0.7003745
O percentual global de classificação correto é 70,04%.
11. Considerando o ponto de corte como 0,5 classifique os colaboradores com potencial para ganhar mais do que 10 mil reais.
a) Obtenha a tabela de classificação.
b) Qual o percentual de classificação correta?
> (329+74)/(534) 
[1] 0.7546816
 O percentual global de classificação correto é 75,47%.
12. Considerando o ponto de corte como 0,7 classifique os colaboradores com potencial para ganhar mais do que 10 mil reais.
a) Obtenha a tabela de classificação.
b) Qual o percentual de classificação correta?
> (358+30)/(534) 
[1] 0.7265918
O percentual global de classificação correto é 72,66%.
Atividade R Studio 
–
 
Case 1
 
 
1)
 
Faça uma análise exploratória de todas as variáveis.
 
 
 
ANOS_ESTUDO
 
SUL
 
SEXO
 
ANOS_MESMA_EMPRESA
 
 
Min.
 
:
 
2.00
 
Min.
 
:0.0000
 
Length:534
 
Min.
 
:
 
0.00
 
 
 
1st
 
Qu.:12.00
 
1st
 
Qu.:0.0000
 
Class
 
:character
 
1st
 
Qu.:
 
8.00
 
 
 
Median
 
:12.00
 
Median
 
:0.0000
 
Mode
 
:character
 
Median
 
:15.00
 
 
 
Mean
 
:13.02
 
Mean
 
:0.2921
 
Mean
 
:17.82
 
 
 
3rd
 
Qu.:15.00
 
3rd
 
Qu.:1.0000
 
3rd
 
Qu.:26.00
 
 
 
Max.
 
:18.00
 
Max.
 
:1.0000
 
Max.
 
:55.00
 
 
 
 
 
 
IDADE
 
ESTADO_CIVIL
 
SALARIO
 
SALARIO_10M
 
 
 
Min.
 
:18.00
 
Length:534
 
Min.
 
:
 
1.000
 
Min.
 
:0.0000
 
 
 
1st
 
Qu.:28.00
 
Class
 
:character
 
1st
 
Qu.:
 
5.250
 
1st
 
Qu.:0.0000
 
 
 
Median
 
:35.00
 
Mode
 
:character
 
Median
 
:
 
7.780
 
Median
 
:0.0000
 
 
 
Mean
 
:36.83
 
Mean
 
:
 
9.024
 
Mean
 
:0.3109
 
 
 
3rd
 
Qu.:44.00
 
3rd
 
Qu.:11.250
 
3rd
 
Qu.:1.0000
 
 
 
Max.
 
:64.00
 
Max.
 
:44.500
 
Max.
 
:1.0000
 
 
 
2)
 
 
Qual a proporção de funcionários do SUL?
 
 
> 
table(salario$SUL)
 
 
 
0
 
1
 
 
378
 
156
 
 
 
> 
prop.table(table(salario$SUL))
 
 
 
0
 
1
 
 
0.70786520.2921348
 
 
 
 
Cerca de 70,78% dos 
funcionários são da região Sul.
 
 
3)
 
 
Qual a proporção de mulheres?
 
 
> 
table(salario$SEXO)
 
 
 
F
 
M
 
 
245
 
289
 
 
 
> 
prop.table(table(salario$SEXO))
 
 
 
F
 
M
 
 
0.4588015
 
0.5411985
 
 
 
 
Cerca de 
45,88
% dos funcionários são 
mulheres.
 
 
4)
 
 
Qual a proporção de casados?
 
> 
table(salario$ESTADO_CIVIL)
 
Atividade R Studio – Case 1 
 
1) Faça uma análise exploratória de todas as variáveis. 
 
 ANOS_ESTUDO SUL SEXO ANOS_MESMA_EMPRESA 
 Min. : 2.00 Min. :0.0000 Length:534 Min. : 0.00 
 1st Qu.:12.00 1st Qu.:0.0000 Class :character 1st Qu.: 8.00 
 Median :12.00 Median :0.0000 Mode :character Median :15.00 
 Mean :13.02 Mean :0.2921 Mean :17.82 
 3rd Qu.:15.00 3rd Qu.:1.0000 3rd Qu.:26.00 
 Max. :18.00 Max. :1.0000 Max. :55.00 
 
 
 IDADE ESTADO_CIVIL SALARIO SALARIO_10M 
 Min. :18.00 Length:534 Min. : 1.000 Min. :0.0000 
 1st Qu.:28.00 Class :character 1st Qu.: 5.250 1st Qu.:0.0000 
 Median :35.00 Mode :character Median : 7.780 Median :0.0000 
 Mean :36.83 Mean : 9.024 Mean :0.3109 
 3rd Qu.:44.00 3rd Qu.:11.250 3rd Qu.:1.0000 
 Max. :64.00 Max. :44.500 Max. :1.0000 
 
2) Qual a proporção de funcionários do SUL? 
 
> table(salario$SUL) 
 
 0 1 
378 156 
 
> prop.table(table(salario$SUL)) 
 
 0 1 
0.7078652 0.2921348 
 
 
Cerca de 70,78% dos funcionários são da região Sul. 
 
3) Qual a proporção de mulheres? 
 
> table(salario$SEXO) 
 
 F M 
245 289 
 
> prop.table(table(salario$SEXO)) 
 
 F M 
0.4588015 0.5411985 
 
 
Cerca de 45,88% dos funcionários são mulheres. 
 
4) Qual a proporção de casados? 
> table(salario$ESTADO_CIVIL)

Continue navegando