Buscar

Trabalho Prático do Módulo 3_ 2022-8A - Bootcamp Gestor(a) de Business Intelligence

Prévia do material em texto

Trabalho Prático do Módulo 3
Entrega 28 set em 21:00 Pontos 25 Perguntas 13
Disponível até 28 set em 21:00 Limite de tempo Nenhum
Instruções
Histórico de tentativas
Tentativa Tempo Pontuação
MAIS RECENTE Tentativa 1 1.375 minutos 25 de 25
O Trabalho Prático do Módulo 3 está disponível!
1. Instruções para realizar o trabalho prático
Consulte a data de entrega no teste e em seu calendário.
Reserve um tempo para realizar a atividade, leia as orientações e enunciados com atenção. Em
caso de dúvidas utilize o "Fórum de dúvidas do Trabalho Prático do Módulo 3".
Para iniciá-lo clique em "Fazer teste". Você tem somente uma tentativa e não há limite de tempo
definido para realizá-lo. Caso precise interromper a atividade, apenas deixe a página e, ao retornar,
clique em "Retomar teste".
Clique em "Enviar teste" somente quando você concluí-lo. Antes de enviar confira todas as
questões.
Caso o teste seja iniciado e não enviado até o final do prazo de entrega, a plataforma enviará a
tentativa não finalizada automaticamente, independente do progresso no teste. Fique atento ao seu
teste e ao prazo final, pois novas tentativas só serão concedidas em casos de questões médicas.
O gabarito será disponibilizado partir de sexta-feira, 30/09/2022, às 23h59.
Bons estudos!
2. O arquivo abaixo contém o enunciado do trabalho prático
Enunciado do Trabalho Prático - Módulo 3 - Bootcamp Gestor(a) de Business Intelligence.pdf
Codigos_Classificacao_Trabalho_Prático.txt
Codigos_Classificacao_Trabalho_Pratico.R
Rhistory
https://online.igti.com.br/courses/4880/quizzes/65040/history?version=1
https://online.igti.com.br/courses/4880/files/345482/download?wrap=1
https://online.igti.com.br/courses/4880/files/344569/download?wrap=1
https://online.igti.com.br/courses/4880/files/344568/download?wrap=1
https://online.igti.com.br/courses/4880/files/344567/download?wrap=1
 As respostas corretas estarão disponíveis em 30 set em 23:59.
Pontuação deste teste: 25 de 25
Enviado 25 set em 1:23
Esta tentativa levou 1.375 minutos.
1,92 / 1,92 ptsPergunta 1
Qual é a Renda média para clientes de alto risco e sua interpretação
CORRETA?
 
A renda média para clientes de Alto Risco é 3,23. Ou seja, o valor
máximo que um cliente de Alto Risco recebe é 3,23.
 
A renda média para clientes de Alto Risco é 3,23. Ou seja, o valor
mediano que um cliente de Alto Risco recebe é 3,23.
 
A renda média para clientes de Alto Risco é 3,23. Ou seja, o valor que
geralmente um cliente de Alto Risco recebe é 3,23.
 
A renda média para clientes de Alto Risco é 3,23. Ou seja, o valor
mínimo que um cliente de Alto Risco recebe é 3,23.
1,92 / 1,92 ptsPergunta 2
Qual o desvio padrão da Renda para clientes de Alto Risco e sua
interpretação CORRETA?
 
O desvio padrão da Renda para clientes de Alto Risco é 0,449. Ou
seja, a renda varia em média 0,449 unidades em torno do primeiro
quartil.
 
O desvio padrão da Renda para clientes de Alto Risco é 0,449. Ou
seja, a renda varia em média 0,449 unidades em torno do terceiro
quartil.
 
O desvio padrão da Renda para clientes de Alto Risco é 0,449. Ou
seja, a renda varia em média 0,449 unidades em torno de sua média
aritmética.
 
O desvio padrão da Renda para clientes de Alto Risco é 0,449. Ou
seja, a renda varia em média 0,449 unidades em torno de sua média
mediana.
1,92 / 1,92 ptsPergunta 3
Qual o coeficiente de variação da Renda para clientes de Alto Risco e
sua interpretação CORRETA?
 
O coeficiente de variação da Renda para clientes de Alto Risco é 0,13
(13%). Ou seja, a renda varia em média 13% em torno de sua
mediana.
 
O coeficiente de variação da Renda para clientes de Alto Risco é 0,13
(13%). Ou seja, a renda varia em média 13% em torno de sua média
aritmética.
 
O coeficiente de variação da Renda para clientes de Alto Risco é 0,13
(13%). Ou seja, a renda varia em média 13% em torno do primeiro
quartil.
 
O coeficiente de variação da Renda para clientes de Alto Risco é 0,13
(13%). Ou seja, a renda varia em média 13% em torno do terceiro
quartil.
1,92 / 1,92 ptsPergunta 4
Qual o terceiro quartil da Idade para clientes de alto risco e sua
interpretação CORRETA?
 O terceiro quartil é 25. Ou seja, 10% dos clientes têm até 25 anos. 
 O terceiro quartil é 25. Ou seja, 50% dos clientes têm até 25 anos. 
 O terceiro quartil é 25. Ou seja, 25% dos clientes têm até 25 anos. 
 O terceiro quartil é 25. Ou seja, 75% dos clientes têm até 25 anos. 
1,92 / 1,92 ptsPergunta 5
Obtenha o boxplot da relação entre Renda Mensal e a Classe. Qual a
interpretação CORRETA das medianas?
 
A mediana dos clientes de alto risco é mais baixa quando comparada a
cliente de baixo risco.
 
A mediana dos clientes de alto risco é mais alta quando comparada a
cliente de baixo risco.
 
A mediana é sempre igual a média aritmética, portanto, não há
diferença significativa entre as duas medianas.
 
A mediana dos clientes de alto risco é igual quando comparada a
cliente de baixo risco.
1,92 / 1,92 ptsPergunta 6
Por que devemos separar o dataset em treino e teste? (ver
metodologia hold-out)
 Não há necessidade, pois só gera custo computacional. 
 
Não há necessidade, podemos avaliar a taxa de acertos na própria
base de treino.
 
Não faz diferença avaliar a capacidade preditiva do algoritmo na base
de treino ou na base de teste, isso fica para o pesquisador decidir.
Tanto faz.
 
Pois sempre devemos testar a capacidade preditiva do algoritmo em
dados que ele ainda não conhece, para evitar um super ajuste, ou seja,
o algoritmo ‘decorar’ os dados da base de treino, apresentar uma taxa
de acerto altíssima nela, porém, ao chegarem dados que ele ainda não
conhece, há uma grande de dificuldade em acertar a predição.
1,92 / 1,92 ptsPergunta 7
Treine uma árvore de decisão e aplique o algoritmo na base de teste,
obtenha a matriz de confusão. Assuma que a acurácia obtida seja de
84,85%. Qual a interpretação CORRETA da acurácia?
 
A Acurácia nos diz o percentual de acerto para classe positiva, ou seja,
o algoritmo acertou 84,85% dos clientes de Alto Risco.
 
A acurácia é soma dos elementos da diagonal principal da matriz de
confusão dividida pela soma total dos elementos da matriz de
confusão. Ou seja, é a taxa de acerto geral, portanto, podemos dizer
que, no geral, a árvore de decisão apresentou uma taxa de acerto de
84,85% na base de teste.
 
A Acurácia diz respeito a taxa de erro do algoritmo. Podemos dizer que
o algoritmo errou em média 84,85% das predições na base de teste.
 
A Acurácia nos diz o percentual de acerto para classe negativa, ou
seja, o algoritmo acertou 84,85% dos clientes de Baixo Risco.
1,92 / 1,92 ptsPergunta 8
Treine uma árvore de decisão e aplique o algoritmo na base de teste,
obtenha a matriz de confusão. Assuma que a precisão na classe
positiva (pos pred value) obtida seja de 81,25%. Qual a interpretação
CORRETA da precisão na classe positiva?
 
A precisão na classe positiva nos diz o percentual de acerto para a
classe positiva, ou seja, das observações classificadas como Alto
Risco, o algoritmo acertou 81,25%.
 
A precisão na classe positiva diz respeito a taxa de erro do algoritmo.
Podemos dizer que o algoritmo errou em média 81,25% das predições
na base de teste.
 
A precisão na classe positiva nos diz o percentual de acerto para
classe negativa, ou seja, o algoritmo acertou 81,25% dos clientes de
Baixo Risco.
 
A precisão é soma dos elementos da diagonal principal da matriz de
confusão dividida pela soma total dos elementos da matriz de
confusão. Ou seja, é a taxa de acerto geral, portanto, podemos dizer
que, no geral, a árvore de decisão apresentou uma taxa de acerto de
81,25% na base de teste.
1,92 / 1,92 ptsPergunta 9
Treine uma árvore de decisão e aplique o algoritmo na base de teste,
obtenha a matriz de confusão. Assuma que a precisão na classe
negativa (neg pred value) obtida seja de 88,24%. Qual a interpretação
CORRETA da precisão na classe negativa?
 
A precisão na classe negativa nos diz o percentual de acerto para a
classe positiva, ou seja, o algoritmoacertou 88,24% dos clientes de
Alto Risco.
 
A precisão na classe negativa é soma dos elementos da diagonal
principal da matriz de confusão dividida pela soma total dos elementos
da matriz de confusão. Ou seja, é a taxa de acerto geral, portanto,
podemos dizer que, no geral, a árvore de decisão apresentou uma taxa
de acerto de 88,24% na base de teste.
 
A precisão na classe negativa diz respeito a taxa de erro do algoritmo.
Podemos dizer que o algoritmo errou em média 88,24% das predições
na base de teste.
 
A precisão na classe negativa nos diz o percentual de acerto para a
classe negativa, ou seja, das observações preditas como Baixo Risco,
o algoritmo acertou 88,24%.
1,92 / 1,92 ptsPergunta 10
 O que é o índice Kappa?
 
O índice Kappa é um indicador de concordância contido no intervalo 0
e 1. Ele é mais rigoroso que a acurácia, pois leva em consideração a
proporção entre as classes da variável resposta.
 
É o mesmo que o logaritmo natural do coeficiente de Correlação de
Pearson.
 É o mesmo que a correlação de Pearson. 
 É o mesmo que a raiz quadrada da correlação de Pearson. 
1,92 / 1,92 ptsPergunta 11
O algoritmo KNN pode ser utilizado para tarefa de Regressão?
Justifique.
 Não, o KNN só pode ser utilizado para classificação binária. 
 
Não, o KNN só pode ser utilizado no aprendizado não supervisionado
em conjunto com o K-Means.
 
Sim, a predição é feita tomando a média da variável resposta nos K
vizinhos mais próximos.
 Não, o KNN só pode ser utilizado para classificação multiclasses. 
1,92 / 1,92 ptsPergunta 12
O que é a metodologia CRISP-DM ?
 
É um algoritmo do aprendizado de máquina supervisionado que pode
ser utilizado somente para tarefa de classificação.
 
É uma metodologia que guia o fluxo de trabalho de um processo de
mineração de dados. CRISP-DM é a abreviação de Cross Industry
Standard Process for Data Mining, que pode ser traduzido para
Processo padrão interindústrias para mineração de dados. É uma
metodologia que pode ser aplicada independente do segmento da
empresa que você trabalha.
 
É um algoritmo do aprendizado de máquina supervisionado que pode
ser utilizado somente para tarefa de regressão.
 
É um algoritmo do aprendizado de máquina não supervisionado, que
serve para clusterização de variáveis categóricas.
1,96 / 1,96 ptsPergunta 13
O que é a Engenharia de Variáveis?
 
A engenharia de variáveis, ou engenharia de atributos, ou feature
engineering, é a arte de criar novas variáveis a partir das variáveis
disponíveis, com o objetivo de aumentar a capacidade preditiva do
algoritmo de aprendizado de máquina.
 
É quando a variável resposta assume somente valores discretos (Ex.:
Quantidade de carros por hora em um pedágio, Quantidade de
pessoas por minuto em uma fila etc.)
 É quando se constrói pontes com robôs. 
 É quando o dataset não possui variável resposta. 
Pontuação do teste: 25 de 25

Continue navegando