Buscar

PROVA ON-LINE_ 04 - Modelagem e Preparação de Dados para Aprendizado de Máquina (2023)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

03/03/2024, 12:50 PROVA ON-LINE: 04 - Modelagem e Preparação de Dados para Aprendizado de Máquina (2023)
https://pucminas.instructure.com/courses/146797/quizzes/384309 1/8
PROVA ON-LINE
Entrega Sem prazo
Pontos 40
Perguntas 10
Limite de tempo 60 Minutos
Tentativas permitidas 2
Instruções
Histórico de tentativas
Tentativa Tempo Pontuação
MAIS RECENTE Tentativa 1 11 minutos 40 de 40
Pontuação desta tentativa: 40 de 40
Enviado 3 mar em 12:49
Esta tentativa levou 11 minutos.

Pergunta 1
4 / 4 pts
INSTRUÇÕES DA AVALIAÇÃO ON-LINE
- A prova tem a duração de 60 minutos. 
- Ao clicar em PROVA ON-LINE, no menu “Testes” você iniciará a prova. Ao acessar a página com as
questões, o tempo começa a ser contado.
- A prova é composta de 10 (dez) questões objetivas, sendo 04 (quatro) pontos cada.
- Ao final do teste não se esqueça de enviá-lo, clicando no botão “ENVIAR TESTE”. Só utilize esse
botão quando tiver finalizado a avaliação.
- Se necessário, durante a prova, entre em contato pelo link “Atendimento”.
- Você terá 02 (duas) tentativas e, caso necessite de uma nova, será preciso solicitar a prova extra,
que requer pagamento de taxa adicional.
Atenção: Todas as provas iniciadas e que não houverem sido submetidas serão automaticamente
encerradas pelo sistema transcorridos os 60 minutos de duração.
Boa prova!
Fazer o teste novamente
Durante a caracterização dos dados e para fins de classificação, é importante observar os domínios
dos atributos. Isto porque uma classificação equivocada pode levar a modelos inconsistentes. Por
https://pucminas.instructure.com/courses/146797/quizzes/384309/history?version=1
https://pucminas.instructure.com/courses/146797/quizzes/384309/take?user_id=271431
03/03/2024, 12:50 PROVA ON-LINE: 04 - Modelagem e Preparação de Dados para Aprendizado de Máquina (2023)
https://pucminas.instructure.com/courses/146797/quizzes/384309 2/8
 Todas estão corretas
 Somente (3)
Correto!
 Apenas (1) e (2)
 Somente (1)

Pergunta 2
4 / 4 pts
exemplo, um domínio baseado em regras para definir o perfil ADIPLENTE e INADIPLENTE no setor
bancário pode ser:
 
1. SE VALOR DA DÍVIDA < R$ 50,00 então o CLIENTE NÂO pode ser considerado perfil
INADIPLENTE.
2. SE VALOR DA DÍVIDA < R$ 500,00, mas o CLIENTE nunca ficou INADIPLENTE durante toda sua
relação com o banco, NÂO pode ser considerado perfil INADIPLENTE.
3. SE VALOR DA DÍVIDA < R$ 500,00, mas o CLIENTE possui um histórico permanente de dívidas
ativas com o banco isso NÂO pode caracterizar um perfil INADIPLENTE.
 
É correto o que se afirma em:
Durante a etapa do pré-processamento da base de dados a análise de dados ausentes é uma tarefa
relevante para obter modelos de aprendizado de máquina consistentes. Uma estratégia seria imputar
valores aos dados faltantes. De forma a imputar valores consistentes seria interessante conhecer
previamente o mecanismo que os gerou. A literatura aponta três mecanismos principais: MCAR,
MAR e NMAR. Avalie as afirmações a seguir:
 
1. No mecanismo MCAR, os valores ausentes estão distribuídos aleatoriamente, ou seja, a
probabilidade de encontrar um valor ausente é a mesma para qualquer valor do atributo.
2. No mecanismo MAR a probabilidade de encontrar um valor ausente depende de outro valor de
outro atributo.
3. No mecanismo NMAR: a probabilidade de encontrar um valor ausente depende do próprio valor
do atributo que possui dado ausente.
4. Um mecanismo híbrido pode combinar os mecanismos MAR e MCAR, mas não o NMAR.
 
É correto o que se afirma em:
03/03/2024, 12:50 PROVA ON-LINE: 04 - Modelagem e Preparação de Dados para Aprendizado de Máquina (2023)
https://pucminas.instructure.com/courses/146797/quizzes/384309 3/8
Correto!
 Apenas (1), (2) e (3)
 Somente em (4)
 Somente em (1)
 Apenas (2) e (3)

Pergunta 3
4 / 4 pts
 Apenas (1) e (2)
 Apenas (2) e (3)
Correto!
 Todas estão corretas
 Apenas (3) e (4)

Pergunta 4
4 / 4 pts
As técnicas de discretização podem ser classificadas sobre vários aspectos: Supervisionadas e Não
supervisionadas e pelo método utilizado, Divisão e Fusão. Avalie as afirmações a seguir:
 
1. A discretização Não supervisionada não considera o rótulo da classe, enquanto os
Supervisionados o fazem.
2. A discretização Supervisionada utilizam informações da classe para determinar automaticamente
o melhor número de intervalos para cada atributo.
3. Os métodos de Divisão realizam a discretização por meio de um processo iterativo de subdivisão
do intervalo de valores inicial que é executado até que uma condição de parada seja satisfeita.
4. Os métodos de Fusão iniciam com os valores do atributo contínuo particionados e, iterativamente,
realizam a junção dessas partições enquanto um critério de parada não é alcançado.
 
É correto o que se afirma em:
Uma base de dados é considerada gigantesca se esta possui duas características: Alta
dimensionalidade e grande número de registros. Avalie as afirmações a seguir:
 
1. Para gigantescas bases de dados, pode ser necessária uma etapa de redução de dados, antes de
aplicar as técnicas de aprendizado de máquina.
03/03/2024, 12:50 PROVA ON-LINE: 04 - Modelagem e Preparação de Dados para Aprendizado de Máquina (2023)
https://pucminas.instructure.com/courses/146797/quizzes/384309 4/8
Correto!
 Somente (5)
 Apenas (1) e (3)
 Somente (2)
 Somente (6)

Pergunta 5
4 / 4 pts
2. Enquanto grandes bases de dados tem potencial para melhorar os resultados da mineração, não
existe garantia que estas levem para um melhor conhecimento extraído, que as bases com menos
dados.
3. É importante construir um conjunto de dados viável e com instâncias suficientes para a mineração.
4. O principal alvo da redução de dados é a redução da dimensão e a principal questão é saber
quais atributos podem ser descartados sem afetar a qualidade dos resultados.
5. Se o algoritmo de Data Mining utilizado cresce exponencialmente com a dimensão, pode ser
esperado grande ganho em relação à redução da dimensionalidade da base de dados.
6. A estruturação do problema, a seleção, a transformação e discretização são consideradas as
etapas mais importantes do processo de descoberta de conhecimento.
 
Não é correto o que se afirma em:
Considere as seguintes afirmações em torno das principais tarefas de um projeto de aprendizado de
máquina. Avalie as afirmações a seguir:
 
1. Um valor ausente corresponde àquela variável cujo valor não foi inserido no conjunto de dados,
mas seu valor atual existe no domínio de problema. Quando o mecanismo de aussência é MAR
recomenda-se a busca do mecanismo de forma a imputar o valor mais adequado.
2 - Algoritmos de classificação como árvores de decisão, baseado na entropia e classificador
bayesiano, baseado na probabilidade de ocorrência dos eventos, podem apresentar bons resultados
desde que existam poucos dados ausentes na base.
3. Consideremos um problema para classificação binária. O desbalanceamento em relação às aos
conjuntos de treinamento pode não exigir técnicas de balanceamento prévias se o
desbalanceamento for menor que 1:10.
4. A etapa de “seleção de atributos” é essencial para diminuir a redundância, a dimensionalidade e
aumentar a precisão dos algoritmos de data mining, como também à compreensibilidade do modelo.
 
03/03/2024, 12:50 PROVA ON-LINE: 04 - Modelagem e Preparação de Dados para Aprendizado de Máquina (2023)
https://pucminas.instructure.com/courses/146797/quizzes/384309 5/8
 Apenas (2) e (3)
Correto!
 Todas estão corretas
 Apenas (2), (3) e (4)
 Somente (1)

Pergunta 6
4 / 4 pts
 Apenas (3) e (4)
Correto!
 Somente em (3)
 Somente em (2)
 Somente em (1)

Pergunta 7
4 / 4 pts
É correto o que se afirma em:
Durante a etapa do pré-processamento da base de dados a análise de dados ausentes é uma tarefa
relevante para obter modelos de aprendizado de máquina consistentes. Para alguns autores dados
ausentes correspondem não somente a dados não preenchidos na base de dados, mas também a
dados falsos, pois o valor real não está na basede dados. Avalie as afirmações a seguir:
 
1. O especialista deve tomar uma decisão pela eliminação ou não do atributo ou do registro,
contendo valores ausentes. Isto pode levar a perda de representatividade da base de dados.
2. Uma alternativa para o menor impacto é procurar pela recuperação dos valores ausentes. Esta
pode ser uma tarefa árdua que exige nova coleta de dados.
3. O responsável pela condução do projeto pode optar por técnicas de aprendizado de maquina que
lidam melhor com a presença de valores ausentes. Por exemplo, técnicas como de redes neurais
artificiais (RNA) e suporte vector machine (SVM).
4. Uma estratégia para lidar com alores ausentes é optar pela imputação pela média.
 
Não é correto o que se afirma em:
Durante a etapa do pré-processamento da base de dados a análise de Outliers é uma tarefa comum
e relevante para obter modelos de aprendizado de máquina consistentes. A presença de outliers
03/03/2024, 12:50 PROVA ON-LINE: 04 - Modelagem e Preparação de Dados para Aprendizado de Máquina (2023)
https://pucminas.instructure.com/courses/146797/quizzes/384309 6/8
 Apenas (2) e (4)
Correto!
 Todas são corretas
 Apenas (1), (2) e (3)
 Apenas (2), (3) e (4)

Pergunta 8
4 / 4 pts
pode levar a modelos imprecisos quando o modelo é testado ou colocado em produção. Avalie as
afirmações a seguir:
 
1. Outliers são dados com padrões muito diferentes aos demais que fogem ao padrão dos dados.
Estes dados precisam ser identificados e analisados.
2. Outliers podem ser produzidos por erros de medição, valores default assumidos durante o
preenchimento de uma base de dados ou podem corresponder a valores corretos mas pertencentes
a uma base de dados desbalanceada.
3. Na prática, os outliers comumente são eliminados. Porém, poderemos estar negligenciando um
conjunto de instâncias que podem trazer novos conhecimentos acerca do domínio de problema.
4. A detecção de outliers pode ser feita por meio de técnicas univariadas, que consistem em explorar
cada atributo e variabilidade dos valores em torno da média. Quando a variabilidade é grande pode
indicar registros, potenciais outliers.
 
É correto o que se afirma em:
Considere as seguintes afirmações em torno das principais tarefas para um projeto de aprendizado
de máquina com sucesso. Avalie as afirmações a seguir:
 
1. O cientista de dados, com auxílio do especialista de domínio, deverá entender o domínio do
problema e caracterizá-lo utilizando modelos de ontologia ou mapas conceituais. Este processo
ajudará a avaliar posteriormente a representatividade do modelo.
2. O cientista de dados deve identificar os atributos que possam enriquecer a base de dados levando
a conhecimento útil e não óbvio.
3. A experiência mostra que o conhecimento não óbvio é resultado muitas vezes de características
consideradas ‘fatos’.
4. A descoberta de conhecimento útil e não óbvio considerando unicamente atributos “Julgamentos”
pode não levar a conhecimento relevante.
03/03/2024, 12:50 PROVA ON-LINE: 04 - Modelagem e Preparação de Dados para Aprendizado de Máquina (2023)
https://pucminas.instructure.com/courses/146797/quizzes/384309 7/8
 Apenas (3) e (4)
 Somente (1)
Correto!
 Apenas (1) e (2)
 Somente (2)

Pergunta 9
4 / 4 pts
 Apenas (2), (3) e (4)
Correto!
 Todas estão corretas
 Apenas em (1) e (3)
 Apenas em (2) e (4)

 
É correto o que se afirma em:
O cientista de dados deve avaliar a representatividade da base de dados criada a partir da análise
dos domínios dos atributos (entende-se por representatividade conter dados suficientes para
descrever o domínio de problema). Dentro desse contexto, avalie as afirmações a seguir:
 
1. Considerando os pontos por multa de transito = {7, 5, 4, 3, 0}. Para traçar o perfil dos motoristas é
necessário ter uma representatividade equilibrada entre as combinações desses valores. A soma de
pontos com valor elevado pode representar a existência de outliers, o que obrigaria a segmentar o
estudo e colocar restrições aos resultados alcançados.
2. Considerando o estado civil de pessoas = {Solteiro, Casado, Viúvo, Divorciado}. A falta de
registros ou o desequilibrio destes em relação ao estado civil pode levar a restrições nos resultados,
dependendo do domínio de problema sendo tratado.
3. Se existir mais de 50 valores distintos numa variável discreta. Então, uma amostra de dados não
pode conter menos de 50 instâncias observadas.
4. Caso existam mais valores que instâncias observadas a amostra não está completa e deverá ser
coletada uma amostra maior. É importante contar com uma base de dados suficientemente grande e
representativa.
 
É correto o que se afirma em:
03/03/2024, 12:50 PROVA ON-LINE: 04 - Modelagem e Preparação de Dados para Aprendizado de Máquina (2023)
https://pucminas.instructure.com/courses/146797/quizzes/384309 8/8
Pergunta 10
4 / 4 pts
Correto!
 Apenas (3)
 Apenas (2) e (3)
 Apenas (1) e (2)
 Todas estão incorretas
Pontuação do teste: 40 de 40
Para evitar a polarização dos modelos de aprendizado de máquina. As técnicas de balanceamento
buscam equilibrar a quantidade de instâncias de cada classe do conjunto de dados. Dentre as
diversas técnicas existentes podemos citar: Seleção aleatória pela menor classe, Seleção por
agrupamento pela menor classe e Replicação de instâncias. Avalie as afirmações a seguir:
 
1. Dado dois conjuntos de registros com N e M registros (onde N<<M) vinculados a duas classes. O
balanceamento por seleção aleatória ocorre selecionando de forma aleatória N registros dentro do
conjunto contendo M registros.
2. Dado dois conjuntos de registros com N e M registros (onde N<<M) vinculados a duas classes. O
balanceamento por seleção de grupo ocorre selecionando por meio de uma técnica de agrupamento
os N registros mais representativos dentro do conjunto contendo M registros.
3. Dado dois conjuntos de registros com N e M registros (onde N<<M) vinculados a duas classes. O
balanceamento ocorre gerando artificialmente instâncias a partir das instâncias do conjunto contendo
M registros (classe maioritária).
 
Não é correto o que se afirma em:

Continue navegando