Buscar

11- Prova - Modelagem e Preparação de Dados para Machine Learning (2021)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Pontuação desta tentativa: 60 de 60
Enviado 11 jul em 19:28
Esta tentativa levou 22 minutos.
6 / 6 ptsPergunta 1
Durante a etapa do pré-processamento da base de dados a análise de
dados ausentes é uma tarefa relevante para obter modelos de
aprendizado de máquina consistentes. Uma estratégia seria imputar
valores aos dados faltantes. De forma a imputar valores consistentes
seria interessante conhecer previamente o mecanismo que os gerou. A
literatura aponta três mecanismos principais: MCAR, MAR e NMAR.
Avalie as afirmações a seguir:
1. No mecanismo MCAR, os valores ausentes estão distribuídos
aleatoriamente, ou seja, a probabilidade de encontrar um valor ausente
é a mesma para qualquer valor do atributo.
2. No mecanismo MAR a probabilidade de encontrar um valor ausente
depende de outro valor de outro atributo.
3. No mecanismo NMAR: a probabilidade de encontrar um valor
ausente depende do próprio valor do atributo que possui dado ausente.
4. Um mecanismo híbrido pode combinar os mecanismos MAR e
MCAR, mas não o NMAR.
É correto o que se afirma em:
 Somente em (1) 
 Somente em (4) 
 Apenas (1), (2) e (3) Correto!Correto!
 Apenas (2) e (3) 
6 / 6 ptsPergunta 2
Uma base de dados é considerada gigantesca se esta possui duas
características: Alta dimensionalidade e grande número de registros.
Avalie as afirmações a seguir:
1. Para gigantescas bases de dados, pode ser necessária uma etapa
de redução de dados, antes de aplicar as técnicas de aprendizado de
máquina.
2. Enquanto grandes bases de dados tem potencial para melhorar os
resultados da mineração, não existe garantia que estas levem para um
melhor conhecimento extraído, que as bases com menos dados.
3. É importante construir um conjunto de dados viável e com instâncias
suficientes para a mineração.
4. O principal alvo da redução de dados é a redução da dimensão e a
principal questão é saber quais atributos podem ser descartados sem
afetar a qualidade dos resultados.
5. Se o algoritmo de Data Mining utilizado cresce exponencialmente
com a dimensão, pode ser esperado grande ganho em relação à
redução da dimensionalidade da base de dados.
6. A estruturação do problema, a seleção, a transformação e
discretização são consideradas as etapas mais importantes do
processo de descoberta de conhecimento.
Não é correto o que se afirma em:
 Apenas (1) e (3) 
 Somente (5) Correto!Correto!
 Somente (6) 
 Somente (2) 
6 / 6 ptsPergunta 3
Durante a etapa do pré-processamento da base de dados a análise de
Outliers é uma tarefa comum e relevante para obter modelos de
aprendizado de máquina consistentes. A presença de outliers pode
levar a modelos imprecisos quando o modelo é testado ou colocado
em produção. Avalie as afirmações a seguir:
1. Outliers são dados com padrões muito diferentes aos demais que
fogem ao padrão dos dados. Estes dados precisam ser identificados e
analisados.
2. Outliers podem ser produzidos por erros de medição, valores default
assumidos durante o preenchimento de uma base de dados ou podem
corresponder a valores corretos mas pertencentes a uma base de
dados desbalanceada.
3. Na prática, os outliers comumente são eliminados. Porém,
poderemos estar negligenciando um conjunto de instâncias que podem
trazer novos conhecimentos acerca do domínio de problema.
4. A detecção de outliers pode ser feita por meio de técnicas
univariadas, que consistem em explorar cada atributo e variabilidade
dos valores em torno da média. Quando a variabilidade é grande pode
indicar registros, potenciais outliers.
É correto o que se afirma em:
 Apenas (2) e (4) 
 Apenas (1), (2) e (3) 
 Apenas (2), (3) e (4) 
 Todas são corretas Correto!Correto!
6 / 6 ptsPergunta 4
Para evitar a polarização dos modelos de aprendizado de máquina. As
técnicas de balanceamento buscam equilibrar a quantidade de
instâncias de cada classe do conjunto de dados. Dentre as diversas
técnicas existentes podemos citar: Seleção aleatória pela menor
classe, Seleção por agrupamento pela menor classe e Replicação de
instâncias. Avalie as afirmações a seguir:
1. Dado dois conjuntos de registros com N e M registros (onde N<<M)
vinculados a duas classes. O balanceamento por seleção aleatória
ocorre selecionando de forma aleatória N registros dentro do conjunto
contendo M registros.
2. Dado dois conjuntos de registros com N e M registros (onde N<<M)
vinculados a duas classes. O balanceamento por seleção de grupo
ocorre selecionando por meio de uma técnica de agrupamento os N
registros mais representativos dentro do conjunto contendo M
registros.
3. Dado dois conjuntos de registros com N e M registros (onde N<<M)
vinculados a duas classes. O balanceamento ocorre gerando
artificialmente instâncias a partir das instâncias do conjunto contendo
M registros (classe maioritária).
Não é correto o que se afirma em:
 Apenas (2) e (3) 
 Apenas (3) Correto!Correto!
 Todas estão incorretas 
 Apenas (1) e (2) 
6 / 6 ptsPergunta 5
Durante a etapa do pré-processamento da base de dados a análise de
dados ausentes é uma tarefa relevante para obter modelos de
aprendizado de máquina consistentes. Para alguns autores dados
ausentes correspondem não somente a dados não preenchidos na
base de dados, mas também a dados falsos, pois o valor real não está
na base de dados. Avalie as afirmações a seguir:
1. O especialista deve tomar uma decisão pela eliminação ou não do
atributo ou do registro, contendo valores ausentes. Isto pode levar a
perda de representatividade da base de dados.
2. Uma alternativa para o menor impacto é procurar pela recuperação
dos valores ausentes. Esta pode ser uma tarefa árdua que exige nova
coleta de dados.
3. O responsável pela condução do projeto pode optar por técnicas de
aprendizado de maquina que lidam melhor com a presença de valores
ausentes. Por exemplo, técnicas como de redes neurais artificiais
(RNA) e suporte vector machine (SVM).
4. Uma estratégia para lidar com alores ausentes é optar pela
imputação pela média.
Não é correto o que se afirma em:
 Apenas (3) e (4) 
 Somente em (2) 
 Somente em (3) Correto!Correto!
 Somente em (1) 
6 / 6 ptsPergunta 6
Considere as seguintes afirmações em torno das principais tarefas de
um projeto de aprendizado de máquina. Avalie as afirmações a seguir:
1. Um valor ausente corresponde àquela variável cujo valor não foi
inserido no conjunto de dados, mas seu valor atual existe no domínio
de problema. Quando o mecanismo de aussência é MAR recomenda-
se a busca do mecanismo de forma a imputar o valor mais adequado.
2 - Algoritmos de classificação como árvores de decisão, baseado na
entropia e classificador bayesiano, baseado na probabilidade de
ocorrência dos eventos, podem apresentar bons resultados desde que
existam poucos dados ausentes na base.
3. Consideremos um problema para classificação binária. O
desbalanceamento em relação às aos conjuntos de treinamento pode
não exigir técnicas de balanceamento prévias se o desbalanceamento
for menor que 1:10.
4. A etapa de “seleção de atributos” é essencial para diminuir a
redundância, a dimensionalidade e aumentar a precisão dos algoritmos
de data mining, como também à compreensibilidade do modelo.
É correto o que se afirma em:
 Apenas (2) e (3) 
 Somente (1) 
 Todas estão corretas Correto!Correto!
 Apenas (2), (3) e (4) 
6 / 6 ptsPergunta 7
O cientista de dados deve avaliar a representatividade da base de
dados criada a partir da análise dos domínios dos atributos (entende-
se por representatividade conter dados suficientes para descrever o
domínio de problema). Dentro desse contexto, avalie as afirmações a
seguir:
1. Considerando os pontos por multa de transito = {7, 5, 4, 3, 0}. Para
traçar o perfil dos motoristas é necessário ter uma representatividade
equilibrada entre as combinações desses valores. A soma de pontos
com valor elevado pode representar a existência de outliers, o que
obrigaria a segmentar o estudo e colocar restrições aos resultados
alcançados.
2. Considerando o estado civil de pessoas = {Solteiro,Casado, Viúvo,
Divorciado}. A falta de registros ou o desequilibrio destes em relação
ao estado civil pode levar a restrições nos resultados, dependendo do
domínio de problema sendo tratado.
3. Se existir mais de 50 valores distintos numa variável discreta. Então,
uma amostra de dados não pode conter menos de 50 instâncias
observadas.
4. Caso existam mais valores que instâncias observadas a amostra
não está completa e deverá ser coletada uma amostra maior. É
importante contar com uma base de dados suficientemente grande e
representativa.
É correto o que se afirma em:
 Todas estão corretas Correto!Correto!
 Apenas em (1) e (3) 
 Apenas em (2) e (4) 
 Apenas (2), (3) e (4) 
6 / 6 ptsPergunta 8
Durante a caracterização dos dados e para fins de classificação, é
importante observar os domínios dos atributos. Isto porque uma
classificação equivocada pode levar a modelos inconsistentes. Por
exemplo, um domínio baseado em regras para definir o perfil
ADIPLENTE e INADIPLENTE no setor bancário pode ser:
1. SE VALOR DA DÍVIDA < R$ 50,00 então o CLIENTE NÂO pode ser
considerado perfil INADIPLENTE.
Í
2. SE VALOR DA DÍVIDA < R$ 500,00, mas o CLIENTE nunca ficou
INADIPLENTE durante toda sua relação com o banco, NÂO pode ser
considerado perfil INADIPLENTE.
3. SE VALOR DA DÍVIDA < R$ 500,00, mas o CLIENTE possui um
histórico permanente de dívidas ativas com o banco isso NÂO pode
caracterizar um perfil INADIPLENTE.
É correto o que se afirma em:
 Somente (3) 
 Todas estão corretas 
 Apenas (1) e (2) Correto!Correto!
 Somente (1) 
6 / 6 ptsPergunta 9
Considere as seguintes afirmações em torno das principais tarefas
para um projeto de aprendizado de máquina com sucesso. Avalie as
afirmações a seguir:
1. O cientista de dados, com auxílio do especialista de domínio, deverá
entender o domínio do problema e caracterizá-lo utilizando modelos de
ontologia ou mapas conceituais. Este processo ajudará a avaliar
posteriormente a representatividade do modelo.
2. O cientista de dados deve identificar os atributos que possam
enriquecer a base de dados levando a conhecimento útil e não óbvio.
3. A experiência mostra que o conhecimento não óbvio é resultado
muitas vezes de características consideradas ‘fatos’.
4. A descoberta de conhecimento útil e não óbvio considerando
unicamente atributos “Julgamentos” pode não levar a conhecimento
relevante.
É correto o que se afirma em:
 Somente (1) 
 Apenas (3) e (4) 
 Somente (2) 
 Apenas (1) e (2) Correto!Correto!
6 / 6 ptsPergunta 10
As técnicas de discretização podem ser classificadas sobre vários
aspectos: Supervisionadas e Não supervisionadas e pelo método
utilizado, Divisão e Fusão. Avalie as afirmações a seguir:
1. A discretização Não supervisionada não considera o rótulo da
classe, enquanto os Supervisionados o fazem.
2. A discretização Supervisionada utilizam informações da classe para
determinar automaticamente o melhor número de intervalos para cada
atributo.
3. Os métodos de Divisão realizam a discretização por meio de um
processo iterativo de subdivisão do intervalo de valores inicial que é
executado até que uma condição de parada seja satisfeita.
4. Os métodos de Fusão iniciam com os valores do atributo contínuo
particionados e, iterativamente, realizam a junção dessas partições
enquanto um critério de parada não é alcançado.
É correto o que se afirma em:
 Apenas (1) e (2) 
 Apenas (2) e (3) 
 Apenas (3) e (4) 
 Todas estão corretas Correto!Correto!
Pontuação do teste: 60 de 60

Continue navegando