Machine Learning II - Associação e Agrupamento (19372) - Avaliação II

Big Data

•

Uniasselvi

Wellinson Lelouch

17/10/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 
Se refere à atualidade dos dados. Por exemplo, imagine que você está coletando dados sobre o número 
de casos de uma doença. É importante que esses dados sejam atualizados periodicamente para que 
sejam úteis para a análise. Se os dados não estão atualizados, isso pode levar a conclusões erradas 
sobre a situação atual da doença. 
Considerando o fator de qualidade dos dados o texto se refere, assinale a alternativa correta: 
A 
Pontualidade. 
B 
Consistência. 
C 
Completude. 
D 
Credibilidade. 
2 
A limpeza de dados é um processo crítico para garantir a qualidade das informações analisadas. 
Envolve a identificação e correção de erros, valores ausentes e inconsistências nos conjuntos de 
dados, a precisão das análises depende diretamente da integridade dos dados utilizados. 
Fonte: HAN, J.; KAMBER, M. Data Mining: concepts and Techniques. Nova Jersey: Elsevier, 2011. 
Com base nisso, analise as formas mais comuns de se resolver valores ausentes na relação: 
I. Ignorar a tupla. 
II. Preencher o valor ausente manualmente. 
III. Usar o valor mais provável. 
IV. Usar uma medida de tendência central. 
É correto o que se afirma em: 
A 
II e IV, apenas. 
B 
I, II, III e IV. 
C 
I, II e III, apenas. 
D 
III e IV, apenas. 
3 
A clusterização é uma técnica fundamental na análise de dados que agrupa objetos similares em 
clusters, revelando padrões e estruturas intrínsecas. Um dos algoritmos amplamente utilizados é o K-
means, que atribui objetos a clusters baseado na proximidade a centroides, buscando minimizar 
distâncias. 
Fonte: JAIN, A. K. Data clustering: 50 years beyond K-means. Pattern Recognition Letters, v. 31, n. 8, 
p. 651-666, 2010. 
Sobre o exposto, classifique V para as sentenças verdadeiras e F para as falsas: 
( ) O K-means atribui objetos a clusters com base na proximidade a centroides, minimizando as 
distâncias quadráticas dos objetos em relação aos centróides até atingir convergência, de acordo com 
o texto. 
( ) A métrica Elbow é frequentemente usada para determinar o número ideal de clusters para o K-
means, onde o ponto de inflexão na curva da soma das distâncias quadráticas indica uma boa escolha 
de clusters, como mencionado no texto. 
( ) O DBSCAN agrupa objetos em regiões densas do espaço de dados, definindo clusters com base em 
parâmetros como a distância máxima entre pontos vizinhos (eps) e o número mínimo de pontos para 
formar um cluster (minPts), como descrito no texto. 
( ) O Hierarchical clustering é uma técnica hierárquica que forma dendrogramas de clusters, 
podendo ser aglomerativo ou divisivo. A vantagem do Hierarchical clustering é a capacidade de 
visualizar a estrutura hierárquica dos dados, permitindo uma interpretação mais intuitiva dos 
resultados, conforme mencionado no texto. 
 
Assinale a alternativa que apresenta a sequência correta: 
A 
F, V, V, F. 
B 
V, V, F, F. 
C 
V, F, F, V. 
D 
V, V, V, V. 
4 
Os algoritmos de agrupamento desempenham um papel crucial na análise de dados, permitindo a 
identificação de padrões e estruturas subjacentes em conjuntos não rotulados. Essas técnicas 
categorizam os dados em grupos ou clusters com base em suas similaridades, fornecendo insights 
valiosos para tomada de decisões e compreensão de fenômenos complexos. 
Fonte: HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical Learning: Data Mining, 
Inference, and Prediction. Springer, 2009. 
Com base nas informações apresentadas, avalie as asserções a seguir e a relação proposta entre elas: 
I. O K-means é um algoritmo amplamente utilizado em mineração de dados para agrupar conjuntos de 
dados não rotulados. Ele é conhecido por sua simplicidade e eficiência na identificação de padrões e 
tendências em conjuntos de dados, por meio da formação de clusters com base em suas similaridades. 
PORQUE 
II. O K-means é um algoritmo de particionamento que divide um conjunto de dados em grupos, ou 
clusters, de acordo com suas similaridades. Ele atribui cada ponto de dados a um dos K clusters, sendo 
K um número pré-definido de grupos. 
A respeito dessas asserções, assinale a opção correta: 
A 
As asserções I e II são verdadeiras, e a II é uma justificativa correta da I. 
B 
As asserções I e II são verdadeiras, mas a II não é uma justificativa correta da I. 
C 
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 
D 
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. 
5 
Os algoritmos de agrupamento representam uma ferramenta fundamental na análise de dados, 
permitindo a organização e segmentação de conjuntos não rotulados em grupos significativos. Essas 
técnicas desempenham um papel crucial em diversos campos, como ciência de dados, reconhecimento 
de padrões e aprendizado de máquina. 
Fonte: MULLER, A. C.; GUIDO, S. Introduction to Machine Learning with Python: a guide for data 
scientists. O'Reilly Media, 2017. 
Com base nas informações apresentadas, avalie as asserções a seguir e a relação proposta entre elas: 
I. Algoritmos de agrupamento, como o Hierarchical Agglomerative Clustering (HAC), são amplamente 
empregados em análise de dados para segmentar informações não rotuladas em grupos coesos. Essas 
técnicas permitem uma compreensão mais profunda dos padrões subjacentes nos dados. 
PORQUE 
II. Algoritmos de agrupamento, como o K-means, funcionam de maneira supervisionada, onde cada 
ponto de dados é atribuído a um cluster com base em rótulos predefinidos. Esse processo de 
categorização é altamente sensível à inicialização dos centroides e não requer análise cuidadosa dos 
dados. 
A respeito dessas asserções, assinale a opção correta: 
A 
As asserções I e II são verdadeiras, e a II é uma justificativa correta da I. 
B 
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. 
C 
As asserções I e II são verdadeiras, mas a II não é uma justificativa correta da I. 
D 
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 
6 
No pré-processamento, são identificados e corrigidos problemas como dados duplicados, valores 
faltantes, inconsistências de dados e valores discrepantes. Adicionalmente, é durante esta etapa que 
os dados são convertidos para um formato apropriado para análise. 
Sobre os fatores que compõem a qualidade dos dados, assinale a alternativa correta: 
A 
Precisão, completude, consistência, causalidade, credibilidade e interpretabilidade. 
B 
Precisão, completude, consistência, pontualidade, credibilidade e ausência. 
C 
Precisão, completude, consistência, pontualidade, credibilidade e interpretabilidade. 
D 
Precisão, cleartype, consistência, pontualidade, credibilidade e interpretabilidade. 
7 
A descoberta de Conhecimento em Bancos de Dados (KDD) representa um processo essencial na 
análise de dados, envolvendo a identificação de padrões, tendências e relações ocultas em grandes 
conjuntos de informações. Por meio de técnicas avançadas de mineração de dados, o KDD capacita 
organizações a extrair insights valiosos e tomar decisões estratégicas. 
Fonte: HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and Techniques. São Paulo: Elsevier, 2011. 
Sobre a etapa de transformação, analise as seguintes características: 
I. Dados são convertidos em um formato que permita uma análise mais eficiente. 
II. Padrões diferentes são unificados. 
III. Apresentam os resultados das análises. 
É correto o que se afirma em: 
A 
II e III, apenas. 
B 
I, apenas. 
C 
III, apenas. 
D 
 I e II, apenas. 
8 
A descoberta de conhecimento em Bancos de Dados (KDD, do inglês Knowledge Discovery in 
Databases) é um processo que se destaca na era da informação. Através de técnicas avançadas de 
mineração de dados, o KDD envolve a identificação de padrões e relações ocultas em conjuntos 
massivos de informações. 
Fonte: RAJARAMAN, A.; ULLMAN, J. D.; LESKOVEC, J. Mining of Massive Datasets. Stanford: Pearson, 
2014. 
Sobre a etapa de pré-processamento, analise as característicasa seguir: 
I. Limpeza de dados. 
II. Transformação dos dados. 
III. Análise de dados. 
É correto o que se afirma em: 
A 
II e III, apenas. 
B 
III, apenas. 
C 
I, apenas. 
D 
I e II, apenas. 
9 
Os algoritmos de agrupamento desempenham um papel fundamental na análise exploratória de 
dados, permitindo a identificação de padrões ocultos e estruturas subjacentes em conjuntos não 
rotulados. Ao segmentar os dados em grupos significativos, essas técnicas oferecem insights valiosos 
em áreas como mineração de dados, biologia computacional e reconhecimento de padrões. 
Fonte: TAN, P. N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining. London: Pearson, 2019. 
Com base nas informações apresentadas, avalie as asserções a seguir e a relação proposta entre elas: 
I. O algoritmo de otimização do K-means é responsável por ajustar os centróides dos clusters de forma 
iterativa, de modo a minimizar a soma dos erros quadráticos das distâncias entre os pontos e seus 
centroides mais próximos. 
PORQUE 
II. Dentre os passos, o algoritmo seleciona K centroides aleatórios entre os pontos do conjunto de 
dados, e atribui cada ponto ao centroide mais próximo, criando K clusters. 
A respeito dessas asserções, assinale a opção correta: 
A 
As asserções I e II são verdadeiras, mas a II não é uma justificativa correta da I. 
B 
As asserções I e II são verdadeiras, e a II é uma justificativa correta da I. 
C 
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. 
D 
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 
10 
Diversos algoritmos de clusterização, incluindo k-means, aglomerativo, DBSCAN e EM, são 
considerados, levando em conta a natureza dos dados e o número de clusters esperados. Uma 
dificuldade chave enfrentada pelos especialistas na clusterização é determinar o número ideal de 
clusters para cada conjunto de dados. 
Sobre o exposto, classifique V para as sentenças verdadeiras e F para as falsas: 
( ) A clusterização é utilizada em diversas áreas, como na análise de redes sociais e na análise de 
imagens médicas. 
( ) O método proposto por Kadirvel et al. utiliza o algoritmo de clusterização K-means para dividir as 
imagens de células sanguíneas em grupos semelhantes. 
( ) O K-means é igual ao KNN, logo aplicado apenas em cenários de classificação. 
( ) A clusterização pode ser aplicada em diversos cenários, como em cenários da medicina. 
 
Assinale a alternativa que apresenta a sequência correta: 
A 
V, F, F, V. 
B 
V, V, F, V. 
C 
V, V, F, F. 
D 
F, V, V, F.