Prévia do material em texto
1 Se refere à atualidade dos dados. Por exemplo, imagine que você está coletando dados sobre o número de casos de uma doença. É importante que esses dados sejam atualizados periodicamente para que sejam úteis para a análise. Se os dados não estão atualizados, isso pode levar a conclusões erradas sobre a situação atual da doença. Considerando o fator de qualidade dos dados o texto se refere, assinale a alternativa correta: A Pontualidade. B Consistência. C Completude. D Credibilidade. 2 A limpeza de dados é um processo crítico para garantir a qualidade das informações analisadas. Envolve a identificação e correção de erros, valores ausentes e inconsistências nos conjuntos de dados, a precisão das análises depende diretamente da integridade dos dados utilizados. Fonte: HAN, J.; KAMBER, M. Data Mining: concepts and Techniques. Nova Jersey: Elsevier, 2011. Com base nisso, analise as formas mais comuns de se resolver valores ausentes na relação: I. Ignorar a tupla. II. Preencher o valor ausente manualmente. III. Usar o valor mais provável. IV. Usar uma medida de tendência central. É correto o que se afirma em: A II e IV, apenas. B I, II, III e IV. C I, II e III, apenas. D III e IV, apenas. 3 A clusterização é uma técnica fundamental na análise de dados que agrupa objetos similares em clusters, revelando padrões e estruturas intrínsecas. Um dos algoritmos amplamente utilizados é o K- means, que atribui objetos a clusters baseado na proximidade a centroides, buscando minimizar distâncias. Fonte: JAIN, A. K. Data clustering: 50 years beyond K-means. Pattern Recognition Letters, v. 31, n. 8, p. 651-666, 2010. Sobre o exposto, classifique V para as sentenças verdadeiras e F para as falsas: ( ) O K-means atribui objetos a clusters com base na proximidade a centroides, minimizando as distâncias quadráticas dos objetos em relação aos centróides até atingir convergência, de acordo com o texto. ( ) A métrica Elbow é frequentemente usada para determinar o número ideal de clusters para o K- means, onde o ponto de inflexão na curva da soma das distâncias quadráticas indica uma boa escolha de clusters, como mencionado no texto. ( ) O DBSCAN agrupa objetos em regiões densas do espaço de dados, definindo clusters com base em parâmetros como a distância máxima entre pontos vizinhos (eps) e o número mínimo de pontos para formar um cluster (minPts), como descrito no texto. ( ) O Hierarchical clustering é uma técnica hierárquica que forma dendrogramas de clusters, podendo ser aglomerativo ou divisivo. A vantagem do Hierarchical clustering é a capacidade de visualizar a estrutura hierárquica dos dados, permitindo uma interpretação mais intuitiva dos resultados, conforme mencionado no texto. Assinale a alternativa que apresenta a sequência correta: A F, V, V, F. B V, V, F, F. C V, F, F, V. D V, V, V, V. 4 Os algoritmos de agrupamento desempenham um papel crucial na análise de dados, permitindo a identificação de padrões e estruturas subjacentes em conjuntos não rotulados. Essas técnicas categorizam os dados em grupos ou clusters com base em suas similaridades, fornecendo insights valiosos para tomada de decisões e compreensão de fenômenos complexos. Fonte: HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, 2009. Com base nas informações apresentadas, avalie as asserções a seguir e a relação proposta entre elas: I. O K-means é um algoritmo amplamente utilizado em mineração de dados para agrupar conjuntos de dados não rotulados. Ele é conhecido por sua simplicidade e eficiência na identificação de padrões e tendências em conjuntos de dados, por meio da formação de clusters com base em suas similaridades. PORQUE II. O K-means é um algoritmo de particionamento que divide um conjunto de dados em grupos, ou clusters, de acordo com suas similaridades. Ele atribui cada ponto de dados a um dos K clusters, sendo K um número pré-definido de grupos. A respeito dessas asserções, assinale a opção correta: A As asserções I e II são verdadeiras, e a II é uma justificativa correta da I. B As asserções I e II são verdadeiras, mas a II não é uma justificativa correta da I. C A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. D A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. 5 Os algoritmos de agrupamento representam uma ferramenta fundamental na análise de dados, permitindo a organização e segmentação de conjuntos não rotulados em grupos significativos. Essas técnicas desempenham um papel crucial em diversos campos, como ciência de dados, reconhecimento de padrões e aprendizado de máquina. Fonte: MULLER, A. C.; GUIDO, S. Introduction to Machine Learning with Python: a guide for data scientists. O'Reilly Media, 2017. Com base nas informações apresentadas, avalie as asserções a seguir e a relação proposta entre elas: I. Algoritmos de agrupamento, como o Hierarchical Agglomerative Clustering (HAC), são amplamente empregados em análise de dados para segmentar informações não rotuladas em grupos coesos. Essas técnicas permitem uma compreensão mais profunda dos padrões subjacentes nos dados. PORQUE II. Algoritmos de agrupamento, como o K-means, funcionam de maneira supervisionada, onde cada ponto de dados é atribuído a um cluster com base em rótulos predefinidos. Esse processo de categorização é altamente sensível à inicialização dos centroides e não requer análise cuidadosa dos dados. A respeito dessas asserções, assinale a opção correta: A As asserções I e II são verdadeiras, e a II é uma justificativa correta da I. B A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. C As asserções I e II são verdadeiras, mas a II não é uma justificativa correta da I. D A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 6 No pré-processamento, são identificados e corrigidos problemas como dados duplicados, valores faltantes, inconsistências de dados e valores discrepantes. Adicionalmente, é durante esta etapa que os dados são convertidos para um formato apropriado para análise. Sobre os fatores que compõem a qualidade dos dados, assinale a alternativa correta: A Precisão, completude, consistência, causalidade, credibilidade e interpretabilidade. B Precisão, completude, consistência, pontualidade, credibilidade e ausência. C Precisão, completude, consistência, pontualidade, credibilidade e interpretabilidade. D Precisão, cleartype, consistência, pontualidade, credibilidade e interpretabilidade. 7 A descoberta de Conhecimento em Bancos de Dados (KDD) representa um processo essencial na análise de dados, envolvendo a identificação de padrões, tendências e relações ocultas em grandes conjuntos de informações. Por meio de técnicas avançadas de mineração de dados, o KDD capacita organizações a extrair insights valiosos e tomar decisões estratégicas. Fonte: HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and Techniques. São Paulo: Elsevier, 2011. Sobre a etapa de transformação, analise as seguintes características: I. Dados são convertidos em um formato que permita uma análise mais eficiente. II. Padrões diferentes são unificados. III. Apresentam os resultados das análises. É correto o que se afirma em: A II e III, apenas. B I, apenas. C III, apenas. D I e II, apenas. 8 A descoberta de conhecimento em Bancos de Dados (KDD, do inglês Knowledge Discovery in Databases) é um processo que se destaca na era da informação. Através de técnicas avançadas de mineração de dados, o KDD envolve a identificação de padrões e relações ocultas em conjuntos massivos de informações. Fonte: RAJARAMAN, A.; ULLMAN, J. D.; LESKOVEC, J. Mining of Massive Datasets. Stanford: Pearson, 2014. Sobre a etapa de pré-processamento, analise as característicasa seguir: I. Limpeza de dados. II. Transformação dos dados. III. Análise de dados. É correto o que se afirma em: A II e III, apenas. B III, apenas. C I, apenas. D I e II, apenas. 9 Os algoritmos de agrupamento desempenham um papel fundamental na análise exploratória de dados, permitindo a identificação de padrões ocultos e estruturas subjacentes em conjuntos não rotulados. Ao segmentar os dados em grupos significativos, essas técnicas oferecem insights valiosos em áreas como mineração de dados, biologia computacional e reconhecimento de padrões. Fonte: TAN, P. N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining. London: Pearson, 2019. Com base nas informações apresentadas, avalie as asserções a seguir e a relação proposta entre elas: I. O algoritmo de otimização do K-means é responsável por ajustar os centróides dos clusters de forma iterativa, de modo a minimizar a soma dos erros quadráticos das distâncias entre os pontos e seus centroides mais próximos. PORQUE II. Dentre os passos, o algoritmo seleciona K centroides aleatórios entre os pontos do conjunto de dados, e atribui cada ponto ao centroide mais próximo, criando K clusters. A respeito dessas asserções, assinale a opção correta: A As asserções I e II são verdadeiras, mas a II não é uma justificativa correta da I. B As asserções I e II são verdadeiras, e a II é uma justificativa correta da I. C A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. D A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 10 Diversos algoritmos de clusterização, incluindo k-means, aglomerativo, DBSCAN e EM, são considerados, levando em conta a natureza dos dados e o número de clusters esperados. Uma dificuldade chave enfrentada pelos especialistas na clusterização é determinar o número ideal de clusters para cada conjunto de dados. Sobre o exposto, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A clusterização é utilizada em diversas áreas, como na análise de redes sociais e na análise de imagens médicas. ( ) O método proposto por Kadirvel et al. utiliza o algoritmo de clusterização K-means para dividir as imagens de células sanguíneas em grupos semelhantes. ( ) O K-means é igual ao KNN, logo aplicado apenas em cenários de classificação. ( ) A clusterização pode ser aplicada em diversos cenários, como em cenários da medicina. Assinale a alternativa que apresenta a sequência correta: A V, F, F, V. B V, V, F, V. C V, V, F, F. D F, V, V, F.