Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prova Impressa GABARITO | Avaliação II - Individual (Cod.:957025) Peso da Avaliação 2,00 Prova 79090145 Qtd. de Questões 10 Acertos/Erros 7/2 Canceladas 1 Nota 8,00 Em mineração de dados, o agrupamento é uma das tarefas mais comuns que compõem o processo de aprendizado. Os grupos formados também são conhecidos como clusters e dependem muito das características do algoritmo utilizado. Sobre a forma de aprendizado do agrupamento, assinale a alternativa CORRETA: A Aprendizado por reforço. B Aprendizado não supervisionado. C Aprendizado supervisionado. D Aprendizado induzido. Para implementar o K-means em Python, uma das bibliotecas mais utilizadas é a scikit-learn. Em sua implementação, o valor de n_jobs permite efetuar mais de uma inicialização do k-means em tarefas paralelas. É um inteiro que define a quantidade de processamentos em paralelo, o padrão é apenas 1, fazendo com que a quantidade máxima permitida de processadores seja selecionada através do valor - 1. Sobre os três formatos de cálculo das distâncias, associe os itens, utilizando o código a seguir: I- FULL. II- ELKAN. VOLTAR A+ Alterar modo de visualização 1 2 III- AUTO. ( ) Recorre ao método convencional para conjuntos de dados esparsos, em que o algoritmo elkan implementado é incapaz de convergir, e ao método elkan para conjuntos de dados densos. ( ) Padrão dos algoritmos de k-means que calcula a distância de todos os pontos com relação ao centro. ( ) Converge para os mesmos resultados, mas reduz a partir de triangulações a quantidade de distâncias calculadas, eliminando muitas etapas desnecessárias/redundantes. Assinale a alternativa que apresenta a sequência CORRETA: A I - II - III. B II - III - I. C III - I - II. D III - II - I. O Python é uma linguagem de programação de alto nível, cujo design prioriza a facilidade de leitura do código e que tem permanecido consistentemente entre as linguagens de programação mais populares, utilizada em diversas aplicações, dentre elas na mineração de dados. Sabendo que o dataset iris pode ser instanciado com o comando iDS = load_iris(), bem como podemos dividi-lo por meio do comando iData, iTarget, iTarget_Names, _, iFeature_Names, _ =iDS.values(). Sobre o desmembramento da tupla gerada por load_iris(), associe os itens, utilizando o código a seguir: I- iData. II- iTarget. III- iTarget_Names. IV- iFeature_Names. ( ) Matriz contendo os valores de cada instância de cada atributo previsor. ( ) Vetor contendo os valores de atributo-alvo para cada instância. 3 ( ) Vetor com os nomes dados a cada uma das três espécies rotuladas. ( ) Vetor com o nome dado aos atributos previsores. Assinale a alternativa que apresenta a sequência CORRETA: A I - III - II - IV. B IV - I - III - II. C I - II - III - IV. D II - III - I - IV. Atenção: Esta questão foi cancelada, porém a pontuação foi considerada. A descoberta de conhecimento em Bancos de Dados (KDD, do inglês Knowledge Discovery in Databases) é um processo que se destaca na era da informação. Através de técnicas avançadas de mineração de dados, o KDD envolve a identificação de padrões e relações ocultas em conjuntos massivos de informações. Fonte: RAJARAMAN, A.; ULLMAN, J. D.; LESKOVEC, J. Mining of Massive Datasets. Stanford: Pearson, 2014. Sobre a etapa de pré-processamento, analise as características a seguir: I. Limpeza de dados. II. Transformação dos dados. III. Análise de dados. É correto o que se afirma em: A III, apenas. B II e III, apenas. 4 C I e II, apenas. D I, apenas. A biblioteca scikit-learn dá suporte ao desenvolvimento de algoritmos de machine learning, dentre eles também o algoritmo de agrupamento k-means. Dentre as maneiras de ser implementado, o trecho a seguir é uma maneira de instanciar o algoritmo: KMeans(n_clusters=5, random_state=40). Sobre o random_state, assinale a alternativa CORRETA: A É o número de dados de entrada. B É o valor de base para geração de pontos aleatórios. C É o número aleatório de dados de saída. D É o número de clusters. A biblioteca Pandas é uma biblioteca em Python, foi inicialmente criada por Wes McKinney no ano de 2008 e está em constante desenvolvimento até os dias de hoje. Pandas é um nome derivado de panel data que é um termo utilizado para grupos de dados com mais de uma dimensão. Sobre os elementos do Pandas, associe os itens, utilizando o código a seguir: I- read_clipboard. II- read_csv. III- read_html. Revisar Conteúdo do Livro 5 Revisar Conteúdo do Livro 6 IV- read_sql. ( ) Varre uma página na web na busca por tabelas que possam conter dados. ( ) Leitura de banco de dados SQL, entre outros. ( ) Cria um DataFrame a partir dos dados copiados na prancheta (clipboard) do sistema operacional. ( ) Arquivos em que colunas (atributos) são separadas por algum caractere especial, geralmente uma vírgula, e cada linha representa uma nova instância. Assinale a alternativa que apresenta a sequência CORRETA: FONTE: COSTA, Axel Vieira Gomes et al. Classificador de fake news utilizando um modelo de aprendizado de máquina com técnicas de processamento de linguagem natural. 2020. A II - I - III - IV. B I - III - II - IV. C III - IV - I - II. D I - II - III - IV. A mineração de dados é uma área de pesquisa que tem contribuído na busca de conhecimentos implícitos que possam dar suporte à tomada de decisão. Na verdade, a mineração de dados faz parte de uma área mais ampla que é descoberta de conhecimento em banco de dados (Knowledge Discovery in Database - KDD). Considerando o agrupamento, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Os algoritmos particionais agrupam as instâncias dentro de um cluster de forma exclusiva. ( ) Os algoritmos hierárquicos podem aninhar clusters criando uma hierarquia em que uma mesma instância pertence a dois ou mais clusters ao mesmo tempo. ( ) O resultado do agrupamento não carrega definição dos grupos formados. ( ) Após agrupados, os clusters formados podem ser analisados por um algoritmo que poderá rotulá- los. Assinale a alternativa que apresenta a sequência CORRETA: A V - V - V - F. 7 B F - F - V - V. C V - V - F - F. D V - F - V - V. A clusterização é uma técnica fundamental na análise de dados que agrupa objetos similares em clusters, revelando padrões e estruturas intrínsecas. Um dos algoritmos amplamente utilizados é o K- means, que atribui objetos a clusters baseado na proximidade a centroides, buscando minimizar distâncias. Fonte: JAIN, A. K. Data clustering: 50 years beyond K-means. Pattern Recognition Letters, v. 31, n. 8, p. 651-666, 2010. Sobre o exposto, classifique V para as sentenças verdadeiras e F para as falsas: ( ) O K-means atribui objetos a clusters com base na proximidade a centroides, minimizando as distâncias quadráticas dos objetos em relação aos centróides até atingir convergência, de acordo com o texto. ( ) A métrica Elbow é frequentemente usada para determinar o número ideal de clusters para o K- means, onde o ponto de inflexão na curva da soma das distâncias quadráticas indica uma boa escolha de clusters, como mencionado no texto. ( ) O DBSCAN agrupa objetos em regiões densas do espaço de dados, definindo clusters com base em parâmetros como a distância máxima entre pontos vizinhos (eps) e o número mínimo de pontos para formar um cluster (minPts), como descrito no texto. ( ) O Hierarchical clustering é uma técnica hierárquica que forma dendrogramas de clusters, podendo ser aglomerativo ou divisivo. A vantagem do Hierarchical clustering é a capacidade de visualizar a estrutura hierárquica dos dados, permitindo uma interpretação mais intuitiva dos resultados, conforme mencionado no texto. Assinale a alternativa que apresenta a sequência correta: A V, V, F, F. B V, V, V, V. Revisar Conteúdo do Livro 8 C F, V, V, F. D V, F, F, V. Na era do Big Data, deixaremos de viver como as 10000 gerações que nos antecederam. Para alguns pesquisadores,o Big Data é tão revolucionário na vida humana quanto a descoberta do fogo ou o início da agricultura. Dentre os campos que se aproveitam de tais dados, a mineração de dados destaca-se por obter conhecimento de tais dados. Sobre etapas da mineração de dados, associe os itens, utilizando o código a seguir: I- Limpeza de dados. II- Integração de dados. III- Seleção de dados. IV- Transformação de dados. ( ) Em que os dados relevantes para a tarefa de análise são recuperados da base de dados. ( ) Em que os dados são transformados e consolidados em formulários apropriados para mineração, realizando operações de resumo ou agregação. ( ) Em que são removidos ruídos e dados inconsistentes. ( ) Em que várias fontes de dados podem ser combinadas. Assinale a alternativa que apresenta a sequência CORRETA: A IV - III - II - I. B III - IV - I - II. 9 C I - II - III - IV. D I - IV - III - II. Diversos algoritmos de clusterização, incluindo k-means, aglomerativo, DBSCAN e EM, são considerados, levando em conta a natureza dos dados e o número de clusters esperados. Uma dificuldade chave enfrentada pelos especialistas na clusterização é determinar o número ideal de clusters para cada conjunto de dados. Sobre o exposto, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A clusterização é utilizada em diversas áreas, como na análise de redes sociais e na análise de imagens médicas. ( ) O método proposto por Kadirvel et al. utiliza o algoritmo de clusterização K-means para dividir as imagens de células sanguíneas em grupos semelhantes. ( ) O K-means é igual ao KNN, logo aplicado apenas em cenários de classificação. ( ) A clusterização pode ser aplicada em diversos cenários, como em cenários da medicina. Assinale a alternativa que apresenta a sequência correta: A V, V, F, F. B V, F, F, V. C F, V, V, F. D V, V, F, V. 10 Imprimir
Compartilhar