Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 O Python é uma linguagem de programação de alto nível, cujo design prioriza a facilidade de leitura do código e que tem permanecido consistentemente entre as linguagens de programação mais populares, utilizada em diversas aplicações, dentre elas na mineração de dados. Sabendo que o dataset iris pode ser instanciado com o comando iDS = load_iris(), bem como podemos dividi-lo por meio do comando iData, iTarget, iTarget_Names, _, iFeature_Names, _ =iDS.values(). Sobre o desmembramento da tupla gerada por load_iris(), associe os itens, utilizando o código a seguir: I- iData. II- iTarget. III- iTarget_Names. IV- iFeature_Names. ( ) Matriz contendo os valores de cada instância de cada atributo previsor. ( ) Vetor contendo os valores de atributo-alvo para cada instância. ( ) Vetor com os nomes dados a cada uma das três espécies rotuladas. ( ) Vetor com o nome dado aos atributos previsores. Assinale a alternativa que apresenta a sequência CORRETA: A IV - I - III - II. B I - III - II - IV. C II - III - I - IV. D I - II - III - IV. 2 A mineração de dados é uma área de pesquisa que tem contribuído na busca de conhecimentos implícitos que possam dar suporte à tomada de decisão. Na verdade, a mineração de dados faz parte de uma área mais ampla que é descoberta de conhecimento em banco de dados (Knowledge Discovery in Database - KDD). Considerando o agrupamento, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Os algoritmos particionais agrupam as instâncias dentro de um cluster de forma exclusiva. ( ) Os algoritmos hierárquicos podem aninhar clusters criando uma hierarquia em que uma mesma instância pertence a dois ou mais clusters ao mesmo tempo. ( ) O resultado do agrupamento não carrega definição dos grupos formados. ( ) Após agrupados, os clusters formados podem ser analisados por um algoritmo que poderá rotulá-los. Assinale a alternativa que apresenta a sequência CORRETA: A F - F - V - V. B V - V - V - F. C V - V - F - F. D V - F - V - V. 3 Machine Learning é uma forma de IA muito utilizada atualmente, que permite o aprendizado pelo sistema a partir de dados imputados, que servirão como base de treinamento para que o sistema gere modelos ou saídas que possam servir para análises preditivas. Considerando as técnicas de agrupamento, classifique V para as sentenças verdadeiras e F para as falsas: ( ) O agrupamento (clusterização) enquadra-se no aprendizado supervisionado. ( ) O agrupamento consiste na divisão dos dados em grupos (clusters). ( ) Os clusters compartilham valores próximos entre os atributos de entrada. ( ) Os clusters são gerados automaticamente sem precisar informar um número pré-determinado. Assinale a alternativa que apresenta a sequência CORRETA: A V - V - V - F. B F - V - V - V. C V - V - F - V. D F - V - F - V. 4 A biblioteca scikit-learn dá suporte ao desenvolvimento de algoritmos de machine learning, dentre eles também o algoritmo de agrupamento k-means. Dentre as maneiras de ser implementado, o trecho a seguir é uma maneira de instanciar o algoritmo: KMeans(n_clusters=5, random_state=40). Sobre o random_state, assinale a alternativa CORRETA: A É o número de clusters. B É o número aleatório de dados de saída. C É o valor de base para geração de pontos aleatórios. D É o número de dados de entrada. 5 Para implementar o K-means em Python, uma das bibliotecas mais utilizadas é a scikit-learn. Em sua implementação, o valor de n_jobs permite efetuar mais de uma inicialização do k-means em tarefas paralelas. É um inteiro que define a quantidade de processamentos em paralelo, o padrão é apenas 1, fazendo com que a quantidade máxima permitida de processadores seja selecionada através do valor - 1. Sobre os três formatos de cálculo das distâncias, associe os itens, utilizando o código a seguir: I- FULL. II- ELKAN. III- AUTO. ( ) Recorre ao método convencional para conjuntos de dados esparsos, em que o algoritmo elkan implementado é incapaz de convergir, e ao método elkan para conjuntos de dados densos. ( ) Padrão dos algoritmos de k-means que calcula a distância de todos os pontos com relação ao centro. ( ) Converge para os mesmos resultados, mas reduz a partir de triangulações a quantidade de distâncias calculadas, eliminando muitas etapas desnecessárias/redundantes. Assinale a alternativa que apresenta a sequência CORRETA: A III - II - I. B I - II - III. C III - I - II. D II - III - I. 6 Em mineração de dados, o agrupamento é uma das tarefas mais comuns que compõem o processo de aprendizado. Os grupos formados também são conhecidos como clusters e dependem muito das características do algoritmo utilizado. Sobre a forma de aprendizado do agrupamento, assinale a alternativa CORRETA: A Aprendizado não supervisionado. B Aprendizado por reforço. C Aprendizado supervisionado. D Aprendizado induzido. 7 A biblioteca Pandas é uma biblioteca em Python, foi inicialmente criada por Wes McKinney no ano de 2008 e está em constante desenvolvimento até os dias de hoje. Pandas é um nome derivado de panel data que é um termo utilizado para grupos de dados com mais de uma dimensão. Sobre os elementos do Pandas, associe os itens, utilizando o código a seguir: I- read_clipboard. II- read_csv. III- read_html. IV- read_sql. ( ) Varre uma página na web na busca por tabelas que possam conter dados. ( ) Leitura de banco de dados SQL, entre outros. ( ) Cria um DataFrame a partir dos dados copiados na prancheta (clipboard) do sistema operacional. ( ) Arquivos em que colunas (atributos) são separadas por algum caractere especial, geralmente uma vírgula, e cada linha representa uma nova instância. Assinale a alternativa que apresenta a sequência CORRETA: FONTE: COSTA, Axel Vieira Gomes et al. Classificador de fake news utilizando um modelo de aprendizado de máquina com técnicas de processamento de linguagem natural. 2020. A III - IV - I - II. B I - II - III - IV. C II - I - III - IV. D I - III - II - IV. 8 O algoritmo de clusterização K-means poder ser também chamado de K-médias. É um algoritmo popular devido a sua facilidade de implementação e sua ordem de complexidade O(n), onde n é o número de padrões. Sobre o significado da letra k do algoritmo k-means, assinale a alternativa CORRETA: FONTE: FONSECA, Felipe Cesar Stanzani; BELTRAME, Walber Antônio Ramos. Aplicações Práticas dos Algoritmos de Clusterização K-means e Bisecting K-means. Universidade Federal do Espírito Santo (UFES). Vitória-ES, 2010. A Se refere ao número de grupos que o algoritmo irá retornar. B Se refere ao número de vizinhos mais próximos que o algoritmo irá retornar. C Se refere ao número de rótulos de saída que o algoritmo irá retornar. D Se refere ao número de dados de entrada que o algoritmo irá retornar. 9 O agrupamento é uma tarefa que depende de um especialista para sua compreensão, sendo uma técnica amplamente utilizada nos mais diversos cenários de análise de dados, bem como para suporte à decisão. Considerando o agrupamento, classifique V para as sentenças verdadeiras e F para as falsas: ( ) O clustering é uma das técnicas utilizadas para a mineração de dados em grafos. ( ) Ao aplicar clustering em grafos são utilizadas as informações relativas aos vértices do grafo para criar grupos coesos. ( ) É preciso atentar a três questões ao se iniciar atividades de agrupamentos de dados, como: medir a similaridade entre os conjuntos de dados; formar os clusters; e quantos clusters formar. ( ) O processo de análise de cluster deve incluir a divisão de um dataset, de forma que os elementos de cada subconjunto sejam relacionados de acordo com uma medida de similaridade.Assinale a alternativa que apresenta a sequência CORRETA: A V - V - V - V. B V - F - V - V. C V - V - F - F. D F - F - V - V. 10 Na era do Big Data, deixaremos de viver como as 10000 gerações que nos antecederam. Para alguns pesquisadores, o Big Data é tão revolucionário na vida humana quanto a descoberta do fogo ou o início da agricultura. Dentre os campos que se aproveitam de tais dados, a mineração de dados destaca-se por obter conhecimento de tais dados. Sobre etapas da mineração de dados, associe os itens, utilizando o código a seguir: I- Limpeza de dados. II- Integração de dados. III- Seleção de dados. IV- Transformação de dados. ( ) Em que os dados relevantes para a tarefa de análise são recuperados da base de dados. ( ) Em que os dados são transformados e consolidados em formulários apropriados para mineração, realizando operações de resumo ou agregação. ( ) Em que são removidos ruídos e dados inconsistentes. ( ) Em que várias fontes de dados podem ser combinadas. Assinale a alternativa que apresenta a sequência CORRETA: A I - II - III - IV. B I - IV - III - II. C III - IV - I - II. D IV - III - II - I.
Compartilhar