Buscar

Avaliação II -ML II Individual

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Prova Impressa
GABARITO | Avaliação II - Individual (Cod.:957025)
Peso da Avaliação 2,00
Prova 79090145
Qtd. de Questões 10
Acertos/Erros 7/2
Canceladas 1
Nota 8,00
Em mineração de dados, o agrupamento é uma das tarefas mais comuns que compõem o processo de 
aprendizado. Os grupos formados também são conhecidos como clusters e dependem muito das 
características do algoritmo utilizado.
 
Sobre a forma de aprendizado do agrupamento, assinale a alternativa CORRETA:
A Aprendizado por reforço.
B Aprendizado não supervisionado.
C Aprendizado supervisionado.
D Aprendizado induzido.
Para implementar o K-means em Python, uma das bibliotecas mais utilizadas é a scikit-learn. Em sua 
implementação, o valor de n_jobs permite efetuar mais de uma inicialização do k-means em tarefas 
paralelas. É um inteiro que define a quantidade de processamentos em paralelo, o padrão é apenas 1, 
fazendo com que a quantidade máxima permitida de processadores seja selecionada através do valor - 
1. Sobre os três formatos de cálculo das distâncias, associe os itens, utilizando o código a seguir:
I- FULL.
II- ELKAN.
 VOLTAR
A+ Alterar modo de visualização
1
2
III- AUTO.
( ) Recorre ao método convencional para conjuntos de dados esparsos, em que o algoritmo elkan 
implementado é incapaz de convergir, e ao método elkan para conjuntos de dados densos.
( ) Padrão dos algoritmos de k-means que calcula a distância de todos os pontos com relação ao 
centro.
( ) Converge para os mesmos resultados, mas reduz a partir de triangulações a quantidade de 
distâncias calculadas, eliminando muitas etapas desnecessárias/redundantes.
Assinale a alternativa que apresenta a sequência CORRETA: 
A I - II - III.
B II - III - I.
C III - I - II.
D III - II - I.
 O Python é uma linguagem de programação de alto nível, cujo design prioriza a facilidade de leitura 
do código e que tem permanecido consistentemente entre as linguagens de programação mais 
populares, utilizada em diversas aplicações, dentre elas na mineração de dados. Sabendo que o dataset 
iris pode ser instanciado com o comando iDS = load_iris(), bem como podemos dividi-lo por meio do 
comando iData, iTarget, iTarget_Names, _, iFeature_Names, _ =iDS.values(). Sobre o 
desmembramento da tupla gerada por load_iris(), associe os itens, utilizando o código a seguir:
I- iData.
II- iTarget.
III- iTarget_Names.
IV- iFeature_Names.
( ) Matriz contendo os valores de cada instância de cada atributo previsor.
( ) Vetor contendo os valores de atributo-alvo para cada instância.
3
( ) Vetor com os nomes dados a cada uma das três espécies rotuladas.
( ) Vetor com o nome dado aos atributos previsores.
Assinale a alternativa que apresenta a sequência CORRETA: 
 
A I - III - II - IV.
B IV - I - III - II.
C I - II - III - IV.
D II - III - I - IV.
Atenção: Esta questão foi cancelada, porém a pontuação foi considerada.
A descoberta de conhecimento em Bancos de Dados (KDD, do inglês Knowledge Discovery in 
Databases) é um processo que se destaca na era da informação. Através de técnicas avançadas de 
mineração de dados, o KDD envolve a identificação de padrões e relações ocultas em conjuntos 
massivos de informações. 
Fonte: RAJARAMAN, A.; ULLMAN, J. D.; LESKOVEC, J. Mining of Massive Datasets. Stanford: 
Pearson, 2014.
Sobre a etapa de pré-processamento, analise as características a seguir:
I. Limpeza de dados. 
II. Transformação dos dados.
III. Análise de dados.
É correto o que se afirma em:
A III, apenas.
B II e III, apenas.
4
C I e II, apenas.
D I, apenas.
A biblioteca scikit-learn dá suporte ao desenvolvimento de algoritmos de machine learning, dentre 
eles também o algoritmo de agrupamento k-means. Dentre as maneiras de ser implementado, o trecho 
a seguir é uma maneira de instanciar o algoritmo: KMeans(n_clusters=5, random_state=40).
Sobre o random_state, assinale a alternativa CORRETA:
A É o número de dados de entrada.
B É o valor de base para geração de pontos aleatórios.
C É o número aleatório de dados de saída.
D É o número de clusters.
A biblioteca Pandas é uma biblioteca em Python, foi inicialmente criada por Wes McKinney no ano 
de 2008 e está em constante desenvolvimento até os dias de hoje. Pandas é um nome derivado de 
panel data que é um termo utilizado para grupos de dados com mais de uma dimensão. Sobre os 
elementos do Pandas, associe os itens, utilizando o código a seguir:
I- read_clipboard.
II- read_csv.
III- read_html. 
Revisar Conteúdo do Livro
5
Revisar Conteúdo do Livro
6
IV- read_sql.
( ) Varre uma página na web na busca por tabelas que possam conter dados.
( ) Leitura de banco de dados SQL, entre outros.
( ) Cria um DataFrame a partir dos dados copiados na prancheta (clipboard) do sistema operacional.
( ) Arquivos em que colunas (atributos) são separadas por algum caractere especial, geralmente uma 
vírgula, e cada linha representa uma nova instância.
Assinale a alternativa que apresenta a sequência CORRETA: 
FONTE: COSTA, Axel Vieira Gomes et al. Classificador de fake news utilizando um modelo de 
aprendizado de máquina com técnicas de processamento de linguagem natural. 2020.
A II - I - III - IV.
B I - III - II - IV.
C III - IV - I - II.
D I - II - III - IV.
A mineração de dados é uma área de pesquisa que tem contribuído na busca de conhecimentos 
implícitos que possam dar suporte à tomada de decisão. Na verdade, a mineração de dados faz parte 
de uma área mais ampla que é descoberta de conhecimento em banco de dados (Knowledge 
Discovery in Database - KDD). Considerando o agrupamento, classifique V para as sentenças 
verdadeiras e F para as falsas:
( ) Os algoritmos particionais agrupam as instâncias dentro de um cluster de forma exclusiva.
( ) Os algoritmos hierárquicos podem aninhar clusters criando uma hierarquia em que uma mesma 
instância pertence a dois ou mais clusters ao mesmo tempo.
( ) O resultado do agrupamento não carrega definição dos grupos formados.
( ) Após agrupados, os clusters formados podem ser analisados por um algoritmo que poderá rotulá-
los. 
Assinale a alternativa que apresenta a sequência CORRETA: 
A V - V - V - F.
7
B F - F - V - V.
C V - V - F - F.
D V - F - V - V.
A clusterização é uma técnica fundamental na análise de dados que agrupa objetos similares em 
clusters, revelando padrões e estruturas intrínsecas. Um dos algoritmos amplamente utilizados é o K-
means, que atribui objetos a clusters baseado na proximidade a centroides, buscando minimizar 
distâncias.
Fonte: JAIN, A. K. Data clustering: 50 years beyond K-means. Pattern Recognition Letters, v. 31, 
n. 8, p. 651-666, 2010.
Sobre o exposto, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O K-means atribui objetos a clusters com base na proximidade a centroides, minimizando as 
distâncias quadráticas dos objetos em relação aos centróides até atingir convergência, de acordo com 
o texto.
( ) A métrica Elbow é frequentemente usada para determinar o número ideal de clusters para o K-
means, onde o ponto de inflexão na curva da soma das distâncias quadráticas indica uma boa escolha 
de clusters, como mencionado no texto.
( ) O DBSCAN agrupa objetos em regiões densas do espaço de dados, definindo clusters com base 
em parâmetros como a distância máxima entre pontos vizinhos (eps) e o número mínimo de pontos 
para formar um cluster (minPts), como descrito no texto.
( ) O Hierarchical clustering é uma técnica hierárquica que forma dendrogramas de clusters, 
podendo ser aglomerativo ou divisivo. A vantagem do Hierarchical clustering é a capacidade de 
visualizar a estrutura hierárquica dos dados, permitindo uma interpretação mais intuitiva dos 
resultados, conforme mencionado no texto.
Assinale a alternativa que apresenta a sequência correta:
A V, V, F, F.
B V, V, V, V.
Revisar Conteúdo do Livro
8
C F, V, V, F.
D V, F, F, V.
 Na era do Big Data, deixaremos de viver como as 10000 gerações que nos antecederam. Para alguns 
pesquisadores,o Big Data é tão revolucionário na vida humana quanto a descoberta do fogo ou o 
início da agricultura. Dentre os campos que se aproveitam de tais dados, a mineração de dados 
destaca-se por obter conhecimento de tais dados. Sobre etapas da mineração de dados, associe os 
itens, utilizando o código a seguir:
I- Limpeza de dados.
II- Integração de dados.
III- Seleção de dados.
IV- Transformação de dados.
( ) Em que os dados relevantes para a tarefa de análise são recuperados da base de dados.
( ) Em que os dados são transformados e consolidados em formulários apropriados para mineração, 
realizando operações de resumo ou agregação.
( ) Em que são removidos ruídos e dados inconsistentes.
( ) Em que várias fontes de dados podem ser combinadas.
Assinale a alternativa que apresenta a sequência CORRETA:
A IV - III - II - I.
B III - IV - I - II.
9
C I - II - III - IV.
D I - IV - III - II.
Diversos algoritmos de clusterização, incluindo k-means, aglomerativo, DBSCAN e EM, são 
considerados, levando em conta a natureza dos dados e o número de clusters esperados. Uma 
dificuldade chave enfrentada pelos especialistas na clusterização é determinar o número ideal de 
clusters para cada conjunto de dados.
Sobre o exposto, classifique V para as sentenças verdadeiras e F para as falsas:
( ) A clusterização é utilizada em diversas áreas, como na análise de redes sociais e na análise de 
imagens médicas.
( ) O método proposto por Kadirvel et al. utiliza o algoritmo de clusterização K-means para dividir 
as imagens de células sanguíneas em grupos semelhantes.
( ) O K-means é igual ao KNN, logo aplicado apenas em cenários de classificação.
( ) A clusterização pode ser aplicada em diversos cenários, como em cenários da medicina.
Assinale a alternativa que apresenta a sequência correta:
A V, V, F, F.
B V, F, F, V.
C F, V, V, F.
D V, V, F, V.
10
Imprimir

Continue navegando