Buscar

Atividade Objetiva 4 - Mineração de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Atividade Objetiva 4 
 Entrega 23 nov em 23:59 
 Pontos 1 
 Perguntas 5 
 Disponível 10 ago em 0:00 - 23 nov em 23:59 4 meses 
 Limite de tempo Nenhum 
 Tentativas permitidas 2 
Instruções 
Importante: 
Caso você esteja realizando a atividade através do aplicativo "Canvas Student", é 
necessário que você clique em "FAZER O QUESTIONÁRIO", no final da página. 
Este teste foi travado 23 nov em 23:59. 
Histórico de tentativas 
 Tentativa Tempo Pontuação 
MAIS RECENTE Tentativa 1 2 minutos 1 de 1 
 
Pontuação desta tentativa: 1 de 1 
Enviado 23 set em 19:32 
Esta tentativa levou 2 minutos. 
 
Pergunta 1 
0,2 / 0,2 pts 
Leia o texto a seguir: 
 
“Os algoritmos particionais mais usados são o k-médias, o k-medoides e 
variações de ambos. A maioria dos algoritmos hierárquicos são variações dos 
métodos mais populares dessa categoria: single-link e complete-link. Também 
são descritos algoritmos baseados em densidade (DBSCAN), em grafos (MST) 
e em particionamento não exclusivo (fuzzy k-médias).” 
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados: 
conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. p. 
116. 
 
Considere as seguintes descrições a respeito do funcionamento do 
algoritmo K-Means (K-Médias). 
 
I. O algoritmo K-Means (K-Médias) consiste na definição aleatória de K 
centroides que representam a quantidade de grupos que se pretende obter. 
II. Cada objeto no conjunto de dados é associado ao centroide mais próximo, 
aqui se considera uma medida de distância entre os centroides e os 
objetos. 
III. A partir da identificação inicial dos grupos, os centroides são fixados para 
cada um deles, de modo que representem o centro de gravidade de cada 
grupo. 
IV. O processo se encerra, com a verificação das distâncias entre os centros de 
gravidade de cada grupo a partir do estabelecimento arbitrário de uma 
distância objetivo. 
 
É correto o que se afirma apenas em: 
 
III e IV, apenas. 
 
 
II e III, apenas. 
 
 
II e IV, apenas. 
 
 
I e III, apenas. 
 
Correto! 
 
I e II, apenas. 
 
A alternativa está correta, pois apenas as afirmações I e II são verdadeiras. 
A afirmativa I está correta, pois o K-Means (K-Médias) é um algoritmo não 
determinístico, ou seja, considera K seleções aleatórias de centroides que têm por 
objetivo representar os grupos resultantes do processo de agrupamento. 
A afirmativa II está correta, pois para cada objeto no conjunto de dados apresenta uma 
distância relativa a cada um dos centroides, assim, os objetos serão associados ao 
centroide mais próximo, formando um agrupamento. 
A afirmativa III está incorreta, pois a partir da identificação inicial dos grupos, são 
definidos novos centroides para cada um deles. Essa definição é resultado do cálculo 
do centro de gravidade de cada grupo. 
A afirmativa IV está incorreta, pois o processo se repete, com a verificação das 
distâncias dos objetos, em relação aos novos centroides, e com a associação dos 
objetos ao centroide mais próximo. O processo será finalizado quando o cálculo do 
centro de gravidade dos grupos não alterar os centroides anteriores. 
 
Pergunta 2 
0,2 / 0,2 pts 
Leia o texto a seguir: 
 
“Árvore de decisão é uma das técnicas mais populares de mineração de dados. 
Mais comumente usada para resolver a tarefa de classificação de dados, a 
árvore de decisão consiste em uma coleção de nós internos e nós folhas, 
organizados em um modelo hierárquico (da mesma forma que se organizam as 
estruturas de dados do tipo árvore). ” 
 
Fonte: DA SILVA, L. A.; PERES, S. M.; BOSCARIOLI, C. Introdução à 
Mineração de Dados Com aplicações em R. Rio de Janeiro: Elsevier, 2016. 
p. 101. 
 
Considerando as afirmações apresentadas, assinale a opção correta. 
 
Existem diferentes formas de medir o grau de pureza (ou impureza) nos 
subconjuntos obtidos a partir da divisão. Dependendo do atributo escolhido 
teremos diferentes subconjuntos e as medidas de impureza avaliam cada 
combinação. Uma destas medidas é denominada Hunt. 
 
 
Enquanto os objetos que estão em um determinado subconjunto, ou vértice na 
árvore, têm a mesma classe o subconjunto deve ser dividido. A divisão se 
encerra quando os objetos do subconjunto têm valores iguais para os atributos 
de entrada (preditivos), porém têm classes diferentes. 
 
 
Boas partições são aquelas que apresentam um maior grau de pureza. Assim, 
subconjuntos que contem registros de muitas classes são o objetivo, visto que, 
nesses casos, podemos dividir o subconjunto de modo que haja poucos 
registros em cada folha da árvore. 
 
Correto! 
 
A escolha do atributo preditivo, que dividirá o conjunto de dados, deve ser feita 
considerando aquele que melhor particiona o conjunto, diferentes atributos 
resultam em diferentes partições. A opção deve considerar o atributo mais 
discriminativo, de modo a obter melhores partições. 
 
A alternativa está correta, pois o processo de obtenção de uma árvore de decisão 
consiste em particionar o conjunto de dados a partir do valor de seus atributos e a 
escolha do atributo é determinante para a obtenção de partições mais homogêneas. 
 
As divisões na árvore de decisão devem ser binárias. Atributos categóricos que 
apresentam duas categorias resultarão em divisões binárias. Por outro lado, 
atributos com mais de duas categorias, ou atributos numéricos, devem ser 
agrupados para possibilitar uma divisão binária. 
 
 
Pergunta 3 
0,2 / 0,2 pts 
Leia o texto a seguir: 
 
“Informalmente, um algoritmo é qualquer procedimento computacional bem 
definido que toma algum valor ou conjunto de valores como entrada e produz 
algum valor ou conjunto de valores como saída. Portanto, um algoritmo é uma 
sequência de etapas computacionais que transforma a entrada na saída.” 
 
Fonte: CORMEN, T. H.; LEISERSON, C. E.; RIVEST, R. L.; STEIN, 
C. Algoritmos: Teoria e Prática. Rio de Janeiro: Elsevier, 2012. p. 03. 
 
Qual alternativa indica corretamente exemplos de algoritmos de agrupamento? 
 
Regressão linear, regressão polinomial, rede neural Adaline. 
 
 
Apriori, FP-Growth, algoritmo de Hunt. 
 
 
Árvores de decisão, k-NN, regras de classificação. 
 
Correto! 
 
k-médias, k-medoides, Single-Link. 
 
A alternativa está correta. 
Os algoritmos k-médias, k-medoides e Single-Link são algoritmos de agrupamento. Os 
algoritmos árvores de decisão, k-NN e regras de classificação são algoritmos de 
classificação. Os algoritmos árvores de regressão, redes neurais e máquinas de 
vetores de suporte são algoritmos de regressão. Os algoritmos regressão linear, 
regressão polinomial, rede neural Adaline são algoritmos de estimação. Os algoritmos 
Apriori e FP-Growth são algoritmos para regras de associação e o algoritmo de Hunt é 
para árvores de decisão. 
 
Árvores de regressão, redes neurais, máquinas de vetores de suporte. 
 
 
Pergunta 4 
0,2 / 0,2 pts 
Leia o texto a seguir: 
 
“Uma vez construída a árvore, ela pode ser usada para classificar um objeto de 
classe desconhecida. Para isso, basta testar os valores dos atributos na árvore 
e percorrê-la até se atingir um nó folha, que corresponde à classe predita para 
aquele objeto. As árvores de decisão possuem as vantagens [...] esse tipo de 
modelo [...] é chamado de caixa branca. ” 
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados: 
conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. p. 
170. 
 
Considerando as vantagens e desvantagens apresentadas pela árvore de 
decisão, avalie as afirmações e selecione a alternativa correta. 
 
I. As árvores de decisão apresentam alto custo computacional na indução do 
modelo preditivo e na dedução de uma classe. 
II. Dependendo do conjunto de dados, a árvore de decisão tem uma precisão 
comparável com classificadores mais sofisticados. 
III. Dependendo das suas dimensões, a árvore de decisão possibilita explicar 
facilmente a hipótese induzida para um novo objeto. 
IV. Paraproblemas que apresentam muitas classes e poucos objetos o 
desempenho (assertividade) da árvore de decisão é alto. 
 
É correto o se afirma apenas em: 
Correto! 
 
II e III, apenas. 
 
A alternativa está correta, pois apenas as afirmações II e III são verdadeiras. 
A afirmativa II está correta, pois as árvores de decisão são classificadoras poderosos, 
desde que não haja muitos níveis na altura da árvore, o que é determinado pelos 
valores dos seus atributos. 
A afirmativa III está correta, pois as árvores de decisão são classificadoras do tipo 
caixa branca, ou seja, uma classe inferida pode ter sua escolha explicada de maneira 
simples a partir da análise do próprio classificador. 
A afirmativa I está incorreta, pois as árvores de decisão apresentam baixo custo 
computacional na indução do modelo preditivo e na dedução de uma classe. 
A afirmativa IV está incorreta, pois para problemas que apresentam muitas classes e 
poucos objetos o desempenho (assertividade) da árvore de decisão é baixo. 
 
I e II, apenas. 
 
 
I e III, apenas. 
 
 
II e IV, apenas. 
 
 
III e IV, apenas. 
 
 
Pergunta 5 
0,2 / 0,2 pts 
Leia o texto a seguir: 
 
“A avaliação do resultado obtido na análise de agrupamento é comumente 
chamada de validação. Na validação do modelo de grupos resultante de um 
algoritmo, tem-se o objetivo de avaliar se esse modelo de fato representa a 
organização dos exemplares no conjunto de dados sob análise.” 
 
Fonte: DA SILVA, L. A.; PERES, S. M.; BOSCARIOLI, C. Introdução à 
Mineração de Dados Com aplicações em R. Rio de Janeiro: Elsevier, 2016. 
p. 179. 
 
Avalie as seguintes asserções e a relação proposta entre elas. 
 
I. A avaliação dos resultados obtidos a partir de algoritmos de agrupamento 
pode ser feita considerando critérios de otimização. Nesse caso, se busca 
encontrar grupos que minimizam ou maximizam um critério específico. 
 
PORQUE 
 
II. As relações Within-Cluster e Between-Cluster medem a compactação 
(densidade) nos grupos e entre os grupos, o ideal é um alto within nos grupos e 
um baixo between entre os grupos. 
 
A respeito dessas asserções, assinale a opção correta 
 
As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I. 
 
 
As asserções I e II são proposições verdadeiras, mas a II não é uma 
justificativa da I. 
 
 
As asserções I e II são ambas proposições falsas. 
 
Correto! 
 
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. 
 
Alternativa está correta, pois a asserção I é uma proposição verdadeira, e a asserção 
II é uma proposição falsa. 
A asserção I é verdadeira, pois a avaliação de fato considera critérios de otimização. 
A asserção II é falsa, pois os critérios comumente estão associados à diminuição 
do within nos grupos e com o aumento do between entre os grupos. 
 
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

Continue navegando