Atividade 4_ Mineração de Dados

Mineração de Dados

•

Outros

0

Rodrigo Santos

14/12/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Mineração de Dados

484 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Atividade 4
Entrega 26 nov em 23:59 Pontos 1 Perguntas 5
Disponível 14 ago em 0:00 - 26 nov em 23:59 Limite de tempo Nenhum
Tentativas permitidas 2
Instruções
Este teste foi travado 26 nov em 23:59.
Histórico de tentativas
Tentativa Tempo Pontuação
MAIS RECENTE Tentativa 1 78 minutos 1 de 1
Pontuação desta tentativa: 1 de 1
Enviado 20 nov em 16:58
Esta tentativa levou 78 minutos.
Importante:
Caso você esteja realizando a atividade através do aplicativo "Canvas Student", é necessário que você clique em
"FAZER O QUESTIONÁRIO", no final da página.
0,2 / 0,2 ptsPergunta 1
Leia o texto a seguir:
 
“Informalmente, um algoritmo é qualquer procedimento computacional bem
definido que toma algum valor ou conjunto de valores como entrada e produz
algum valor ou conjunto de valores como saída. Portanto, um algoritmo é uma
sequência de etapas computacionais que transforma a entrada na saída.”
 
Fonte: CORMEN, T. H.; LEISERSON, C. E.; RIVEST, R. L.; STEIN, C.
Algoritmos: Teoria e Prática. Rio de Janeiro: Elsevier, 2012. p. 03.
 
A+
A
A-
https://famonline.instructure.com/courses/31415/quizzes/156289/history?version=1
Qual alternativa indica corretamente exemplos de algoritmos de agrupamento?
 k-médias, k-medoides, Single-Link. Correto!Correto!
A alternativa está correta.
Os algoritmos k-médias, k-medoides e Single-Link são algoritmos de
agrupamento. Os algoritmos árvores de decisão, k-NN e regras de
classificação são algoritmos de classificação. Os algoritmos árvores de
regressão, redes neurais e máquinas de vetores de suporte são algoritmos de
regressão. Os algoritmos regressão linear, regressão polinomial, rede neural
Adaline são algoritmos de estimação. Os algoritmos Apriori e FP-Growth são
algoritmos para regras de associação e o algoritmo de Hunt é para árvores de
decisão.
 Árvores de decisão, k-NN, regras de classificação. 
 Árvores de regressão, redes neurais, máquinas de vetores de suporte. 
 Apriori, FP-Growth, algoritmo de Hunt. 
 Regressão linear, regressão polinomial, rede neural Adaline. 
0,2 / 0,2 ptsPergunta 2
Leia o texto a seguir:
 
“Os algoritmos particionais mais usados são o k-médias, o k-medoides e
variações de ambos. A maioria dos algoritmos hierárquicos são variações dos
métodos mais populares dessa categoria: single-link e complete-link. Também são
descritos algoritmos baseados em densidade (DBSCAN), em grafos (MST) e em
particionamento não exclusivo (fuzzy k-médias).”
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados:
conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. p. 116.
 
A+
A
A-
Considere as seguintes descrições a respeito do funcionamento do algoritmo K-
Means (K-Médias).
 
I. O algoritmo K-Means (K-Médias) consiste na definição aleatória de K
centroides que representam a quantidade de grupos que se pretende obter.
II. Cada objeto no conjunto de dados é associado ao centroide mais próximo,
aqui se considera uma medida de distância entre os centroides e os objetos.
III. A partir da identificação inicial dos grupos, os centroides são fixados para cada
um deles, de modo que representem o centro de gravidade de cada grupo.
IV. O processo se encerra, com a verificação das distâncias entre os centros de
gravidade de cada grupo a partir do estabelecimento arbitrário de uma distância
objetivo.
 
É correto o que se afirma apenas em: 
 II e III, apenas. 
 I e III, apenas. 
 III e IV, apenas. 
 I e II, apenas. Correto!Correto!
A alternativa está correta, pois apenas as afirmações I e II são verdadeiras.
A afirmativa I está correta, pois o K-Means (K-Médias) é um algoritmo não
determinístico, ou seja, considera K seleções aleatórias de centroides que têm
por objetivo representar os grupos resultantes do processo de agrupamento.
A afirmativa II está correta, pois para cada objeto no conjunto de dados
apresenta uma distância relativa a cada um dos centroides, assim, os objetos
serão associados ao centroide mais próximo, formando um agrupamento.
A afirmativa III está incorreta, pois a partir da identificação inicial dos grupos,
são definidos novos centroides para cada um deles. Essa definição é
resultado do cálculo do centro de gravidade de cada grupo.
A afirmativa IV está incorreta, pois o processo se repete, com a verificação
das distâncias dos objetos, em relação aos novos centroides, e com a
associação dos objetos ao centroide mais próximo. O processo será finalizado
quando o cálculo do centro de gravidade dos grupos não alterar os centroides
anteriores. 
A+
A
A-
 II e IV, apenas. 
0,2 / 0,2 ptsPergunta 3
Leia o texto a seguir:
 
“Árvore de decisão é uma das técnicas mais populares de mineração de dados.
Mais comumente usada para resolver a tarefa de classificação de dados, a árvore
de decisão consiste em uma coleção de nós internos e nós folhas, organizados
em um modelo hierárquico (da mesma forma que se organizam as estruturas de
dados do tipo árvore). ”
 
Fonte: DA SILVA, L. A.; PERES, S. M.; BOSCARIOLI, C. Introdução à Mineração
de Dados Com aplicações em R. Rio de Janeiro: Elsevier, 2016. p. 101.
 
Considerando as afirmações apresentadas, assinale a opção correta.
 
Existem diferentes formas de medir o grau de pureza (ou impureza) nos
subconjuntos obtidos a partir da divisão. Dependendo do atributo escolhido teremos
diferentes subconjuntos e as medidas de impureza avaliam cada combinação. Uma
destas medidas é denominada Hunt.
 
Boas partições são aquelas que apresentam um maior grau de pureza. Assim,
subconjuntos que contem registros de muitas classes são o objetivo, visto que,
nesses casos, podemos dividir o subconjunto de modo que haja poucos registros
em cada folha da árvore.
 
Enquanto os objetos que estão em um determinado subconjunto, ou vértice na
árvore, têm a mesma classe o subconjunto deve ser dividido. A divisão se encerra
quando os objetos do subconjunto têm valores iguais para os atributos de entrada
(preditivos), porém têm classes diferentes.
A+
A
A-
 
As divisões na árvore de decisão devem ser binárias. Atributos categóricos que
apresentam duas categorias resultarão em divisões binárias. Por outro lado,
atributos com mais de duas categorias, ou atributos numéricos, devem ser
agrupados para possibilitar uma divisão binária.
 
A escolha do atributo preditivo, que dividirá o conjunto de dados, deve ser feita
considerando aquele que melhor particiona o conjunto, diferentes atributos resultam
em diferentes partições. A opção deve considerar o atributo mais discriminativo, de
modo a obter melhores partições.
Correto!Correto!
A alternativa está correta, pois o processo de obtenção de uma árvore de 
decisão consiste em particionar o conjunto de dados a partir do valor de seus 
atributos e a escolha do atributo é determinante para a obtenção de partições 
mais homogêneas.
0,2 / 0,2 ptsPergunta 4
Leia o texto a seguir:
 
“Uma vez construída a árvore, ela pode ser usada para classificar um objeto de
classe desconhecida. Para isso, basta testar os valores dos atributos na árvore e
percorrê-la até se atingir um nó folha, que corresponde à classe predita para
aquele objeto. As árvores de decisão possuem as vantagens [...] esse tipo de
modelo [...] é chamado de caixa branca. ”
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados:
conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. p. 170.
 
Considerando as vantagens e desvantagens apresentadas pela árvore de
decisão, avalie as afirmações e selecione a alternativa correta.
 
I. As árvores de decisão apresentam alto custo computacional na indução do
modelo preditivo e na dedução de uma classe.
A+
A
A-
II. Dependendo do conjunto de dados, a árvore de decisão tem uma precisão
comparável com classificadores mais sofisticados.
III. Dependendo das suas dimensões, a árvore de decisão possibilita explicar
facilmente a hipótese induzida para um novo objeto.
IV. Para problemas que apresentam muitas classes e poucos objetos o
desempenho (assertividade)da árvore de decisão é alto.
 
É correto o se afirma apenas em:
 I e II, apenas. 
 II e IV, apenas. 
 II e III, apenas. Correto!Correto!
A alternativa está correta, pois apenas as afirmações II e III são verdadeiras.
A afirmativa II está correta, pois as árvores de decisão são classificadoras
poderosos, desde que não haja muitos níveis na altura da árvore, o que é
determinado pelos valores dos seus atributos.
A afirmativa III está correta, pois as árvores de decisão são classificadoras do
tipo caixa branca, ou seja, uma classe inferida pode ter sua escolha explicada
de maneira simples a partir da análise do próprio classificador.
A afirmativa I está incorreta, pois as árvores de decisão apresentam baixo
custo computacional na indução do modelo preditivo e na dedução de uma
classe.
A afirmativa IV está incorreta, pois para problemas que apresentam muitas
classes e poucos objetos o desempenho (assertividade) da árvore de decisão
é baixo. 
 III e IV, apenas. 
 I e III, apenas. 
0,2 / 0,2 ptsPergunta 5
Leia o texto a seguir:
A+
A
A-
 
“A avaliação do resultado obtido na análise de agrupamento é comumente
chamada de validação. Na validação do modelo de grupos resultante de um
algoritmo, tem-se o objetivo de avaliar se esse modelo de fato representa a
organização dos exemplares no conjunto de dados sob análise.”
 
Fonte: DA SILVA, L. A.; PERES, S. M.; BOSCARIOLI, C. Introdução à Mineração
de Dados Com aplicações em R. Rio de Janeiro: Elsevier, 2016. p. 179.
 
Avalie as seguintes asserções e a relação proposta entre elas.
 
I. A avaliação dos resultados obtidos a partir de algoritmos de agrupamento pode
ser feita considerando critérios de otimização. Nesse caso, se busca encontrar
grupos que minimizam ou maximizam um critério específico.
 
PORQUE
 
II. As relações Within-Cluster e Between-Cluster medem a compactação
(densidade) nos grupos e entre os grupos, o ideal é um alto within nos grupos e
um baixo between entre os grupos.
 
A respeito dessas asserções, assinale a opção correta
 As asserções I e II são ambas proposições falsas. 
 A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 
 
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da
I.
 A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. Correto!Correto!
A+
A
A-
Alternativa está correta, pois a asserção I é uma proposição verdadeira, e a
asserção II é uma proposição falsa.
A asserção I é verdadeira, pois a avaliação de fato considera critérios de
otimização.
A asserção II é falsa, pois os critérios comumente estão associados à
diminuição do within nos grupos e com o aumento do between entre os
grupos.
 As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I. 
Pontuação do teste: 1 de 1
A+
A
A-