Buscar

ATIVIDADE 4 - UNIDADE 4 - MINERAÇÃO DE DADOS - FMU

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

Usuário
Curso GRA1433 MINERAÇÃO DE DADOS I EST201 - 202010.ead
Teste ATIVIDADE 4 (A4)
Iniciado
Enviado 15/04/20 19:26
Status Completada
Resultado da tentativa 9 em 10 pontos 
Tempo decorrido
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários
Pergunta 1
Um modelo que deverá ser utilizado na mineração de dados corresponde ao processamento das 
informações de entradas que submetidas a determinadas condições e algoritmos devem retornar 
aquilo que foi definido como regras pelos analistas de negócio. Para que esse resultado seja 
conforme o esperado, protótipos que realizam testes exaustivos devem ser realizados.
 
Em se tratando desses protótipos é correto afirmar que:
 
Resposta Selecionada:
Incorreta Na mineração de dados a prototipagem é definido como sendo a etapa mais trabalhosa de 
forma errônea
Resposta Correta:
Correta Dois tipos de modelos podem ser desenvolvidos, o preditivo e o descritivo, ambos com 
o propósito de analisar conceitos temporais
Feedback da resposta:Sua resposta está incorreta. A resposta está incorreta pois, o modelo preditivo 
consiste em prever futuros cenários baseado na análise de padrões que auxiliam em tomadas de 
decisão mais precisas, e o descritivo permite ao analista compreender os eventos em tempo real, não
emite julgamento no valor, mas o impacto passado e futuro, na mineração de dados tem-se como 
mais trabalhosa a execução de plano erroneamente pois a prototipação se mostra como a mais 
complexa, e por fim, o modelo gerado mesmo que na fase final sempre sofrerá modificações para 
ser aperfeiçoado.
Pergunta 2
Leia o excerto a seguir:
 
“O algoritmo APRIORI basicamente se divide em duas etapas que são:
I) Encontrar todos os conjuntos de itens frequentes (que satisfazem à condição
de suporte mínimo).
II) A partir do conjunto de itens frequentes, gerar as regras de associação (que
satisfazem à condição de confiança mínima).”
GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático . Elsevier Editora Ltda:São Paulo,
2005. p.106
A partir do apresentado, analise as alternativas a seguir e marque a opção correta:
 
Resposta Selecionada:
Correta Os itens candidatos são definidos após a aceitação do suporte mínimo e o nível de confiança
aceitável.
Resposta Correta:
Correta Os itens candidatos são definidos após a aceitação do suporte mínimo e o nível de 
confiança aceitável.
Feedback da resposta:Resposta correta. A resposta está correta pois, inicialmente ao definir a 
utilização da técnica, deve ser definido os valores de suporte e confiança mínimas utilizadas pelo 
algoritmo apriori para traçar as regras condizentes que definirão os itens candidatos.
Pergunta 3
A técnica de agrupamento hierárquico possui algoritmos que auxiliam na distribuição dos elementos
de formas distintas, cada uma conforme uma necessidade específica. Não sendo necessário assumir 
um número particular de grupos, desde que o resultado esperado seja obtido ao final do processo.
 
Levando em consideração os distintos algoritmos existentes no agrupamento hierárquico é correto 
afirmar que:
 
Resposta Selecionada:
Correta Single Linkage, é o algoritmo mais simples no agrupamento hierárquico fazendo ligação 
entre os vizinhos próximos.
Resposta Correta:
Correta Single Linkage, é o algoritmo mais simples no agrupamento hierárquico fazendo 
ligação entre os vizinhos próximos.
Feedback da resposta:Resposta correta. A resposta está correta pois, compõe o algoritmo mais 
simples, sendo que faz a ligação utilizando como parâmetro o vizinho mais próximo (Nearest 
Neighbor Technique), sendo que a distância entre dois grupos distintos é determinado pelo elemento
mais próximo.
Pergunta 4
A mineração de dados é a representação de diversos métodos e técnicas usados em diferentes 
capacidades analíticas que forma modelos de negócio organizando diferentes níveis de entrada que 
são organizadas pelos analistas de negócio formando assim modelos que poderão ser utilizados para
a tomada de decisão da empresa. Após inúmeros testes e validações a formação do modelo é 
concluída para se chegar a determinadas decisões.
 
Neste sentido, é correto afirmar que:
 
Resposta Selecionada:
Correta Os parâmetros de entrada que irão compor o modelo precisa seguir critérios bem definidos 
pelos analistas
Resposta Correta:
Correta Os parâmetros de entrada que irão compor o modelo precisa seguir critérios bem 
definidos pelos analistas
Feedback da resposta:Resposta correta. A resposta está correta pois, a alimentação dos parâmetros 
de entrada no modelo precisa ser criteriosa a fim de se chegar a resultados coerentes em 
determinado problema. Por mais complexo que pareça não existe modelo certo ou errado, assim 
como técnica mais correta, o que existe é se o uso que está sendo feito é o mais correto ou apresenta
um número extenso de falhas.
Pergunta 5
Leia o excerto a seguir:
 
“O dendrograma é um diagrama de árvore que exibe os grupos formados por agrupamento de 
observações em cada passo e em seus níveis de similaridade. O nível de similaridade é medido ao 
longo do eixo vertical (alternativamente, você pode exibir o nível de distância) e as diferentes 
observações são listadas ao longo do eixo horizontal.”
DENDROGRAMA. Suporte ao minitab18, 2019. Disponível em: <encurtador.com.br/bjuGT> 
Acesso em: 01 Jan. 2020.
 
A partir do apresentado, assinale a alternativa correta.
 
Resposta Selecionada:
Correta Quanto maior a distância entre os elementos do gráfico melhor se torna a distribuição entre 
os grupos.
Resposta Correta:
Correta Quanto maior a distância entre os elementos do gráfico melhor se torna a distribuição
entre os grupos.
Feedback da resposta:Resposta correta. A resposta está correta pois, a distância entre os grupos 
formados pelos atributos da base de dados, também é algo importante a ser considerado, pois 
quanto maior a distância melhor é a relação interna dos elementos de cada grupo, e melhor é a 
distinção dos grupos.
Pergunta 6
Após a definição do modelo, o mesmo deve ser testado de forma que seja colocado à prova, para 
que se possa compreender: o que deu errado, o porquê e como validar o processo. Com a validação 
efetivada o modelo é implementado lembrando que, deve haver uma documentação técnica 
montada até o momento que deve ser seguida a risca.
 
Levando em consideração o processo de validação, , analise as afirmativas a seguir:
 
I) Ao criar o modelo deve ser analisado o que deu errado, o porquê e como deve ser validado
II) Um dos motivos a ocorrência de erros está em se tratar como irrelevante padrões que podem ser 
generalizados
III) A identificação de padrões que não generalizam, não pode ocorrer levando em consideração as 
regras da mineração de dados
IV) Nem sempre uma falha permite que seja possível ser realizado um estudo do que realmente a 
ocasionou
 
Está correto o que se afirma em:
 
Resposta Selecionada:
Correta I e II, apenas.
Resposta Correta:
Correta I e II, apenas.
Feedback da resposta:Resposta correta. A resposta está correta pois, Após a criação do modelo 
precisamos verificar basicamente, o que deu errado, o porquê e como validar? Geralmente o que dá 
errado é demonstrado em dois eventos na montagem do modelo o qual um deles é: Não identificar 
padrões relevantes que realmente estão presentes nos dados que poderiam ser generalizados.
Pergunta 7
A clusterização de dados ou agrupamento, na mineração de dados é uma técnica com dados 
multivariados que tem como principal objetivo agrupar automaticamente através de aprendizado 
supervisionado ou não em N bases de dados com K grupos.
 
A partir do apresentado, analise afirmativas a seguir.
 
Em mineração de dados sempre que se aplica a clusterização de dados, sempre se tem uma extensa 
base de dados
O valor K, que corresponde a quantidade de clusters existentes sempre é automático quando 
envolve associação
A obtenção do elemento K (total de clusters) não se envolve diretamente com a solução do 
problema em si.
Todos os clusters formados devem possuir uma alta similaridade ao mesmo tempos que entre 
diferentesclusters deve ser o inverso
 
É correto o que se afirma em:
 
Resposta Selecionada:
Correta I e IV, apenas.
Resposta Correta:
Correta I e IV, apenas.
Feedback da resposta:Resposta correta. A resposta está correta pois, na clusterização o principal 
problema encontrado no entanto não vem a ser o volume de dados, sempre recorrente, porém é fazer
com que a similaridade alta entre os elementos de um determinado agrupamento não tenha tenha a 
mesma situação com elementos em outros clusters.
Pergunta 8
Leia o excerto a seguir:
“Os algoritmos de agrupamento hierárquico podem ser aglomerativos ou divisivos.
No agrupamento hierárquico aglomerativo, inicialmente cada documento pertence a um grupo e, em
cada iteração, os pares de grupos mais próximos são unidos até se formar um único grupo.”
 
REZENDE, S.O.;MARCACINI, R.M.;MOURA, M.F.; O uso da Mineração de Textos para 
Extração e Organização Não Supervisionada de Conhecimento. Revista de Sistemas de Informação 
da FSMA. ICMC-USP. 2011. p.12. Disponível em: < 
http://www.fsma.edu.br/si/edicao7/FSMA_SI_2011_1_Principal_3.pdf > Acesso em: 01 Jan. 2020.
 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
 
I. Um agrupamento hierárquico aglomerativo, ocorre quando os pares (documentos) formam um 
único grupo
II. Tanto a hierarquia divisiva quanto aglomerativa resultam em uma árvore binária denominada 
dendrograma
III. No agrupamento a junção é somente na iteração inicial sendo improcedente a mesma em outras 
iterações
IV. Um dendrograma é formado quando um grupo com todos os documentos de dividem em grupos
 
A seguir, assinale a alternativa correta:
 
Resposta Selecionada:
Correta I e II, apenas.
Resposta Correta:
Correta I e II, apenas.
Feedback da resposta:Resposta correta. A resposta está correta pois, ao ser aglomerativo, ocorre 
quando cada documento pertence a um grupo, e em cada junção os pares próximos se unem até que 
no fim formam um único grupo. Tanto o hierárquico divisivo quanto o aglomerativo resultam em 
uma árvore binária denominada Dendrograma
Pergunta 9
Leia o excerto a seguir:
 “O diferencial deste algoritmo[apriori] está na criação dos itemsets candidatos usando a 
propriedade anti-monotonicity que garante que, se um conjunto de itens não for frequente, então 
todos os seus super conjuntos também não são frequentes. Assim, o algoritmo aumenta seu 
desempenho, já que não perde tempo varrendo e analisando esses super conjuntos. ”
 
CASTRO, R.F.V.; Análise de desempenho dos algoritmos Apriori e Fuzzy Apriori na extração de 
regras de associação aplicados a um Sistema de Detecção de Intrusos . Dissertação para Mestrado. 
UERJ: Rio de Janeiro. 2014
 
A partir do apresentado, analise as asserções a seguir e marque a opção correta.
 
Resposta Selecionada:
Correta Na análise realizada pelo algoritmo um elemento N só pode ser considerado frequente se 
todos os seu N-1 forem frequentes
Resposta Correta:
Correta Na análise realizada pelo algoritmo um elemento N só pode ser considerado frequente
se todos os seu N-1 forem frequentes
Feedback da resposta:Resposta correta. A resposta está correta pois, Seguindo o princípio da 
antimonotonicidade de suporte, dentro de um algoritmo APRIORI, um k-itemset somente pode ser 
considerado frequente se todos os seus (n-1)-itemsets forem frequentes também.
Pergunta 10
Leia o excerto a seguir:
 
“Frequentemente, os dados são encontrados com diversas inconsistências: registros incompletos, 
valores errados e dados inconsistentes. A etapa de limpeza dos dados visa eliminar estes problemas 
de modo que eles não influem no resultado dos algoritmos usados. As técnicas usadas nesta etapa 
vão desde a remoção do registro com problemas, passando pela atribuição de valores padrões, até a 
aplicação de técnicas de agrupamento para auxiliar na descoberta dos melhores valores”
 
CAMILO, C.O.; SILVA, J.C.; Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas . 
Instituto de Informática da UFG: Goiás. 2009. p.6. Disponível em: < 
http://www.portal.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001-09.pdf > 
acesso em: 05 Jan. 2020.
 
Com base na citação proposta é correto afirmar que referente na execução da validação dos dados 
em um modelo:
 
 
Resposta Selecionada:
Correta Caso o problema encontrado seja na classificação dos dados, na regressão, o modelo precisa
ser avaliado com diferentes amostras
Resposta Correta:
Correta Caso o problema encontrado seja na classificação dos dados, na regressão, o modelo 
precisa ser avaliado com diferentes amostras
Feedback da resposta:Resposta correta. A resposta está correta pois, ao conseguir encontrar os erros 
e o porquê dos mesmo é necessário se fazer a validação. Caso o problema seja basicamente na 
classificação dos dados, na regressão, o modelo precisa ser estimado levando em consideração 
diferentes amostras.
Quarta-feira, 15 de Abril de 2020 19h26min11s BRT

Outros materiais