ATIVIDADE 4 - UNIDADE 4 - MINERAÇÃO DE DADOS - FMU

•

FMU

7

0

7

0

Leonardo Simon Rutzen

15/04/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Mineração de Dados

476 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Usuário
Curso GRA1433 MINERAÇÃO DE DADOS I EST201 - 202010.ead
Teste ATIVIDADE 4 (A4)
Iniciado
Enviado 15/04/20 19:26
Status Completada
Resultado da tentativa 9 em 10 pontos
Tempo decorrido
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários
Pergunta 1
Um modelo que deverá ser utilizado na mineração de dados corresponde ao processamento das
informações de entradas que submetidas a determinadas condições e algoritmos devem retornar
aquilo que foi definido como regras pelos analistas de negócio. Para que esse resultado seja
conforme o esperado, protótipos que realizam testes exaustivos devem ser realizados.

Em se tratando desses protótipos é correto afirmar que:

Resposta Selecionada:
Incorreta Na mineração de dados a prototipagem é definido como sendo a etapa mais trabalhosa de
forma errônea
Resposta Correta:
Correta Dois tipos de modelos podem ser desenvolvidos, o preditivo e o descritivo, ambos com
o propósito de analisar conceitos temporais
Feedback da resposta:Sua resposta está incorreta. A resposta está incorreta pois, o modelo preditivo
consiste em prever futuros cenários baseado na análise de padrões que auxiliam em tomadas de
decisão mais precisas, e o descritivo permite ao analista compreender os eventos em tempo real, não
emite julgamento no valor, mas o impacto passado e futuro, na mineração de dados tem-se como
mais trabalhosa a execução de plano erroneamente pois a prototipação se mostra como a mais
complexa, e por fim, o modelo gerado mesmo que na fase final sempre sofrerá modificações para
ser aperfeiçoado.
Pergunta 2
Leia o excerto a seguir:

“O algoritmo APRIORI basicamente se divide em duas etapas que são:
I) Encontrar todos os conjuntos de itens frequentes (que satisfazem à condição
de suporte mínimo).
II) A partir do conjunto de itens frequentes, gerar as regras de associação (que
satisfazem à condição de confiança mínima).”
GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático . Elsevier Editora Ltda:São Paulo,
2005. p.106
A partir do apresentado, analise as alternativas a seguir e marque a opção correta:

Resposta Selecionada:
Correta Os itens candidatos são definidos após a aceitação do suporte mínimo e o nível de confiança
aceitável.
Resposta Correta:
Correta Os itens candidatos são definidos após a aceitação do suporte mínimo e o nível de
confiança aceitável.
Feedback da resposta:Resposta correta. A resposta está correta pois, inicialmente ao definir a
utilização da técnica, deve ser definido os valores de suporte e confiança mínimas utilizadas pelo
algoritmo apriori para traçar as regras condizentes que definirão os itens candidatos.
Pergunta 3
A técnica de agrupamento hierárquico possui algoritmos que auxiliam na distribuição dos elementos
de formas distintas, cada uma conforme uma necessidade específica. Não sendo necessário assumir
um número particular de grupos, desde que o resultado esperado seja obtido ao final do processo.

Levando em consideração os distintos algoritmos existentes no agrupamento hierárquico é correto
afirmar que:

Resposta Selecionada:
Correta Single Linkage, é o algoritmo mais simples no agrupamento hierárquico fazendo ligação
entre os vizinhos próximos.
Resposta Correta:
Correta Single Linkage, é o algoritmo mais simples no agrupamento hierárquico fazendo
ligação entre os vizinhos próximos.
Feedback da resposta:Resposta correta. A resposta está correta pois, compõe o algoritmo mais
simples, sendo que faz a ligação utilizando como parâmetro o vizinho mais próximo (Nearest
Neighbor Technique), sendo que a distância entre dois grupos distintos é determinado pelo elemento
mais próximo.
Pergunta 4
A mineração de dados é a representação de diversos métodos e técnicas usados em diferentes
capacidades analíticas que forma modelos de negócio organizando diferentes níveis de entrada que
são organizadas pelos analistas de negócio formando assim modelos que poderão ser utilizados para
a tomada de decisão da empresa. Após inúmeros testes e validações a formação do modelo é
concluída para se chegar a determinadas decisões.

Neste sentido, é correto afirmar que:

Resposta Selecionada:
Correta Os parâmetros de entrada que irão compor o modelo precisa seguir critérios bem definidos
pelos analistas
Resposta Correta:
Correta Os parâmetros de entrada que irão compor o modelo precisa seguir critérios bem
definidos pelos analistas
Feedback da resposta:Resposta correta. A resposta está correta pois, a alimentação dos parâmetros
de entrada no modelo precisa ser criteriosa a fim de se chegar a resultados coerentes em
determinado problema. Por mais complexo que pareça não existe modelo certo ou errado, assim
como técnica mais correta, o que existe é se o uso que está sendo feito é o mais correto ou apresenta
um número extenso de falhas.
Pergunta 5
Leia o excerto a seguir:

“O dendrograma é um diagrama de árvore que exibe os grupos formados por agrupamento de
observações em cada passo e em seus níveis de similaridade. O nível de similaridade é medido ao
longo do eixo vertical (alternativamente, você pode exibir o nível de distância) e as diferentes
observações são listadas ao longo do eixo horizontal.”
DENDROGRAMA. Suporte ao minitab18, 2019. Disponível em: <encurtador.com.br/bjuGT>
Acesso em: 01 Jan. 2020.

A partir do apresentado, assinale a alternativa correta.

Resposta Selecionada:
Correta Quanto maior a distância entre os elementos do gráfico melhor se torna a distribuição entre
os grupos.
Resposta Correta:
Correta Quanto maior a distância entre os elementos do gráfico melhor se torna a distribuição
entre os grupos.
Feedback da resposta:Resposta correta. A resposta está correta pois, a distância entre os grupos
formados pelos atributos da base de dados, também é algo importante a ser considerado, pois
quanto maior a distância melhor é a relação interna dos elementos de cada grupo, e melhor é a
distinção dos grupos.
Pergunta 6
Após a definição do modelo, o mesmo deve ser testado de forma que seja colocado à prova, para
que se possa compreender: o que deu errado, o porquê e como validar o processo. Com a validação
efetivada o modelo é implementado lembrando que, deve haver uma documentação técnica
montada até o momento que deve ser seguida a risca.

Levando em consideração o processo de validação, , analise as afirmativas a seguir:

I) Ao criar o modelo deve ser analisado o que deu errado, o porquê e como deve ser validado
II) Um dos motivos a ocorrência de erros está em se tratar como irrelevante padrões que podem ser
generalizados
III) A identificação de padrões que não generalizam, não pode ocorrer levando em consideração as
regras da mineração de dados
IV) Nem sempre uma falha permite que seja possível ser realizado um estudo do que realmente a
ocasionou

Está correto o que se afirma em:

Resposta Selecionada:
Correta I e II, apenas.
Resposta Correta:
Correta I e II, apenas.
Feedback da resposta:Resposta correta. A resposta está correta pois, Após a criação do modelo
precisamos verificar basicamente, o que deu errado, o porquê e como validar? Geralmente o que dá
errado é demonstrado em dois eventos na montagem do modelo o qual um deles é: Não identificar
padrões relevantes que realmente estão presentes nos dados que poderiam ser generalizados.
Pergunta 7
A clusterização de dados ou agrupamento, na mineração de dados é uma técnica com dados
multivariados que tem como principal objetivo agrupar automaticamente através de aprendizado
supervisionado ou não em N bases de dados com K grupos.

A partir do apresentado, analise afirmativas a seguir.

Em mineração de dados sempre que se aplica a clusterização de dados, sempre se tem uma extensa
base de dados
O valor K, que corresponde a quantidade de clusters existentes sempre é automático quando
envolve associação
A obtenção do elemento K (total de clusters) não se envolve diretamente com a solução do
problema em si.
Todos os clusters formados devem possuir uma alta similaridade ao mesmo tempos que entre
diferentesclusters deve ser o inverso

É correto o que se afirma em:

Resposta Selecionada:
Correta I e IV, apenas.
Resposta Correta:
Correta I e IV, apenas.
Feedback da resposta:Resposta correta. A resposta está correta pois, na clusterização o principal
problema encontrado no entanto não vem a ser o volume de dados, sempre recorrente, porém é fazer
com que a similaridade alta entre os elementos de um determinado agrupamento não tenha tenha a
mesma situação com elementos em outros clusters.
Pergunta 8
Leia o excerto a seguir:
“Os algoritmos de agrupamento hierárquico podem ser aglomerativos ou divisivos.
No agrupamento hierárquico aglomerativo, inicialmente cada documento pertence a um grupo e, em
cada iteração, os pares de grupos mais próximos são unidos até se formar um único grupo.”

REZENDE, S.O.;MARCACINI, R.M.;MOURA, M.F.; O uso da Mineração de Textos para
Extração e Organização Não Supervisionada de Conhecimento. Revista de Sistemas de Informação
da FSMA. ICMC-USP. 2011. p.12. Disponível em: <
http://www.fsma.edu.br/si/edicao7/FSMA_SI_2011_1_Principal_3.pdf > Acesso em: 01 Jan. 2020.

A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

I. Um agrupamento hierárquico aglomerativo, ocorre quando os pares (documentos) formam um
único grupo
II. Tanto a hierarquia divisiva quanto aglomerativa resultam em uma árvore binária denominada
dendrograma
III. No agrupamento a junção é somente na iteração inicial sendo improcedente a mesma em outras
iterações
IV. Um dendrograma é formado quando um grupo com todos os documentos de dividem em grupos

A seguir, assinale a alternativa correta:

Resposta Selecionada:
Correta I e II, apenas.
Resposta Correta:
Correta I e II, apenas.
Feedback da resposta:Resposta correta. A resposta está correta pois, ao ser aglomerativo, ocorre
quando cada documento pertence a um grupo, e em cada junção os pares próximos se unem até que
no fim formam um único grupo. Tanto o hierárquico divisivo quanto o aglomerativo resultam em
uma árvore binária denominada Dendrograma
Pergunta 9
Leia o excerto a seguir:
“O diferencial deste algoritmo[apriori] está na criação dos itemsets candidatos usando a
propriedade anti-monotonicity que garante que, se um conjunto de itens não for frequente, então
todos os seus super conjuntos também não são frequentes. Assim, o algoritmo aumenta seu
desempenho, já que não perde tempo varrendo e analisando esses super conjuntos. ”

CASTRO, R.F.V.; Análise de desempenho dos algoritmos Apriori e Fuzzy Apriori na extração de
regras de associação aplicados a um Sistema de Detecção de Intrusos . Dissertação para Mestrado.
UERJ: Rio de Janeiro. 2014

A partir do apresentado, analise as asserções a seguir e marque a opção correta.

Resposta Selecionada:
Correta Na análise realizada pelo algoritmo um elemento N só pode ser considerado frequente se
todos os seu N-1 forem frequentes
Resposta Correta:
Correta Na análise realizada pelo algoritmo um elemento N só pode ser considerado frequente
se todos os seu N-1 forem frequentes
Feedback da resposta:Resposta correta. A resposta está correta pois, Seguindo o princípio da
antimonotonicidade de suporte, dentro de um algoritmo APRIORI, um k-itemset somente pode ser
considerado frequente se todos os seus (n-1)-itemsets forem frequentes também.
Pergunta 10
Leia o excerto a seguir:

“Frequentemente, os dados são encontrados com diversas inconsistências: registros incompletos,
valores errados e dados inconsistentes. A etapa de limpeza dos dados visa eliminar estes problemas
de modo que eles não influem no resultado dos algoritmos usados. As técnicas usadas nesta etapa
vão desde a remoção do registro com problemas, passando pela atribuição de valores padrões, até a
aplicação de técnicas de agrupamento para auxiliar na descoberta dos melhores valores”

CAMILO, C.O.; SILVA, J.C.; Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas .
Instituto de Informática da UFG: Goiás. 2009. p.6. Disponível em: <
http://www.portal.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001-09.pdf >
acesso em: 05 Jan. 2020.

Com base na citação proposta é correto afirmar que referente na execução da validação dos dados
em um modelo:

Resposta Selecionada:
Correta Caso o problema encontrado seja na classificação dos dados, na regressão, o modelo precisa
ser avaliado com diferentes amostras
Resposta Correta:
Correta Caso o problema encontrado seja na classificação dos dados, na regressão, o modelo
precisa ser avaliado com diferentes amostras
Feedback da resposta:Resposta correta. A resposta está correta pois, ao conseguir encontrar os erros
e o porquê dos mesmo é necessário se fazer a validação. Caso o problema seja basicamente na
classificação dos dados, na regressão, o modelo precisa ser estimado levando em consideração
diferentes amostras.
Quarta-feira, 15 de Abril de 2020 19h26min11s BRT