Baixe o app para aproveitar ainda mais
Prévia do material em texto
Usuário Curso GRA1433 MINERAÇÃO DE DADOS I EST201 - 202010.ead Teste ATIVIDADE 4 (A4) Iniciado Enviado 15/04/20 19:26 Status Completada Resultado da tentativa 9 em 10 pontos Tempo decorrido Resultados exibidos Respostas enviadas, Respostas corretas, Comentários Pergunta 1 Um modelo que deverá ser utilizado na mineração de dados corresponde ao processamento das informações de entradas que submetidas a determinadas condições e algoritmos devem retornar aquilo que foi definido como regras pelos analistas de negócio. Para que esse resultado seja conforme o esperado, protótipos que realizam testes exaustivos devem ser realizados. Em se tratando desses protótipos é correto afirmar que: Resposta Selecionada: Incorreta Na mineração de dados a prototipagem é definido como sendo a etapa mais trabalhosa de forma errônea Resposta Correta: Correta Dois tipos de modelos podem ser desenvolvidos, o preditivo e o descritivo, ambos com o propósito de analisar conceitos temporais Feedback da resposta:Sua resposta está incorreta. A resposta está incorreta pois, o modelo preditivo consiste em prever futuros cenários baseado na análise de padrões que auxiliam em tomadas de decisão mais precisas, e o descritivo permite ao analista compreender os eventos em tempo real, não emite julgamento no valor, mas o impacto passado e futuro, na mineração de dados tem-se como mais trabalhosa a execução de plano erroneamente pois a prototipação se mostra como a mais complexa, e por fim, o modelo gerado mesmo que na fase final sempre sofrerá modificações para ser aperfeiçoado. Pergunta 2 Leia o excerto a seguir: “O algoritmo APRIORI basicamente se divide em duas etapas que são: I) Encontrar todos os conjuntos de itens frequentes (que satisfazem à condição de suporte mínimo). II) A partir do conjunto de itens frequentes, gerar as regras de associação (que satisfazem à condição de confiança mínima).” GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático . Elsevier Editora Ltda:São Paulo, 2005. p.106 A partir do apresentado, analise as alternativas a seguir e marque a opção correta: Resposta Selecionada: Correta Os itens candidatos são definidos após a aceitação do suporte mínimo e o nível de confiança aceitável. Resposta Correta: Correta Os itens candidatos são definidos após a aceitação do suporte mínimo e o nível de confiança aceitável. Feedback da resposta:Resposta correta. A resposta está correta pois, inicialmente ao definir a utilização da técnica, deve ser definido os valores de suporte e confiança mínimas utilizadas pelo algoritmo apriori para traçar as regras condizentes que definirão os itens candidatos. Pergunta 3 A técnica de agrupamento hierárquico possui algoritmos que auxiliam na distribuição dos elementos de formas distintas, cada uma conforme uma necessidade específica. Não sendo necessário assumir um número particular de grupos, desde que o resultado esperado seja obtido ao final do processo. Levando em consideração os distintos algoritmos existentes no agrupamento hierárquico é correto afirmar que: Resposta Selecionada: Correta Single Linkage, é o algoritmo mais simples no agrupamento hierárquico fazendo ligação entre os vizinhos próximos. Resposta Correta: Correta Single Linkage, é o algoritmo mais simples no agrupamento hierárquico fazendo ligação entre os vizinhos próximos. Feedback da resposta:Resposta correta. A resposta está correta pois, compõe o algoritmo mais simples, sendo que faz a ligação utilizando como parâmetro o vizinho mais próximo (Nearest Neighbor Technique), sendo que a distância entre dois grupos distintos é determinado pelo elemento mais próximo. Pergunta 4 A mineração de dados é a representação de diversos métodos e técnicas usados em diferentes capacidades analíticas que forma modelos de negócio organizando diferentes níveis de entrada que são organizadas pelos analistas de negócio formando assim modelos que poderão ser utilizados para a tomada de decisão da empresa. Após inúmeros testes e validações a formação do modelo é concluída para se chegar a determinadas decisões. Neste sentido, é correto afirmar que: Resposta Selecionada: Correta Os parâmetros de entrada que irão compor o modelo precisa seguir critérios bem definidos pelos analistas Resposta Correta: Correta Os parâmetros de entrada que irão compor o modelo precisa seguir critérios bem definidos pelos analistas Feedback da resposta:Resposta correta. A resposta está correta pois, a alimentação dos parâmetros de entrada no modelo precisa ser criteriosa a fim de se chegar a resultados coerentes em determinado problema. Por mais complexo que pareça não existe modelo certo ou errado, assim como técnica mais correta, o que existe é se o uso que está sendo feito é o mais correto ou apresenta um número extenso de falhas. Pergunta 5 Leia o excerto a seguir: “O dendrograma é um diagrama de árvore que exibe os grupos formados por agrupamento de observações em cada passo e em seus níveis de similaridade. O nível de similaridade é medido ao longo do eixo vertical (alternativamente, você pode exibir o nível de distância) e as diferentes observações são listadas ao longo do eixo horizontal.” DENDROGRAMA. Suporte ao minitab18, 2019. Disponível em: <encurtador.com.br/bjuGT> Acesso em: 01 Jan. 2020. A partir do apresentado, assinale a alternativa correta. Resposta Selecionada: Correta Quanto maior a distância entre os elementos do gráfico melhor se torna a distribuição entre os grupos. Resposta Correta: Correta Quanto maior a distância entre os elementos do gráfico melhor se torna a distribuição entre os grupos. Feedback da resposta:Resposta correta. A resposta está correta pois, a distância entre os grupos formados pelos atributos da base de dados, também é algo importante a ser considerado, pois quanto maior a distância melhor é a relação interna dos elementos de cada grupo, e melhor é a distinção dos grupos. Pergunta 6 Após a definição do modelo, o mesmo deve ser testado de forma que seja colocado à prova, para que se possa compreender: o que deu errado, o porquê e como validar o processo. Com a validação efetivada o modelo é implementado lembrando que, deve haver uma documentação técnica montada até o momento que deve ser seguida a risca. Levando em consideração o processo de validação, , analise as afirmativas a seguir: I) Ao criar o modelo deve ser analisado o que deu errado, o porquê e como deve ser validado II) Um dos motivos a ocorrência de erros está em se tratar como irrelevante padrões que podem ser generalizados III) A identificação de padrões que não generalizam, não pode ocorrer levando em consideração as regras da mineração de dados IV) Nem sempre uma falha permite que seja possível ser realizado um estudo do que realmente a ocasionou Está correto o que se afirma em: Resposta Selecionada: Correta I e II, apenas. Resposta Correta: Correta I e II, apenas. Feedback da resposta:Resposta correta. A resposta está correta pois, Após a criação do modelo precisamos verificar basicamente, o que deu errado, o porquê e como validar? Geralmente o que dá errado é demonstrado em dois eventos na montagem do modelo o qual um deles é: Não identificar padrões relevantes que realmente estão presentes nos dados que poderiam ser generalizados. Pergunta 7 A clusterização de dados ou agrupamento, na mineração de dados é uma técnica com dados multivariados que tem como principal objetivo agrupar automaticamente através de aprendizado supervisionado ou não em N bases de dados com K grupos. A partir do apresentado, analise afirmativas a seguir. Em mineração de dados sempre que se aplica a clusterização de dados, sempre se tem uma extensa base de dados O valor K, que corresponde a quantidade de clusters existentes sempre é automático quando envolve associação A obtenção do elemento K (total de clusters) não se envolve diretamente com a solução do problema em si. Todos os clusters formados devem possuir uma alta similaridade ao mesmo tempos que entre diferentesclusters deve ser o inverso É correto o que se afirma em: Resposta Selecionada: Correta I e IV, apenas. Resposta Correta: Correta I e IV, apenas. Feedback da resposta:Resposta correta. A resposta está correta pois, na clusterização o principal problema encontrado no entanto não vem a ser o volume de dados, sempre recorrente, porém é fazer com que a similaridade alta entre os elementos de um determinado agrupamento não tenha tenha a mesma situação com elementos em outros clusters. Pergunta 8 Leia o excerto a seguir: “Os algoritmos de agrupamento hierárquico podem ser aglomerativos ou divisivos. No agrupamento hierárquico aglomerativo, inicialmente cada documento pertence a um grupo e, em cada iteração, os pares de grupos mais próximos são unidos até se formar um único grupo.” REZENDE, S.O.;MARCACINI, R.M.;MOURA, M.F.; O uso da Mineração de Textos para Extração e Organização Não Supervisionada de Conhecimento. Revista de Sistemas de Informação da FSMA. ICMC-USP. 2011. p.12. Disponível em: < http://www.fsma.edu.br/si/edicao7/FSMA_SI_2011_1_Principal_3.pdf > Acesso em: 01 Jan. 2020. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Um agrupamento hierárquico aglomerativo, ocorre quando os pares (documentos) formam um único grupo II. Tanto a hierarquia divisiva quanto aglomerativa resultam em uma árvore binária denominada dendrograma III. No agrupamento a junção é somente na iteração inicial sendo improcedente a mesma em outras iterações IV. Um dendrograma é formado quando um grupo com todos os documentos de dividem em grupos A seguir, assinale a alternativa correta: Resposta Selecionada: Correta I e II, apenas. Resposta Correta: Correta I e II, apenas. Feedback da resposta:Resposta correta. A resposta está correta pois, ao ser aglomerativo, ocorre quando cada documento pertence a um grupo, e em cada junção os pares próximos se unem até que no fim formam um único grupo. Tanto o hierárquico divisivo quanto o aglomerativo resultam em uma árvore binária denominada Dendrograma Pergunta 9 Leia o excerto a seguir: “O diferencial deste algoritmo[apriori] está na criação dos itemsets candidatos usando a propriedade anti-monotonicity que garante que, se um conjunto de itens não for frequente, então todos os seus super conjuntos também não são frequentes. Assim, o algoritmo aumenta seu desempenho, já que não perde tempo varrendo e analisando esses super conjuntos. ” CASTRO, R.F.V.; Análise de desempenho dos algoritmos Apriori e Fuzzy Apriori na extração de regras de associação aplicados a um Sistema de Detecção de Intrusos . Dissertação para Mestrado. UERJ: Rio de Janeiro. 2014 A partir do apresentado, analise as asserções a seguir e marque a opção correta. Resposta Selecionada: Correta Na análise realizada pelo algoritmo um elemento N só pode ser considerado frequente se todos os seu N-1 forem frequentes Resposta Correta: Correta Na análise realizada pelo algoritmo um elemento N só pode ser considerado frequente se todos os seu N-1 forem frequentes Feedback da resposta:Resposta correta. A resposta está correta pois, Seguindo o princípio da antimonotonicidade de suporte, dentro de um algoritmo APRIORI, um k-itemset somente pode ser considerado frequente se todos os seus (n-1)-itemsets forem frequentes também. Pergunta 10 Leia o excerto a seguir: “Frequentemente, os dados são encontrados com diversas inconsistências: registros incompletos, valores errados e dados inconsistentes. A etapa de limpeza dos dados visa eliminar estes problemas de modo que eles não influem no resultado dos algoritmos usados. As técnicas usadas nesta etapa vão desde a remoção do registro com problemas, passando pela atribuição de valores padrões, até a aplicação de técnicas de agrupamento para auxiliar na descoberta dos melhores valores” CAMILO, C.O.; SILVA, J.C.; Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas . Instituto de Informática da UFG: Goiás. 2009. p.6. Disponível em: < http://www.portal.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001-09.pdf > acesso em: 05 Jan. 2020. Com base na citação proposta é correto afirmar que referente na execução da validação dos dados em um modelo: Resposta Selecionada: Correta Caso o problema encontrado seja na classificação dos dados, na regressão, o modelo precisa ser avaliado com diferentes amostras Resposta Correta: Correta Caso o problema encontrado seja na classificação dos dados, na regressão, o modelo precisa ser avaliado com diferentes amostras Feedback da resposta:Resposta correta. A resposta está correta pois, ao conseguir encontrar os erros e o porquê dos mesmo é necessário se fazer a validação. Caso o problema seja basicamente na classificação dos dados, na regressão, o modelo precisa ser estimado levando em consideração diferentes amostras. Quarta-feira, 15 de Abril de 2020 19h26min11s BRT
Compartilhar