Baixe o app para aproveitar ainda mais
Prévia do material em texto
Curso GRA1433 MINERAÇÃO DE DADOS I EST201 - 202010 Teste ATIVIDADE 2 (A2) Iniciado Enviado 10/04/20 21:07 Status Completada Resultado da tentativa 8 em 10 pontos Tempo decorrido Resultados exibidos Respostas enviadas, Respostas corretas, Comentários • Pergunta 1 • 1 em 1 pontos Com a obtenção dos padrões já filtrados e organizados, são utilizadas técnicas de visualização e algoritmos de geração da base de conhecimento. Tais técnicas incluem construção de regras, árvores de decisão, entre outros. Os algoritmos se dividem pela sua principal funcionalidade: classificação, associação e agrupamento. Nesse sentido, assinale a alternativa correta: Resposta Selecionada: Na avaliação de padrões, realizar a descrição de classes a partir de dados fornecidos é denominado como classificação dos dados. Resposta Correta: Na avaliação de padrões, realizar a descrição de classes a partir de dados fornecidos é denominado como classificação dos dados. Feedback da resposta: Resposta correta. A alternativa está correta, pois, para obter de padrões que deverão ser passados para os algoritmos de obtenção do modelo de conhecimento, uma das etapas deve ser a classificação das classes, que é uma das definições utilizadas referenciando a atributos que tenham um fim semelhante. • Pergunta 2 • 1 em 1 pontos Definimos como séries temporais um conjunto de observações de fenômenos ordenados pelo tempo, como o consumo de energia elétrica em uma residência, vendas de determinado produto registradas durante um ano dentro do período de um mês em um estabelecimento varejista. Levando em consideração tais características, é correto afirmar que: Resposta Selecionada: São consideradas ações temporais, movimentos de tendências indicando a motivação gerada no determinado período analisado. Resposta Correta: São consideradas ações temporais, movimentos de tendências indicando a motivação gerada no determinado período analisado. Feedback da resposta: Resposta correta. A alternativa está correta, pois são consideradas como séries temporais movimentos cíclicos, situações que podem ou não ser periódicas, não necessariamente em intervalos de tempos iguais, movimentos sazonais, que ocorrem devido a eventos que se repetem de tempos em tempos e movimentos irregulares, influenciados por eventos que ocorrem aleatoriamente. • Pergunta 3 • 1 em 1 pontos A descoberta dos modelos de conhecimento nas bases de dados é o principal foco na mineração de dados. Dentre várias técnicas utilizadas para formação de modelos de conhecimento, temos a Descoberta de Conhecimento em Base de Dados (KDD) na qual podem ser verificadas técnicas de extração de informações por meio de algoritmos. Neste sentido, dentro da fase de pré-processamento dos dados, assinale a alternativa correta: Resposta Selecionada: A limpeza de dados consiste na remoção de erros existentes nos dados, falhas que podem afetar o resultado final. Resposta Correta: A limpeza de dados consiste na remoção de erros existentes nos dados, falhas que podem afetar o resultado final. Feedback da resposta: Resposta correta. A alternativa está correta, pois o processo de mineração de dados é constituído de sete etapas: limpeza dos dados, integração dos dados, seleção dos dados, transformação dos dados, aplicação do algoritmo de mineração de dados, avaliação dos padrões e representação do conhecimento adquirido. • Pergunta 4 • 1 em 1 pontos Consiste em um método popular de centralização de elementos por meio de um cluster que é dividido em N pontos cuja distância é próxima ao seu centro. Faz parte dos algoritmos de mineração de dados onde sua principal fundamentação é estatística. A quantidade de X partições é definida na entrada. Nesse sentido, assinale a alternativa que indique qual é o método descrito: Resposta Selecionada: K-média. Resposta Correta: K-média. Feedback da resposta: Resposta correta. A alternativa está correta, pois é um dos métodos mais populares a se empregar na mineração de dados. Consiste basicamente em pegar a definição, como parâmetro de entrada, de K pontos de dados centrais dos clusters, em seguida cada registro do banco de dados é atribuído ao cluster cuja distância deste ponto em relação ao centro consiste na menor distância calculada entre os elementos. • Pergunta 5 • 1 em 1 pontos Regressão múltipla é uma coleção de técnicas estatísticas para construir modelos que descrevem de maneira razoável as relações entre as variáveis explicativas de um determinado processo. Ela deve seguir alguns procedimentos que são a definição de variáveis, desenho do gráfico de dispersão, montagem da equação e substituição dos dados. Levando em consideração a definição de variáveis e o desenho do gráfico de dispersão, analise as afirmativas a seguir: I. É importante verificar pesquisas semelhantes para a definição da variável dependente e das variáveis dependentes. II. Quanto maior a dispersão mais forte é a correlação, o que demonstra a necessidade da variável independente. III. O coeficiente de regressão está relacionado ao número de variáveis dependentes. IV. Com as variáveis definidas, podemos gerar um gráfico demonstrando a dependência e a necessidade de manter a variável independente. Está correto o que se afirma em: Resposta Selecionada: I e IV, apenas. Resposta Correta: I e IV, apenas. Feedback da resposta: Resposta correta. A alternativa está correta, pois em pesquisas deve-se verificar o que dizem outros autores que trabalham com temas semelhantes na mesma área do conhecimento e definir quais serão as variáveis ou atributos analisados, então é preciso definir qual será a variável dependente e quais serão as independentes. Com as variáveis definidas, podemos gerar um gráfico demonstrando a dependência e a necessidade de manter a variável independente. • Pergunta 6 • 1 em 1 pontos Sumarização consiste na identificação e classificação dos atributos do banco de dados, com base na similaridade entre registros em um conjunto de dados. Com isso, formamos classes de agrupamento dos dados pré-processados que ajudarão a mineração dos dados e, consequentemente, a formação do modelo de conhecimento. Nesse sentido, assinale a afirmativa que faz referência à sumarização: Resposta Selecionada: A identificação para sumarização não é somente criar índices para os dados envolvidos, mas sim agrupar elementos com características concisas e compreensíveis. Resposta Correta: A identificação para sumarização não é somente criar índices para os dados envolvidos, mas sim agrupar elementos com características concisas e compreensíveis. Feedback da resposta: Resposta correta. A alternativa está correta, pois a sumarização dos dados não é simplesmente a enumeração dos dados, mas sim a busca por geração das descrições que caracterizam resumidamente esses dados, permitindo uma possível comparação discriminatória dessas informações. • Pergunta 7 • 0 em 1 pontos O principal objetivo encontrado na mineração de dados está em transformar a base de conhecimento KDD em resposta para problemas fornecidos pelos analistas de negócio. Na mineração de dados em si, etapa que vem após o pré-processamento dos dados, são utilizados algoritmos para resolver a problemática apresentada, sendo que a escolha do que utilizar dependerá da necessidade em si. Dentro do KDD temos uma função que vem para mapear os registros no banco de dados em um intervalo. Nesse sentido, assinale a alternativa que indique essa função: Resposta Selecionada: Redes neurais. Resposta Correta: Regressão. Feedback da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois as redes neurais estão focadas em predição de resultados baseando-se em dados históricos, gráfico de dispersão e uma parte da RLM; mas em si não é um algoritmo como questionado, a discretização é a preparação dos dados para mineração e o PCA também é uma preparação para a mineração. • Pergunta 8 • 1 em 1 pontos Leiao excerto a seguir: “K-médias é um algoritmo de agrupamento de dados não-hierárquico que utiliza uma técnica iterativa para particionar um conjunto de dados. Ele foi proposto num trabalho pioneiro de S. Lloyd em 1957, contudo, só foi publicado no ano de 1982. Esse algoritmo busca minimizar a distância dos elementos de um conjunto de dados com k centros de forma iterativa”. PALMA, L. F. Agrupamento de dados : k-médias. Cruz das almas: Universidade Federal do Recôncavo da Bahia, 2018. Disponível em: http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/ uploads/tcc/20190604200511_2018.2_TCC_Luann_Farias_Palma- _Agrupamento_de_dados_-_K_medias.pdf . Acesso em: 17 dez. 2019. Considerando o excerto apresentado, sobre o algoritmo K-média, analise as afirmativas a seguir: I. Definimos como K (parâmetro de entrada) a quantidade máxima de divisões entre os grupos de elemento, não sendo fixo. II. K-média consiste em receber como parâmetro de entrada o número de K partições, a definição dos pontos centrais a partir das distâncias de similaridade entre os pontos. III. Os valores resultantes do algoritmo decrescem de forma que não se tenha diferenças significativas nos valores de divisão de grupos de elementos. IV. Uma das vantagens é a necessidade de estimar o número de grupos na inicialização, o que não permite certa imunidade a ruídos ou dados mal distribuídos. Está correto o que se afirma em: Resposta Selecionada: II e III, apenas. Resposta Correta: II e III, apenas. Feedback da resposta: Resposta correta. A alternativa está correta, pois o único parâmetro de entrada define a quantidade de divisões dos elementos, e os valores resultantes decrescem de forma que não se tenha diferenças significativas nos valores Ci entre duas iterações na sequência dentro do algoritmo. • Pergunta 9 http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/20190604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/20190604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/20190604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf • 0 em 1 pontos Com a obtenção dos padrões já filtrados e organizados, são utilizadas técnicas de visualização e algoritmos de geração da base de conhecimento. Tais técnicas incluem construção de regras, árvores de decisão, entre outros. Tudo para que ocorra a separação daqueles elementos que realmente tragam interesse ao objetivo traçado no processo. Nesse sentido, assinale a alternativa que relacione às principais funcionalidades utilizadas nesses algoritmos: Resposta Selecionada: As duas principais vantagens em utilizar esses métodos estão na possibilidade dos elementos trocarem de grupo e utilizar conjunto de dados maiores. Resposta Correta: A classificação realiza a descrição de classes a partir dos dados que são fornecidos e, por fim, referencia atributos que tenham semelhança. Feedback da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois constitui a associação entre atributos que ocorrem com frequência e possuem afinidade na geração dos resultados, mesmo que tais atributos sejam distintos entre si. Assim como é construído um número finito de grupos que são distribuídos com base em sua similaridade, sendo objetos distintos separados em grupos distintos. Por fim, no agrupamento avaliam-se os resultados esperados na interpretação dos resultados para utilizar os algoritmos de forma eficiente. • Pergunta 10 • 1 em 1 pontos Em uma equação linear múltipla utilizamos os resultados para prever a probabilidade de ocorrer determinado evento. Por exemplo, podemos prever a chuva para amanhã em milímetros com base na pressão atmosférica e em resultados alcançados em outras ocasiões. Para isso, definimos o nível de acerto que esperamos, que geralmente gira em torno de 95%. Baseando-se nesse conceito, sobre a equação RLM, analise as afirmativas a seguir: I - Deve-se definir o nível de confiança com peso 1, por exemplo, 95% seria calculado com 1 - 0,95 = 0,05, que seria o nível de significância. II - Caso o gráfico gerado seja uma reta, o percentual aceitável estaria disposto nas pontas. III - O mínimo aceitável em relação ao nível de confiança é 50%, que seria o mínimo aceitável entre certo ou errado. IV - A partir do momento que é definido 90% de confiança no resultado, os 10% restantes se dividem entre as extremidades com 5% composto de valores ignorados. Está correto o que se afirma em: Resposta Selecionada: I e IV, apenas. Resposta Correta: I e IV, apenas. Feedback da resposta: Resposta correta. A alternativa está correta, pois o valor máximo utilizado na equação varia entre 0 e 1, ou seja, trabalhamos o percentual aceitável com peso 1 e realizamos a conta 1 (um) menos a porcentagem peso 1 (um). Assim, jogamos a diferença na cauda do gráfico, que por convenção sempre formará uma curva, com cauda presente nas duas pontas, que possuem os valores a serem ignorados. Sexta-feira, 10 de Abril de 2020 21h07min20s BRT Pergunta 1 Pergunta 2 Pergunta 3 Pergunta 4 Pergunta 5 Pergunta 6 Pergunta 7 Pergunta 8 Pergunta 9 Pergunta 10
Compartilhar