Buscar

ATIVIDADE 2 - UNIDADE 2 - MINERAÇÃO DE DADOS - FMU

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Curso GRA1433 MINERAÇÃO DE DADOS I EST201 - 202010
Teste ATIVIDADE 2 (A2)
Iniciado
Enviado 10/04/20 21:07
Status Completada
Resultado da 
tentativa
8 em 10 pontos  
Tempo decorrido
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários
• Pergunta 1
• 1 em 1 pontos
Com a obtenção dos padrões já filtrados e organizados, são utilizadas técnicas de visualização e algoritmos 
de geração da base de conhecimento. Tais técnicas incluem construção de regras, árvores de decisão, entre 
outros. Os algoritmos se dividem pela sua principal funcionalidade: classificação, associação e agrupamento.
 
Nesse sentido, assinale a alternativa correta:
Resposta 
Selecionada:
 
Na avaliação de padrões, realizar a descrição de classes a partir de 
dados fornecidos é denominado como classificação dos dados.
Resposta Correta:  
Na avaliação de padrões, realizar a descrição de classes a partir de 
dados fornecidos é denominado como classificação dos dados.
Feedback da 
resposta:
Resposta correta. A alternativa está correta, pois, para obter de padrões que
deverão ser passados para os algoritmos de obtenção do modelo de 
conhecimento, uma das etapas deve ser a classificação das classes, que é 
uma das definições utilizadas referenciando a atributos que tenham um fim 
semelhante.
• Pergunta 2
• 1 em 1 pontos
Definimos como séries temporais um conjunto de observações de fenômenos ordenados pelo tempo, como o
consumo de energia elétrica em uma residência, vendas de determinado produto registradas durante um ano
dentro do período de um mês em um estabelecimento varejista.
 
Levando em consideração tais características, é correto afirmar que:
Resposta 
Selecionada:
 
São consideradas ações temporais, movimentos de tendências 
indicando a motivação gerada no determinado período analisado.
Resposta Correta:  
São consideradas ações temporais, movimentos de tendências 
indicando a motivação gerada no determinado período analisado.
Feedback da 
resposta:
Resposta correta. A alternativa está correta, pois são consideradas como 
séries temporais movimentos cíclicos, situações que podem ou não ser 
periódicas, não necessariamente em intervalos de tempos iguais, 
movimentos sazonais, que ocorrem devido a eventos que se repetem de 
tempos em tempos e movimentos irregulares, influenciados por eventos que 
ocorrem aleatoriamente.
• Pergunta 3
• 1 em 1 pontos
A descoberta dos modelos de conhecimento nas bases de dados é o principal foco na mineração de dados. 
Dentre várias técnicas utilizadas para formação de modelos de conhecimento, temos a Descoberta de 
Conhecimento em Base de Dados (KDD) na qual podem ser verificadas técnicas de extração de informações
por meio de algoritmos.
 
Neste sentido, dentro da fase de pré-processamento dos dados, assinale a alternativa correta:
Resposta 
Selecionada:
 
A limpeza de dados consiste na remoção de erros existentes nos 
dados, falhas que podem afetar o resultado final.
Resposta Correta:  
A limpeza de dados consiste na remoção de erros existentes nos 
dados, falhas que podem afetar o resultado final.
Feedback da 
resposta:
Resposta correta. A alternativa está correta, pois o processo de mineração 
de dados é constituído de sete etapas: limpeza dos dados, integração dos 
dados, seleção dos dados, transformação dos dados, aplicação do algoritmo
de mineração de dados, avaliação dos padrões e representação do 
conhecimento adquirido.
• Pergunta 4
• 1 em 1 pontos
Consiste em um método popular de centralização de elementos por meio de um cluster que é dividido em N 
pontos cuja distância é próxima ao seu centro. Faz parte dos algoritmos de mineração de dados onde sua 
principal fundamentação é estatística. A quantidade de X partições é definida na entrada.
 
Nesse sentido, assinale a alternativa que indique qual é o método descrito:
Resposta Selecionada:  
K-média.
Resposta Correta:  
K-média.
Feedback da 
resposta:
Resposta correta. A alternativa está correta, pois é um dos métodos mais 
populares a se empregar na mineração de dados. Consiste basicamente em 
pegar a definição, como parâmetro de entrada, de K pontos de dados 
centrais dos clusters, em seguida cada registro do banco de dados é 
atribuído ao cluster cuja distância deste ponto em relação ao centro consiste 
na menor distância calculada entre os elementos.
• Pergunta 5
• 1 em 1 pontos
Regressão múltipla é uma coleção de técnicas estatísticas para construir modelos que descrevem de 
maneira razoável as relações entre as variáveis explicativas de um determinado processo. Ela deve seguir 
alguns procedimentos que são a definição de variáveis, desenho do gráfico de dispersão, montagem da 
equação e substituição dos dados.
 
Levando em consideração a definição de variáveis e o desenho do gráfico de dispersão, analise as 
afirmativas a seguir:
 
I. É importante verificar pesquisas semelhantes para a definição da variável dependente e das variáveis 
dependentes.
II. Quanto maior a dispersão mais forte é a correlação, o que demonstra a necessidade da variável 
independente.
III. O coeficiente de regressão está relacionado ao número de variáveis dependentes.
IV. Com as variáveis definidas, podemos gerar um gráfico demonstrando a dependência e a necessidade de 
manter a variável independente.
 
Está correto o que se afirma em:
Resposta Selecionada:  
I e IV, apenas.
Resposta Correta:  
I e IV, apenas.
Feedback da 
resposta:
Resposta correta. A alternativa está correta, pois em pesquisas deve-se 
verificar o que dizem outros autores que trabalham com temas semelhantes 
na mesma área do conhecimento e definir quais serão as variáveis ou 
atributos analisados, então é preciso definir qual será a variável dependente 
e quais serão as independentes. Com as variáveis definidas, podemos gerar 
um gráfico demonstrando a dependência e a necessidade de manter a 
variável independente.
• Pergunta 6
• 1 em 1 pontos
Sumarização consiste na identificação e classificação dos atributos do banco de dados, com base na 
similaridade entre registros em um conjunto de dados. Com isso, formamos classes de agrupamento dos 
dados pré-processados que ajudarão a mineração dos dados e, consequentemente, a formação do modelo 
de conhecimento.
 
Nesse sentido, assinale a afirmativa que faz referência à sumarização:
Resposta 
Selecionada:
 
A identificação para sumarização não é somente criar índices para os 
dados envolvidos, mas sim agrupar elementos com características 
concisas e compreensíveis.
Resposta Correta:  
A identificação para sumarização não é somente criar índices para os 
dados envolvidos, mas sim agrupar elementos com características 
concisas e compreensíveis.
Feedback da 
resposta:
Resposta correta. A alternativa está correta, pois a sumarização dos dados 
não é simplesmente a enumeração dos dados, mas sim a busca por 
geração das descrições que caracterizam resumidamente esses dados, 
permitindo uma possível comparação discriminatória dessas informações.
• Pergunta 7
• 0 em 1 pontos
O principal objetivo encontrado na mineração de dados está em transformar a base de conhecimento KDD 
em resposta para problemas fornecidos pelos analistas de negócio. Na mineração de dados em si, etapa que
vem após o pré-processamento dos dados, são utilizados algoritmos para resolver a problemática 
apresentada, sendo que a escolha do que utilizar dependerá da necessidade em si. Dentro do KDD temos 
uma função que vem para mapear os registros no banco de dados em um intervalo.
 
Nesse sentido, assinale a alternativa que indique essa função:
Resposta Selecionada:  
Redes neurais.
Resposta Correta:  
Regressão.
Feedback da 
resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois as redes 
neurais estão focadas em predição de resultados baseando-se em dados 
históricos, gráfico de dispersão e uma parte da RLM; mas em si não é um 
algoritmo como questionado, a discretização é a preparação dos dados para
mineração e o PCA também é uma preparação para a mineração.
• Pergunta 8
• 1 em 1 pontos
Leiao excerto a seguir:
 
“K-médias é um algoritmo de agrupamento de dados não-hierárquico que utiliza uma técnica iterativa para 
particionar um conjunto de dados. Ele foi proposto num trabalho pioneiro de S. Lloyd em 1957, contudo, só 
foi publicado no ano de 1982. Esse algoritmo busca minimizar a distância dos elementos de um conjunto de 
dados com k centros de forma iterativa”.
 
PALMA, L. F. Agrupamento de dados : k-médias. Cruz das almas: Universidade Federal do Recôncavo da 
Bahia, 2018. Disponível 
em: http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/
uploads/tcc/20190604200511_2018.2_TCC_Luann_Farias_Palma-
_Agrupamento_de_dados_-_K_medias.pdf . Acesso em: 17 dez. 2019.
 
Considerando o excerto apresentado, sobre o algoritmo K-média, analise as afirmativas a seguir:
 
I. Definimos como K (parâmetro de entrada) a quantidade máxima de divisões entre os grupos de elemento, 
não sendo fixo.
II. K-média consiste em receber como parâmetro de entrada o número de K
partições, a definição dos pontos centrais a partir das distâncias de similaridade entre os pontos.
III. Os valores resultantes do algoritmo decrescem de forma que não se tenha diferenças significativas nos 
valores de divisão de grupos de elementos.
IV. Uma das vantagens é a necessidade de estimar o número de grupos na inicialização, o que não permite 
certa imunidade a ruídos ou dados mal distribuídos.
 
Está correto o que se afirma em:
Resposta Selecionada:  
II e III, apenas.
Resposta Correta:  
II e III, apenas.
Feedback da 
resposta:
Resposta correta. A alternativa está correta, pois o único parâmetro de 
entrada define a quantidade de divisões dos elementos, e os valores 
resultantes decrescem de forma que não se tenha diferenças significativas 
nos valores Ci entre duas iterações na sequência dentro do algoritmo.
• Pergunta 9
http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/20190604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf
http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/20190604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf
http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/20190604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf
• 0 em 1 pontos
Com a obtenção dos padrões já filtrados e organizados, são utilizadas técnicas de visualização e algoritmos 
de geração da base de conhecimento. Tais técnicas incluem construção de regras, árvores de decisão, entre 
outros. Tudo para que ocorra a separação daqueles elementos que realmente tragam interesse ao objetivo 
traçado no processo.
 
Nesse sentido, assinale a alternativa que relacione às principais funcionalidades utilizadas nesses 
algoritmos:
Resposta 
Selecionada:
 
As duas principais vantagens em utilizar esses métodos estão na 
possibilidade dos elementos trocarem de grupo e utilizar conjunto de 
dados maiores.
Resposta Correta:  
A classificação realiza a descrição de classes a partir dos dados que são
fornecidos e, por fim, referencia atributos que tenham semelhança.
Feedback da
resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois constitui a 
associação entre atributos que ocorrem com frequência e possuem afinidade 
na geração dos resultados, mesmo que tais atributos sejam distintos entre si. 
Assim como é construído um número finito de grupos que são distribuídos 
com base em sua similaridade, sendo objetos distintos separados em grupos 
distintos. Por fim, no agrupamento avaliam-se os resultados esperados na 
interpretação dos resultados para utilizar os algoritmos de forma eficiente.
• Pergunta 10
• 1 em 1 pontos
Em uma equação linear múltipla utilizamos os resultados para prever a probabilidade de ocorrer determinado
evento. Por exemplo, podemos prever a chuva para amanhã em milímetros com base na pressão 
atmosférica e em resultados alcançados em outras ocasiões. Para isso, definimos o nível de acerto que 
esperamos, que geralmente gira em torno de 95%.
 
Baseando-se nesse conceito, sobre a equação RLM, analise as afirmativas a seguir:
 
I - Deve-se definir o nível de confiança com peso 1, por exemplo, 95% seria calculado com 1 - 0,95 = 0,05, 
que seria o nível de significância.
II - Caso o gráfico gerado seja uma reta, o percentual aceitável estaria disposto nas pontas.
III - O mínimo aceitável em relação ao nível de confiança é 50%, que seria o mínimo aceitável entre certo ou 
errado.
IV - A partir do momento que é definido 90% de confiança no resultado, os 10% restantes se dividem entre 
as extremidades com 5% composto de valores ignorados.
 
Está correto o que se afirma em:
Resposta Selecionada:  
I e IV, apenas.
Resposta Correta:  
I e IV, apenas.
Feedback da 
resposta:
Resposta correta. A alternativa está correta, pois o valor máximo utilizado na 
equação varia entre 0 e 1, ou seja, trabalhamos o percentual aceitável com 
peso 1 e realizamos a conta 1 (um) menos a porcentagem peso 1 (um). 
Assim, jogamos a diferença na cauda do gráfico, que por convenção sempre 
formará uma curva, com cauda presente nas duas pontas, que possuem os 
valores a serem ignorados.
Sexta-feira, 10 de Abril de 2020 21h07min20s BRT
	Pergunta 1
	Pergunta 2
	Pergunta 3
	Pergunta 4
	Pergunta 5
	Pergunta 6
	Pergunta 7
	Pergunta 8
	Pergunta 9
	Pergunta 10

Outros materiais