Buscar

A2 MINERAÇÃO DE DADOS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Pergunta 1 
1 em 1 pontos 
 
O principal objetivo encontrado na mineração de dados está em transformar a base de 
conhecimento KDD em resposta para problemas fornecidos pelos analistas de negócio. Na 
mineração de dados em si, etapa que vem após o pré-processamento dos dados, são utilizados 
algoritmos para resolver a problemática apresentada, sendo que a escolha do que utilizar 
dependerá da necessidade em si. Dentro do KDD temos uma função que vem para mapear os 
registros no banco de dados em um intervalo. 
 
Nesse sentido, assinale a alternativa que indique essa função: 
Resposta Selecionada: 
Correta Regressão. 
Resposta Correta: 
Correta Regressão. 
Comentário da resposta: Resposta correta. A alternativa está correta, pois a regressão 
linear é utilizada agrupando elementos independentes dentro de uma problemática, que é a 
variável dependente formando, dessa forma, o mapeamento em uma classe analisável com 
base em um nível de confiança no resultado final. 
Pergunta 2 
0 em 1 pontos 
 
Podemos classificar os métodos de discretização em 5 (cinco) abordagens para sua execução: 
supervisionado ou não supervisionado, dinâmico ou estático, local ou global, top-down 
ou bottom-up , direto ou incremental; os quais levam em consideração as faixas contínuas que 
serão divididas pela sua largura e frequência. 
 
Levando em consideração tais abordagens, analise as afirmativas a seguir e assinale V para a(s) 
verdadeira(s) e F para a(s) falsa(s). 
 
I. ( ) O método pode ser local ou global, no qual se utiliza de um subconjunto de instâncias ou 
conjuntos inteiros de dados. 
II. ( ) O método supervisionado considera as faixas contínuas a serem divididas pela largura ou 
frequência. 
III. ( ) O método direto divide a faixa em vários intervalos de forma simultânea. 
IV. ( ) Os métodos top-down se iniciam de uma lista cut-points vazia e inserem novas listas 
pelos intervalos divididos pela discretização. 
 
Assinale a alternativa que apresenta a sequência correta: 
Resposta Selecionada: 
Incorreta F, F, V, V. 
Resposta Correta: 
Correta V, F, V, V. 
Comentário da resposta: Sua resposta está incorreta. A sequência está incorreta, pois os 
métodos supervisionados consideram a informação do atributo de classe, inversamente ao 
não supervisionado, que considera as faixas contínuas a serem divididas pela largura ou 
frequência. 
Pergunta 3 
1 em 1 pontos 
 
A discretização envolve a manipulação dos dados de forma que se comportem mais 
adequadamente com o requerido pelos algoritmos de mineração de dados por meio da divisão 
em partes de menor complexidade; com o intuito de o processo se tornar mais eficiente na 
geração dos modelos de conhecimento. 
 
Nesse sentido, podemos afirmar que: 
Resposta Selecionada: 
Correta O processo de discretização deve passar por 4 (quatro) etapas: classificação, seleção 
de cut-point, divisão e parada. 
Resposta Correta: 
Correta O processo de discretização deve passar por 4 (quatro) etapas: classificação, seleção 
de cut-point, divisão e parada. 
Comentário da resposta: Resposta correta. A alternativa está correta, pois o processo de 
discretização deve passar por quatro etapas que devem ser a classificação dos atributos a 
serem discretizados, cut-point obedecendo às regras de tamanho das partes, divisão que avalia 
os cut-points e por fim a parada do processo que pode ser definida pelo usuário ou pela 
quantidade de cut-points definido. 
Pergunta 4 
1 em 1 pontos 
 
O Teorema de Bayes está relacionado ao cálculo de probabilidade condicional e é aplicável em 
tarefas de classificação na mineração de dados. Sua aplicação se estende às áreas como 
finanças, saúde, desenvolvimento de jogos, entre outras. Por ser robusto, é uma ótima opção 
para resolução em tempo real. 
 
A respeito do contexto apresentado, analise as afirmativas a seguir e assinale V para a(s) 
verdadeira(s) e F para a(s) falsa(s). 
 
I. ( ) O classificador bayesiano traz a ideia de verificar, dentro do percentual positivo de um 
teste, o que realmente é válido e o que é um falso cognato. 
II. ( ) O classificador é frequentemente utilizado quando os atributos são dependentes entre 
si. 
III. ( ) O algoritmo tem sua usabilidade muito relacionada a números, tanto inteiros quanto 
reais. 
IV. ( ) Para a realização de um diagnóstico de imagens referente a tendências de posteriores 
surgimentos da doença, o melhor algoritmo seria o classificador bayesiano. 
 
Assinale a alternativa que apresenta a sequência correta: 
Resposta Selecionada: 
Correta V, F, F, V. 
Resposta Correta: 
Correta V, F, F, V. 
Comentário da resposta: Resposta correta. A sequência está correta, pois o classificador 
vem como opção de avaliar o resultado de um teste e a probabilidade de que seja realmente 
verdadeiro, e ele tem um melhor desempenho, para análises de imagens médicas, assim como 
para processamento de linguagem natural por ser um algoritmo mais robusto. 
Pergunta 5 
0 em 1 pontos 
 
Na fase de mineração dos dados pelo KDD (fase de descoberta do conhecimento) existe a 
composição de tarefas primárias que tem por objetivo a estruturação dos dados para a 
realização do processo de descoberta de conhecimento, que precisa ser potencialmente útil e 
compreensível. 
 
Neste sentido, assinale a alternativa que trate a respeito dessas etapas: 
Resposta Selecionada: 
Incorreta Discretização dos dados supervisionada consiste em organização dos dados em faixas 
contínuas divididas pela largura e frequência. 
Resposta Correta: 
Correta No método PCA convertemos a um novo conjunto de dados menor que o original, para 
serem utilizados em outras técnicas de análise. 
Comentário da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois 
os métodos supervisionados consideram a informação do atributo de classe, não a organização 
dos dados em si. A definição de variáveis na RLM consiste nos atributos que serão analisados 
sozinhos, a intenção da sumarização é tornar mais simples a catalogação dos elementos 
essenciais no processo e, por fim, a RLM é útil quando uma única variável dependente de se 
relacionar com duas ou mais variáveis independentes. 
Pergunta 6 
1 em 1 pontos 
 
A discretização de dados é uma tarefa importante na mineração de dados quando é necessário 
facilitar a busca de determinadas informações. A discretização consiste na divisão do todo em 
partes com menor complexidade, a fim de facilitar a formação do modelo de conhecimento. 
 
Nesse sentido, assinale a alternativa correta: 
Resposta Selecionada: 
Correta Com a necessidade do tempo que determinada pessoa é cliente, por vezes o ideal é 
discretizar a data de cadastro e anos. 
Resposta Correta: 
Correta Com a necessidade do tempo que determinada pessoa é cliente, por vezes o ideal é 
discretizar a data de cadastro e anos. 
Comentário da resposta: Resposta correta. A alternativa está correta, pois a 
discretização consiste em pegar os dados e realizar o processo facilitador para realizar a 
mineração dos dados, e isso ocorre ao dividir o todo em partes com nível menor de 
complexidade, a fim de facilitar a formação da base de conhecimento. 
Pergunta 7 
1 em 1 pontos 
 
Os mapas auto-organizáveis, ou mapas de Kohonen, são formados por um número finito e 
predeterminado de nós dispostos de formas variadas, como um quadrado. Cada nó se conecta 
a vetores de entrada que constituem o conjunto de treinamento do algoritmo, trabalhando 
apenas com valores numéricos. 
 
Nesse sentido, assinale a alternativa que apresente as características dos mapas auto-
organizáveis: 
Resposta Selecionada: 
Correta Os pesos definidos para os algoritmos de mineração precisam inicializar de forma 
distribuída em relação à densidade dos vetores de entrada. 
Resposta Correta: 
Correta Os pesos definidos para os algoritmos de mineração precisam inicializar de forma 
distribuída emrelação à densidade dos vetores de entrada. 
Comentário da resposta: Resposta correta. A alternativa está correta, pois cada nó se 
conecta a vetores de entrada, que constituem o conjunto de treinamento do algoritmo. Pois o 
algoritmo de treinamento por convenção trabalha apenas com valores numéricos, o que acaba 
limitando sua utilização. 
Pergunta 8 
1 em 1 pontos 
 
Consiste em um método popular de centralização de elementos por meio de um cluster que é 
dividido em N pontos cuja distância é próxima ao seu centro. Faz parte dos algoritmos de 
mineração de dados onde sua principal fundamentação é estatística. A quantidade de X 
partições é definida na entrada. 
 
Nesse sentido, assinale a alternativa que indique qual é o método descrito: 
Resposta Selecionada: 
Correta K-média. 
Resposta Correta: 
Correta K-média. 
Comentário da resposta: Resposta correta. A alternativa está correta, pois é um dos 
métodos mais populares a se empregar na mineração de dados. Consiste basicamente em 
pegar a definição, como parâmetro de entrada, de K pontos de dados centrais dos clusters, em 
seguida cada registro do banco de dados é atribuído ao cluster cuja distância deste ponto em 
relação ao centro consiste na menor distância calculada entre os elementos. 
Pergunta 9 
1 em 1 pontos 
 
Leia o excerto a seguir: 
 
“K-médias é um algoritmo de agrupamento de dados não-hierárquico que utiliza uma técnica 
iterativa para particionar um conjunto de dados. Ele foi proposto num trabalho pioneiro de S. 
Lloyd em 1957, contudo, só foi publicado no ano de 1982. Esse algoritmo busca minimizar a 
distância dos elementos de um conjunto de dados com k centros de forma iterativa”. 
 
PALMA, L. F. Agrupamento de dados : k-médias. Cruz das almas: Universidade Federal do 
Recôncavo da Bahia, 2018. Disponível em: 
http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/20
190604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf . 
Acesso em: 17 dez. 2019. 
 
Considerando o excerto apresentado, sobre o algoritmo K-média, analise as afirmativas a 
seguir: 
 
I. Definimos como K (parâmetro de entrada) a quantidade máxima de divisões entre os grupos 
de elemento, não sendo fixo. 
II. K-média consiste em receber como parâmetro de entrada o número de K 
partições, a definição dos pontos centrais a partir das distâncias de similaridade entre os 
pontos. 
III. Os valores resultantes do algoritmo decrescem de forma que não se tenha diferenças 
significativas nos valores de divisão de grupos de elementos. 
IV. Uma das vantagens é a necessidade de estimar o número de grupos na inicialização, o que 
não permite certa imunidade a ruídos ou dados mal distribuídos. 
 
Está correto o que se afirma em: 
Resposta Selecionada: 
Correta II e III, apenas. 
Resposta Correta: 
Correta II e III, apenas. 
Comentário da resposta: Resposta correta. A alternativa está correta, pois o único 
parâmetro de entrada define a quantidade de divisões dos elementos, e os valores resultantes 
decrescem de forma que não se tenha diferenças significativas nos valores Ci entre duas 
iterações na sequência dentro do algoritmo. 
Pergunta 10 
1 em 1 pontos 
 
Em uma equação linear múltipla utilizamos os resultados para prever a probabilidade de 
ocorrer determinado evento. Por exemplo, podemos prever a chuva para amanhã em 
milímetros com base na pressão atmosférica e em resultados alcançados em outras ocasiões. 
Para isso, definimos o nível de acerto que esperamos, que geralmente gira em torno de 95%. 
 
Baseando-se nesse conceito, sobre a equação RLM, analise as afirmativas a seguir: 
 
I - Deve-se definir o nível de confiança com peso 1, por exemplo, 95% seria calculado com 1 - 
0,95 = 0,05, que seria o nível de significância. 
II - Caso o gráfico gerado seja uma reta, o percentual aceitável estaria disposto nas pontas. 
III - O mínimo aceitável em relação ao nível de confiança é 50%, que seria o mínimo aceitável 
entre certo ou errado. 
IV - A partir do momento que é definido 90% de confiança no resultado, os 10% restantes se 
dividem entre as extremidades com 5% composto de valores ignorados. 
 
Está correto o que se afirma em: 
Resposta Selecionada: 
Correta I e IV, apenas. 
Resposta Correta: 
Correta I e IV, apenas. 
Comentário da resposta: Resposta correta. A alternativa está correta, pois o valor 
máximo utilizado na equação varia entre 0 e 1, ou seja, trabalhamos o percentual aceitável 
com peso 1 e realizamos a conta 1 (um) menos a porcentagem peso 1 (um). Assim, jogamos a 
diferença na cauda do gráfico, que por convenção sempre formará uma curva, com cauda 
presente nas duas pontas, que possuem os valores a serem ignorados. 
Quinta-feira, 24 de Junho de 2021 20h49min55s BRT

Outros materiais