A2 MINERAÇÃO DE DADOS

•

UFPR

1

0

1

0

Amanda Zanluca

24/06/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Mineração de Dados

476 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Pergunta 1
1 em 1 pontos

O principal objetivo encontrado na mineração de dados está em transformar a base de
conhecimento KDD em resposta para problemas fornecidos pelos analistas de negócio. Na
mineração de dados em si, etapa que vem após o pré-processamento dos dados, são utilizados
algoritmos para resolver a problemática apresentada, sendo que a escolha do que utilizar
dependerá da necessidade em si. Dentro do KDD temos uma função que vem para mapear os
registros no banco de dados em um intervalo.

Nesse sentido, assinale a alternativa que indique essa função:
Resposta Selecionada:
Correta Regressão.
Resposta Correta:
Correta Regressão.
Comentário da resposta: Resposta correta. A alternativa está correta, pois a regressão
linear é utilizada agrupando elementos independentes dentro de uma problemática, que é a
variável dependente formando, dessa forma, o mapeamento em uma classe analisável com
base em um nível de confiança no resultado final.
Pergunta 2
0 em 1 pontos

Podemos classificar os métodos de discretização em 5 (cinco) abordagens para sua execução:
supervisionado ou não supervisionado, dinâmico ou estático, local ou global, top-down
ou bottom-up , direto ou incremental; os quais levam em consideração as faixas contínuas que
serão divididas pela sua largura e frequência.

Levando em consideração tais abordagens, analise as afirmativas a seguir e assinale V para a(s)
verdadeira(s) e F para a(s) falsa(s).

I. ( ) O método pode ser local ou global, no qual se utiliza de um subconjunto de instâncias ou
conjuntos inteiros de dados.
II. ( ) O método supervisionado considera as faixas contínuas a serem divididas pela largura ou
frequência.
III. ( ) O método direto divide a faixa em vários intervalos de forma simultânea.
IV. ( ) Os métodos top-down se iniciam de uma lista cut-points vazia e inserem novas listas
pelos intervalos divididos pela discretização.

Assinale a alternativa que apresenta a sequência correta:
Resposta Selecionada:
Incorreta F, F, V, V.
Resposta Correta:
Correta V, F, V, V.
Comentário da resposta: Sua resposta está incorreta. A sequência está incorreta, pois os
métodos supervisionados consideram a informação do atributo de classe, inversamente ao
não supervisionado, que considera as faixas contínuas a serem divididas pela largura ou
frequência.
Pergunta 3
1 em 1 pontos

A discretização envolve a manipulação dos dados de forma que se comportem mais
adequadamente com o requerido pelos algoritmos de mineração de dados por meio da divisão
em partes de menor complexidade; com o intuito de o processo se tornar mais eficiente na
geração dos modelos de conhecimento.

Nesse sentido, podemos afirmar que:
Resposta Selecionada:
Correta O processo de discretização deve passar por 4 (quatro) etapas: classificação, seleção
de cut-point, divisão e parada.
Resposta Correta:
Correta O processo de discretização deve passar por 4 (quatro) etapas: classificação, seleção
de cut-point, divisão e parada.
Comentário da resposta: Resposta correta. A alternativa está correta, pois o processo de
discretização deve passar por quatro etapas que devem ser a classificação dos atributos a
serem discretizados, cut-point obedecendo às regras de tamanho das partes, divisão que avalia
os cut-points e por fim a parada do processo que pode ser definida pelo usuário ou pela
quantidade de cut-points definido.
Pergunta 4
1 em 1 pontos

O Teorema de Bayes está relacionado ao cálculo de probabilidade condicional e é aplicável em
tarefas de classificação na mineração de dados. Sua aplicação se estende às áreas como
finanças, saúde, desenvolvimento de jogos, entre outras. Por ser robusto, é uma ótima opção
para resolução em tempo real.

A respeito do contexto apresentado, analise as afirmativas a seguir e assinale V para a(s)
verdadeira(s) e F para a(s) falsa(s).

I. ( ) O classificador bayesiano traz a ideia de verificar, dentro do percentual positivo de um
teste, o que realmente é válido e o que é um falso cognato.
II. ( ) O classificador é frequentemente utilizado quando os atributos são dependentes entre
si.
III. ( ) O algoritmo tem sua usabilidade muito relacionada a números, tanto inteiros quanto
reais.
IV. ( ) Para a realização de um diagnóstico de imagens referente a tendências de posteriores
surgimentos da doença, o melhor algoritmo seria o classificador bayesiano.

Assinale a alternativa que apresenta a sequência correta:
Resposta Selecionada:
Correta V, F, F, V.
Resposta Correta:
Correta V, F, F, V.
Comentário da resposta: Resposta correta. A sequência está correta, pois o classificador
vem como opção de avaliar o resultado de um teste e a probabilidade de que seja realmente
verdadeiro, e ele tem um melhor desempenho, para análises de imagens médicas, assim como
para processamento de linguagem natural por ser um algoritmo mais robusto.
Pergunta 5
0 em 1 pontos

Na fase de mineração dos dados pelo KDD (fase de descoberta do conhecimento) existe a
composição de tarefas primárias que tem por objetivo a estruturação dos dados para a
realização do processo de descoberta de conhecimento, que precisa ser potencialmente útil e
compreensível.

Neste sentido, assinale a alternativa que trate a respeito dessas etapas:
Resposta Selecionada:
Incorreta Discretização dos dados supervisionada consiste em organização dos dados em faixas
contínuas divididas pela largura e frequência.
Resposta Correta:
Correta No método PCA convertemos a um novo conjunto de dados menor que o original, para
serem utilizados em outras técnicas de análise.
Comentário da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois
os métodos supervisionados consideram a informação do atributo de classe, não a organização
dos dados em si. A definição de variáveis na RLM consiste nos atributos que serão analisados
sozinhos, a intenção da sumarização é tornar mais simples a catalogação dos elementos
essenciais no processo e, por fim, a RLM é útil quando uma única variável dependente de se
relacionar com duas ou mais variáveis independentes.
Pergunta 6
1 em 1 pontos

A discretização de dados é uma tarefa importante na mineração de dados quando é necessário
facilitar a busca de determinadas informações. A discretização consiste na divisão do todo em
partes com menor complexidade, a fim de facilitar a formação do modelo de conhecimento.

Nesse sentido, assinale a alternativa correta:
Resposta Selecionada:
Correta Com a necessidade do tempo que determinada pessoa é cliente, por vezes o ideal é
discretizar a data de cadastro e anos.
Resposta Correta:
Correta Com a necessidade do tempo que determinada pessoa é cliente, por vezes o ideal é
discretizar a data de cadastro e anos.
Comentário da resposta: Resposta correta. A alternativa está correta, pois a
discretização consiste em pegar os dados e realizar o processo facilitador para realizar a
mineração dos dados, e isso ocorre ao dividir o todo em partes com nível menor de
complexidade, a fim de facilitar a formação da base de conhecimento.
Pergunta 7
1 em 1 pontos

Os mapas auto-organizáveis, ou mapas de Kohonen, são formados por um número finito e
predeterminado de nós dispostos de formas variadas, como um quadrado. Cada nó se conecta
a vetores de entrada que constituem o conjunto de treinamento do algoritmo, trabalhando
apenas com valores numéricos.

Nesse sentido, assinale a alternativa que apresente as características dos mapas auto-
organizáveis:
Resposta Selecionada:
Correta Os pesos definidos para os algoritmos de mineração precisam inicializar de forma
distribuída em relação à densidade dos vetores de entrada.
Resposta Correta:
Correta Os pesos definidos para os algoritmos de mineração precisam inicializar de forma
distribuída emrelação à densidade dos vetores de entrada.
Comentário da resposta: Resposta correta. A alternativa está correta, pois cada nó se
conecta a vetores de entrada, que constituem o conjunto de treinamento do algoritmo. Pois o
algoritmo de treinamento por convenção trabalha apenas com valores numéricos, o que acaba
limitando sua utilização.
Pergunta 8
1 em 1 pontos

Consiste em um método popular de centralização de elementos por meio de um cluster que é
dividido em N pontos cuja distância é próxima ao seu centro. Faz parte dos algoritmos de
mineração de dados onde sua principal fundamentação é estatística. A quantidade de X
partições é definida na entrada.

Nesse sentido, assinale a alternativa que indique qual é o método descrito:
Resposta Selecionada:
Correta K-média.
Resposta Correta:
Correta K-média.
Comentário da resposta: Resposta correta. A alternativa está correta, pois é um dos
métodos mais populares a se empregar na mineração de dados. Consiste basicamente em
pegar a definição, como parâmetro de entrada, de K pontos de dados centrais dos clusters, em
seguida cada registro do banco de dados é atribuído ao cluster cuja distância deste ponto em
relação ao centro consiste na menor distância calculada entre os elementos.
Pergunta 9
1 em 1 pontos

Leia o excerto a seguir:

“K-médias é um algoritmo de agrupamento de dados não-hierárquico que utiliza uma técnica
iterativa para particionar um conjunto de dados. Ele foi proposto num trabalho pioneiro de S.
Lloyd em 1957, contudo, só foi publicado no ano de 1982. Esse algoritmo busca minimizar a
distância dos elementos de um conjunto de dados com k centros de forma iterativa”.

PALMA, L. F. Agrupamento de dados : k-médias. Cruz das almas: Universidade Federal do
Recôncavo da Bahia, 2018. Disponível em:
http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/20
190604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf .
Acesso em: 17 dez. 2019.

Considerando o excerto apresentado, sobre o algoritmo K-média, analise as afirmativas a
seguir:

I. Definimos como K (parâmetro de entrada) a quantidade máxima de divisões entre os grupos
de elemento, não sendo fixo.
II. K-média consiste em receber como parâmetro de entrada o número de K
partições, a definição dos pontos centrais a partir das distâncias de similaridade entre os
pontos.
III. Os valores resultantes do algoritmo decrescem de forma que não se tenha diferenças
significativas nos valores de divisão de grupos de elementos.
IV. Uma das vantagens é a necessidade de estimar o número de grupos na inicialização, o que
não permite certa imunidade a ruídos ou dados mal distribuídos.

Está correto o que se afirma em:
Resposta Selecionada:
Correta II e III, apenas.
Resposta Correta:
Correta II e III, apenas.
Comentário da resposta: Resposta correta. A alternativa está correta, pois o único
parâmetro de entrada define a quantidade de divisões dos elementos, e os valores resultantes
decrescem de forma que não se tenha diferenças significativas nos valores Ci entre duas
iterações na sequência dentro do algoritmo.
Pergunta 10
1 em 1 pontos

Em uma equação linear múltipla utilizamos os resultados para prever a probabilidade de
ocorrer determinado evento. Por exemplo, podemos prever a chuva para amanhã em
milímetros com base na pressão atmosférica e em resultados alcançados em outras ocasiões.
Para isso, definimos o nível de acerto que esperamos, que geralmente gira em torno de 95%.

Baseando-se nesse conceito, sobre a equação RLM, analise as afirmativas a seguir:

I - Deve-se definir o nível de confiança com peso 1, por exemplo, 95% seria calculado com 1 -
0,95 = 0,05, que seria o nível de significância.
II - Caso o gráfico gerado seja uma reta, o percentual aceitável estaria disposto nas pontas.
III - O mínimo aceitável em relação ao nível de confiança é 50%, que seria o mínimo aceitável
entre certo ou errado.
IV - A partir do momento que é definido 90% de confiança no resultado, os 10% restantes se
dividem entre as extremidades com 5% composto de valores ignorados.

Está correto o que se afirma em:
Resposta Selecionada:
Correta I e IV, apenas.
Resposta Correta:
Correta I e IV, apenas.
Comentário da resposta: Resposta correta. A alternativa está correta, pois o valor
máximo utilizado na equação varia entre 0 e 1, ou seja, trabalhamos o percentual aceitável
com peso 1 e realizamos a conta 1 (um) menos a porcentagem peso 1 (um). Assim, jogamos a
diferença na cauda do gráfico, que por convenção sempre formará uma curva, com cauda
presente nas duas pontas, que possuem os valores a serem ignorados.
Quinta-feira, 24 de Junho de 2021 20h49min55s BRT