Buscar

Atividade 02 - Mineração de dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

PERGUNTA 1
Os mapas auto-organizáveis, ou mapas de Kohonen, são formados por um número finito e predeterminado de nós dispostos de formas variadas, como um quadrado. Cada nó se conecta a vetores de entrada que constituem o conjunto de treinamento do algoritmo, trabalhando apenas com valores numéricos. 
Nesse sentido, assinale a alternativa que apresente as características dos mapas auto-organizáveis:
a) No mapa de Kohonen os neurônios da camada de saída se organizam de forma unidimensional.(Bidimensional)
b) A taxa de aprendizado com o passar do tempo aumentou, utilizando os mapas auto-organizáveis.
c) No mapa auto-organizável a atualização dos pesos no algoritmo é feita somente para o neurônio vencedor.
d) Os pesos definidos para os algoritmos de mineração precisam inicializar de forma distribuída em relação à densidade dos vetores de entrada.
e) Existe a necessidade de estimar o número de grupos na inicialização, o que não permite uma certa imunidade a ruídos.
PERGUNTA 2
Com a obtenção dos padrões já filtrados e organizados, são utilizadas técnicas de visualização e algoritmos de geração da base de conhecimento. Tais técnicas incluem construção de regras, árvores de decisão, entre outros. Os algoritmos se dividem pela sua principal funcionalidade: classificação, associação e agrupamento. 
Nesse sentido, assinale a alternativa correta:
a) As classes são estruturas individuais em si, correspondem a dados com características individuais que se mantêm isoladas.
b) A associação consiste em gerar grupos originados do banco de dados com objetivos semelhantes entre si.
c) O agrupamento constitui a associação de atributos que ocorrem com frequência e têm certa afinidade.
d) O algoritmo de mineração recebe como entrada os dados pós-processados e gera saídas padrões.
e) Na avaliação de padrões, realizar a descrição de classes a partir de dados fornecidos é denominado como classificação dos dados.
PERGUNTA 3
Sumarização consiste na identificação e classificação dos atributos do banco de dados, com base na similaridade entre registros em um conjunto de dados. Com isso, formamos classes de agrupamento dos dados pré-processados que ajudarão a mineração dos dados e, consequentemente, a formação do modelo de conhecimento. 
Nesse sentido, assinale a afirmativa que faz referência à sumarização:
a) A identificação para sumarização não é somente criar índices para os dados envolvidos, mas sim agrupar elementos com características concisas e compreensíveis.
b) A sumarização em uma situação envolvendo dados complexos se torna inconsistente, por isso passa a ser desnecessária.
c) A definição do agrupamento dos dados a serem sumarizados está no fato de pertencerem à mesma tabela.
d) A sumarização é melhor definida com elementos dicotômicos, ou seja, composta por duas categorias ou estados.
e) A sumarização é uma tarefa complementar e não obrigatória, pois na regressão linear múltipla existe o agrupamento de elementos que substituem esta tarefa.
PERGUNTA 4
A discretização de dados é uma tarefa importante na mineração de dados quando é necessário facilitar a busca de determinadas informações. A discretização consiste na divisão do todo em partes com menor complexidade, a fim de facilitar a formação do modelo de conhecimento. 
Nesse sentido, assinale a alternativa correta:
a) Um processo não precisa ser parado pelo usuário que realiza a discretização, pois ela ocorre de forma automática sempre.
b) Um atributo só permite ser discretizado uma vez, como transformar data em idade, e não pode ser revertido.
c) A classificação dos atributos em realizar cut-point com N intervalos entre os dados com uma faixa de valores contínuos.
d) Estruturas como árvores e regras de decisão são estruturas que dispensam dados discretizados para melhora de performance.
e) Com a necessidade do tempo que determinada pessoa é cliente, por vezes o ideal é discretizar a data de cadastro e anos.
PERGUNTA 5
O principal objetivo encontrado na mineração de dados está em transformar a base de conhecimento KDD em resposta para problemas fornecidos pelos analistas de negócio. Na mineração de dados em si, etapa que vem após o pré-processamento dos dados, são utilizados algoritmos para resolver a problemática apresentada, sendo que a escolha do que utilizar dependerá da necessidade em si. Dentro do KDD temos uma função que vem para mapear os registros no banco de dados em um intervalo.
Nesse sentido, assinale a alternativa que indique essa função:
a) Redes neurais.
b) PCA.
c) Regressão.
d) Discretização.
e) Gráfico de dispersão.
PERGUNTA 6
Quando levamos em consideração uma base de dados extensa com alta dimensionalidade, realizar a mineração de dados gerando resultados claros e confiáveis se torna uma tarefa bem complexa. O PCA vem com a função de diminuir essa dimensionalidade.
A respeito da análise de componentes principais, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
I. ( V ) A dimensionalidade de uma base de dados consiste na quantidade de modelos que fazem a representação dos padrões.
II. ( V ) Caso as características contidas sejam as mais salientes, o classificador será mais rápido ocupando menos memória.
III. ( F ) Na aplicação do método PCA, convertemos a um novo conjunto de dados maior que o original.
IV. ( F ) A comparação dos dados após a decomposição estrutural e de valores permite uma aproximação de alta classificação por meio de funções lineares.
Assinale a alternativa que apresenta a sequência correta:
a) F, V, F, V.
b) V, F, V, F.
c) V, F, F, V.
d) F, F, V, V.
e) V, V, F, F.
PERGUNTA 7
Em uma equação linear múltipla utilizamos os resultados para prever a probabilidade de ocorrer determinado evento. Por exemplo, podemos prever a chuva para amanhã em milímetros com base na pressão atmosférica e em resultados alcançados em outras ocasiões. Para isso, definimos o nível de acerto que esperamos, que geralmente gira em torno de 95%.
Baseando-se nesse conceito, sobre a equação RLM, analise as afirmativas a seguir:
I - Deve-se definir o nível de confiança com peso 1, por exemplo, 95% seria calculado com 1 - 0,95 = 0,05, que seria o nível de significância.
II - Caso o gráfico gerado seja uma reta, o percentual aceitável estaria disposto nas pontas.
III - O mínimo aceitável em relação ao nível de confiança é 50%, que seria o mínimo aceitável entre certo ou errado.
IV - A partir do momento que é definido 90% de confiança no resultado, os 10% restantes se dividem entre as extremidades com 5% composto de valores ignorados.
 
Está correto o que se afirma em:
a) II, III e IV, apenas.
b) III e IV, apenas.
c) I, II e III, apenas.
d) II e III, apenas.
e) I e IV, apenas.
PERGUNTA 8
Regressão múltipla é uma coleção de técnicas estatísticas para construir modelos que descrevem de maneira razoável as relações entre as variáveis explicativas de um determinado processo. Ela deve seguir alguns procedimentos que são a definição de variáveis, desenho do gráfico de dispersão, montagem da equação e substituição dos dados. 
Levando em consideração a definição de variáveis e o desenho do gráfico de dispersão, analise as afirmativas a seguir:
I. É importante verificar pesquisas semelhantes para a definição da variável dependente e das variáveis dependentes.
II. Quanto maior a dispersão mais forte é a correlação, o que demonstra a necessidade da variável independente.
III. O coeficiente de regressão está relacionado ao número de variáveis dependentes.
IV. Com as variáveis definidas, podemos gerar um gráfico demonstrando a dependência e a necessidade de manter a variável independente.
 
Está correto o que se afirma em:
a) II e IV, apenas.
b) I, II e III, apenas.
c) I e IV, apenas.
d) II, III e IV, apenas.
e) I e III, apenas.
PERGUNTA 9
O Teorema de Bayes está relacionado ao cálculo de probabilidade condicional e é aplicável em tarefas de classificação na mineração de dados. Sua aplicação se estende às áreas como finanças, saúde, desenvolvimento de jogos, entre outras. Por ser robusto, é uma ótima opção para resoluçãoem tempo real.
 
A respeito do contexto apresentado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
 
I. ( ) O classificador bayesiano traz a ideia de verificar, dentro do percentual positivo de um teste, o que realmente é válido e o que é um falso cognato.
II. ( ) O classificador é frequentemente utilizado quando os atributos são dependentes entre si.
III. ( ) O algoritmo tem sua usabilidade muito relacionada a números, tanto inteiros quanto reais.
IV. ( ) Para a realização de um diagnóstico de imagens referente a tendências de posteriores surgimentos da doença, o melhor algoritmo seria o classificador bayesiano.
 
Assinale a alternativa que apresenta a sequência correta:
a) V, V, F, F.
b) V, F, F, V.
c) V, F, V, V.
d) V, F, V, F.
e) V, V, F, V.
PERGUNTA 10
A mineração de dados por agrupamento consiste na seleção da medida de similaridade dos dados separados no pré-processamento. No agrupamento, avaliam-se os resultados esperados na interpretação dos atributos do banco de dados para utilizar nos algoritmos de forma eficiente. 
Neste sentido, assinale a alternativa correta:
a) O número de partições K é definido como parâmetros de entrada escolhidos conforme a problemática adotada.
b) Ao agrupar determinados elementos de uma classe, não é possível trocar de agrupamento sem antes reorganizar todo o processo.
c) O classificador bayesiano é o principal método de agrupamento a ser utilizado, independentemente da problemática abordada.
d) Para utilizar volume de dados maiores é necessário guardar a matriz de similaridade na memória.
e) No agrupamento não é possível avaliar os resultados esperados, pois isso só ocorre no pós-processamento.

Continue navegando