Buscar

A mineração de dados é apenas parte do processo de descoberta do conhecimento

Prévia do material em texto

A mineração de dados é apenas parte do processo de descoberta do conhecimento. A descoberta de conhecimento em banco de dados é também chamada de KDD (KnowledgeDiscovery in Databases). Por sua vez o processo de descoberta em si é dividido em seis fases: 
(1) Seleção: selecionar um conjunto de dados – ou se concentrar em um subconjunto de variáveis ou amostras de dados – no qual a descoberta será realizada.   
(2) Pré-processamento: a limpeza e o pré-processamento dos dados. Operações básicas incluem a remoção de eventuais erros, coleta de informações, decidir estratégias para lidar com campos de dados ausentes, entre outros. 
(3) Transformação: os dados são transformados e consolidados em formas apropriadas à mineração, sumarizando-os ou agregando-os. 
(4) Data Mining: Utilizam-se algoritmos e técnicas para extrair possíveis padrões úteis de dados 
(5) Interpretação e Avaliação: teremos a descoberta de diversos padrões que serão interpretados e avaliados em busca de padrões realmente interessantes e úteis, além de suas possíveis explicações ou interpretações  
Mineração de Dados: 
O conceido de 5V é do big data, e não do data mining
extrair dados específicos de um grande banco de dados. Há algumas técnicas:
· Regras de associação
Indica o grau de afinidade entre registros de eventos diferentes
Não supervisionado
· Árvores de decisão
Usa a estratificação para determinar regras
· Redes neurais
Em dados heterogenios
Usa estratificação, regressão e segmentação
· Indução de regras
· Análise de agrupamentos
Correlacionar dados é estabelecer uma relação de correspondeência entre eles, pode ser feito com dados estruturados ou não-estruturados usando as técnicas (a depender do caso); mineração de dados é correlacionar dados
O data mining é uma etapa do KDD
Extração não trivial = buscar insights
Pode ou não ser usada num DW
Predição: tenta prever comportamentos futuros
Amostragem: seleciona uma amostra e determina o que é frequente nela
Diferença entre Big Data Analytics e Data Mining: O DM trata em geral apenas de análises de dados estruturados;
A utilização da técnica de padrões sequenciais pode ser útil para a identificação de tendências.
Considerado uma etapa no processo de descoberta de conhecimento em base de dados
Aprendizado em Máquina:
Árvores de decisões são diferentes de Redes Neurais;
A árvore de decisões usa uma abordagem estratificada
Classificação: as categorias são definidas antes da análise; supervisionado; atribui classes aos objetos; hierarquia;
Associação: identifica afinidades; relacionamentos;
Padrões Sequenciais: identifica sequências
Agrupamento ou clustering: não-supervisionado;
Supervisionado: apresenta padrões de entrada e de saída; podem ser embasados em: separabilidade (entropia), utilizando árvores de decisão e variantes, e em particionamento, utilizando SVM (support vector machines);
Não-supervisionado: não apresenta nada, deixa que a máquina perceba sozinha
CRISP-DM:
Entendimento dos dados: verificação da qualidade dos dados
Agrupamento= os registros em um grupo sejam semelhantes entre si e diferentes dos registros em outros grupos é uma maneira de descrever conhecimento descoberto durante processos de mineração de dados. Não supervisionado
Associação= relaciona a presença de um conjunto de itens com outra faixa de valores de um outro conjunto de variáveis.
indicar um grau de afinidade entre registros de eventos diferentes
Classificação= busca-se a identificação de uma classe por meio de múltiplos atributos, pode ser usada em conjunto com outras técnicas; Supervisionado
Árvores de decisão= usadas com sistemas de classificação para atribuir informação de tipo.
Preditiva
antecipar comportamentos futuros
Correlação assíncrona = variáveis com comportamentos semelhantes mas em períodos de tempo diferentes
Dados estruturados
Dados não estruturados
não podem ser classificados em sua totalidade
Não supervisionada = não há pré-definição dos grupos para os dados serem inseridos. Logo, os dados são agrupados conforme suas semelhanças e não podem ser realocados
Supervisionada = pré definidor = pode ser realocado

Continue navegando