Baixe o app para aproveitar ainda mais
Prévia do material em texto
A mineração de dados é apenas parte do processo de descoberta do conhecimento. A descoberta de conhecimento em banco de dados é também chamada de KDD (KnowledgeDiscovery in Databases). Por sua vez o processo de descoberta em si é dividido em seis fases: (1) Seleção: selecionar um conjunto de dados – ou se concentrar em um subconjunto de variáveis ou amostras de dados – no qual a descoberta será realizada. (2) Pré-processamento: a limpeza e o pré-processamento dos dados. Operações básicas incluem a remoção de eventuais erros, coleta de informações, decidir estratégias para lidar com campos de dados ausentes, entre outros. (3) Transformação: os dados são transformados e consolidados em formas apropriadas à mineração, sumarizando-os ou agregando-os. (4) Data Mining: Utilizam-se algoritmos e técnicas para extrair possíveis padrões úteis de dados (5) Interpretação e Avaliação: teremos a descoberta de diversos padrões que serão interpretados e avaliados em busca de padrões realmente interessantes e úteis, além de suas possíveis explicações ou interpretações Mineração de Dados: O conceido de 5V é do big data, e não do data mining extrair dados específicos de um grande banco de dados. Há algumas técnicas: · Regras de associação Indica o grau de afinidade entre registros de eventos diferentes Não supervisionado · Árvores de decisão Usa a estratificação para determinar regras · Redes neurais Em dados heterogenios Usa estratificação, regressão e segmentação · Indução de regras · Análise de agrupamentos Correlacionar dados é estabelecer uma relação de correspondeência entre eles, pode ser feito com dados estruturados ou não-estruturados usando as técnicas (a depender do caso); mineração de dados é correlacionar dados O data mining é uma etapa do KDD Extração não trivial = buscar insights Pode ou não ser usada num DW Predição: tenta prever comportamentos futuros Amostragem: seleciona uma amostra e determina o que é frequente nela Diferença entre Big Data Analytics e Data Mining: O DM trata em geral apenas de análises de dados estruturados; A utilização da técnica de padrões sequenciais pode ser útil para a identificação de tendências. Considerado uma etapa no processo de descoberta de conhecimento em base de dados Aprendizado em Máquina: Árvores de decisões são diferentes de Redes Neurais; A árvore de decisões usa uma abordagem estratificada Classificação: as categorias são definidas antes da análise; supervisionado; atribui classes aos objetos; hierarquia; Associação: identifica afinidades; relacionamentos; Padrões Sequenciais: identifica sequências Agrupamento ou clustering: não-supervisionado; Supervisionado: apresenta padrões de entrada e de saída; podem ser embasados em: separabilidade (entropia), utilizando árvores de decisão e variantes, e em particionamento, utilizando SVM (support vector machines); Não-supervisionado: não apresenta nada, deixa que a máquina perceba sozinha CRISP-DM: Entendimento dos dados: verificação da qualidade dos dados Agrupamento= os registros em um grupo sejam semelhantes entre si e diferentes dos registros em outros grupos é uma maneira de descrever conhecimento descoberto durante processos de mineração de dados. Não supervisionado Associação= relaciona a presença de um conjunto de itens com outra faixa de valores de um outro conjunto de variáveis. indicar um grau de afinidade entre registros de eventos diferentes Classificação= busca-se a identificação de uma classe por meio de múltiplos atributos, pode ser usada em conjunto com outras técnicas; Supervisionado Árvores de decisão= usadas com sistemas de classificação para atribuir informação de tipo. Preditiva antecipar comportamentos futuros Correlação assíncrona = variáveis com comportamentos semelhantes mas em períodos de tempo diferentes Dados estruturados Dados não estruturados não podem ser classificados em sua totalidade Não supervisionada = não há pré-definição dos grupos para os dados serem inseridos. Logo, os dados são agrupados conforme suas semelhanças e não podem ser realocados Supervisionada = pré definidor = pode ser realocado
Compartilhar