Buscar

Mineração de Dados

Prévia do material em texto

Mineração de Dados 
A mineração de dados ou mineração de dados é um campo da estatística e a ciência da 
computação refere-se ao processo que tenta descobrir padrões em conjuntos de dados de 
grande volume. O objetivo geral do processo de mineração de dados é extrair informações 
de um conjunto de dados e transformá-lo em uma estrutura compreensível para uso 
posterior. 
 
Além do estágio de análise bruta, envolve aspectos de gerenciamento de dados e bancos 
de dados, processamento de dados, modelo e considerações de inferência, métricas de 
interesse, considerações da teoria da complexidade computacional, pós-processamento 
de estruturas descobertas, visualização e atualização online. 
O termo é um conceito moderno e frequentemente é mal utilizado para se referir a 
qualquer forma de processamento de dados ou informações em grande escala (coleta, 
extração, armazenamento, análise e estatística), mas também foi generalizado para 
qualquer tipo de sistema. computação de suporte à decisão, incluindo inteligência 
artificial, aprendizado de máquina e inteligência de negócios. 
A tarefa real de mineração de dados é a análise automática ou semiautomática de grandes 
quantidades de dados para extrair padrões interessantes anteriormente desconhecidos, 
como grupos de registros de dados (análise de cluster), registros incomuns (detecção de 
anomalias) e dependências (mineração por regras de associação). Isso geralmente envolve 
o uso de técnicas de banco de dados, como índices espaciais. 
Esses padrões podem ser vistos como uma espécie de resumo dos dados de entrada e 
podem ser usados em análises posteriores ou, por exemplo, em aprendizado de máquina 
e análise preditiva. Por exemplo, a etapa de mineração de dados pode identificar vários 
grupos nos dados, que podem então ser usados para obter resultados de predição mais 
precisos por um sistema de suporte à decisão. 
Nem a coleta de dados, nem a preparação de dados, nem a interpretação de resultados e 
informações fazem parte do estágio de mineração de dados, mas pertencem a todo o 
processo KDD como etapas adicionais. 
Os termos relacionados à coleta de dados, pesca de dados e espionagem de dados referem-
se ao uso de métodos de mineração de dados para as partes da amostra de um conjunto 
maior de dados populacionais estabelecidos que são (ou podem ser) muito pequeno para 
que sejam feitas inferências estatísticas confiáveis sobre a validade de quaisquer padrões 
descobertos. Esses métodos podem, no entanto, ser usados na criação de novas hipóteses 
que são testadas em populações de dados maiores. 
Um projeto de mineração de dados tem cinco fases necessárias que são, essencialmente: 
• Compreensão: do negócio e do problema a ser resolvido. 
• Determinação, obtenção e limpeza: dos dados necessários. 
• Criação de modelos matemáticos. 
• Validação, comunicação: dos resultados obtidos. 
• Integração: se aplicável, dos resultados em um sistema transacional ou similar. 
A relação entre todas essas fases é apenas linear no papel. Na realidade, é muito mais 
complexo e oculta toda uma hierarquia de subfases. Através da experiência acumulada 
em projetos de mineração de dados, foram desenvolvidas metodologias que permitem 
gerenciar essa complexidade de forma mais ou menos uniforme

Continue navegando