Baixe o app para aproveitar ainda mais
Prévia do material em texto
Mineração de Dados A mineração de dados ou mineração de dados é um campo da estatística e a ciência da computação refere-se ao processo que tenta descobrir padrões em conjuntos de dados de grande volume. O objetivo geral do processo de mineração de dados é extrair informações de um conjunto de dados e transformá-lo em uma estrutura compreensível para uso posterior. Além do estágio de análise bruta, envolve aspectos de gerenciamento de dados e bancos de dados, processamento de dados, modelo e considerações de inferência, métricas de interesse, considerações da teoria da complexidade computacional, pós-processamento de estruturas descobertas, visualização e atualização online. O termo é um conceito moderno e frequentemente é mal utilizado para se referir a qualquer forma de processamento de dados ou informações em grande escala (coleta, extração, armazenamento, análise e estatística), mas também foi generalizado para qualquer tipo de sistema. computação de suporte à decisão, incluindo inteligência artificial, aprendizado de máquina e inteligência de negócios. A tarefa real de mineração de dados é a análise automática ou semiautomática de grandes quantidades de dados para extrair padrões interessantes anteriormente desconhecidos, como grupos de registros de dados (análise de cluster), registros incomuns (detecção de anomalias) e dependências (mineração por regras de associação). Isso geralmente envolve o uso de técnicas de banco de dados, como índices espaciais. Esses padrões podem ser vistos como uma espécie de resumo dos dados de entrada e podem ser usados em análises posteriores ou, por exemplo, em aprendizado de máquina e análise preditiva. Por exemplo, a etapa de mineração de dados pode identificar vários grupos nos dados, que podem então ser usados para obter resultados de predição mais precisos por um sistema de suporte à decisão. Nem a coleta de dados, nem a preparação de dados, nem a interpretação de resultados e informações fazem parte do estágio de mineração de dados, mas pertencem a todo o processo KDD como etapas adicionais. Os termos relacionados à coleta de dados, pesca de dados e espionagem de dados referem- se ao uso de métodos de mineração de dados para as partes da amostra de um conjunto maior de dados populacionais estabelecidos que são (ou podem ser) muito pequeno para que sejam feitas inferências estatísticas confiáveis sobre a validade de quaisquer padrões descobertos. Esses métodos podem, no entanto, ser usados na criação de novas hipóteses que são testadas em populações de dados maiores. Um projeto de mineração de dados tem cinco fases necessárias que são, essencialmente: • Compreensão: do negócio e do problema a ser resolvido. • Determinação, obtenção e limpeza: dos dados necessários. • Criação de modelos matemáticos. • Validação, comunicação: dos resultados obtidos. • Integração: se aplicável, dos resultados em um sistema transacional ou similar. A relação entre todas essas fases é apenas linear no papel. Na realidade, é muito mais complexo e oculta toda uma hierarquia de subfases. Através da experiência acumulada em projetos de mineração de dados, foram desenvolvidas metodologias que permitem gerenciar essa complexidade de forma mais ou menos uniforme
Compartilhar