Prévia do material em texto
Estrutura de um projeto de ciência de dados análise exploratória escolha do modelo ajuste do modelo validação do modelo preparação dos dados Um projeto sobre ciência de dados entender o problema a ser resolvido; definir os objetivos do projeto; procurar os dados necessários; preparar esses dados para que possam ser usados; identificar métodos adequados e escolher entre eles; ajustar os hyper-parâmetros de cada método; analisar e avaliar os resultados e refazer as tarefas de pré-processamento e repetir os experimentos. Knowledge Discovery Process (KDD Process) Metodologia da academia. Proposto por Fayyad, Piatetsky-Shapiro e Smyth. dado selecionado dados dados pré- processados dados transformados modelos e padrões 1. compreensão de domínio 2. Criação de um conjunto de dados objetivo 3. Limpeza de dados e pré-processamento 4. Redução e projeção de dados 5. Escolha da função de mineração de dados 6. Escolha do algoritmo de mineração de dados 7. Mineração de dados 8. Interpretação 9. Uso do conhecimento descoberto KDD é um processo iterativo CRISP-DM CRoss-Industry Standard Process for Data Mining. Metodologia da indústria. Concebido em 1996. dados compreensão do problema preparação de dados avaliação implementação modelagem entendimento de dados CRISP-DM: descrição das fases Compreensão do problema: estudo de metas e requisitos do ponto de vista de negócios/problemas. Entendimento dos dados: recolecção de dados; conhecer os dados tentando detectar problemas de qualidade e recursos interessantes. Preparação de dados: preparação do conjunto de dados a ser modelado a partir de dados brutos. Este é um processo iterativo e exploratório. CRISP-DM: descrição das fases Modelagem: análise de dados com técnicas de modelagem adequadas para o problema em questão. Avaliação: todos os passos anteriores devem ser avaliados como um todo (como um processo unitário) e deve-se decidir se os resultados resolvem o problema. Implementação: apresentar ao “cliente” o conhecimento adquirido até este ponto de uma forma utilizável. Devemos definir, com esse cliente, um protocolo para a implementação, de forma confiável, das descobertas do DM. Ciência de dados e as suas etapas análise exploratória escolha do modelo ajuste do modelo validação do modelo preparação dos dados Resumo KDD CRISP-DM CD etapas compreensão de domínio compreensão do problema criação de um conjunto de dados objetivo entendimento de dados análise exploratória limpeza de dados e pré-processamento redução e projeção de dados preparação de dados preparação dos dados escolha da função de mineração de dados modelagem escolha do modelo escolha do algoritmo de mineração de dados mineração de dados ajuste do modelo interpretação avaliação validação do modelo uso do conhecimento descoberto implementação TODOS OS DIREITOS RESERVADOS.