Baixe o app para aproveitar ainda mais
Prévia do material em texto
____________________________________PROF WASHINGTON_____________________________INFORMÁTICA __________________________________________________________________________________________________________________________ AUTORIA: PROF. WASHINGTON LUIS – INFORMÁTICA PARA CONCURSOS – wasfloripa@hotmail.com 5 MATERIAL EXCLUSIVO PD FASE 4) KDD & DATA MINING Knowledge Discovery in Data bases DESCOBERTA DE CONHECIMENTO DE DADOS A Descoberta de Conhecimento em Bases de Dados (KDD) é o processo NÃO-TRIVIAL ( Precisa do ser humano não é um processo fácil mesmo em casos não-supervisionados) interativo para identificar nos dados novos padrões que sejam válidos, novos, potencialmente úteis e interpretáveis e Interativos pois precisam da ação humana no processo. Ou seja, a mineração que iremos ver mais a frente é parte integrante de um KDD que é algo maior. A função básica do KDD é a PREPARAÇÃO FINAL DOS DADOS para que só então sejam MINERADOS. Caraterísticas importantes: • Não-Trivial – não é fácil é uma arte! • Iterativo – repetições para aprender • Interativo – interferência do humano • Usado para encontrar padrões e regras úteis PORQUE NÃO É TRIVIAL: É um processo não-trivial porque envolve decisões para definir as variáveis para se chegar ao resultado desejado. Ou seja, é fundamental a ação humana, mesmos nos processos não- supervisionados pode ocorrer. A mineração é uma arte, portanto não é trivial precisa do humano pois ele define o problema o algoritmo acha padrões, mas quem vai dizer o que serve e o que não serve é o humano. E esse processo envolve algumas fases que você deve decorar são elas: Fase: Seleção : Aqui onde selecionamos os dados para serem transformados. Todos que serão usados para a mineração. Pense na PC parte 1 : A polícia pega os dados que serão usados na descoberta de um crime. Fase: Pré-processamento Pré-processamento e limpeza de dados: ◦ operações básicas de remoção de ruído é aqui que são retirados informações ou dados desnecessários Pense na PC parte 2 : A polícia pega somente o que é importante é feito a limpeza. Uma agenda, uma chave ou um tapete, algo que estava no momento do crime que não era relevante para a investigação Fase: Transformação Redução e Transformação dos dados: ◦ procura de atributos úteis nos dados tendo em consideração os objetivos a que se destinam. É nesta fase de transformação que os dados são padronizados em um formato único por exemplo: Datas com 2 dígitos no ano no final serão agora 4 digitos. 01/01/21 → 01/01/2022 se o nome é completo, coloca-se o nome completo. Se precisa de CPF coloca-se o CPF Pense na PC Parte 3 : A polícia pega os dados e coloca exatamente como se pede o padrão: Nome completo, CPF, data com 4 digitos no final. Fase: Mineração de dados : Adaptação dos dados para a tarefa de MD que se deseja seguindo as técnicas que já falamos. É aqui que iremos pegar os dados já organizados e padronizados pelas fases anteriores e encontrar um padrão, pois a mineração é pra isso. ENCONTRAR PADRÕES E REGRAS em uma base de dados. Como vimos até agora o processo de descoberta de dados, o KDD envolve fases e a mineração é parte destas fases. FASE 5) DATA MINING – MINERAÇÃO DE DADOS Vamos extrair, analisar e tomar decisões! Peneirar até encontrar o tesouro! Agora uma das fases do KDD é a mineração de dados e vamos falar dela abaixo: CONCEITO DE MINERAÇÃO DE DADOS: Técnica para extração de padrões consistentes a partir de uma grande quantidade de dados geralmente dentro de DATA WAREHOUSES ou outras fontes como DATA MART, BIG DATA etc, capazes de gerar informação útil e insights valiosos. Com isso, é possível produzir estudos e relatórios realmente úteis para o negócio. Sabe aquele ditado que diz que informação vale ouro? Por trás desse dito popular está a ideia de que uma informação realmente útil é valiosa. Mas o que é valioso? Algo escasso, que não está facilmente à vista e precisa ser minerado entre aquilo que não tem tanto valor. É ai que entra o sistema DATA MINING um dos subtipos de Bussiness Intelligence disponíveis para tomada de decisões. Continuamos no próximo material. Prof. Washington mailto:wasfloripa@hotmail.com https://distrito.me/dataminer-dados-estudo/
Compartilhar