Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Sistemas Gerenciais Informatizados Faculdade de Administração e Finanças – FAF Bacharelado em Administração Universidade do Estado do Rio de Janeiro – UERJ Prof. Paulo Massillon (paulo.massillon@gmail.com) Descoberta de Conhecimento em Bases de Dados Agenda � Introdução e Motivação � Mineração de Dados e KDD � Tarefas, Algoritmos e Técnicas de KDD � Exemplos de Ferramentas � Exemplos de Aplicações 2 2 Ainda sobre os avanços da TI... � Hoje, a maioria das organizações produz mais informações em uma semana do que muitas pessoas poderiam ler em toda a vida! � “Mais dados” implicando em “menos informações” 3 Introdução e Motivação � Necessidade de ferramentas inteligentes que auxiliem na análise de dados e na busca por conhecimentos em GRANDES bases de dados 4 3 Introdução e Motivação Avanços em TI Crescimento exponencial de BDs Necessidade de ferramentas para análise de grandes BDs Área da Descoberta do Conhecimento em Bases de Dados (KDD) 5 A pirâmide, novamente... 6 4 � Conjunto de Dados (Fatos) Exemplo Concessão de Crédito 7 � Padrão: SE renda > t ENTÃO Crédito = SIM Exemplo Concessão de Crédito Conhecimento 8 5 KDD – Knowledge Discovery in Databases “É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de bases de dados.” [Fayyad et al., 1996] PR É- PR O C ESSAMEN T O MIN ER AÇ ÃO D E DAD O S PÓS- PR O CESSAMEN TO ET APAS O PER AC ION AIS D O PR OC ESSO D E KD D 9 Mineração e KDD Áreas de Origem ESTATÍSTICA RECONHECIMENTO DE PADRÕES VISUALIZAÇÃO BANCO DE DADOS APRENDIZADO DE MÁQUINA INTELIGÊNCIA ARTIFICIAL DATA WAREHOUSING KDD 10 6 Mineração e KDD Áreas de Origem ESTATÍSTICA RECONHECIMENTO DE PADRÕES VISUALIZAÇÃO BANCO DE DADOS APRENDIZADO DE MÁQUINA INTELIGÊNCIA ARTIFICIAL DATA WAREHOUSING KDD 11 � Aprendizado de máquina – Inteligência Artificial � Redes Neuronais � Algoritmos Genéticos � Lógica Nebulosa (Fuzzy) � Lógica Indutiva � Árvore de Decisão Mineração e KDD Áreas de Origem 12 7 ESTATÍSTICA RECONHECIMENTO DE PADRÕES VISUALIZAÇÃO BANCO DE DADOS APRENDIZADO DE MÁQUINA INTELIGÊNCIA ARTIFICIAL DATA WAREHOUSING KDD Mineração e KDD Áreas de Origem 13 � Bancos de Dados / Data Warehouses � SQL (Structured Query Language) � OLAP (on-Line Analytical Processing) � DMQL (Data Mining Query Language) Mineração e KDD Áreas de Origem 14 8 ESTATÍSTICA RECONHECIMENTO DE PADRÕES VISUALIZAÇÃO BANCO DE DADOS APRENDIZADO DE MÁQUINA INTELIGÊNCIA ARTIFICIAL DATA WAREHOUSING KDD Mineração e KDD Áreas de Origem 15 � Estatística � Classificadores Bayesianos � Redes Bayesianas � EDA – Exploratory Data Analysis Mineração e KDD Áreas de Origem 16 9 A importância do usuário no processo de KDD BANCO DE DADOS DADOS PROCESSADOS SAÍDAS META "INSIGHT" FATORES EXTERNOS COMPLEMENTARES APRESENTAÇÃO ANÁLISE E VISUALIZAÇÃO CONSULTAS 17 Gerações da DM [Piatetsky-Shapiro, 2001] � 1ª Geração � Início dos anos 90 � Ferramentas de pesquisa voltadas a uma única tarefa, sem suporte às demais etapas de KDD � Exemplos: C4.5, Redes Neuronais, Autoclass, etc. 18 10 � 2ª Geração � Meados dos anos 90 � Ferramentas chamadas suites: pacote para aplicação com suporte ao pré- processamento e à visualização � Requerem conhecimento significativo da teoria estatística � Exemplos: SPSS, Intelligent Miner, SAS, etc Gerações da DM [Piatetsky-Shapiro, 2001] 19 � 3ª Geração � Final dos anos 90 � Soluções orientadas à resolução de problemas específicos em empresas � Possuem interfaces orientadas aos usuários � Escondem a complexidade da MD � Exemplo: Falcon (Detecção de Fraudes em Cartão) Gerações da DM [Piatetsky-Shapiro, 2001] 20 11 Mineração de Dados e KDD � Macro-objetivos da MD [Zaki,2002] � Predição: Histórico x Novas situações � Descrição: Modelo descritivo do conhecimento � Orientação das tarefas de MD � Para verificação: Hipótese postulada x Validação � Para descoberta: Extração de novos conhecimentos 21 � Seleção de Dados � Limpeza � Codificação � Enriquecimento Pré-Processamento 22 12 Seleção de Dados � Horizontal: escolha de casos � Amostragem � Segmentação do BD � Vertical: escolha de características � Atributos relevantes � Redução de dimensionalidade 23 Limpeza de Dados � Verificação de consistência de informações � Correção de erros � Preenchimento de valores desconhecidos � Eliminação de informações redundantes � Eliminação de valores não pertencentes ao domínio � Exemplo: Data de nascimento � Corretas nas seguradoras de vida � 30% a 40% em branco ou incorretas nos bancos 24 13 Codificação � Divide valores de atributos contínuos em intervalos codificados � Exemplo: Renda � [0,1000] � Faixa 1 � [1001,3000] � Faixa 2 � [3001,5000] � Faixa 3 � Representa valores de atributos categóricos por contínuos � Exemplo: Sexo � Masculino – 0, Feminino - 1 25 Enriquecimento � Exemplo: Perfil do Cliente Atributos: • Renda • Despesas • Tipo de Residência • Bairro de Residência Atributos: • Renda • Despesas • Tipo de Residência • Bairro de Residência • Valor Médio Imóvel 26 14 Exemplos de Tarefas de KDD � Classificação � Agrupamento � Associação � Detecção de Desvios � Sumarização 27 Classificação 28 15 � Exemplos de técnicas tradicionais � Redes Neuronais � Back Propagation � Árvores de Decisão � ID3, C4.5 � Algoritmos Genéticos � Rule Evolver � Estatística � Classificadores Bayesianos � Baseadas em Instâncias � k-NN 29 Classificação � Exemplos de aplicações � Finanças e Investimentos � Seguros � Reconhecimento de Imagem � Reconhecimento de Voz 30 Classificação 16 Associação “Consiste em encontrar conjuntos de ítens que ocorram simultaneamente de forma frequente em uma base de dados.” 31 � Exemplo: Encontrar produtos frequentemente vendidos de forma conjunta Algumas Regras de Associação: Café →→→→ Pão Café ∧∧∧∧ Pão →→→→ Manteiga N. Trans. Leite Café Cerveja Pããoo Manteiga Arroz Feijããoo 1 2 3 4 5 6 7 8 9 10 nããoo sim nããoo ssiimm nããoo nããoo nããoo nããoo nããoo nããoo sim nããoo ssiimm ssiimm nããoo nããoo nããoo nããoo nããoo nããoo nããoo sim nããoo nããoo ssiimm nããoo nããoo nããoo nããoo nããoo sim sim sim sim nããoo nããoo ssiimm nããoo nããoo nããoo sim sim sim sim nããoo ssiimm nããoo nããoo nããoo nããoo nããoo nããoo nããoo nããoo nããoo nããoo nããoo nããoo ssiimm ssiimm nããoo nããoo nããoo nããoo nããoo nããoo nããoo ssiimm ssiimm nããoo 32 Associação 17 � Exemplos de algoritmos tradicionais � Apriori � DHP – Direct Hashing and Pruning � Partition � DIC – Dynamic Itemset Counting 33 Associação � Exemplos de aplicações � Marketing � Pesquisas científicas – padrões simultâneos � Classificação por regras de associação � Detecção de fraudes � Cartão de Crédito � Planos de saúde � Arrecadação 34 Associação 18 Detecção de Desvios 10 20 100 Despesa (R$ 100) Meses JAN FEV MAR ABR 35 Sumarização Consiste em descrever as características de subconjuntos da base de dados. Exemplo: Distribuição dos assinantes da revista “X” por regiões S SE N CO NE 36 19 Exemplos de operações de pós-processamento � Construção de árvores de decisão � Elaboração de gráficos � Elaboração de relatórios executivos Renda DespesaNG Baixa Alta ES AP Alta Baixa37 Exemplos de Ferramentas � SAS – Enterprise Miner � SPSS � PolyAnalist � Clementine � Intelligent Miner � WizRule e WizWhy � Bramining � Rule Evolver � Weka 38 20 Áreas de aplicação Energia Finanças Telecomunicações Medicina Meio-Ambiente Indústria Comércio Educação 39 Exemplos de Aplicações � Comércio / Marketing � Perfil do consumidor (Marketing Direto), Promoção de Produtos, Segmentação de Mercado etc � Finanças � Análise de Investimentos, Análise de Crédito, Detecção de Fraudes em compras de cartão de crédito � Medicina � Diagnóstico e prevenção de doenças, detecção de fraudes em planos de saúde etc 40 21 � Área Social � Caracterização de perfil para reintegração social � Energia � Previsão de demanda, distribuição de recursos � Telecomunicações � Detecção de falhas, dimensionamento de sistemas de comunicação, detecção de fraudes 41 Exemplos de Aplicações � Meio Ambiente � Monitoramento Ambiental, prevenção de desequilíbrios ecológicos � Indústria � Previsão de demanda, planejamento da produção e distribuição � Educação � Análise de matrículas e demandas por escolas, evasão escolar, planejamento institucional 42 Exemplos de Aplicações 22 Bibliografia recomendada � From Data Mining to Knowledge Discovery: An Overview - Fayyad & Pratetsky - Shapiro AAAI Press, 1ª Edição – 1996 � Predictive Data Mining: a pratical guide - Shaolom M. Weiss / Morgan Kaufmann, 1ª Edição – 1998 � Data Mining: Técnicas e Aplicações para o Marketing Direto - Fernanda Cristina Naliato do Amaral - Ed. Berkeley, 1ª Edição - 2001 43 � Data Mining: A Mineração de Dados no Marketing, Medicina, Economia, Engenharia e Administração. Luiz Alfredo Vidal de Carvalho, 2 ª ed., São Paulo: Érica, 2001 � Data Mining: Concepts and Techniques. J. Han, M. Kember, San Francisco: Morgan Kaufmann Publishers, 2001 � Data Mining: Conceitos, Ferramentas e Aplicações. R. Goldschmidt, E. Passos, Rio de Janeiro: Campus, 2005 44 Bibliografia recomendada
Compartilhar