Buscar

Aula 5 - 2spp

Prévia do material em texto

1
Sistemas Gerenciais 
Informatizados
Faculdade de Administração e Finanças – FAF
Bacharelado em Administração
Universidade do Estado do Rio de Janeiro – UERJ
Prof. Paulo Massillon (paulo.massillon@gmail.com)
Descoberta de Conhecimento em Bases de 
Dados
Agenda
� Introdução e Motivação
� Mineração de Dados e KDD
� Tarefas, Algoritmos e Técnicas de 
KDD
� Exemplos de Ferramentas
� Exemplos de Aplicações
2
2
Ainda sobre os avanços da TI...
� Hoje, a maioria das organizações
produz mais informações em uma
semana do que muitas pessoas
poderiam ler em toda a vida!
� “Mais dados” implicando em “menos
informações”
3
Introdução e Motivação
� Necessidade de ferramentas 
inteligentes que auxiliem na análise 
de dados e na busca por 
conhecimentos em GRANDES bases de 
dados
4
3
Introdução e Motivação
Avanços em TI
Crescimento exponencial de BDs
Necessidade de ferramentas para 
análise de grandes BDs
Área da Descoberta do Conhecimento 
em Bases de Dados (KDD) 5
A pirâmide, novamente...
6
4
� Conjunto de Dados (Fatos)
Exemplo
Concessão de Crédito
7
� Padrão: SE renda > t ENTÃO Crédito = SIM
Exemplo
Concessão de Crédito
Conhecimento
8
5
KDD – Knowledge Discovery 
in Databases
“É um processo, de várias etapas, não trivial, interativo e
iterativo, para identificação de padrões compreensíveis,
válidos, novos e potencialmente úteis a partir de bases de
dados.” [Fayyad et al., 1996]
PR É-
PR O C ESSAMEN T O
MIN ER AÇ ÃO D E 
DAD O S
PÓS-
PR O CESSAMEN TO
ET APAS O PER AC ION AIS D O PR OC ESSO D E KD D
9
Mineração e KDD
Áreas de Origem
ESTATÍSTICA RECONHECIMENTO DE PADRÕES
VISUALIZAÇÃO
BANCO DE DADOS
APRENDIZADO DE MÁQUINA
INTELIGÊNCIA ARTIFICIAL
DATA WAREHOUSING
KDD
10
6
Mineração e KDD
Áreas de Origem
ESTATÍSTICA RECONHECIMENTO DE PADRÕES
VISUALIZAÇÃO
BANCO DE DADOS
APRENDIZADO DE MÁQUINA
INTELIGÊNCIA ARTIFICIAL
DATA WAREHOUSING
KDD
11
� Aprendizado de máquina – Inteligência 
Artificial
� Redes Neuronais
� Algoritmos Genéticos
� Lógica Nebulosa (Fuzzy)
� Lógica Indutiva
� Árvore de Decisão
Mineração e KDD
Áreas de Origem
12
7
ESTATÍSTICA RECONHECIMENTO DE PADRÕES
VISUALIZAÇÃO
BANCO DE DADOS
APRENDIZADO DE MÁQUINA
INTELIGÊNCIA ARTIFICIAL
DATA WAREHOUSING
KDD
Mineração e KDD
Áreas de Origem
13
� Bancos de Dados / Data Warehouses
� SQL (Structured Query Language)
� OLAP (on-Line Analytical Processing)
� DMQL (Data Mining Query Language)
Mineração e KDD
Áreas de Origem
14
8
ESTATÍSTICA RECONHECIMENTO DE PADRÕES
VISUALIZAÇÃO
BANCO DE DADOS
APRENDIZADO DE MÁQUINA
INTELIGÊNCIA ARTIFICIAL
DATA WAREHOUSING
KDD
Mineração e KDD
Áreas de Origem
15
� Estatística
� Classificadores Bayesianos
� Redes Bayesianas
� EDA – Exploratory Data Analysis
Mineração e KDD
Áreas de Origem
16
9
A importância do usuário no 
processo de KDD
BANCO DE DADOS
 DADOS
PROCESSADOS SAÍDAS
META "INSIGHT"
FATORES EXTERNOS
COMPLEMENTARES
APRESENTAÇÃO
ANÁLISE E
VISUALIZAÇÃO
CONSULTAS
17
Gerações da DM
[Piatetsky-Shapiro, 2001]
� 1ª Geração
� Início dos anos 90
� Ferramentas de pesquisa voltadas a uma
única tarefa, sem suporte às demais
etapas de KDD
� Exemplos: C4.5, Redes Neuronais,
Autoclass, etc.
18
10
� 2ª Geração
� Meados dos anos 90
� Ferramentas chamadas suites: pacote
para aplicação com suporte ao pré-
processamento e à visualização
� Requerem conhecimento significativo da
teoria estatística
� Exemplos: SPSS, Intelligent Miner, SAS,
etc
Gerações da DM
[Piatetsky-Shapiro, 2001]
19
� 3ª Geração
� Final dos anos 90
� Soluções orientadas à resolução de
problemas específicos em empresas
� Possuem interfaces orientadas aos
usuários
� Escondem a complexidade da MD
� Exemplo: Falcon (Detecção de Fraudes
em Cartão)
Gerações da DM
[Piatetsky-Shapiro, 2001]
20
11
Mineração de Dados e KDD
� Macro-objetivos da MD [Zaki,2002]
� Predição: Histórico x Novas situações
� Descrição: Modelo descritivo do 
conhecimento
� Orientação das tarefas de MD
� Para verificação: Hipótese postulada x 
Validação
� Para descoberta: Extração de novos 
conhecimentos
21
� Seleção de Dados
� Limpeza
� Codificação
� Enriquecimento
Pré-Processamento
22
12
Seleção de Dados
� Horizontal: escolha de casos
� Amostragem
� Segmentação do BD
� Vertical: escolha de características
� Atributos relevantes
� Redução de dimensionalidade
23
Limpeza de Dados
� Verificação de consistência de informações
� Correção de erros
� Preenchimento de valores desconhecidos
� Eliminação de informações redundantes
� Eliminação de valores não pertencentes ao 
domínio
� Exemplo: Data de nascimento
� Corretas nas seguradoras de vida
� 30% a 40% em branco ou incorretas nos bancos
24
13
Codificação
� Divide valores de atributos contínuos em
intervalos codificados
� Exemplo: Renda
� [0,1000] � Faixa 1
� [1001,3000] � Faixa 2
� [3001,5000] � Faixa 3
� Representa valores de atributos
categóricos por contínuos
� Exemplo: Sexo
� Masculino – 0, Feminino - 1
25
Enriquecimento
� Exemplo: Perfil do Cliente
Atributos:
• Renda
• Despesas
• Tipo de Residência
• Bairro de Residência
Atributos:
• Renda
• Despesas
• Tipo de Residência
• Bairro de Residência
• Valor Médio Imóvel 26
14
Exemplos de Tarefas de KDD
� Classificação
� Agrupamento
� Associação
� Detecção de Desvios
� Sumarização
27
Classificação
28
15
� Exemplos de técnicas tradicionais
� Redes Neuronais � Back Propagation
� Árvores de Decisão � ID3, C4.5
� Algoritmos Genéticos � Rule Evolver
� Estatística � Classificadores Bayesianos
� Baseadas em Instâncias � k-NN
29
Classificação
� Exemplos de aplicações
� Finanças e Investimentos
� Seguros
� Reconhecimento de Imagem
� Reconhecimento de Voz
30
Classificação
16
Associação
“Consiste em encontrar conjuntos de ítens que
ocorram simultaneamente de forma frequente
em uma base de dados.”
31
� Exemplo: Encontrar produtos frequentemente
vendidos de forma conjunta
Algumas Regras de Associação: 
Café →→→→ Pão Café ∧∧∧∧ Pão →→→→ Manteiga 
N. Trans. Leite Café Cerveja Pããoo Manteiga Arroz Feijããoo
1
2
3
4
5
6
7
8
9
10
nããoo
sim
nããoo
ssiimm
nããoo
nããoo
nããoo
nããoo
nããoo
nããoo
sim
nããoo
ssiimm
ssiimm
nããoo
nããoo
nããoo
nããoo
nããoo
nããoo
nããoo
sim
nããoo
nããoo
ssiimm
nããoo
nããoo
nããoo
nããoo
nããoo
sim
sim
sim
sim
nããoo
nããoo
ssiimm
nããoo
nããoo
nããoo
sim
sim
sim
sim
nããoo
ssiimm
nããoo
nããoo
nããoo
nããoo
nããoo
nããoo
nããoo
nããoo
nããoo
nããoo
nããoo
nããoo
ssiimm
ssiimm
nããoo
nããoo
nããoo
nããoo
nããoo
nããoo
nããoo
ssiimm
ssiimm
nããoo
32
Associação
17
� Exemplos de algoritmos tradicionais
� Apriori
� DHP – Direct Hashing and Pruning
� Partition
� DIC – Dynamic Itemset Counting
33
Associação
� Exemplos de aplicações
� Marketing
� Pesquisas científicas – padrões simultâneos
� Classificação por regras de associação
� Detecção de fraudes
� Cartão de Crédito
� Planos de saúde
� Arrecadação
34
Associação
18
Detecção de Desvios
10 
20 
100 
Despesa 
(R$ 100) 
Meses JAN FEV MAR ABR 
35
Sumarização
Consiste em descrever as características de
subconjuntos da base de dados.
Exemplo: Distribuição dos assinantes da revista “X”
por regiões
S 
SE 
N 
CO 
NE 
36
19
Exemplos de operações 
de pós-processamento
� Construção de árvores de decisão
� Elaboração de gráficos
� Elaboração de relatórios executivos
Renda
DespesaNG
Baixa Alta
ES AP
Alta Baixa37
Exemplos de Ferramentas
� SAS – Enterprise Miner
� SPSS
� PolyAnalist
� Clementine
� Intelligent Miner
� WizRule e WizWhy
� Bramining
� Rule Evolver
� Weka
38
20
Áreas de aplicação
Energia
Finanças Telecomunicações
Medicina Meio-Ambiente
Indústria
Comércio
Educação
39
Exemplos de Aplicações
� Comércio / Marketing
� Perfil do consumidor (Marketing Direto),
Promoção de Produtos, Segmentação de
Mercado etc
� Finanças
� Análise de Investimentos, Análise de Crédito,
Detecção de Fraudes em compras de cartão de
crédito
� Medicina
� Diagnóstico e prevenção de doenças, detecção
de fraudes em planos de saúde etc
40
21
� Área Social
� Caracterização de perfil para reintegração
social
� Energia
� Previsão de demanda, distribuição de recursos
� Telecomunicações
� Detecção de falhas, dimensionamento de
sistemas de comunicação, detecção de fraudes
41
Exemplos de Aplicações
� Meio Ambiente
� Monitoramento Ambiental, prevenção de
desequilíbrios ecológicos
� Indústria
� Previsão de demanda, planejamento da
produção e distribuição
� Educação
� Análise de matrículas e demandas por escolas,
evasão escolar, planejamento institucional
42
Exemplos de Aplicações
22
Bibliografia recomendada
� From Data Mining to Knowledge Discovery:
An Overview - Fayyad & Pratetsky - Shapiro
AAAI Press, 1ª Edição – 1996
� Predictive Data Mining: a pratical guide -
Shaolom M. Weiss / Morgan Kaufmann, 1ª
Edição – 1998
� Data Mining: Técnicas e Aplicações para o
Marketing Direto - Fernanda Cristina Naliato
do Amaral - Ed. Berkeley, 1ª Edição - 2001
43
� Data Mining: A Mineração de Dados no
Marketing, Medicina, Economia, Engenharia e
Administração. Luiz Alfredo Vidal de
Carvalho, 2 ª ed., São Paulo: Érica, 2001
� Data Mining: Concepts and Techniques. J.
Han, M. Kember, San Francisco: Morgan
Kaufmann Publishers, 2001
� Data Mining: Conceitos, Ferramentas e
Aplicações. R. Goldschmidt, E. Passos, Rio de
Janeiro: Campus, 2005
44
Bibliografia recomendada

Continue navegando