Buscar

Data Mining

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Data Mining
Rodrigo Leite Durães
 
Introdução
 Aplicação de processos de análise 
inteligentes visando manipulação automática 
de quantidades imensas de dados
 Larga aplicação nos mais variados ramos da 
indústria, comércio, medicina, governo, 
administração, etc.
 
Mineração de Dados: Exemplo 1
 Fraldas e cervejas
 homens casados, entre 25 e 30 anos
 compravam fraldas e/ou cervejas às 
sextas-feiras à tarde no caminho do 
trabalho para casa
 Wal-Mart otimizou as gôndolas nos pontos 
de vendas, colocando as fraldas ao lado 
das cervejas
 Resultado: o consumo cresceu 30%
 
Mineração de Dados: Exemplo 2
 Bank of America 
– Selecionou entre seus 36 milhões de 
clientes
Aqueles com menor risco de dar calotes 
Resultado: em três anos o banco lucrou 
30 milhões de dólares com a carteira de 
empréstimos.
 
Motivação
 Quantidades imensas de dados
 Necessidade de transformar dados em 
informação útil
 Análise de Mercado
 Sistemas de Suporte à Decisão
 Gerência Empresarial
 Análise de tendências, etc.
 
Knowledge Discovery
 Processo de filtragem de conhecimento útil
 Necessidade de compreender e utilizar de 
forma efetiva os dados disponíveis para a 
tomada de decisões
 Integra várias técnicas e tecnologias, 
incluindo estatística, visualização de dados, 
IA, BD / OLAP / data warehouse, 
processamento de sinais e supercomputação
 
Data Mining: Definição
 Processo de explicitar o conhecimento interessante 
de uma grande massa de dados
– Padrões e relações entre os dados
– Alterações e anomalias
– Estruturas significantes
– Fenômenos periódicos ou desconhecidos
– Apresentar de forma sucinta e compreensível o 
conhecimento obtido
 É parte do processo de descoberta de conhecimento
 
Análise de Dados X Data Mining
 Análise de dados
– Orientado a suposições
– Formula-se uma hipótese
– Esta é validada contra os dados
 Data mining
– Orientada a descoberta
– Padrões são automaticamente extraídos
– Usa técnicas de IA para reconhecimento e análise do 
que é interessante ou não
– Requer muito poder computacional
 
Knowledge Discovery Process
 Data cleaning
 Data integration
 Data selection
 Data transformation
 Data mining
 Pattern evaluation
 Knowledge presentation
 
Pré - processamento
 Data Cleaning
– Eliminaçao de “ruído”:
– Dados inválidos
– Dados incompletos
– Dados irrelevantes
 Data Integration
– Integração de dados de múltiplas fontes 
heterogêneas
 
Pré - processamento
 Data Selection
– Dados relevantes à análise são recuperados
 Data transformation
– Transformação e consolidação dos dados em um 
formato apropriado para a mineração
– Operações de agregação e resumo
– Processamento analítico (OLAP)
 
Data Mining (ML em BD)
 Algoritmos de aprendizagem de máquina 
(ID3, version space, Redes neurais, redes 
bayesianas, ...) são aplicados para extrair 
padrões dos dados pré-processados
 Reconhecimento de grupos, propriedades, 
relações, estruturas, anomalias, etc.
 Depende diretamente da tarefa desejada
 
Avaliação e Apresentação
 Avaliação de Padrões
– Padrões realmente interessantes são identificados
– Representam o conhecimento desejado
– Processo baseado em medidas de interesse
 Apresentação do conhecimento obtido
– Técnicas de visualização e representação
– O conhecimento minerado é apresentado ao 
usuário de forma compreensível e concisa
 
Data Mining Tasks
 Class Description
– Caracterização
– Comparação ou discriminação
– Propriedades resumidas
– Quantidade, totais, médias e análise estatística
 Exemplo
– Comparar as vendas de uma empresa na Europa e na 
Ásia, identificando fatores discriminativos 
importantes e expondo uma visão global da situação
 
Data Mining Tasks
 Associação
– Descoberta de relacionamentos entre um conjunto 
de dados
– Expresso por regras atributo-valor de condições 
que ocorrem freqüentemente juntas
– x(A)  y(A) se satisfaz x, tende a satisfazer y
 Exemplo
– cerveja(x)  fraldas(x)
 
Data Mining Tasks
 Classificação
– Processa um conjunto de treinamento (classe)
– Constrói um modelo para cada classe
– Gera a árvore de decisão ou conjunto de regras
– Usada para compreender cada classe e 
classificação posterior de novos dados
– Estatística, BD, redes neurais, aprendizado, etc.
 Ex.: Análise de crédito, modelagem de 
empreendimentos, etc.
 
Data Mining Tasks
 Previsão
– Prevê os valores possíveis ou a distribuição destes a 
partir de certos atributos do BD
– Encontrar os atributos relevantes para o atributo de 
interesse
– Previsão baseada no conjunto de dados mais similar 
ao escolhido
– Análise de regressão, de correlação, árvores de 
decisão
– Algoritmos genéticos e redes neurais
– Data mining preditivo
 Ex.: Previsão de qualidade
 
Data Mining Tasks
 Agregação (Clustering)
– Identifica grupos escondidos nos dados
– Grupo  objetos similares
– Expressa por funções de distância
– Relação de similaridade conhecida a priori por 
especialistas ou usuários
– Alta similaridade no grupo, baixa entre grupos
 
Data Mining Tasks
 Análise de séries temporais
– Identifica regularidades e características temporais 
interessantes escondidas nos dados
– Analisa padrões seqüenciais, periódicos, tendências 
e desvios
– Busca seqüências similares ou subseqüências
 Exemplo
– Previsão da tendência de variação das quantidades 
em estoque de uma empresa, baseado no histórico do 
estoque, situação financeira, atuação da 
concorrência e situação do mercado
 
Mining Complex Data
 Dados espaciais
 Texto 
 Multimídia
 Séries temporais
 Dados complexos
 Dados heterogêneos
 Semi-estruturados ou desestruturados
 
Outras áreas de aplicação
 Vendas e Marketing
Identificar padrões de comportamento de 
consumidores
Associar comportamentos à características 
demográficas de consumidores
Campanhas de marketing direto (mailing 
campaigns)
 Identificar consumidores “leais”
 
Áreas de aplicações potenciais
Bancos 
Identificar padrões de fraudes (cartões de 
crédito)
Identificar características de correntistas 
Mercado Financeiro
Minimizar prejuízos através de crédito a 
clientes de “confiança”
 
Áreas de aplicações potenciais 
 Médica
– Comportamento de pacientes
– Identificar terapias de sucessos para diferentes tratamentos
– Fraudes em planos de saúdes
– Comportamento de usuários de planos de saúde
– Planos diferenciados por perfil
 
Empresas de software para Data 
mining:
 SAS 
– http://www.sas.com
 Information Havesting - 
– http://www.convex.com
 Red Brick 
– http://www.redbrick.com
 Oracle
– http://www.oracle.com
 Sybase
– http://www.sybase.com
 Informix
– http://www.informix.com
 IBM
– http://www.ibm.com
 
Conclusão - Diretrizes
 Onde o processo de descoberta de conhecimento 
deve ser aplicado?
– Estudo de novos experimentos
– disponibilidade de dados suficientes
 com nível aceitável de ruído
 sem problemas de ordem jurídica
– especialistas disponíveis para:
 avaliação do grau de interesse das descobertas obtidas
 seleção de atributos
 descrição de conhecimento a priori em geral
 
On-Line Analytical Processing 
(OLAP)
 OLAP descreve uma classe de tecnologia 
que são designadas para livres acessos e 
análises ad hoc.
 OLAP tem sido considerado um sinônimo de 
visões multidimensionais de dados de 
negócio. Estas visões multidimensionais são 
suportadas por uma tecnologia 
multidimensional de bando de dados.
 
 
On-Line Analytical Processing 
(cont.)
 AplicaçõesOLTP (On-Line Transaction 
Processing) caracterizadas por vários 
usuários criando, atualizando ou acessando 
registros individuais.
 Aplicações OLAP são usados por analistas e 
gerentes que frequentemente desejam uma 
visão agregada de alto nível dos dados, 
como total de vendas por produto, por região, 
etc.
 
On-Line Analytical Processing 
(cont.)
 Aplicações OLAP usualmente atualizadas em 
batch, a partir de múltiplas fontes.
 Banco de dados relacionais são bons para 
retornar um pequeno número de registro 
rapidamente.
 Regiões de venda por produtos pode levar 
horas (segundos em um BD OLAP)
 
On-Line Analytical Processing 
(cont.)
 
On-Line Analytical Processing 
(cont.)
 
Referências
 KDNuggets Directory
– http://www.kdnuggets.com
 The Data Mine
– http://www.cs.bham.ac.uk/~anp/TheDataMine.html
 Microsoft Decision Theory and 
Adaptive Systems
– http://research.microsoft.com/dtas/
 DBMiner: demonstração
– http://db.cs.sfu.ca/DBMiner/dbmdemo.html
 
Referências
 http://www.pcc.qub.ac.uk/tec/courses/datamining
 http://www.rio.com.br/~extended
 http://www.datamining.com
 http://www.santafe.edu/~kurt
 http://www.datamation.com
 http://www-dse.doc.ic.ac.uk/~kd
 http://www.cs.bham.ac.uk/~anp
 http://www.dbms.com/ 
 http://www.infolink.com.br/~mpolito/mining/mining.html
 http://www.lci.ufrj.br/~labbd/semins/grupo1
 
Referências
 Bigus, J. (1995). Data Mining with Neural Networks. 
McGraw-Hill.
 Fayyad, U.; Haussler, D.; Stolorz, P. (1996). "KDD for 
Science Data Analysis: Issues and Examples”. Proceedings 
of Second International Conference on Knowledge 
Discovery and Data Mining (KDD-96), AAAI Press. 
Disponível no endereço 
http://research.microsoft.com/~fayyad.
 Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. (1995). 
“From Data Mining to Knowledge Discovery: An 
Overview”, em Advances in Knowledge Discovery and 
Data Mining. AAAI Press.
 
Referências 
 Imielinski, T; Mannila, H. (1996). “A Database Perspective 
on Knowledge Discovery”. Communications of the ACM, 
volume 39, número 11.
 Matheus, C.; Piateteky-Shapiro, G.; McNeill, D. (1995). 
”Selecting and Reporting What is Interesting”. Em 
Advances in Knowledge Discovery and Data Mining. 
AAAI Press.
 
Referências
 Freitas, A. A. (1997). “On objective measures of rule 
surprisingness”. Em Proceedings of the 2nd European 
Symposium Principles of Data Mining and Knowledge 
Discovery. Disponível no endereço 
http://dainf.cefetpr.br/~alex/thesis.html.
 Spirtes, P.; Glymour, C; Scheines, R. (1993). Causation, 
Prediction and Search. Lecture Notes in Statistics, 83. 
Springer-Verlarg. Disponível no endereço 
http://hss.cmu.edu/html/departments/ 
philosophy/TETRAD.BOOK/book.html
	Slide 1
	Slide 2
	Slide 3
	Slide 4
	Slide 5
	Slide 6
	Slide 7
	Slide 8
	Slide 9
	Slide 10
	Slide 11
	Slide 12
	Slide 13
	Slide 14
	Slide 15
	Slide 16
	Slide 17
	Slide 18
	Slide 19
	Slide 20
	Slide 21
	Slide 22
	Slide 23
	Slide 24
	Slide 25
	Slide 26
	Slide 27
	Slide 28
	Slide 29
	Slide 30
	Slide 31
	Slide 32
	Slide 33
	Slide 34
	Slide 35
	Slide 36

Continue navegando