Buscar

Mineração de dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 37 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 37 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 37 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

PCC142 / BCC444 - Mineração de Dados
Anderson Almeida Ferreira
Material elaborado por: Luiz H. C. Merschmann
Departamento de Computação
Universidade Federal de Ouro Preto
ferreira@iceb.ufop.br
www.decom.ufop.br/anderson
Roteiro
Introdução
Tarefas e Técnicas em Mineração de Dados
Aplicações
Softwares
Introdução
Surgimento da Mineração de Dados
A disseminação do uso de meios eletrônicos na sociedade
moderna tem gerado uma enorme quantidade de dados.
I
Uso de SGBDs na maioria das organizações públicas e
privadas de médio e grande porte.
I
Avanços na aquisição de dados, desde os leitores de códigos
de barra até sistemas de sensoriamento remoto.
Cenário
SQL e Mineração de Dados
I
Bancos de dados relacionais são responsáveis por armazenar
e recuperar dados de forma eficiente.
I
Esses bancos de dados permitem a extração de diversas
informações usando SQL.
I
Então para que serve a Mineração de Dados?
I
Usando SQL: esse processo resolve questões que
necessariamente devem ser definidas.
I
Mineração de Dados: a descoberta de novas informações é
automática, ou seja, sem que seja necessária a formulação
de uma questão.
SQL e Mineração de Dados
I
Bancos de dados relacionais são responsáveis por armazenar
e recuperar dados de forma eficiente.
I
Esses bancos de dados permitem a extração de diversas
informações usando SQL.
I
Então para que serve a Mineração de Dados?
I
Usando SQL: esse processo resolve questões que
necessariamente devem ser definidas.
I
Mineração de Dados: a descoberta de novas informações é
automática, ou seja, sem que seja necessária a formulação
de uma questão.
Mineração de Dados
O que é Mineração de Dados?
É o processo automático de descoberta de novas informações e
conhecimento, úteis a uma aplicação, no formato de regras e
padrões, �escondidas� em grandes volumes de dados.
Onde ocorre?
Este processo é executado sobre grandes quantidades de dados,
estejam esses armazenados em bancos de dados tradicionais, em
data warehouse ou em outra forma de repositório.
Mineração de Dados
Processo de Descoberta de Conhecimento em Bases de Dados
Fonte: “From data mining to knowledge discovery: An overview”, 
 U.M.Fayyad et. al., 1996.
Dados
Dados
Selecionados
1
Dados
Pré-processados
2
Dados
Transformados
3
Regras e
Padrões
4
5
Conhecimento
Processo de Descoberta de Conhecimento em Bases de Dados
Fonte: “From data mining to knowledge discovery: An overview”, 
 U.M.Fayyad et. al., 1996.
Dados
Seleção
Dados
Selecionados
1
Dados
Pré-processados
2
Dados
Transformados
3
Regras e
Padrões
4
5
Conhecimento
Seleção: dados que serão relevantes para análise são
selecionados.
Processo de Descoberta de Conhecimento em Bases de Dados
Fonte: “From data mining to knowledge discovery: An overview”, 
 U.M.Fayyad et. al., 1996.
Dados
Dados
Selecionados
1
Dados
Pré-processados
2
Dados
Transformados
3
Pré-processamento
(limpeza + enriquecimento)
Regras e
Padrões
4
5
Conhecimento
Limpeza: remoção de ruídos e dados inconsistentes.
Processo de Descoberta de Conhecimento em Bases de Dados
Fonte: “From data mining to knowledge discovery: An overview”, 
 U.M.Fayyad et. al., 1996.
Dados
Dados
Selecionados
1
Dados
Pré-processados
2
Dados
Transformados
3
Regras e
Padrões
4
Transformação
5
Conhecimento
Transformação: dados são transformados para ficarem
adequados para etapa de mineração.
Processo de Descoberta de Conhecimento em Bases de Dados
Fonte: “From data mining to knowledge discovery: An overview”, 
 U.M.Fayyad et. al., 1996.
Dados
Dados
Selecionados
1
Dados
Pré-processados
2
Dados
Transformados
3
Regras e
Padrões
4
5
Conhecimento
Mineração
Mineração: processo de extração de novas informações.
Processo de Descoberta de Conhecimento em Bases de Dados
Fonte: “From data mining to knowledge discovery: An overview”, 
 U.M.Fayyad et. al., 1996.
Dados
Interpretação e avaliação
Dados
Selecionados
1
Dados
Pré-processados
2
Dados
Transformados
3
Regras e
Padrões
4
5
Conhecimento
Interpretação e Avaliação: interpretação e identificação dos
padrões interessantes.
Processo de Descoberta de Conhecimento em Bases de Dados
Fonte: “From data mining to knowledge discovery: An overview”, 
 U.M.Fayyad et. al., 1996.
Dados
Interpretação e avaliação
Seleção
Dados
Selecionados
1
Dados
Pré-processados
2
Dados
Transformados
3
Pré-processamento
(limpeza + enriquecimento)
Regras e
Padrões
4
Transformação 5
Conhecimento
Mineração
Tarefas e Técnicas em Mineração de Dados
O processo de mineração de dados envolve o uso de diversas
tarefas e técnicas.
I
Tarefas: são classes de problemas.
I
Técnicas: são os algoritmos utilizados na resolução dos
problemas propostos nas tarefas.
Principais Tarefas de Mineração de Dados
Mineração de Dados
Tarefas Preditivas
Classificação
Regressão
Tarefas Descritivas
Associação
Agrupamento 
(Segmentação)
Sumarização
Padrões de 
Seqüência
Tarefas em Mineração de Dados
I
Tarefas Preditivas: do conhecimento adquirido a partir de
um conjunto de dados, fazemos predições para novas
amostras.
Exemplo: Se acontecer uma determinada composição de
medidas climáticas, então existe 70% de chover.
I
Tarefas Descritivas: buscam identificar padrões de
comportamento comuns nos dados.
Exemplo: Fralda → Cerveja.
Mineração de Dados Direta
Dados
Mineração do Modelo
Modelo
Entrada
Informação
Mineração de Dados Direta
Dados
Mineração do Modelo
de Classificação
Modelo
Registro R
Classe de R
Mineração de Dados Direta
I
Através de uma técnica de mineração, extrai-se ou treina-se
um modelo que será posteriormente utilizado.
I
Principais tarefas: classificação e regressão.
�Who will go bankrupt�?
I
Mineração caracterizada pela existências de um campo
específico (atributo meta) cujo valor deve ser estimado a
partir dos valores dos demais atributos.
Mineração de Dados Indireta
Dados Mineração da Informação /
Utilização do Modelo
Informação
Interpretação
Informação 
Interpretada
Mineração de Dados Indireta
Dados Mineração de Regras de Associação
(Modelo = Algoritmo de Mineração)
Regras
Interpretação
Interpretação
das Regras
Mineração de Dados Indireta
I
Através de uma técnica de mineração, extraem-se padrões
significativos que serão posteriormente avaliados.
I
Principais tarefas: extração de regras de associação,
agrupamento.
�Tell me something interesting?�
I
O resultado da mineração complementa o conhecimento do
especialista e deverá ser examinado e avaliado por este.
Mineração de Associações
I
Identificação de itens de um mesmo domínio de aplicação
que ocorrem juntos com determinada freqüência na base de
dados.
I
Exemplo: Market Basket Analysis → identificação de
produtos que são comprados juntos em um número
significativo de transações de compras.
Regras de Associação Booleanas
I
Uma regra de associação representa um padrão de
relacionamento entre itens de dados do domínio da
aplicação que ocorre com uma determinada freqüência na
base de dados (transacional).
Id-Transação (TID) Itens Comprados
1 leite, pão, refrigerante
2 cerveja, carne
3 cerveja, fralda, leite, refrigerante
4 cerveja, fralda, leite, pão
5 fralda, leite, refrigerante
I
Exemplos de regras: fralda → cerveja, fralda → leite
Regras de Associação Quantitativas
I
São utilizadas quando se deseja minerar padrões em bases
de dados relacionais(formadas por atributos quantitativos
e atributos categóricos).
Id Sexo Profissão Salário Idade ...
Atributos QuantitativosAtributos Categóricos
I
Exemplo: (sexo=�M�) ∧ (20 < idade < 30) ∧ (profissão =
�advogado�) → (compra=�SIM�)
Esta regra indica, com certo grau de certeza, que
advogados, entre 20 e 30 anos, do sexo masculino são
consumidores de laptops.
Padrões Sequenciais
I
Padrões de sequências representam sequências de conjuntos
de itens que ocorrem nas transações de diferentes
consumidores, com determinada frequência (na ordem
especificada).
Consumidor Data/Hora Produtos
João 01.08.2001/17:01 leite, pão
João 03.08.2001/14:25 carne, cerveja
João 10.08.2001/21:15 queijo, manteiga, sal 
Marcos 05.08.2001/10:16 leite, ovos
Marcos 08.08.2001/18:30 queijo, manteiga
I
Exemplo: (leite) (queijo, manteiga)
Agrupamento (Segmentação)
I
Agrupamento (segmentação) é o processo de identificação
de um conjunto finito de categorias (ou grupos - clusters),
não previamente definidos, que contêm objetos similares.
I
Exemplo: Deseja-se separar os clientes em grupos de forma
que aqueles que apresentam o mesmo comportamento de
consumo fiquem no mesmo grupo.
Cada tupla deste
exemplo indica a
quantidade total de
produtos consumidos e
o preço médio destes
produtos relativos a
cada consumidor.
Consumidor Qtd.Prods. Preço Médio Prods.
1 2 1.700
2 10 1.800
3 2 100
4 3 2.000
5 12 2.100
6 3 200
7 4 2.300
8 11 2.040
9 3 150
Agrupamento (Segmentação)
Cons. Qtd. $ Méd. Prods.
1 2 1.700
2 10 1.800
3 2 100
4 3 2.000
5 12 2.100
6 3 200
7 4 2.300
8 11 2.040
9 3 150
Grupo Cons. Qtd. $ Méd. Prods.
1 2 1.700
1 4 3 2.000
7 4 2.300
2 10 1.800
2 5 12 2.100
8 11 2.040
3 2 100
3 6 3 200
9 3 150
Cada grupo identificado é caracterizado por
consumidores semelhantes em relação à
quantidade de produtos e ao preço médio dos
mesmos.
Classificação
I
Identificação da classe a qual um elemento pertence a partir
de suas características. O conjunto de possíveis classes é
discreto e predefinido.
I
Exemplo: a partir das características de um indivíduo,
determinar a que classe social ele pertence.
Conjunto de classes = {A, B, C, D, E}.
Classificação
ID Salário Idade Tipo Emprego Classe
1 3.000 30 Autônomo B
2 4.000 35 Indústria B
3 7.000 50 Pesquisa C
4 6.000 45 Autônomo C
5 7.000 30 Pesquisa B
6 6.000 35 Indústria B
7 6.000 35 Autônomo A
8 7.000 30 Autônomo A
9 4.000 45 Indústria B
A partir de uma base de
treinamento, extrai-se o modelo de
classificação (p.ex., árvore de
decisão).
Árvore de Decisão
 Salário
 Idade
T.Empr.
B
A
C
B
≤ 5.000 > 5.000
≤ 40 > 40
Ind.,Pesq. Autônomo
Regressão
I
Estimativa do valor de um atributo de uma instância a
partir de suas características. O domínio deste atributo
deve ser numérico e contínuo.
I
Exemplo: a partir das características de um imóvel,
determinar seu valor de venda ou aluguel.
Y = α+ βX.
Aplicações
Analisar tendências e encontrar padrões a partir de dados
históricos com o objetivo de prever ações futuras e apoiar
decisões pode ser um procedimento útil em diversas áreas, tais
como:
I
Marketing.
I
Finanças.
I
Saúde.
I
Educação.
I
Segurança.
Softwares
I
Weka: software de domínio público, desenvolvido (Java)
pela Universidade de Waikato, contém uma série de
algoritmos de Data Mining (DM).
I
Intelligent Miner: foi desenvolvido pela IBM. É uma
ferramenta de DM diretamente interligada com o banco de
dados DB2 da IBM.
I
Oracle Data Miner: desenvolvido pela Oracle,
permitindo interligação direta com o banco de dados Oracle
11g Enterprise Edition.
I
Enterprise Miner: tradicionalmente utilizado na área de
negócios, marketing e inteligência competitiva.
I
Statistica Data Miner: acrescenta as facilidades de
mineração de dados ao tradicional pacote utilizado em
aplicações de estatística.
Perguntas?
FIM
	Introdução
	Tarefas e Técnicas em Mineração de Dados
	Aplicações
	Softwares

Outros materiais