A maior rede de estudos do Brasil

Grátis
20 pág.
MT803-2012-Aula-01-Apres+Dicas+IntroDM

Pré-visualização | Página 3 de 4

(Inteligência Artificial)
� Algoritmos de aprendizado indutivo
Estatística
� Métodos de análise de dados
� Seleção e amostragem de dados
� Técnicas de avaliação do conhecimento
Banco de Dados
� Data Warehousing
� Estruturas de dados e mecanismos de busca
Visualização
� Técnicas que estimulam a percepção e a inteligência
MT-803: Introdução à Mineração de Dados – Aula 1 49
A descoberta do conhecimento
Pré-processamento: em muitos 
casos pode consumir 60% ou 
mais do tempo no processo 
de descoberta de conhecimento
Conhecimento
Dados Integrados
Seleção e
Transformação
Mineração
Avaliação de Padrões
Dados
Dados-Alvo
Padrões
Limpeza e
Integração
Especialista
MT-803: Introdução à Mineração de Dados – Aula 1 50
Quanto maior a quantidade 
de dados, melhor.
Uma amostra dos dados é
suficiente
É uma atividade 
exploratória
É baseada em hipótese 
(rejeita ou aceita)
Número de pontos a ser 
analisado é muito grande
Número de pontos a ser 
analisado é pequeno
Mineração de DadosEstatística
Estatística versus Mineração
MT-803: Introdução à Mineração de Dados – Aula 1 51
Dados
Conhecimento
Analista
Tarefas de Mineração de Dados
• Associação
• Classificação
• Clusterização (agrupamento)
Principais Tarefas de Mineração
MT-803: Introdução à Mineração de Dados – Aula 1 52
Principais Tarefas de Mineração
MINERAÇÃO
DE DADOS
PREDIÇÃO DESCRIÇÃO
CLASSIFICAÇÃO REGRESSÃO ASSOCIAÇÃO AGRUPAMENTO
MT-803: Introdução à Mineração de Dados – Aula 1 53
Tarefas de Mineração de Dados
�Tarefas Preditivas
�Predizer o valor de um determinado atributo 
baseado nos valores de outros atributos:
Classificação – Predição.
�Tarefas Descritivas
�Derivar « padrões » : correlações, tendências, 
anomalias, agrupamentos dentro de uma grande 
massa de dados:
Regras de Associação – Padrões Sequenciais 
– Agrupamentos – Anomalias.
MT-803: Introdução à Mineração de Dados – Aula 1 54
Tarefas de Mineração 
�Tarefa ato de descobrir um certo tipo de 
padrão.
�Regras de Associação; 
�Análise de Sequências;
�Classificação;
�Agrupamento;
�Outliers, etc.
MT-803: Introdução à Mineração de Dados – Aula 1 55
Tarefas versus Técnicas
� A TAREFA consiste no ato de descobrir um certo 
tipo de padrão, ou seja, que tipo de regularidades 
temos interesse em encontrar.
� Exemplo: um gasto exagerado de um cliente de cartão de 
crédito, fora dos padrões usuais de seus gastos. 
� A TÉCNICA consiste na especificação de métodos 
que garantam a descoberta de padrões que nos 
interessam.
� Principais técnicas utilizadas:
� Estatísticas, técnicas de aprendizado de máquina e técnicas 
baseadas em crescimento-poda-validação.
MT-803: Introdução à Mineração de Dados – Aula 1 56
� É uma tarefa preditiva: define o valor de uma variável 
desconhecida a partir de variáveis conhecidas.
� Passo 1: encontrar um modelo para o atributo alvo
como uma função dos valores dos outros atributos.
� Passo 2: registros não conhecidos devem ser 
associados à classe com a maior precisão possível.
Classificação de Dados
MT-803: Introdução à Mineração de Dados – Aula 1 57
O que é classificação? ...
Aplicação
do Modelo
Indução
Dedução
Criação
do Modelo
Modelo
Tid Atrib1 Atrib2 Atrib3 Class
1 Yes Large 125K No
2 No Medium 100K No
3 No Small 70K No
4 Yes Medium 120K No
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No
8 No Small 85K Yes
9 No Medium 75K No
10 No Small 90K Yes
10
Tid Attrib1 Attrib2 Attrib3 Class
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ?
14 No Small 95K ?
15 No Large 67K ?
10
Conjunto de Teste
usado
algoritmo
Conjunto de treinamento
MT-803: Introdução à Mineração de Dados – Aula 1 58
Exemplo de árvore de decisão
Retorno
EstCivil
Renda
SimNAO
NAO
NAO
Sim Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Particionamento de Atributos
Conjunto de treinamento Modelo: árvore de decisão
Tid Retorno Estado
Civil
Renda
Anual Mentiu
1 Sim Solteiro 125K Nao
2 Nao Casado 100K Nao
3 Nao Solteiro 70K Nao
4 Sim Casado 120K Nao
5 Nao Divorciado 95K Sim
6 Nao Casado 60K Nao
7 Sim Divorciado 220K Nao
8 Nao Solteiro 85K Sim
9 Nao Casado 75K Nao
10 Nao Solteiro 90K Sim
MT-803: Introdução à Mineração de Dados – Aula 1 59
Aplicando o conjunto de teste ao 
modelo
Pode haver mais de uma árvore para o 
mesmo conjunto de dados! 
Retorno
EstCivil
Renda
SimNAO
NAO
NAO
Sim Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Início na raiz da árvore
Conjunto de teste
Retorno Estado
Civil
Renda
Anual Mentiu
Nao Casado 80K ?
10
MT-803: Introdução à Mineração de Dados – Aula 1 60
Retorno
EstCivil
Renda
SIMNAO
NAO
NAO
Sim Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Retorno Estado
Civil
Renda
Anual Mentiu
Nao Casado 80K ?
10
Conjunto de teste
Aplicando o conjunto de teste ao 
modelo
MT-803: Introdução à Mineração de Dados – Aula 1 61
Retorno
EstCivil
Renda
SIMNAO
NA
NAO
Sim Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Conjunto de teste
Retorno Estado
Civil
Renda
Anual Mentiu
Nao Casado 80K ?
10
Aplicando o conjunto de teste ao 
modelo
MT-803: Introdução à Mineração de Dados – Aula 1 62
Retorno Estado
Civil
Renda
Anual Mentiu
Nao Casado 80K ?
10Retorno
EstCivil
Renda
YESNAO
NAO
NAO
Yes Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Conjunto de teste
Aplicando o conjunto de teste ao 
modelo
MT-803: Introdução à Mineração de Dados – Aula 1 63
Retorno
EstCivil
Renda
SIMNAO
NAO
NAO
Sim Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Conjunto de teste
Retorno Estado
Civil
Renda
Anual Mentiu
Nao Casado 80K ?
10
Aplicando o conjunto de teste ao 
modelo
MT-803: Introdução à Mineração de Dados – Aula 1 64
Retorno
EstCivil
Renda
SIMNAO
NAO
NAO
Sim Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Associa “Nao” para o 
atributo Mentiu
Conjunto de teste
Retorno Estado
Civil
Renda
Anual Mentiu
Nao Casado 80K ?
10
Aplicando o conjunto de teste ao 
modelo
MT-803: Introdução à Mineração de Dados – Aula 1 65
Classificação: Aplicações
�Avaliação de concessão de créditos;
�Detecção de fraudes;
�Diagnósticos médicos;
�Sistema de alerta de geada;
�Previsão de mortalidade de frangos;
�Agrupamento de família de proteínas;
�etc.
MT-803: Introdução à Mineração de Dados – Aula 1 66
Exemplo de Classificação
DADOS
� Registros de venda de automóveis das 
concessionárias de uma determinada marca.
CONHECIMENTO DESCOBERTO
� SE (tipo = pick–up) E (sexo = M) E (idade < 28)
ENTÃO (acessórios = completo) (85%)
DECISÃO
� Lançar novo modelo de pick-up com jogo completo 
de acessórios e cores atrativas a jovens do sexo 
masculino.
MT-803: Introdução à Mineração de Dados – Aula 1 67
�Característica de padrões interessantes:
�Novos: os padrões descobertos devem possuir 
um certo grau de novidade.
�Úteis: os padrões descobertos devem ter 
potencial de conduzir a ações com utilidade.
�Compreensíveis: padrões compreensíveis pelos 
humanos é um objetivo (simplicidade).
Padrões interessantes representamPadrões interessantes representam CONHECIMENTOCONHECIMENTO
A descoberta do conhecimento ...
MT-803: Introdução à Mineração de Dados – Aula 1 68
Perguntas sobre Classificação
1. Considerando que o conjunto de teste é
formado, em geral, por 33% das amostras no 
banco de dados, o que aconteceria se esse 
conjunto fosse reduzido para 5%?
2. Qual é a grande vantagem da árvore de 
decisão em relação às outras abordagens 
(Redes Neurais, Naïve Bayes, etc)?
MT-803: Introdução à Mineração de Dados – Aula 1 69
Regras de Associação
� Estuda o relacionamento entre itens de dados 
que ocorrem com uma certa freqüência.
� É uma tarefa descritiva: identifica padrões em 
dados históricos.
MT-803: Introdução à Mineração de Dados – Aula 1 70
Associação: Aplicações
� Associação de produtos em um processo de 
compra.
� Elaboração de catálogos de produtos.
� Layout de prateleiras (produtos relacionados 
tendem a ser colocados perto nas prateleiras);
� Análise de seqüências de DNA;
� Análise de Web log (click stream), etc.
MT-803: Introdução

Crie agora seu perfil grátis para visualizar sem restrições.