MT803-2012-Aula-01-Apres+Dicas+IntroDM
20 pág.

MT803-2012-Aula-01-Apres+Dicas+IntroDM


DisciplinaIntrodução à Probabilidade e A Estatística II211 materiais1.662 seguidores
Pré-visualização4 páginas
(Inteligência Artificial)
\ufffd Algoritmos de aprendizado indutivo
Estatística
\ufffd Métodos de análise de dados
\ufffd Seleção e amostragem de dados
\ufffd Técnicas de avaliação do conhecimento
Banco de Dados
\ufffd Data Warehousing
\ufffd Estruturas de dados e mecanismos de busca
Visualização
\ufffd Técnicas que estimulam a percepção e a inteligência
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 49
A descoberta do conhecimento
Pré-processamento: em muitos 
casos pode consumir 60% ou 
mais do tempo no processo 
de descoberta de conhecimento
Conhecimento
Dados Integrados
Seleção e
Transformação
Mineração
Avaliação de Padrões
Dados
Dados-Alvo
Padrões
Limpeza e
Integração
Especialista
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 50
Quanto maior a quantidade 
de dados, melhor.
Uma amostra dos dados é
suficiente
É uma atividade 
exploratória
É baseada em hipótese 
(rejeita ou aceita)
Número de pontos a ser 
analisado é muito grande
Número de pontos a ser 
analisado é pequeno
Mineração de DadosEstatística
Estatística versus Mineração
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 51
Dados
Conhecimento
Analista
Tarefas de Mineração de Dados
\u2022 Associação
\u2022 Classificação
\u2022 Clusterização (agrupamento)
Principais Tarefas de Mineração
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 52
Principais Tarefas de Mineração
MINERAÇÃO
DE DADOS
PREDIÇÃO DESCRIÇÃO
CLASSIFICAÇÃO REGRESSÃO ASSOCIAÇÃO AGRUPAMENTO
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 53
Tarefas de Mineração de Dados
\ufffdTarefas Preditivas
\ufffdPredizer o valor de um determinado atributo 
baseado nos valores de outros atributos:
Classificação \u2013 Predição.
\ufffdTarefas Descritivas
\ufffdDerivar « padrões » : correlações, tendências, 
anomalias, agrupamentos dentro de uma grande 
massa de dados:
Regras de Associação \u2013 Padrões Sequenciais 
\u2013 Agrupamentos \u2013 Anomalias.
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 54
Tarefas de Mineração 
\ufffdTarefa ato de descobrir um certo tipo de 
padrão.
\ufffdRegras de Associação; 
\ufffdAnálise de Sequências;
\ufffdClassificação;
\ufffdAgrupamento;
\ufffdOutliers, etc.
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 55
Tarefas versus Técnicas
\ufffd A TAREFA consiste no ato de descobrir um certo 
tipo de padrão, ou seja, que tipo de regularidades 
temos interesse em encontrar.
\ufffd Exemplo: um gasto exagerado de um cliente de cartão de 
crédito, fora dos padrões usuais de seus gastos. 
\ufffd A TÉCNICA consiste na especificação de métodos 
que garantam a descoberta de padrões que nos 
interessam.
\ufffd Principais técnicas utilizadas:
\ufffd Estatísticas, técnicas de aprendizado de máquina e técnicas 
baseadas em crescimento-poda-validação.
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 56
\ufffd É uma tarefa preditiva: define o valor de uma variável 
desconhecida a partir de variáveis conhecidas.
\ufffd Passo 1: encontrar um modelo para o atributo alvo
como uma função dos valores dos outros atributos.
\ufffd Passo 2: registros não conhecidos devem ser 
associados à classe com a maior precisão possível.
Classificação de Dados
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 57
O que é classificação? ...
Aplicação
do Modelo
Indução
Dedução
Criação
do Modelo
Modelo
Tid Atrib1 Atrib2 Atrib3 Class
1 Yes Large 125K No
2 No Medium 100K No
3 No Small 70K No
4 Yes Medium 120K No
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No
8 No Small 85K Yes
9 No Medium 75K No
10 No Small 90K Yes
10
Tid Attrib1 Attrib2 Attrib3 Class
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ?
14 No Small 95K ?
15 No Large 67K ?
10
Conjunto de Teste
usado
algoritmo
Conjunto de treinamento
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 58
Exemplo de árvore de decisão
Retorno
EstCivil
Renda
SimNAO
NAO
NAO
Sim Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Particionamento de Atributos
Conjunto de treinamento Modelo: árvore de decisão
Tid Retorno Estado
Civil
Renda
Anual Mentiu
1 Sim Solteiro 125K Nao
2 Nao Casado 100K Nao
3 Nao Solteiro 70K Nao
4 Sim Casado 120K Nao
5 Nao Divorciado 95K Sim
6 Nao Casado 60K Nao
7 Sim Divorciado 220K Nao
8 Nao Solteiro 85K Sim
9 Nao Casado 75K Nao
10 Nao Solteiro 90K Sim
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 59
Aplicando o conjunto de teste ao 
modelo
Pode haver mais de uma árvore para o 
mesmo conjunto de dados! 
Retorno
EstCivil
Renda
SimNAO
NAO
NAO
Sim Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Início na raiz da árvore
Conjunto de teste
Retorno Estado
Civil
Renda
Anual Mentiu
Nao Casado 80K ?
10
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 60
Retorno
EstCivil
Renda
SIMNAO
NAO
NAO
Sim Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Retorno Estado
Civil
Renda
Anual Mentiu
Nao Casado 80K ?
10
Conjunto de teste
Aplicando o conjunto de teste ao 
modelo
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 61
Retorno
EstCivil
Renda
SIMNAO
NA
NAO
Sim Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Conjunto de teste
Retorno Estado
Civil
Renda
Anual Mentiu
Nao Casado 80K ?
10
Aplicando o conjunto de teste ao 
modelo
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 62
Retorno Estado
Civil
Renda
Anual Mentiu
Nao Casado 80K ?
10Retorno
EstCivil
Renda
YESNAO
NAO
NAO
Yes Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Conjunto de teste
Aplicando o conjunto de teste ao 
modelo
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 63
Retorno
EstCivil
Renda
SIMNAO
NAO
NAO
Sim Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Conjunto de teste
Retorno Estado
Civil
Renda
Anual Mentiu
Nao Casado 80K ?
10
Aplicando o conjunto de teste ao 
modelo
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 64
Retorno
EstCivil
Renda
SIMNAO
NAO
NAO
Sim Nao
CasadoSolteiro, Divorciado
< 80K > 80K
Associa \u201cNao\u201d para o 
atributo Mentiu
Conjunto de teste
Retorno Estado
Civil
Renda
Anual Mentiu
Nao Casado 80K ?
10
Aplicando o conjunto de teste ao 
modelo
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 65
Classificação: Aplicações
\ufffdAvaliação de concessão de créditos;
\ufffdDetecção de fraudes;
\ufffdDiagnósticos médicos;
\ufffdSistema de alerta de geada;
\ufffdPrevisão de mortalidade de frangos;
\ufffdAgrupamento de família de proteínas;
\ufffdetc.
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 66
Exemplo de Classificação
DADOS
\ufffd Registros de venda de automóveis das 
concessionárias de uma determinada marca.
CONHECIMENTO DESCOBERTO
\ufffd SE (tipo = pick\u2013up) E (sexo = M) E (idade < 28)
ENTÃO (acessórios = completo) (85%)
DECISÃO
\ufffd Lançar novo modelo de pick-up com jogo completo 
de acessórios e cores atrativas a jovens do sexo 
masculino.
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 67
\ufffdCaracterística de padrões interessantes:
\ufffdNovos: os padrões descobertos devem possuir 
um certo grau de novidade.
\ufffdÚteis: os padrões descobertos devem ter 
potencial de conduzir a ações com utilidade.
\ufffdCompreensíveis: padrões compreensíveis pelos 
humanos é um objetivo (simplicidade).
Padrões interessantes representamPadrões interessantes representam CONHECIMENTOCONHECIMENTO
A descoberta do conhecimento ...
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 68
Perguntas sobre Classificação
1. Considerando que o conjunto de teste é
formado, em geral, por 33% das amostras no 
banco de dados, o que aconteceria se esse 
conjunto fosse reduzido para 5%?
2. Qual é a grande vantagem da árvore de 
decisão em relação às outras abordagens 
(Redes Neurais, Naïve Bayes, etc)?
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 69
Regras de Associação
\ufffd Estuda o relacionamento entre itens de dados 
que ocorrem com uma certa freqüência.
\ufffd É uma tarefa descritiva: identifica padrões em 
dados históricos.
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 70
Associação: Aplicações
\ufffd Associação de produtos em um processo de 
compra.
\ufffd Elaboração de catálogos de produtos.
\ufffd Layout de prateleiras (produtos relacionados 
tendem a ser colocados perto nas prateleiras);
\ufffd Análise de seqüências de DNA;
\ufffd Análise de Web log (click stream), etc.
MT-803: Introdução