Grátis
20 pág.

MT803-2012-Aula-01-Apres+Dicas+IntroDM
Denunciar
Pré-visualização | Página 3 de 4
(Inteligência Artificial) � Algoritmos de aprendizado indutivo Estatística � Métodos de análise de dados � Seleção e amostragem de dados � Técnicas de avaliação do conhecimento Banco de Dados � Data Warehousing � Estruturas de dados e mecanismos de busca Visualização � Técnicas que estimulam a percepção e a inteligência MT-803: Introdução à Mineração de Dados – Aula 1 49 A descoberta do conhecimento Pré-processamento: em muitos casos pode consumir 60% ou mais do tempo no processo de descoberta de conhecimento Conhecimento Dados Integrados Seleção e Transformação Mineração Avaliação de Padrões Dados Dados-Alvo Padrões Limpeza e Integração Especialista MT-803: Introdução à Mineração de Dados – Aula 1 50 Quanto maior a quantidade de dados, melhor. Uma amostra dos dados é suficiente É uma atividade exploratória É baseada em hipótese (rejeita ou aceita) Número de pontos a ser analisado é muito grande Número de pontos a ser analisado é pequeno Mineração de DadosEstatística Estatística versus Mineração MT-803: Introdução à Mineração de Dados – Aula 1 51 Dados Conhecimento Analista Tarefas de Mineração de Dados • Associação • Classificação • Clusterização (agrupamento) Principais Tarefas de Mineração MT-803: Introdução à Mineração de Dados – Aula 1 52 Principais Tarefas de Mineração MINERAÇÃO DE DADOS PREDIÇÃO DESCRIÇÃO CLASSIFICAÇÃO REGRESSÃO ASSOCIAÇÃO AGRUPAMENTO MT-803: Introdução à Mineração de Dados – Aula 1 53 Tarefas de Mineração de Dados �Tarefas Preditivas �Predizer o valor de um determinado atributo baseado nos valores de outros atributos: Classificação – Predição. �Tarefas Descritivas �Derivar « padrões » : correlações, tendências, anomalias, agrupamentos dentro de uma grande massa de dados: Regras de Associação – Padrões Sequenciais – Agrupamentos – Anomalias. MT-803: Introdução à Mineração de Dados – Aula 1 54 Tarefas de Mineração �Tarefa ato de descobrir um certo tipo de padrão. �Regras de Associação; �Análise de Sequências; �Classificação; �Agrupamento; �Outliers, etc. MT-803: Introdução à Mineração de Dados – Aula 1 55 Tarefas versus Técnicas � A TAREFA consiste no ato de descobrir um certo tipo de padrão, ou seja, que tipo de regularidades temos interesse em encontrar. � Exemplo: um gasto exagerado de um cliente de cartão de crédito, fora dos padrões usuais de seus gastos. � A TÉCNICA consiste na especificação de métodos que garantam a descoberta de padrões que nos interessam. � Principais técnicas utilizadas: � Estatísticas, técnicas de aprendizado de máquina e técnicas baseadas em crescimento-poda-validação. MT-803: Introdução à Mineração de Dados – Aula 1 56 � É uma tarefa preditiva: define o valor de uma variável desconhecida a partir de variáveis conhecidas. � Passo 1: encontrar um modelo para o atributo alvo como uma função dos valores dos outros atributos. � Passo 2: registros não conhecidos devem ser associados à classe com a maior precisão possível. Classificação de Dados MT-803: Introdução à Mineração de Dados – Aula 1 57 O que é classificação? ... Aplicação do Modelo Indução Dedução Criação do Modelo Modelo Tid Atrib1 Atrib2 Atrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes 10 Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K ? 12 Yes Medium 80K ? 13 Yes Large 110K ? 14 No Small 95K ? 15 No Large 67K ? 10 Conjunto de Teste usado algoritmo Conjunto de treinamento MT-803: Introdução à Mineração de Dados – Aula 1 58 Exemplo de árvore de decisão Retorno EstCivil Renda SimNAO NAO NAO Sim Nao CasadoSolteiro, Divorciado < 80K > 80K Particionamento de Atributos Conjunto de treinamento Modelo: árvore de decisão Tid Retorno Estado Civil Renda Anual Mentiu 1 Sim Solteiro 125K Nao 2 Nao Casado 100K Nao 3 Nao Solteiro 70K Nao 4 Sim Casado 120K Nao 5 Nao Divorciado 95K Sim 6 Nao Casado 60K Nao 7 Sim Divorciado 220K Nao 8 Nao Solteiro 85K Sim 9 Nao Casado 75K Nao 10 Nao Solteiro 90K Sim MT-803: Introdução à Mineração de Dados – Aula 1 59 Aplicando o conjunto de teste ao modelo Pode haver mais de uma árvore para o mesmo conjunto de dados! Retorno EstCivil Renda SimNAO NAO NAO Sim Nao CasadoSolteiro, Divorciado < 80K > 80K Início na raiz da árvore Conjunto de teste Retorno Estado Civil Renda Anual Mentiu Nao Casado 80K ? 10 MT-803: Introdução à Mineração de Dados – Aula 1 60 Retorno EstCivil Renda SIMNAO NAO NAO Sim Nao CasadoSolteiro, Divorciado < 80K > 80K Retorno Estado Civil Renda Anual Mentiu Nao Casado 80K ? 10 Conjunto de teste Aplicando o conjunto de teste ao modelo MT-803: Introdução à Mineração de Dados – Aula 1 61 Retorno EstCivil Renda SIMNAO NA NAO Sim Nao CasadoSolteiro, Divorciado < 80K > 80K Conjunto de teste Retorno Estado Civil Renda Anual Mentiu Nao Casado 80K ? 10 Aplicando o conjunto de teste ao modelo MT-803: Introdução à Mineração de Dados – Aula 1 62 Retorno Estado Civil Renda Anual Mentiu Nao Casado 80K ? 10Retorno EstCivil Renda YESNAO NAO NAO Yes Nao CasadoSolteiro, Divorciado < 80K > 80K Conjunto de teste Aplicando o conjunto de teste ao modelo MT-803: Introdução à Mineração de Dados – Aula 1 63 Retorno EstCivil Renda SIMNAO NAO NAO Sim Nao CasadoSolteiro, Divorciado < 80K > 80K Conjunto de teste Retorno Estado Civil Renda Anual Mentiu Nao Casado 80K ? 10 Aplicando o conjunto de teste ao modelo MT-803: Introdução à Mineração de Dados – Aula 1 64 Retorno EstCivil Renda SIMNAO NAO NAO Sim Nao CasadoSolteiro, Divorciado < 80K > 80K Associa “Nao” para o atributo Mentiu Conjunto de teste Retorno Estado Civil Renda Anual Mentiu Nao Casado 80K ? 10 Aplicando o conjunto de teste ao modelo MT-803: Introdução à Mineração de Dados – Aula 1 65 Classificação: Aplicações �Avaliação de concessão de créditos; �Detecção de fraudes; �Diagnósticos médicos; �Sistema de alerta de geada; �Previsão de mortalidade de frangos; �Agrupamento de família de proteínas; �etc. MT-803: Introdução à Mineração de Dados – Aula 1 66 Exemplo de Classificação DADOS � Registros de venda de automóveis das concessionárias de uma determinada marca. CONHECIMENTO DESCOBERTO � SE (tipo = pick–up) E (sexo = M) E (idade < 28) ENTÃO (acessórios = completo) (85%) DECISÃO � Lançar novo modelo de pick-up com jogo completo de acessórios e cores atrativas a jovens do sexo masculino. MT-803: Introdução à Mineração de Dados – Aula 1 67 �Característica de padrões interessantes: �Novos: os padrões descobertos devem possuir um certo grau de novidade. �Úteis: os padrões descobertos devem ter potencial de conduzir a ações com utilidade. �Compreensíveis: padrões compreensíveis pelos humanos é um objetivo (simplicidade). Padrões interessantes representamPadrões interessantes representam CONHECIMENTOCONHECIMENTO A descoberta do conhecimento ... MT-803: Introdução à Mineração de Dados – Aula 1 68 Perguntas sobre Classificação 1. Considerando que o conjunto de teste é formado, em geral, por 33% das amostras no banco de dados, o que aconteceria se esse conjunto fosse reduzido para 5%? 2. Qual é a grande vantagem da árvore de decisão em relação às outras abordagens (Redes Neurais, Naïve Bayes, etc)? MT-803: Introdução à Mineração de Dados – Aula 1 69 Regras de Associação � Estuda o relacionamento entre itens de dados que ocorrem com uma certa freqüência. � É uma tarefa descritiva: identifica padrões em dados históricos. MT-803: Introdução à Mineração de Dados – Aula 1 70 Associação: Aplicações � Associação de produtos em um processo de compra. � Elaboração de catálogos de produtos. � Layout de prateleiras (produtos relacionados tendem a ser colocados perto nas prateleiras); � Análise de seqüências de DNA; � Análise de Web log (click stream), etc. MT-803: Introdução