Baixe o app para aproveitar ainda mais
Prévia do material em texto
PCC142 / BCC444 - Mineração de Dados Anderson Almeida Ferreira Material elaborado por: Luiz H. C. Merschmann Departamento de Computação Universidade Federal de Ouro Preto ferreira@iceb.ufop.br www.decom.ufop.br/anderson Roteiro Introdução Tarefas e Técnicas em Mineração de Dados Aplicações Softwares Introdução Surgimento da Mineração de Dados A disseminação do uso de meios eletrônicos na sociedade moderna tem gerado uma enorme quantidade de dados. I Uso de SGBDs na maioria das organizações públicas e privadas de médio e grande porte. I Avanços na aquisição de dados, desde os leitores de códigos de barra até sistemas de sensoriamento remoto. Cenário SQL e Mineração de Dados I Bancos de dados relacionais são responsáveis por armazenar e recuperar dados de forma eficiente. I Esses bancos de dados permitem a extração de diversas informações usando SQL. I Então para que serve a Mineração de Dados? I Usando SQL: esse processo resolve questões que necessariamente devem ser definidas. I Mineração de Dados: a descoberta de novas informações é automática, ou seja, sem que seja necessária a formulação de uma questão. SQL e Mineração de Dados I Bancos de dados relacionais são responsáveis por armazenar e recuperar dados de forma eficiente. I Esses bancos de dados permitem a extração de diversas informações usando SQL. I Então para que serve a Mineração de Dados? I Usando SQL: esse processo resolve questões que necessariamente devem ser definidas. I Mineração de Dados: a descoberta de novas informações é automática, ou seja, sem que seja necessária a formulação de uma questão. Mineração de Dados O que é Mineração de Dados? É o processo automático de descoberta de novas informações e conhecimento, úteis a uma aplicação, no formato de regras e padrões, �escondidas� em grandes volumes de dados. Onde ocorre? Este processo é executado sobre grandes quantidades de dados, estejam esses armazenados em bancos de dados tradicionais, em data warehouse ou em outra forma de repositório. Mineração de Dados Processo de Descoberta de Conhecimento em Bases de Dados Fonte: “From data mining to knowledge discovery: An overview”, U.M.Fayyad et. al., 1996. Dados Dados Selecionados 1 Dados Pré-processados 2 Dados Transformados 3 Regras e Padrões 4 5 Conhecimento Processo de Descoberta de Conhecimento em Bases de Dados Fonte: “From data mining to knowledge discovery: An overview”, U.M.Fayyad et. al., 1996. Dados Seleção Dados Selecionados 1 Dados Pré-processados 2 Dados Transformados 3 Regras e Padrões 4 5 Conhecimento Seleção: dados que serão relevantes para análise são selecionados. Processo de Descoberta de Conhecimento em Bases de Dados Fonte: “From data mining to knowledge discovery: An overview”, U.M.Fayyad et. al., 1996. Dados Dados Selecionados 1 Dados Pré-processados 2 Dados Transformados 3 Pré-processamento (limpeza + enriquecimento) Regras e Padrões 4 5 Conhecimento Limpeza: remoção de ruídos e dados inconsistentes. Processo de Descoberta de Conhecimento em Bases de Dados Fonte: “From data mining to knowledge discovery: An overview”, U.M.Fayyad et. al., 1996. Dados Dados Selecionados 1 Dados Pré-processados 2 Dados Transformados 3 Regras e Padrões 4 Transformação 5 Conhecimento Transformação: dados são transformados para ficarem adequados para etapa de mineração. Processo de Descoberta de Conhecimento em Bases de Dados Fonte: “From data mining to knowledge discovery: An overview”, U.M.Fayyad et. al., 1996. Dados Dados Selecionados 1 Dados Pré-processados 2 Dados Transformados 3 Regras e Padrões 4 5 Conhecimento Mineração Mineração: processo de extração de novas informações. Processo de Descoberta de Conhecimento em Bases de Dados Fonte: “From data mining to knowledge discovery: An overview”, U.M.Fayyad et. al., 1996. Dados Interpretação e avaliação Dados Selecionados 1 Dados Pré-processados 2 Dados Transformados 3 Regras e Padrões 4 5 Conhecimento Interpretação e Avaliação: interpretação e identificação dos padrões interessantes. Processo de Descoberta de Conhecimento em Bases de Dados Fonte: “From data mining to knowledge discovery: An overview”, U.M.Fayyad et. al., 1996. Dados Interpretação e avaliação Seleção Dados Selecionados 1 Dados Pré-processados 2 Dados Transformados 3 Pré-processamento (limpeza + enriquecimento) Regras e Padrões 4 Transformação 5 Conhecimento Mineração Tarefas e Técnicas em Mineração de Dados O processo de mineração de dados envolve o uso de diversas tarefas e técnicas. I Tarefas: são classes de problemas. I Técnicas: são os algoritmos utilizados na resolução dos problemas propostos nas tarefas. Principais Tarefas de Mineração de Dados Mineração de Dados Tarefas Preditivas Classificação Regressão Tarefas Descritivas Associação Agrupamento (Segmentação) Sumarização Padrões de Seqüência Tarefas em Mineração de Dados I Tarefas Preditivas: do conhecimento adquirido a partir de um conjunto de dados, fazemos predições para novas amostras. Exemplo: Se acontecer uma determinada composição de medidas climáticas, então existe 70% de chover. I Tarefas Descritivas: buscam identificar padrões de comportamento comuns nos dados. Exemplo: Fralda → Cerveja. Mineração de Dados Direta Dados Mineração do Modelo Modelo Entrada Informação Mineração de Dados Direta Dados Mineração do Modelo de Classificação Modelo Registro R Classe de R Mineração de Dados Direta I Através de uma técnica de mineração, extrai-se ou treina-se um modelo que será posteriormente utilizado. I Principais tarefas: classificação e regressão. �Who will go bankrupt�? I Mineração caracterizada pela existências de um campo específico (atributo meta) cujo valor deve ser estimado a partir dos valores dos demais atributos. Mineração de Dados Indireta Dados Mineração da Informação / Utilização do Modelo Informação Interpretação Informação Interpretada Mineração de Dados Indireta Dados Mineração de Regras de Associação (Modelo = Algoritmo de Mineração) Regras Interpretação Interpretação das Regras Mineração de Dados Indireta I Através de uma técnica de mineração, extraem-se padrões significativos que serão posteriormente avaliados. I Principais tarefas: extração de regras de associação, agrupamento. �Tell me something interesting?� I O resultado da mineração complementa o conhecimento do especialista e deverá ser examinado e avaliado por este. Mineração de Associações I Identificação de itens de um mesmo domínio de aplicação que ocorrem juntos com determinada freqüência na base de dados. I Exemplo: Market Basket Analysis → identificação de produtos que são comprados juntos em um número significativo de transações de compras. Regras de Associação Booleanas I Uma regra de associação representa um padrão de relacionamento entre itens de dados do domínio da aplicação que ocorre com uma determinada freqüência na base de dados (transacional). Id-Transação (TID) Itens Comprados 1 leite, pão, refrigerante 2 cerveja, carne 3 cerveja, fralda, leite, refrigerante 4 cerveja, fralda, leite, pão 5 fralda, leite, refrigerante I Exemplos de regras: fralda → cerveja, fralda → leite Regras de Associação Quantitativas I São utilizadas quando se deseja minerar padrões em bases de dados relacionais(formadas por atributos quantitativos e atributos categóricos). Id Sexo Profissão Salário Idade ... Atributos QuantitativosAtributos Categóricos I Exemplo: (sexo=�M�) ∧ (20 < idade < 30) ∧ (profissão = �advogado�) → (compra=�SIM�) Esta regra indica, com certo grau de certeza, que advogados, entre 20 e 30 anos, do sexo masculino são consumidores de laptops. Padrões Sequenciais I Padrões de sequências representam sequências de conjuntos de itens que ocorrem nas transações de diferentes consumidores, com determinada frequência (na ordem especificada). Consumidor Data/Hora Produtos João 01.08.2001/17:01 leite, pão João 03.08.2001/14:25 carne, cerveja João 10.08.2001/21:15 queijo, manteiga, sal Marcos 05.08.2001/10:16 leite, ovos Marcos 08.08.2001/18:30 queijo, manteiga I Exemplo: (leite) (queijo, manteiga) Agrupamento (Segmentação) I Agrupamento (segmentação) é o processo de identificação de um conjunto finito de categorias (ou grupos - clusters), não previamente definidos, que contêm objetos similares. I Exemplo: Deseja-se separar os clientes em grupos de forma que aqueles que apresentam o mesmo comportamento de consumo fiquem no mesmo grupo. Cada tupla deste exemplo indica a quantidade total de produtos consumidos e o preço médio destes produtos relativos a cada consumidor. Consumidor Qtd.Prods. Preço Médio Prods. 1 2 1.700 2 10 1.800 3 2 100 4 3 2.000 5 12 2.100 6 3 200 7 4 2.300 8 11 2.040 9 3 150 Agrupamento (Segmentação) Cons. Qtd. $ Méd. Prods. 1 2 1.700 2 10 1.800 3 2 100 4 3 2.000 5 12 2.100 6 3 200 7 4 2.300 8 11 2.040 9 3 150 Grupo Cons. Qtd. $ Méd. Prods. 1 2 1.700 1 4 3 2.000 7 4 2.300 2 10 1.800 2 5 12 2.100 8 11 2.040 3 2 100 3 6 3 200 9 3 150 Cada grupo identificado é caracterizado por consumidores semelhantes em relação à quantidade de produtos e ao preço médio dos mesmos. Classificação I Identificação da classe a qual um elemento pertence a partir de suas características. O conjunto de possíveis classes é discreto e predefinido. I Exemplo: a partir das características de um indivíduo, determinar a que classe social ele pertence. Conjunto de classes = {A, B, C, D, E}. Classificação ID Salário Idade Tipo Emprego Classe 1 3.000 30 Autônomo B 2 4.000 35 Indústria B 3 7.000 50 Pesquisa C 4 6.000 45 Autônomo C 5 7.000 30 Pesquisa B 6 6.000 35 Indústria B 7 6.000 35 Autônomo A 8 7.000 30 Autônomo A 9 4.000 45 Indústria B A partir de uma base de treinamento, extrai-se o modelo de classificação (p.ex., árvore de decisão). Árvore de Decisão Salário Idade T.Empr. B A C B ≤ 5.000 > 5.000 ≤ 40 > 40 Ind.,Pesq. Autônomo Regressão I Estimativa do valor de um atributo de uma instância a partir de suas características. O domínio deste atributo deve ser numérico e contínuo. I Exemplo: a partir das características de um imóvel, determinar seu valor de venda ou aluguel. Y = α+ βX. Aplicações Analisar tendências e encontrar padrões a partir de dados históricos com o objetivo de prever ações futuras e apoiar decisões pode ser um procedimento útil em diversas áreas, tais como: I Marketing. I Finanças. I Saúde. I Educação. I Segurança. Softwares I Weka: software de domínio público, desenvolvido (Java) pela Universidade de Waikato, contém uma série de algoritmos de Data Mining (DM). I Intelligent Miner: foi desenvolvido pela IBM. É uma ferramenta de DM diretamente interligada com o banco de dados DB2 da IBM. I Oracle Data Miner: desenvolvido pela Oracle, permitindo interligação direta com o banco de dados Oracle 11g Enterprise Edition. I Enterprise Miner: tradicionalmente utilizado na área de negócios, marketing e inteligência competitiva. I Statistica Data Miner: acrescenta as facilidades de mineração de dados ao tradicional pacote utilizado em aplicações de estatística. Perguntas? FIM Introdução Tarefas e Técnicas em Mineração de Dados Aplicações Softwares
Compartilhar