Buscar

Mineração Dados

Prévia do material em texto

MINERAÇÃO DE DADOS
Professora: Maria Adelina Raupp Sganzarela
Alunos: Diogo Ortiz Machado, Guilherme Moraes
Conceitos
“É a exploração e a análise, por meio automático ou semi-automático, de grandes quantidades de dados, a fim de descobrir padrões e regras significativas.” (Berry e Linoff, 1997).
“É o processo de reconhecimento de padrões válidos ou não, existentes nos dados armazenados em um banco de dados.” [Fayyad, Piatetsky-Shapiro & Smyth,1995]
O que é mineração de dados?
Com o volume de dados armazenados crescendo diariamente, responder uma questão tornou-se crucial: 
O que fazer com os dados armazenados? As técnicas tradicionais de exploração de dados não são mais adequadas para tratar a grande maioria dos repositórios. 
Com a finalidade de responder a esta questão, foi proposta, no final da década de 80, a Mineração de Dados, do inglês Data Mining.
O que é mineração de dados?
Definição:
É o processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados
Mineração de dados é o passo do processo de KDD(Knowledge Discovery in Databases) que produz um conjunto de padrões sob um custo computacional aceitável
Como a mineração de dados é conhecida?
Mineração de Dados / Data Mining
Descoberta de Conhecimento em bancos de dados (KDD)
KDD = Knowledge Discovery in Databases
KDD (Knowledge Discovery in Database)
Conceito:
KDD utiliza algoritmos de mineração de dados para extrair padrões classificados como “conhecimento”.
Ela Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados.
Etapas do KDD
Seleção 
Pré-processamento e Limpeza 
Transformação dos dados 
Mineração 
Interpretação e Avaliação
Etapas do KDD
 
 
Mineração: Etapa central do processo de Descoberta de Conhecimento
Seleção
 
Limpeza
Mineração
Análise do 
Resultado
Transformação
Pré-preocessamento
Conhecimento
Preparação de dados 
 Produção de um conjunto de dados adequado 
 aos algoritmos de mineração
Selecionar os dados
Limpar os dados (dados nulos, ausentes, zerados, inválidos, etc..)
Construir dados (criar novos atributos a partir de outros)
Integrar dados: combinar múltiplas tabelas ou outras fontes 
Formatar dados: modificações sintáticas nos dados, sem alterar o seu significado. Ex:
Primeiro atributo tem que ser uma chave única
O arquivo tem que estar em uma ordem determinada
Retirar vírgulas dos campos para gerar um arquivo com atributos separados por vírgulas
Preparação de dados: 
Seleção dos dados
Seleção de atributos
motivos:
Requisitos de tempo e espaço
Simplicidade do modelo gerado
Relevância dos atributos
Redundância entre atributos
Acurácia pode ser aumentada
forma:
Manual
Por algoritmos: mais de 30 algoritmos
Preparação de dados: 
Limpeza dos dados
Visa garantir a qualidade dos dados
Eliminação de dados errôneos –
Padronização de dados: formato de datas, abreviaturas, valores de atributos (ex. sexo: M ou F, 0 ou 1, Mas e Fem, ...)
Eliminação de duplicatas
Preparação de dados: 
Limpeza dos dados
Tratamento de valores ausentes
Excluir instâncias
Completar valores ausentes
Complemento manual
Complemento com valor constante global: ex: “desconhecido”
Complementar com o valor mais provável
Complementar com o valor médio do atributo
Preparação de dados: 
Construir dados
Transformação de dados
Normalização 
valores muito variados são transformados em um intervalo [0 – 1]
Transformação de valores simbólicos para numéricos 
Ex: sexo Masculino = 0 e Feminino = 1
Discretização de atributos 
transformar em faixas – ex: idade
Preparação de dados: 
Construir dados
Criação de novos atributos.
 Ex: área = comprimento x largura
 Ex: idade = faixa de idades
Modelagem
Corresponde a fase de Mineração de Dados utilizada por outros autores
Selecionar a técnica de modelagem
Gerar projeto de teste
Construir modelo: mineração propriamente dita (aplicação do algoritmo)
Avaliação
Interpretar e avaliar os resultados
 em relação aos objetivos do usuário
Avaliar resultados
Revisar o processo
Determinar próximos passos: ir para a fase final de disponibilização ou voltar para alguma etapa anterior
Disponibilização
Planejar disponibilização: decidir a estratégia para a integração dos resultados obtidos no ambiente da organização
Planejar monitoramento e manutenção: 
Produzir relatório final
Revisar o projeto: avaliar pontos positivos e negativos do projeto, problemas e sugestões
Descoberta de conhecimento em bases de dados
Esforço (%)
Etapa
Fonte: Adriaans
Descoberta de conhecimento em bases de dados
O grande esforço da preparação dos dados se deve não apenas ao conhecimento dos dados, seleção e limpeza, mas a transformação
Como a IA e BD são áreas distintas e os algoritmos de Data Mining foram criados por pesquisadores da área de IA, a maioria deles não trabalha com BD, mas sim com arquivos texto ou uma tabela
Então entra a parte de desnormalizar o BD para criar o “tabelão”, com os dados selecionados, limpos e transformados para minerar
Outros tipos de dados
Texto (ex: categorização de textos; “exame” de e-mails, ...)
Internet
conteúdo
estrutura
uso
Imagens
Vídeos
sequências de genes
séries temporais
Grafos
Trajetórias de objetos móveis
Redes sociais (facebook, twitter, 	foursquare, flickr, entre outros...)
Dados geográficos
Dados de trajetórias
Dependendo do tipo de dado pode ser requerido algoritmos mais sofisticados de mineração de dados
Áreas de Relação do KDD 
Mineração de dados
Estatística
Visualização de dados
Inteligência Artificial
Banco de dados
Outras Disciplinas
Reconhecimento de 
padrões
Aprendizado de 
máquina
Matemática Sistemas 
Especialistas 
Tarefas utilizadas na mineração de dados
Regras de Associação
Análise de Sequências
Classificação
Agrupamento
Outliers
Tarefas de Mineração de dados	
Tarefas Preditivas
Se caracterizam por predizer o valor de um determinado atributo baseado nos valores de outros atributos
 Classificação – Predição
Tarefas de Mineração de dados	
Tarefas Descritivas
Caracterizam por derivar « padrões » : correlações, tendências, anomalias, agrupamentos dentro de uma grande massa de dados.
 Regras de Associação – Padrões Sequenciais – Agrupamentos - Outliers
Tarefas, Técnicas e Algoritmos
 
Sistemas de Mineração	
Intelligent Miner (IBM)
DBMiner
Enterprise Miner
Clementine
MineSet
Genamics Expressions
Rapid Miner
Weka
Aplicações da Mineração de dados 
Comércio
Medicina
 Detecção de Fraudes
 Inteligência Competitiva 
– Concorrentes 
– Tendências do Mercado
Aplicações da Mineração de dados 
Técnicas de Mineração podem ajudar analistas:
Entender e prever as necessidades dos clientes
Descobrir fraudes
Descobrir perfis de comportamento de clientes 
Técnicas de Mineração podem ajudar cientistas:
Classificar e segmentar dados
Formular hipóteses
Exemplos
Áreas de aplicações potenciais:
 Vendas e Marketing
 Identificar padrões de comportamento de consumidores 
Associar comportamentos à características demográficas de consumidores 
Campanhas de marketing direto (mailing campaigns) Identificar consumidores “leais”
Exemplos
Áreas de aplicações potenciais:
 Bancos 
Identificar padrões de fraudes (cartões de crédito) 
Identificar características de correntistas 
Mercado Financeiro
O governo dos EUA se utiliza do data mining já há bastante tempo para identificar padrões de transferências de fundos internacionais que se parecem com lavagem de dinheiro do narcotráfico. Data mining usado para identificar fraudes.
 
Exemplos
Áreas de aplicações potenciais: 
 Área Médica 
Comportamento de pacientes 
Identificar terapias de sucessos para diferentes tratamentos 
Fraudes em planos de saúdes 
Comportamento de usuários de planos de saúde
Exemplos
	
Áreas de aplicações potenciais: 
 Ensino (EAD):
Traçar perfis de estudantes.Melhorar a interação.
Verificar necessidade de mudanças
Entre outras.
Exemplos
Áreas de aplicações potenciais: 
Segurança: 
Na detecção de atividades terroristas e criminais;
RH:
Identificação de competências em currículos.
Tomada de Decisão: 
Filtrar as informações relevantes, fornecer indicadores de probabilidade
Dúvidas?
 
0
10
20
30
40
50
60
70
80
Identificação
do domínio
Preparação
do dados
Mineração
de dados
Análise dos
resultados

Continue navegando