Baixe o app para aproveitar ainda mais
Prévia do material em texto
06/11/2014 1 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Parte 5 Mineração de Dados 135 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Os dados armazenados em bancos de dados relacionais podem esconder diversos tipos de padrões e comportamentos relevantes que a princípio não podem ser descobertos utilizando-se a linguagem SQL. Por exemplo, considere um cadastro com aproximadamente 500.000 clientes de uma loja de roupas. Através do uso de técnicas de mineração foi descoberto que 7% desses clientes são casados, estão na faixa etária compreendida entre 31 e 40 anos e possuem pelo menos dois filhos. Uma campanha de marketing direcionada a esse grupo de clientes poderia ser realizada objetivando o aumento no consumo de produtos infantis. Note que inicialmente não foi elaborada uma questão do tipo “identifique os clientes casados com faixa etária entre 31 e 40 anos e que possuem pelo menos dois filhos”. O próprio processo de mineração identificou a pergunta e a resposta. 06/11/2014 2 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados. Bancos de dados relacionais são responsáveis por armazenar e recuperar dados de forma eficiente. No entanto, somente estas atividades não garantem a continuidade dos negócios. Nos dias de hoje, cada vez mais é necessário que se tire um proveito maior dos dados. Surge a tríade dados, informações e conhecimento. O dado é algo bruto, é a matéria-prima da qual pode-se extrair informação. Informação é o dado processado, com significado e contexto bem definido. O computado, em essência, serve para transformar dados em informações. Por fim, o conhecimento é o uso inteligente da informação, é a informação contextualizada e utilizada na prática. Dessa forma, a qualidade da informação sustenta o conhecimento. Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Assim, mineração de dados (ou data mining) pode ser definida como o processo automatizado de descoberta de novas informações a partir de grandes massas de dados. A mineração de dados é mais que uma simples consulta a um banco de dados, pois permite aos usuários explorar e inferir informação útil a partir dos dados, descobrindo relacionamentos escondidos no banco de dados A mineração de dados trabalha no modo de descoberta indutiva, ou seja, os dados são analisados através de um conjunto de algoritmos e critérios especificados A mineração de dados é uma área interdisciplinar e envolve o estudo de diversas técnicas como: banco de dados, otimização, estatística e inteligência artificial 06/11/2014 3 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados A mineração de dados não ocorre somente em bancos de dados relacionais. Pode-se trabalhar com diversas fontes tais como textos, arquivos logs, data warehouses, entre outras. Áreas de aplicação de data mining Os tópicos abaixo apresentam algumas áreas de aplicação de data mining, exemplificando algumas análises que podem ser feitas. Vendas § Identificar padrões de comportamento dos consumidores; § Encontrar características dos consumidores de acordo com a região demográfica; Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados § Prever quais consumidores serão atingidos nas campanhas de marketing. Finanças § Detectar padrões de fraudes no uso dos cartões de crédito; § Identificar os consumidores que estão tendendo a mudar a companhia do cartão de crédito; § Identificar regras de estocagem a partir dos dados do mercado; § Encontrar correlações escondidas nas bases de dados Seguros e Planos de Saúde 06/11/2014 4 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados § Determinar quais procedimentos médicos são requisitados ao mesmo tempo; § Prever quais consumidores comprarão novas apólices; § Identificar comportamentos fraudulentos. Transporte § Determinar a distribuição dos horários entre os vários caminhos; § Analisar padrões de sobrecarga. Medicina § Caracterizar o comportamento dos pacientes para prever novas consultas; § Identificar terapias de sucessos para diferentes doenças. Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Data mining X Data warehouse O processo de mining tem certas diferenças com relação ao que vimos até agora, nas aulas anteriores. As técnicas OLAP têm como objeto trabalhar os dados existentes, buscando consolidações em vários níveis, trabalhando fatos em dimensões variadas. Já a técnica de mining busca algo mais que a interpretação dos dados existentes. Esta técnica visa fundamentalmente realizar inferências, tentando “adivinhar” possíveis fatos e correlações não explicitadas nas montanhas de dados de data warehouse ou de um data mart. 06/11/2014 5 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Além disso, o data mining também busca identificar atributos e indicadores capazes de melhor definir uma situação específica. Por exemplo, numa empresa de seguros, as ferramentas OLAP responderiam a pergunta do tipo: “Qual o valor médio de pagamentos de seguros de vida para não fumantes, na região sul do estado, em agosto de 2003? Já as ferramentas de mining seriam usadas para definir os melhores atributos de clientes capazes de ajudarem na previsão de possíveis acidentes de automóvel. Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Numa empresa de serviços, as ferramentas OLAP responderiam, por exemplo, à pergunta: “Qual o valor médio de faturamento de clientes do tipo industrial, da área de alumínio nas regiões da Mantiqueira, comparando-se os anos de 1990 e 2000?”. Enquanto que as ferramentas de mining serviriam para identificar quais os atributos de clientes seriam importantes para serem considerados numa possível e indesejável quebra de fidelização (migração do cliente para um concorrente). Numa empresa de crédito, as técnicas OLAP produziriam gráficos mostrando os percentuais comparativos de compras com cartões de crédito roubados e válidos. As ferramentas de mining indicariam os padrões associados a certo comportamento fraudulento com cartões de crédito 06/11/2014 6 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Processo de data mining A Figura 18 apresenta, numa visão geral, as principais fases de um projeto de data mining. DW Conjunto total de dados DW Conjunto total de dados Dados Preparados Dados Preparados PreparaçãoPreparação Mineração / Modelagem Mineração / Modelagem AnáliseAplicaçãoAplicação Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Preparação A preparação dos dados a serem utilizados em um projeto vai variar de acordo com o algoritmo de mining escolhido. Dependendo deste algoritmo, os dados serão formatados de maneiras diferentes.A seleção e manipulação dos dados, em geral, deve ser feita por alguém que conheça bastante do assunto abordado e dos números em estudo. Este processo de preparação dos dados é essencial e crucial para o sucesso do data mining e costuma consumir mais de 50% do tempo e recursos destinados ao projeto. 06/11/2014 7 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Esta fase deve seguir os seguintes passos: •Construir um banco de dados separado para os dados sujeitos à mineração. •Coletar os dados a serem garimpados. A fonte poderá ser o data warehouse (ou data mart) da empresa ou outros dados de natureza interna ou externa. •Definir os metadados. •Selecionar o subconjunto de dados para o processo de garimpagem (limpeza). •Atentar para a qualidade dos dados: os campos devem estar com valores corretos e o conjunto selecionado sem dados irrelevantes. •Deve-se também definir regras para campos ausentes, definindo valores defaults ou atribuindo valores estatísticos (por exemplo, médias). Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Definir para campos consolidados os critérios de reconciliação, como por exemplo diversos endereços do mesmo cliente e resolver diferenças de vários nomes para a mesma entidade ou diferentes entidades com o mesmo nome. Isto é desnecessário se a fonte de dados for integrada. Carregar o Banco de Dados para a mineração. 06/11/2014 8 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Mineração / Modelagem Nesta fase deve-se escolher os algoritmos a serem aplicados. Essa escolha depende do objetivo da mineração. Esta fase deve seguir os seguintes passos: •Criar os modelos de data mining. •Definir amostras ou população. •Selecionar dados para treinar o modelo. •Definir a formatação requerida pelas ferramentas. Por exemplo, redes neurais exigem os dados na forma dicotômica (sim/não) e árvores de decisão demandam agrupamentos, como bom, médio e ruim. •Criar os previsores ou atributos-chave para a análise do negócio. Por exemplo, risco de crédito depende de valor-renda e histórico de pagamento Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Análise O objetivo da fase de análise é descobrir padrões e tendências escondidos nas grandes massas de dados. Esse processo evolve tarefas e técnicas. As tarefas são classes de problemas que foram definidas através de estudos na área. As técnicas são grupos de solução (algoritmos) para os problemas propostos nas tarefas. 06/11/2014 9 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Esses modelos de garimpagem de dados podem ser usados de forma integrada, realizando análises em cascata, com operadores aplicados sobre resultados de outros operadores. Por exemplo, uma análise de associação de dados de compras é efetuada para identificar produtos comprados em conjunto. O resultado pode ser analisado para se definir classes desses produtos. associação; padrões seqüenciais; classificação agregação; estimativa (ou regressão) As principais tarefas definidas para a análise dos dados no processo de garimpagem de dados são: Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Associação É definida como a função que indica um coeficiente de afinidade entre registros de determinados fatos. Como certos fatos e eventos acontecem associados? Qual a influência que um impõe ao outro? A associação está, normalmente, relacionada com as aplicações que buscam identificar os produtos de uma cesta de supermercado ou equivalentes. Com que porcentagem um produto X é comprado na mesma transação com o produto Y? qual o valor médio das compras em que esses itens aparecem em conjunto? Qual o lucro médio dessas transações? Teria sentido colocá-los em promoção no mesmo período? Os resultados desta análise podem ser úteis na elaboração de catálogos e layout de prateleiras de modo que produtos a serem adquiridos na mesma compra fiquem próximos um do outro. Essa tarefa é considerada descritiva, ou seja, ela é usada para identificar padrões em dados históricos. 06/11/2014 10 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Genericamente, uma regra de associação é representada pela notação X => Y (X implica em Y), onde X e Y são conjuntos de itens distintos. Esta implicação é avaliada através dos fatores: suporte e confiança. O suporte de uma regra representa o percentual das transações em que tal regra aparece. Suponha uma grande rede de música no Brasil. Analisando-se um data warehouse contendo os registros diários de venda dessa rede de lojas, faz-se as seguintes perguntas: § Qual a associação entre música sertaneja e pagode compradas na mesma transação? § O que deve ser feito para incrementar a venda de pagode? Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Como um exemplo didático e simplificados, considere que na análise das transações dessa rede de lojas encontraram-se os seguintes registros de compras de gênero musical nas dez transações analisadas: 1. pagode, sertanejo, clássico, samba 2. clássico, samba 3. pagode, sertanejo, samba 4. sertanejo, clássico, samba 5. samba 6. clássico 7. pagode, clássico 8. sertanejo 9. pagode, sertanejo, samba 10 . pagode, sertanejo, clássico, samba 06/11/2014 11 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Efetuando-se uma análise de associação nesses dados, obtêm-se alguns coeficientes como: § Valor de confiança (confidence) da regra, ou seja, a probabilidade da cesta contendo sertanejo conter também pagode: sertanejo aparece em seis transações; pagode aparece em conjunto com sertanejo em quatro; confidence = 4/6 (67%). Quanto maior esse valor, mais forte é a correlação. Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados § Valor de suporte (support) da regra: pagode e sertanejo aparecem juntos em quatro transações; total de transações = 10; support = 4/10 (40%). Quanto maior esse valor, maior a probabilidade de que a regra seja válida. § Valor de alavancagem (lift) da regra: pagode aparece em 5 das 10 transações; minha probabilidade de achar pagode em uma venda é 5/10 = 50%; pagode aparece em 4 das 6 transações com sertanejo; a probabilidade de que exista uma associação com sertanejo é 4/6 = 67%; 06/11/2014 12 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados lift = 67/50 = 1,34. esse valor indica quantas vezes a associação com sertanejo aumente a probabilidade de se vender pagode. Nessa amostra há indicação de que existe 1,34 vezes mais chance de vender pagode quando associado a sertanejo. A análise dessas informações possibilita conclusões como: § Posso aumentar a venda de pagodes, promovendo a venda de sertanejos. § As lojas deveriam ter sempre os dois gêneros disponíveissimultaneamente. § Promoções para o gênero de sertanejo são mais interessantes do que para o gênero de pagode. Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados - Padrões seqüenciais São definidos como processos que visam a identificação de fatos que implicam em outros fatos, em momentos diferentes do tempo. Aqui o tempo entre os dois eventos é considerado. Análises de comportamento de fraudes e evolução de perfis de consumidores se encaixam nesse exemplo. Esses padrões seqüências poderiam indicar, por exemplo no mercado financeiro, que quando uma determinada ação X tem seu preço aumentado em 10% durante um período de 5 dias, uma outra ação Y será aumentada de 5 a 8% na semana subseqüente. Esta tarefa é considerada descritiva. 06/11/2014 13 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados - Classificação A classificação consiste em examinar as características de um objeto (ou situação) e atribuir a ela uma classe pré-definida. Ou seja, esta tarefa objetiva a construção de modelos que permitam o agrupamento de dados em classes Esta tarefa é considerada preditiva, pois uma vez que as classes são definidas, ela pode prever automaticamente a classe de um novo dado. Por exemplo, uma população pode ser dividida em categorias para avaliação de concessão de crédito com base em um histórico de transações de créditos anteriores. Em seguida, uma nova pessoa pode ser enquadrada, automaticamente, em uma categoria de crédito específica, de acordo com suas características (atraso de pagamento, classe sócio-econômica, idade, etc). Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Para gerar um modelo que seja capaz de gerar classificações para novos objetos ou novos dados, devem ser considerados dois tipos de atributos que caracterizam o objeto: Atributos preditivos, cujos valores irão influenciar no processo de determinação da classe e Atributos objetivos, que indicam a classe a qual o objeto pertence. Assim, a classificação visa descobrir algum tipo de relacionamento entre os atributos preditivos e objetivos. A principal técnica utilizada para esta tarefa é a árvore de classificação. 06/11/2014 14 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Exemplo Suponha uma aplicação que analise dados de clientes, visando a aprovação ou não (atributo objetivo) de crédito para empréstimo pessoal. Neste banco de dados, existem pessoas adimplentes e inadimplentes sendo cada classe caracterizada por algum tipo de padrão. Neste processo, os clientes do banco de dados cujo campo resultado venha a ter o valor não, representarão os inadimplentes. Para poder preencher esse campo, serão consideradas as características dos clientes (atributos preditivos) existentes no banco de dados. Nesse exemplo, os atributos preditivos são cargo e tempo (de trabalho) . Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados O processo pode ser dividido em duas fases. Na primeira fase, um modelo é construído, descrevendo um conjunto pré- determinado de classes (neste caso, SIM ou NÃO). Em seguida, um conjunto de treinamento é analisado por um algoritmo de classificação, que gerar como saída um modelo baseado numa árvore de classificação 06/11/2014 15 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Na segunda fase, o modelo gerado pela fase 1 é utilizado para classificação. Depois disso, é realizado um teste de aprimoramento que poderá sugerir novas regras. Se estas forem aceitáveis poderão ser utilizadas para a classificação de novos casos 06/11/2014 16 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Para o modelo gerado, pode-se ter a representação visual em árvore apresentada na Figura abaixo Árvore de decisão Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados - Agregação As informações podem ser particionadas em classes de elementos similares. Neste caso, nada é informado ao sistema a respeito das classes existentes. O próprio algoritmo descobre as classes a partir das alternativas encontradas na base de dados, agrupando assim um conjunto de objetos em classes de objetos semelhantes. Por exemplo, uma população inteira de dados sobre tratamento de uma doença pode ser dividida em grupos baseados na semelhança de efeitos colaterais produzidos; acessos a web realizados por um conjunto de documentos podem ser analisados para revelar clusters ou categorias de usuários. Esta tarefa é considerada descritiva. 06/11/2014 17 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Na tarefa de classificação, os registros são subdivididos em classes pré- definidas. Já na agregação, não há necessidade que se definam essas classes, pois estas são identificadas durante o processo, de forma automática. Neste caso, os registros são agrupados com base em similaridades. Na agregação não há atributo especial. A importância de cada atributo em geral é considerada equivalente à dos demais. Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados A idéia é que o algoritmo de agregação identifique automaticamente comportamentos similares em uma base de dados, dividindo a massa de informação em agregações. Após o processo de agregação, o analista deve estudar os padrões identificados a fim de determinar se eles podem ser transformados em conhecimento estratégico. Observe que a agregação não responde porquê os padrões existem, ela apenas os identifica. 06/11/2014 18 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Dados de uma tabela Agregações encontradas Observe que a agregação não responde porquê os padrões existem, ela apenas os identifica. Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados - Estimativa (ou regressão) Esta tarefa objetiva definir um valor (numérico) de alguma variável desconhecida a partir dos valores de variáveis conhecidas. Exemplos de aplicações são: estimar a probabilidade de um paciente sobreviver dado o resultado de um conjunto de diagnósticos de exames; predizer quantos carros passam em determinado pedágio, tendo alguns exemplos contendo informações como cidades mais próximas, preço do pedágio, dia da semana, rodovia em que o pedágio está localizado, entre outros Essa tarefa é considerada preditiva. 06/11/2014 19 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Data Mining – Mineração de dados Aplicação Depois de definido e testado o modelo, a aplicação se dá pela utilizaçãodos algoritmos definidos na análise ajustados em situações reais. Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Bibliografia • Este material foi construído a partir de diversas fontes, muitas sem créditos assinalados, o que impossibilita a referência aqui. Caso alguém se sinta prejudicado por uso de informações não creditadas, por favor entrar em contato com o professor. As demais fontes estão listadas a seguir: • Blog do Lito – Data Warehouse / Business Intelligence – http://www.litolima.com/ 172 06/11/2014 20 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento Bibliografia • Introdução ao Data Warehouse - Revista SQL Magazine nº 109; 173 Escola de Ciência e Tecnologia Curso: Sistemas de Informação Disciplina: Inteligência de Negócios – Professor Anderson Nascimento FIM 174
Compartilhar