Baixe o app para aproveitar ainda mais
Prévia do material em texto
Data MiningData Mining Rodrigo Leite DurãesRodrigo Leite Durães rodrigo_l_drodrigo_l_d@@yahoo.comyahoo.com .br.br Data MiningData Mining Processo de “mineração de dados” e descoberta Processo de “mineração de dados” e descoberta de informações relevantes em grandes volumes de informações relevantes em grandes volumes de dados.de dados. "... processo não-trivial de identificar, em dados, "... processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis” (Fayyad et al. ultimamente compreensíveis” (Fayyad et al. 1996).1996). Data MiningData Mining O problema dessa abordagem é que além da O problema dessa abordagem é que além da possibilidade de garimpagem de relacionamento possibilidade de garimpagem de relacionamento inúteis, o número de correlações possíveis de serem inúteis, o número de correlações possíveis de serem obtidas é muito grande, o que impede a análise de obtidas é muito grande, o que impede a análise de cada uma delas, exigindo, dessa forma, algoritmos cada uma delas, exigindo, dessa forma, algoritmos inteligentes que possam selecionar os padrões mais inteligentes que possam selecionar os padrões mais relevantes para certas aplicações.relevantes para certas aplicações. É usado quando é necessário análises complexas, É usado quando é necessário análises complexas, tendências escondidas, inferências, detecções de tendências escondidas, inferências, detecções de fraude, perfil de comportamento, análise de grau de fraude, perfil de comportamento, análise de grau de fidelização, formulações e verificações de hipóteses fidelização, formulações e verificações de hipóteses colocadas pela direção da empresa.colocadas pela direção da empresa. Data MiningData Mining As ferramentas de As ferramentas de MiningMining estão muito relacionadas com o estão muito relacionadas com o tratamento especialtratamento especial da informação, por isso, um da informação, por isso, um subconjunto de dados extraídos do subconjunto de dados extraídos do Data WarehouseData Warehouse e de e de Data MartsData Marts será o alvo dessas análises mais sofisticadas. será o alvo dessas análises mais sofisticadas. Dependendo da complexidade do projeto pode ser Dependendo da complexidade do projeto pode ser necessário a necessário a presença de um estatísticopresença de um estatístico, com , com conhecimento em técnicas e algoritmos estatísticos, por conhecimento em técnicas e algoritmos estatísticos, por exemplo, exemplo, árvores de decisão, análises de conglomerados, árvores de decisão, análises de conglomerados, análise de regressão, métodos preditivos com séries análise de regressão, métodos preditivos com séries temporais e o recurso matemático/computacional de redes temporais e o recurso matemático/computacional de redes neuraisneurais .. Data MiningData Mining O Data Mining ainda requer uma interação muito O Data Mining ainda requer uma interação muito forte com analistas humanos, que são, em última forte com analistas humanos, que são, em última instância, os principais responsáveis pela instância, os principais responsáveis pela determinação do valor dos padrões encontrados. determinação do valor dos padrões encontrados. Além disso, o direcionamento da exploração de Além disso, o direcionamento da exploração de dados é também tarefa fundamentalmente dados é também tarefa fundamentalmente confiada a analistas humanos, um aspecto que confiada a analistas humanos, um aspecto que não pode ser desprezado em nenhum projeto que não pode ser desprezado em nenhum projeto que queira ser bem sucedido.queira ser bem sucedido. Data MiningData Mining Para uma mineração bem sucedida, é preciso: a Para uma mineração bem sucedida, é preciso: a partir de fontes de dadospartir de fontes de dados (bancos de dados, (bancos de dados, relatórios, logs de acesso, transações, etc.) relatórios, logs de acesso, transações, etc.) efetuar uma limpezaefetuar uma limpeza (consistência, (consistência, preenchimento de informações, remoção de ruído e preenchimento de informações, remoção de ruído e redundâncias, etc). Disto nascem os redundâncias, etc). Disto nascem os repositórios repositórios organizadosorganizados (Data Marts e Data Warehouses), (Data Marts e Data Warehouses), que já são úteis para outros fins. Mas é a partir que já são úteis para outros fins. Mas é a partir deles que se pode selecionar algumas colunas para deles que se pode selecionar algumas colunas para atravessarem o processo de mineração.atravessarem o processo de mineração. Data MiningData Mining DW / DM Outros dados Internos Outros dados Externos Conjunto total de dados Dado preparado Data Mining De forma interativa e freqüentemente usando visualização gráfica, um analista refina e conduz o processo até que valiosos padrões apareçam. Observe que todo esse processo parece indicar uma hierarquia, algo que começa em instâncias elementares (embora volumosas) e terminam em um ponto relativamente concentrado, mas muito valioso. Encontrar padrões requer que os dados brutos sejam sistematicamente "simplificados" de forma a desconsiderar aquilo que é específico e privilegiar aquilo que é genérico. Faz-se isso porque não é necessário muito conhecimento a extrair de eventos isolados. Data Mining Uma loja de sua rede que tenha vendido a um cliente em particular uma quantidade impressionante de um determinado produto em uma única data pode apenas significar que esse cliente em particular procurava grande quantidade desse produto naquele exato momento, mas isso provavelmente não indica nenhuma tendência de mercado. Que é o contrário as correlações existentes entre a venda de fraudas junto com cervejas, salsichas junto com catchup, ou até mesmo CD de music com remédio para o fígado. Data Mining Não há como explorar uma informação em particular para que no futuro a empresa lucre mais. Apenas com conhecimento genérico é que isto pode ser obtido. Por essa razão devemos, em Data Mining, controlar nossa vontade de "não perder dados". Para que o processo dê certo, é necessário sim desprezar os eventos particulares para só manter aquilo que é genérico. Data MiningData Mining OLAP x Data Mining:OLAP x Data Mining: OLAP ajuda as organizações a descobrir as medidas, por OLAP ajuda as organizações a descobrir as medidas, por exemplo, descobrir que as vendas caíram, produtividade exemplo, descobrir que as vendas caíram, produtividade melhorou, qual está sendo o tempo de resposta de um melhorou, qual está sendo o tempo de resposta de um serviço, o estoque disponível. Simplesmente OLAP nos diz serviço, o estoque disponível. Simplesmente OLAP nos diz “O que aconteceu”.“O que aconteceu”. Data Mining ajuda as organizações a descobrir “o porque Data Mining ajuda as organizações a descobrir “o porque isso aconteceu”, além de poder ser usado para prever, ou isso aconteceu”, além de poder ser usado para prever, ou seja, nos dizer seja, nos dizer “O que vai acontecer no futuro”,“O que vai acontecer no futuro”, esses esses resultados são gerados através da percepção de padrões resultados são gerados através da percepção de padrões de dados disponíveis dentro e fora da organização.de dados disponíveis dentro e fora da organização. Data MiningData Mining Exemplos:Exemplos: Prever resposta a campanhas de marketing;Prever resposta a campanhas de marketing; Identificar associações entre clientes por Identificar associações entre clientes por características demográficas;características demográficas; Identificar clientes leais;Identificar clientes leais; Prever a aceitação de novos tiposde seguros Prever a aceitação de novos tipos de seguros por perfil de consumidor.por perfil de consumidor. Slide 1 Slide 2 Slide 3 Slide 4 Slide 5 Slide 6 Slide 7 Slide 8 Slide 9 Slide 10 Slide 11 Slide 12
Compartilhar