Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Estadual de Montes Claros - UNIMONTES Centro de Ciências Exatas e Tecnológicas - CCET Sistemas de Informação DATA MINING Montes Claros 2013 BRUNO PEREIRA JADER GABRIEL MARCELA MAYARA PATRICK PIERRE DATA MINING Trabalho apresentado como instrumento de avaliação da disciplina de Banco de Dados II sob a orientação do professor Leandro. Montes Claros 2013 Sumário 1. Introdução .................................................................................................. 2 2. Resumo ..................................................................................................... 4 3. Gestão da Informação e do Conhecimento ............................................... 5 3.1 Business Inteligence – BI ..................................................................... 6 4. Banco de Dados e SGBD .......................................................................... 6 5. Data Mining ............................................................................................... 8 5.1 Tarefas ................................................................................................. 9 5.2 Métodos e Técnicas ............................................................................. 10 6. Conclusão .................................................................................................. 12 7. Referências ............................................................................................... 13 2 1. Introdução Após a Segunda Guerra Mundial, cientistas ingleses e norte americanos, de maneira independente, conduziam suas pesquisas para o desenvolvimento do que hoje chamamos computador. Cada grupo pretendia criar uma máquina eletrônica conduzida por um programa armazenado de instruções e capaz de executar cálculos numéricos de alta complexidade. Segundo Harmon e King (1988), o cientista britânico Alan Turing argumentava que tal máquina, uma vez desenvolvida, teria usos muito diferentes e que, refletindo sobre a lógica formal no período anterior à Segunda Guerra Mundial, entendia que as instruções fundamentais dadas a uma máquina deveriam basear-se em operadores lógicos, tais como “e”, “ou” e “não”. (RODRIGUES, 2001, pg. 1) A criação dos primeiros computadores ocorreu devido à necessidade de se manipular e processar uma quantidade superior de informações, obtendo respostas mais rápidas e precisas. Inicialmente, acreditava-se que a construção de uma máquina que trabalhasse com operadores lógicos – tais como or, and e not – viria a ter um custo extremamente alto, mantendo como foco nos anos iniciais construir máquinas que trabalhassem com operadores aritméticos – soma, subtração dentre outros –, dando origem a máquinas de calcular grandes e “rápidas”, podendo ser considerado o inicio da era da informação. Quase um século antes, George Boole havia proposto um sistema de numeração para operadores lógicos baseado somente nos valores 0 e 1 (falso e verdadeiro ou desligado e ligado, respectivamente), e viria a se tornar a base fundamental para a computação moderna. O surgimento dos computadores, assim como sua grande evolução, se acabaram se tornando fatores fundamentais para a gestão da informação e do conhecimento. Durantes os anos iniciais, somente empresas de grande porte conseguiam comprar máquinas que pudessem as auxiliar nos processos empresariais, por seu alto preço, fato que mudou bastante, como podemos perceber – atualmente é fácil encontrar computadores simples em todos os tipos de comércio, por exemplo, e a cada dia um número maior de pessoas tem condições de adquirir seu próprio Personal Computer. Como sabemos a gestão da informação e a capacidade de transformá-la em conhecimento é crucial para o desenvolvimento organizacional. O aumento 3 gradativo da concorrência faz com que surja uma necessidade de agilização do processo de tomada de decisões, e é exatamente no ponto de encontro da manipulação da informação que entra a computação. Hoje em dia, é possível realizar o controle de uma empresa que possui vários pontos em uma cidade em uma sede central, podendo assim avaliar a lucratividade total da companhia, quanto cada uma vendeu e comprou sem a necessidade de realizar todo o trabalho manualmente – o que demandaria muito tempo e atrasaria o processo de tomada de decisões. Um fator fundamental para o controle dessas informações é garantir métodos de acesso aos dados eficientes. Para isso, foram surgindo métodos de armazenamento e controle de dados, como o armazenamento em arquivos. Os métodos iniciais de armazenamento eram demasiadamente lentos, pois se baseavam em buscas sequenciais, fazendo com que o processo de manipulação de dados se tornasse ineficiente. Com o intuito de acabar com este problema, foram criados os primeiros Sistemas de Gerenciamento de Banco de Dados – SGBD, que possibilitaram a manipulação dos dados de forma rápida, eficiente e segura, funcionando por um sistema de indexação ou hashing. Um fato que temos que ter em mente ao chegar a este ponto é que somente o armazenamento da informação de maneira eficiente não surte efeitos no comportamento empresarial – somente obter uma grande base de dados não ajuda a melhorar a estratégia da organização. Para que isso aconteça, se faz necessário a utilização de meios que possibilitem trabalhar essa informação da maneira correta. O Data Mining trata exatamente dessa necessidade. Cardoso e Machado (2008) a descrevem da seguinte maneira: Data mining, ou mineração de dados, é uma técnica que faz parte de uma das etapas da descoberta de conhecimento em banco de dados. Ela é capaz de revelar, automaticamente, o conhecimento que está implícito em grandes quantidades de informações armazenadas nos bancos de dados de uma organização. Essa técnica pode fazer, entre outras, uma análise antecipada dos eventos, possibilitando prever tendências e comportamentos futuros, permitindo aos gestores a tomada de decisões baseada em fatos e não em suposições. (Cardoso e Machado, 2008, pg 3). 4 2. Resumo Este trabalho tem como objetivo a definição e apresentação do conceito de Data Mining, demonstrando como a sua utilização nos processos organizacionais pode auxiliar no gerenciamento destas e no posicionamento estratégico. 5 3. Gestão da Informação e do Conhecimento A globalização, processo pelo qual o mundo vem passando desde o mercantilismo, fez com que, nos dias de hoje, a concorrência organizacional crescesse a níveis mundiais. Atualmente é comum encontrar empresas concorrentes situadas em regiões extremamente distantes, como outros países e continentes. Este processo possibilita um crescimento empresarial enorme, mas dificulta um pouco o gerenciamento da informação – devido ao aumento do volume de dados a serem tratados. Como descrito por Novins & Armstrong (1998, Apud Pereira, Rezende, p. 1): “Muitas vezes más decisões são tomadas não pela inexistência do conhecimento para se tomar decisões melhores e sim porque o conhecimento não estava disponível no tempo e lugares certos para serem utilizados. Normalmente se encontram nos cantos da organização onde normalmente são difíceis de se encontrar”. A função primordial da gestão da informação e do conhecimento é impedir, por meio de um conjuntode estratégias, que problemas como este aconteçam, auxiliando no processo de tomada de decisões. Deste modo, podemos perceber o papel fundamental da gestão da informação e do conhecimento no meio empresarial, onde qualquer demora no processo de “distribuição” da informação pode ser vital, e qualquer erro contido nessas informações pode acabar desencadeando em péssimas decisões, afetando todos os demais setores da empresa, mas também podemos observar o papel essencial do setor de TI dentro da empresa, pois para a agilização do processo de “colheita” e gerenciamento de informações para geração do conhecimento propriamente dito, a utilização de computadores e softwares eficazes e pessoal capacitado para lidar com eles, se faz extremamente necessário. Cabe a gestão da informação e do conhecimento recolher estas informações escondidos nos variados setores da empresa, decidir o que é relevante e mandar para o setor correto da empresa, para que possam analisá-los de forma completa e assim melhorar o processo de tomada de decisão. 6 O processo de transformação da informação em conhecimento é crucial para o bom funcionamento de uma organização, englobando todo o processo de coleta e tratamento de dados, sua transformação em informação com o intuito de gerar conhecimento e agregar valor à organização. Sem métodos de coleta e gerenciamento de dados, informações e conhecimento a organização estará fadada ao declínio, não conseguindo gerenciar seus recursos de maneira eficiente. 3.1. Business Inteligence - BI O BI – também chamado de “Inteligência de Negócios” – pode ser definido como todas as fases auxiliares do processo de tomada de decisões, auxiliando no posicionamento estratégico da organização. Sendo assim, ele engloba o processo de coleta, organização, análise, compartilhamento e monitoramento da informação necessária para o processo gestor. A utilização de um BI eficiente demanda um conjunto de softwares e aplicações utilizadas para a analise dos dados brutos organizacionais, possibilitando, desta forma, a redução de custos e a identificação de novos nichos de mercado. A figura abaixo demonstra, de forma clara, onde o Data Mining é utilizado em todo o processo. Figura 1: Fonte: <http://www.slideshare.net/luccasmaso/aula1-tarefas> 7 4. Banco de Dados e SGBDs Gaudêncio, E. define Banco de Dados como “uma coleção de dados inter- relacionados, representando informações sobre um domínio específico” – como exemplos práticos poderíamos fazer uma comparação a uma lista telefônica ou ao controle do acervo de uma biblioteca. Neste caso, o banco de dados será uma região onde determinados dados ou informações estarão alocados, utilizando modelos lógicos, linguagem de consulta estruturada (SQL – Structured Query Language) e arquitetura física de computadores. A função dos Sistemas de Gerenciamento de Banco de Dados (SGBDs) é, como o próprio nome indica, fazer todo o processo de gerenciamento de um ou mais banco de dados, oferecendo uma interface onde os usuários possam realizar toda a manipulação dos dados. SGBDs são ainda responsáveis por: controle de redundância dos dados - evitando o armazenamento da mesma informação repetidas vezes, o que pode causar inconsistência nos dados; controle de acesso; armazenamento persistente dos dados; representações de relacionamentos entre os dados; recuperação de falhas, entre outros. Uma das funções dos SGBDs realizar uma abstração dos dados, tratando a relação entre os usuários e o banco de dados e fazendo com que os usuários não tenham acesso aos processos mais internos do gerenciador, considerando-os “separadamente”. A imagem a seguir ilustra de forma simples o funcionamento dos SGBDs de acordo com esta função. Nele percebemos que tanto usuários quanto programadores terão acesso somente aos programas que farão consultas ao SGBD e às consultas propriamente ditas, o próprio SGBD irá tratar as informações e requerimentos exigidos. Outra função deste é prover uma certa independência dos dados em relação a aplicação. Isto é importante, pois assim, problemas com o software utilizado para a relação com o banco não acarretarão em danos a base de dados. 8 Figura 2; Fonte: <http://www.tron.com.br/blog/2010/04/entendendo-o-sgbd-sistema-gerenciador-de-banco-de- dados/> 5. Data Mining A utilização dos sistemas de informação aliado aos objetivos corporativos tem facilitado bastante o funcionamento de diversas organizações. Estas, por sinal, tem conseguido realizar todo o processo de coleta e armazenamento de dados em grandes quantidades de maneira surpreendente, mas a grande maioria ainda não consegue realmente trabalhar toda essa informação para convertê-la em conhecimento a ser aplicado nos diversos processos empresariais – principalmente devido ao grande volume de informações. A Mineração de Dados, ou Data Mining, pode ser considerada uma pesquisa interdisciplinar com intuito exatamente de revelar, em grandes bases de dados, quais informações podem ser utilizadas de maneira estratégica, auxiliando e agilizando ainda mais no processo de tomada de decisões, podendo ser utilizada para realização de análise de riscos, marketing direcionado, análise de dados científicos, entre outros. 9 Fayyad (1996, apud Cardoso, O., Machado, R., pg. 503) define ainda Data Mining como “o processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis”. Relembrando que o Data Mining pode ser vista como uma “pesquisa interdisciplinar”, Cardoso e Machado citam ainda algumas atividades que Data Mining engloba, sendo, dentre elas: tecnologias de banco de dados; inteligência artificial; estatística; reconhecimento de padrões; sistemas baseados em conhecimento; recuperação da informação; computação de alto desempenho e visualização de dados. Elsmari e Navathe (2002, apud Cardoso, O., Machado, R, pg. 505) dizem que, de forma geral, a técnica de data mining compreende quatro propósitos, sendo eles: Previsão: possibilita mostrar como certos atributos dentro dos dados irão se comportar no futuro; Identificação: análise de padrões de dados que possam ser utilizados para identificar a existência de um item, evento ou atividade; Classificação: possibilitando a divisão dos dados de forma que, somente a partir da combinação de parâmetros, seja possível a identificação de diferentes classes ou categorias; Otimização do uso de recursos limitados, estando entre eles tempo, espaço, dinheiro, matéria-prima; e maximização de variáveis de resultado, como vendas ou lucros sob um determinado conjunto de restrições. 5.1 Tarefas A Mineração de Dados engloba também algumas tarefas fundamentais. Camilo e Silva citam o que consideraram serem as mais comuns: 10 Description (Descrição): tarefa utilizada para a descrição de padrões e tendências identificados a partir dos dados colidos, oferetendo, geralmente, uma possível interpretação para os resultados destes; Classification (Classificação): visa identificar a qual classe pertence determinado registro a partir da analise do conjunto de registros fornecidos – tendo cada registro a identificação de sua classe – na tentativa de “aprender” a classificar o novo registro – processo de aprendizado supervisionado. Estimation (Estimação) ou Regression (Regressão): tem a mesma fundamentação que a classificação, porém funciona para quando o registro é identificado por valores numéricos e não categóricos, possibilitando estimar o valorde determinada variável a partir da analise dos demais valores. Prediction (Predição): também similar a classificação e estimação, mas desta vez visando descobrir o valor futuro de determinado atributo. Clustering (Agrupamento): visa a identificação e aproximação de registros similares, sendo estes “divididos” em agrupamentos – ou clusters. Esta tarefa se diferencia da Classificação por não necessitar de uma pré- categorização dos registros – aprendizado não-supervisionado. O Clustering não tem também a pretensão de classificar, estimar ou predizer o valor de uma variável, mas somente identifica grupos de dados similares. 5.2 Métodos e Técnicas Existem classificações diferentes de técnicas e métodos. Han (apud Camilo, C. Silva, J, pg. 11) utilizou uma metodologia de classificação que levava em consideração as tarefas que realizam, como seguem nos tópicos abaixo. Associações: fundamentada na identificação do relacionamento dos itens mais frequentes em determinados conjuntos de dados. A análise deste tipo de dado poderia facilmente levar a conclusão chegada em alguns casos, como o de uma grande rede de varejo dos USA que descobriu, em 11 sua grande base de dados, uma ligação entre as vendas de fraldas descartáveis e cerveja – ao fazerem uma análise do caso descobriram que, no geral, quando a criança ainda era muito pequena o pai que comprava as fraldas, colocando fraldas fisicamente próximas a cervejas eles conseguiram aumentar em cerca de 400% as vendas. Classificações: podem ser caracterizadas como “supervisionadas” ou “não-supervisionadas”, e são utilizadas para prever valores de variáveis categóricas. Predições Numéricas: objetiva a previsão de valores futuros de variáveis contínuas. No caso da previsão para variáveis discretas, as técnicas de classificação apresentadas anteriormente podem ser aplicadas. Os métodos mais conhecidos para esta são as regressões. Agrupamento: são técnicas consideradas como não-supervisionadas, possuindo, basicamente, as funcionalidades do clustering, citado anteriormente. 12 6. Conclusão O controle do fluxo de informação e mineração de dados são primordiais para a boa utilização destes. A não aplicação de métodos que permitam a manipulação dos dados necessários pode acarretar em um acumulo excessivo de informação desnecessária ou a falta de percepção de qual dado é necessário. O Data Mining, a partir de seus métodos de aplicação e, principalmente, devido a IA aplicada ao mesmo, permite a maximização do uso da base de dados, possibilitando um gerenciamento mais amplo do BD ao mesmo tempo que facilita o acesso aos dados que permitem, entre outras coisas, identificar padrões, possibilitando a uma organização um posicionamento estratégico mais”correto” – evitando incertezas. 13 7. Referências bibliográficas ACCORSI, D. Saiba o que é Data Mining. Disponível em: < http://www.alvoconhecimento.com.br/2008/04/saiba-o-que-e-data-mining/>. Acessado em: 08/06/2013. ALVARENGA NETO, R. RAMOS NETO, J. Gestão da Informação e do Conhecimento nas organizações – Parte 1. Disponível em: <http://intranetportal.org.br/wp/2006/01/gestao-da-informacao-e-do-conhecimento- nas-organizacoes-parte-1/>. Acessado em: 07/08/2012. BORGES, L. Entendendo o SGBD (Sistema Gerenciador de Banco de Dados). 2010. Disponível em: < ftp://ftp.inf.puc- rio.br/pub/docs/techreports/02_10_cortes.pdf>. Acessado em: 08/06/2013. CAMILO, C. SILVA, J. Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas. Disponível em: < http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001- 09.pdf> Acessado em: 08/06/2013. CARDOSO, O. MACHADO, R. Gestão do conhecimento usando data mining: estudo de caso da Universidade Federal de Lavras. Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034- 76122008000300004> Acessado em: 08/06/2013. CÔRTES, S. PORCARO, R. LIFSCHILTZ, S. Mineração de Dados – Funcionalidades, Técnicas e Abordagens. Disponível em: <ftp://ftp.inf.puc- rio.br/pub/docs/techreports/02_10_cortes.pdf>. Acessado em: 08/06/2013. GAUDÊNCIO, E. Conceituando Banco de Dados e SGBD. 2012. Disponível em: <http://www.cooperati.com.br/2012/08/19/banco-de-dados-conceituando-banco-de- dados-e-sgbd/> Acessado em: 08/06/2013. 14 MULCAHAY, R. Business Intelligence Definition and Solutions. Disponível em: <http://www.cio.com/article/40296/Business_Intelligence_Definition_and_Solutions> Acessado em: 08/06/2013. PEREIRA, R. REZENDE, D. ABREU, A. Gestão do conhecimento com apoio dos recursos de sistemas de informação e tecnologias emergentes. Disponível em: <http://www.abepro.org.br/biblioteca/ENEGEP2000_E0144.PDF>. Acessado em: 08/06/2012. RODRIGUES FILHO, J. Data Mining: Conceitos, Técnicas e Aplicação. Disponível em: <http://beto.pro.br/DtMining.pdf>. Acessado em: 06/08/2013. VELANDIA, L. Minería de Datos o Data Mining. Disponível em: < http://ingenierias.usergioarboleda.edu.co/index.php?option=com_k2&view=item&id=3 69:miner%c..> Acessado em: 08/06/2013. TODESCO, J. INE 5644 – Mineração de Dados: Aula 1 – O Processo e as Tarefas de DM. Disponível em: < http://www.slideshare.net/luccasmaso/aula1- tarefas>. Acessado em: 08/06/2013.
Compartilhar