Buscar

DATA MINING

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Universidade Estadual de Montes Claros - UNIMONTES 
Centro de Ciências Exatas e Tecnológicas - CCET 
Sistemas de Informação 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
DATA MINING 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Montes Claros 
2013 
 
 
BRUNO PEREIRA 
JADER GABRIEL 
MARCELA MAYARA 
PATRICK PIERRE 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
DATA MINING 
 
 
 
 
 
 
 
 
 
Trabalho apresentado como instrumento de 
avaliação da disciplina de Banco de Dados II 
sob a orientação do professor Leandro. 
 
 
 
 
 
 
Montes Claros 
2013
Sumário 
 
1. Introdução .................................................................................................. 2 
 
2. Resumo ..................................................................................................... 4 
 
3. Gestão da Informação e do Conhecimento ............................................... 5 
 
3.1 Business Inteligence – BI ..................................................................... 6 
 
4. Banco de Dados e SGBD .......................................................................... 6 
 
5. Data Mining ............................................................................................... 8 
 
5.1 Tarefas ................................................................................................. 9 
 
5.2 Métodos e Técnicas ............................................................................. 10 
 
6. Conclusão .................................................................................................. 12 
 
7. Referências ............................................................................................... 13 
 
2 
 
1. Introdução 
 
Após a Segunda Guerra Mundial, cientistas ingleses e norte americanos, de 
maneira independente, conduziam suas pesquisas para o desenvolvimento 
do que hoje chamamos computador. Cada grupo pretendia criar uma 
máquina eletrônica conduzida por um programa armazenado de instruções 
e capaz de executar cálculos numéricos de alta complexidade. Segundo 
Harmon e King (1988), o cientista britânico Alan Turing argumentava que tal 
máquina, uma vez desenvolvida, teria usos muito diferentes e que, 
refletindo sobre a lógica formal no período anterior à Segunda Guerra 
Mundial, entendia que as instruções fundamentais dadas a uma máquina 
deveriam basear-se em operadores lógicos, tais como “e”, “ou” e “não”. 
(RODRIGUES, 2001, pg. 1) 
 
A criação dos primeiros computadores ocorreu devido à necessidade de 
se manipular e processar uma quantidade superior de informações, obtendo 
respostas mais rápidas e precisas. Inicialmente, acreditava-se que a construção de 
uma máquina que trabalhasse com operadores lógicos – tais como or, and e not – 
viria a ter um custo extremamente alto, mantendo como foco nos anos iniciais 
construir máquinas que trabalhassem com operadores aritméticos – soma, 
subtração dentre outros –, dando origem a máquinas de calcular grandes e 
“rápidas”, podendo ser considerado o inicio da era da informação. Quase um século 
antes, George Boole havia proposto um sistema de numeração para operadores 
lógicos baseado somente nos valores 0 e 1 (falso e verdadeiro ou desligado e 
ligado, respectivamente), e viria a se tornar a base fundamental para a computação 
moderna. 
 
O surgimento dos computadores, assim como sua grande evolução, se 
acabaram se tornando fatores fundamentais para a gestão da informação e do 
conhecimento. Durantes os anos iniciais, somente empresas de grande porte 
conseguiam comprar máquinas que pudessem as auxiliar nos processos 
empresariais, por seu alto preço, fato que mudou bastante, como podemos perceber 
– atualmente é fácil encontrar computadores simples em todos os tipos de comércio, 
por exemplo, e a cada dia um número maior de pessoas tem condições de adquirir 
seu próprio Personal Computer. 
 
Como sabemos a gestão da informação e a capacidade de transformá-la 
em conhecimento é crucial para o desenvolvimento organizacional. O aumento 
3 
 
gradativo da concorrência faz com que surja uma necessidade de agilização do 
processo de tomada de decisões, e é exatamente no ponto de encontro da 
manipulação da informação que entra a computação. Hoje em dia, é possível 
realizar o controle de uma empresa que possui vários pontos em uma cidade em 
uma sede central, podendo assim avaliar a lucratividade total da companhia, quanto 
cada uma vendeu e comprou sem a necessidade de realizar todo o trabalho 
manualmente – o que demandaria muito tempo e atrasaria o processo de tomada de 
decisões. 
 
Um fator fundamental para o controle dessas informações é garantir 
métodos de acesso aos dados eficientes. Para isso, foram surgindo métodos de 
armazenamento e controle de dados, como o armazenamento em arquivos. Os 
métodos iniciais de armazenamento eram demasiadamente lentos, pois se 
baseavam em buscas sequenciais, fazendo com que o processo de manipulação de 
dados se tornasse ineficiente. Com o intuito de acabar com este problema, foram 
criados os primeiros Sistemas de Gerenciamento de Banco de Dados – SGBD, que 
possibilitaram a manipulação dos dados de forma rápida, eficiente e segura, 
funcionando por um sistema de indexação ou hashing. 
 
Um fato que temos que ter em mente ao chegar a este ponto é que 
somente o armazenamento da informação de maneira eficiente não surte efeitos no 
comportamento empresarial – somente obter uma grande base de dados não ajuda 
a melhorar a estratégia da organização. Para que isso aconteça, se faz necessário a 
utilização de meios que possibilitem trabalhar essa informação da maneira correta. 
 
O Data Mining trata exatamente dessa necessidade. Cardoso e Machado 
(2008) a descrevem da seguinte maneira: 
 
Data mining, ou mineração de dados, é uma técnica que faz parte de uma 
das etapas da descoberta de conhecimento em banco de dados. Ela é 
capaz de revelar, automaticamente, o conhecimento que está implícito em 
grandes quantidades de informações armazenadas nos bancos de dados de 
uma organização. Essa técnica pode fazer, entre outras, uma análise 
antecipada dos eventos, possibilitando prever tendências e comportamentos 
futuros, permitindo aos gestores a tomada de decisões baseada em fatos e 
não em suposições. (Cardoso e Machado, 2008, pg 3). 
 
4 
 
2. Resumo 
 
Este trabalho tem como objetivo a definição e apresentação do conceito 
de Data Mining, demonstrando como a sua utilização nos processos organizacionais 
pode auxiliar no gerenciamento destas e no posicionamento estratégico. 
 
5 
 
3. Gestão da Informação e do Conhecimento 
 
A globalização, processo pelo qual o mundo vem passando desde o 
mercantilismo, fez com que, nos dias de hoje, a concorrência organizacional 
crescesse a níveis mundiais. Atualmente é comum encontrar empresas concorrentes 
situadas em regiões extremamente distantes, como outros países e continentes. 
Este processo possibilita um crescimento empresarial enorme, mas dificulta um 
pouco o gerenciamento da informação – devido ao aumento do volume de dados a 
serem tratados. 
 
Como descrito por Novins & Armstrong (1998, Apud Pereira, Rezende, p. 
1): “Muitas vezes más decisões são tomadas não pela inexistência do conhecimento 
para se tomar decisões melhores e sim porque o conhecimento não estava 
disponível no tempo e lugares certos para serem utilizados. Normalmente se 
encontram nos cantos da organização onde normalmente são difíceis de se 
encontrar”. A função primordial da gestão da informação e do conhecimento é 
impedir, por meio de um conjuntode estratégias, que problemas como este 
aconteçam, auxiliando no processo de tomada de decisões. 
 
Deste modo, podemos perceber o papel fundamental da gestão da 
informação e do conhecimento no meio empresarial, onde qualquer demora no 
processo de “distribuição” da informação pode ser vital, e qualquer erro contido 
nessas informações pode acabar desencadeando em péssimas decisões, afetando 
todos os demais setores da empresa, mas também podemos observar o papel 
essencial do setor de TI dentro da empresa, pois para a agilização do processo de 
“colheita” e gerenciamento de informações para geração do conhecimento 
propriamente dito, a utilização de computadores e softwares eficazes e pessoal 
capacitado para lidar com eles, se faz extremamente necessário. Cabe a gestão da 
informação e do conhecimento recolher estas informações escondidos nos variados 
setores da empresa, decidir o que é relevante e mandar para o setor correto da 
empresa, para que possam analisá-los de forma completa e assim melhorar o 
processo de tomada de decisão. 
 
6 
 
O processo de transformação da informação em conhecimento é crucial 
para o bom funcionamento de uma organização, englobando todo o processo de 
coleta e tratamento de dados, sua transformação em informação com o intuito de 
gerar conhecimento e agregar valor à organização. Sem métodos de coleta e 
gerenciamento de dados, informações e conhecimento a organização estará fadada 
ao declínio, não conseguindo gerenciar seus recursos de maneira eficiente. 
 
3.1. Business Inteligence - BI 
 
O BI – também chamado de “Inteligência de Negócios” – pode ser 
definido como todas as fases auxiliares do processo de tomada de decisões, 
auxiliando no posicionamento estratégico da organização. Sendo assim, ele engloba 
o processo de coleta, organização, análise, compartilhamento e monitoramento da 
informação necessária para o processo gestor. 
 
A utilização de um BI eficiente demanda um conjunto de softwares e 
aplicações utilizadas para a analise dos dados brutos organizacionais, 
possibilitando, desta forma, a redução de custos e a identificação de novos nichos 
de mercado. A figura abaixo demonstra, de forma clara, onde o Data Mining é 
utilizado em todo o processo. 
 
Figura 1: Fonte: <http://www.slideshare.net/luccasmaso/aula1-tarefas> 
7 
 
4. Banco de Dados e SGBDs 
 
Gaudêncio, E. define Banco de Dados como “uma coleção de dados inter-
relacionados, representando informações sobre um domínio específico” – como 
exemplos práticos poderíamos fazer uma comparação a uma lista telefônica ou ao 
controle do acervo de uma biblioteca. Neste caso, o banco de dados será uma 
região onde determinados dados ou informações estarão alocados, utilizando 
modelos lógicos, linguagem de consulta estruturada (SQL – Structured Query 
Language) e arquitetura física de computadores. 
 
A função dos Sistemas de Gerenciamento de Banco de Dados (SGBDs) 
é, como o próprio nome indica, fazer todo o processo de gerenciamento de um ou 
mais banco de dados, oferecendo uma interface onde os usuários possam realizar 
toda a manipulação dos dados. SGBDs são ainda responsáveis por: controle de 
redundância dos dados - evitando o armazenamento da mesma informação 
repetidas vezes, o que pode causar inconsistência nos dados; controle de acesso; 
armazenamento persistente dos dados; representações de relacionamentos entre os 
dados; recuperação de falhas, entre outros. 
 
Uma das funções dos SGBDs realizar uma abstração dos dados, tratando 
a relação entre os usuários e o banco de dados e fazendo com que os usuários não 
tenham acesso aos processos mais internos do gerenciador, considerando-os 
“separadamente”. A imagem a seguir ilustra de forma simples o funcionamento dos 
SGBDs de acordo com esta função. Nele percebemos que tanto usuários quanto 
programadores terão acesso somente aos programas que farão consultas ao SGBD 
e às consultas propriamente ditas, o próprio SGBD irá tratar as informações e 
requerimentos exigidos. Outra função deste é prover uma certa independência dos 
dados em relação a aplicação. Isto é importante, pois assim, problemas com o 
software utilizado para a relação com o banco não acarretarão em danos a base de 
dados. 
8 
 
 
Figura 2; Fonte: <http://www.tron.com.br/blog/2010/04/entendendo-o-sgbd-sistema-gerenciador-de-banco-de-
dados/> 
5. Data Mining 
 
A utilização dos sistemas de informação aliado aos objetivos corporativos 
tem facilitado bastante o funcionamento de diversas organizações. Estas, por sinal, 
tem conseguido realizar todo o processo de coleta e armazenamento de dados em 
grandes quantidades de maneira surpreendente, mas a grande maioria ainda não 
consegue realmente trabalhar toda essa informação para convertê-la em 
conhecimento a ser aplicado nos diversos processos empresariais – principalmente 
devido ao grande volume de informações. 
 
A Mineração de Dados, ou Data Mining, pode ser considerada uma 
pesquisa interdisciplinar com intuito exatamente de revelar, em grandes bases de 
dados, quais informações podem ser utilizadas de maneira estratégica, auxiliando e 
agilizando ainda mais no processo de tomada de decisões, podendo ser utilizada 
para realização de análise de riscos, marketing direcionado, análise de dados 
científicos, entre outros. 
9 
 
 
Fayyad (1996, apud Cardoso, O., Machado, R., pg. 503) define ainda 
Data Mining como “o processo não-trivial de identificar, em dados, padrões válidos, 
novos, potencialmente úteis e ultimamente compreensíveis”. Relembrando que o 
Data Mining pode ser vista como uma “pesquisa interdisciplinar”, Cardoso e 
Machado citam ainda algumas atividades que Data Mining engloba, sendo, dentre 
elas: tecnologias de banco de dados; inteligência artificial; estatística; 
reconhecimento de padrões; sistemas baseados em conhecimento; recuperação da 
informação; computação de alto desempenho e visualização de dados. 
 
Elsmari e Navathe (2002, apud Cardoso, O., Machado, R, pg. 505) dizem 
que, de forma geral, a técnica de data mining compreende quatro propósitos, sendo 
eles: 
 
 Previsão: possibilita mostrar como certos atributos dentro dos dados irão 
se comportar no futuro; 
 
 Identificação: análise de padrões de dados que possam ser utilizados para 
identificar a existência de um item, evento ou atividade; 
 
 Classificação: possibilitando a divisão dos dados de forma que, somente a 
partir da combinação de parâmetros, seja possível a identificação de 
diferentes classes ou categorias; 
 
 Otimização do uso de recursos limitados, estando entre eles tempo, 
espaço, dinheiro, matéria-prima; e maximização de variáveis de resultado, 
como vendas ou lucros sob um determinado conjunto de restrições. 
 
5.1 Tarefas 
 
A Mineração de Dados engloba também algumas tarefas fundamentais. 
Camilo e Silva citam o que consideraram serem as mais comuns: 
 
10 
 
 Description (Descrição): tarefa utilizada para a descrição de padrões e 
tendências identificados a partir dos dados colidos, oferetendo, 
geralmente, uma possível interpretação para os resultados destes; 
 Classification (Classificação): visa identificar a qual classe pertence 
determinado registro a partir da analise do conjunto de registros fornecidos 
– tendo cada registro a identificação de sua classe – na tentativa de 
“aprender” a classificar o novo registro – processo de aprendizado 
supervisionado. 
 Estimation (Estimação) ou Regression (Regressão): tem a mesma 
fundamentação que a classificação, porém funciona para quando o 
registro é identificado por valores numéricos e não categóricos, 
possibilitando estimar o valorde determinada variável a partir da analise 
dos demais valores. 
 Prediction (Predição): também similar a classificação e estimação, mas 
desta vez visando descobrir o valor futuro de determinado atributo. 
 Clustering (Agrupamento): visa a identificação e aproximação de registros 
similares, sendo estes “divididos” em agrupamentos – ou clusters. Esta 
tarefa se diferencia da Classificação por não necessitar de uma pré-
categorização dos registros – aprendizado não-supervisionado. O 
Clustering não tem também a pretensão de classificar, estimar ou predizer 
o valor de uma variável, mas somente identifica grupos de dados 
similares. 
 
5.2 Métodos e Técnicas 
 
Existem classificações diferentes de técnicas e métodos. Han (apud 
Camilo, C. Silva, J, pg. 11) utilizou uma metodologia de classificação que levava em 
consideração as tarefas que realizam, como seguem nos tópicos abaixo. 
 
 Associações: fundamentada na identificação do relacionamento dos itens 
mais frequentes em determinados conjuntos de dados. A análise deste 
tipo de dado poderia facilmente levar a conclusão chegada em alguns 
casos, como o de uma grande rede de varejo dos USA que descobriu, em 
11 
 
sua grande base de dados, uma ligação entre as vendas de fraldas 
descartáveis e cerveja – ao fazerem uma análise do caso descobriram 
que, no geral, quando a criança ainda era muito pequena o pai que 
comprava as fraldas, colocando fraldas fisicamente próximas a cervejas 
eles conseguiram aumentar em cerca de 400% as vendas. 
 
 Classificações: podem ser caracterizadas como “supervisionadas” ou 
“não-supervisionadas”, e são utilizadas para prever valores de variáveis 
categóricas. 
 
 Predições Numéricas: objetiva a previsão de valores futuros de variáveis 
contínuas. No caso da previsão para variáveis discretas, as técnicas de 
classificação apresentadas anteriormente podem ser aplicadas. Os 
métodos mais conhecidos para esta são as regressões. 
 
 Agrupamento: são técnicas consideradas como não-supervisionadas, 
possuindo, basicamente, as funcionalidades do clustering, citado 
anteriormente. 
 
12 
 
6. Conclusão 
 
O controle do fluxo de informação e mineração de dados são primordiais 
para a boa utilização destes. A não aplicação de métodos que permitam a 
manipulação dos dados necessários pode acarretar em um acumulo excessivo de 
informação desnecessária ou a falta de percepção de qual dado é necessário. 
 
O Data Mining, a partir de seus métodos de aplicação e, principalmente, 
devido a IA aplicada ao mesmo, permite a maximização do uso da base de dados, 
possibilitando um gerenciamento mais amplo do BD ao mesmo tempo que facilita o 
acesso aos dados que permitem, entre outras coisas, identificar padrões, 
possibilitando a uma organização um posicionamento estratégico mais”correto” – 
evitando incertezas. 
 
 
13 
 
7. Referências bibliográficas 
 
ACCORSI, D. Saiba o que é Data Mining. Disponível em: < 
http://www.alvoconhecimento.com.br/2008/04/saiba-o-que-e-data-mining/>. 
Acessado em: 08/06/2013. 
 
ALVARENGA NETO, R. RAMOS NETO, J. Gestão da Informação e do 
Conhecimento nas organizações – Parte 1. Disponível em: 
<http://intranetportal.org.br/wp/2006/01/gestao-da-informacao-e-do-conhecimento-
nas-organizacoes-parte-1/>. Acessado em: 07/08/2012. 
 
BORGES, L. Entendendo o SGBD (Sistema Gerenciador de Banco de Dados). 
2010. Disponível em: < ftp://ftp.inf.puc-
rio.br/pub/docs/techreports/02_10_cortes.pdf>. Acessado em: 08/06/2013. 
 
CAMILO, C. SILVA, J. Mineração de Dados: Conceitos, Tarefas, Métodos e 
Ferramentas. Disponível em: < 
http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001-
09.pdf> Acessado em: 08/06/2013. 
 
CARDOSO, O. MACHADO, R. Gestão do conhecimento usando data mining: 
estudo de caso da Universidade Federal de Lavras. Disponível em: 
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034-
76122008000300004> Acessado em: 08/06/2013. 
 
CÔRTES, S. PORCARO, R. LIFSCHILTZ, S. Mineração de Dados – 
Funcionalidades, Técnicas e Abordagens. Disponível em: <ftp://ftp.inf.puc-
rio.br/pub/docs/techreports/02_10_cortes.pdf>. Acessado em: 08/06/2013. 
 
GAUDÊNCIO, E. Conceituando Banco de Dados e SGBD. 2012. Disponível em: 
<http://www.cooperati.com.br/2012/08/19/banco-de-dados-conceituando-banco-de-
dados-e-sgbd/> Acessado em: 08/06/2013. 
14 
 
MULCAHAY, R. Business Intelligence Definition and Solutions. Disponível em: 
<http://www.cio.com/article/40296/Business_Intelligence_Definition_and_Solutions> 
Acessado em: 08/06/2013. 
 
PEREIRA, R. REZENDE, D. ABREU, A. Gestão do conhecimento com apoio dos 
recursos de sistemas de informação e tecnologias emergentes. Disponível em: 
<http://www.abepro.org.br/biblioteca/ENEGEP2000_E0144.PDF>. Acessado em: 
08/06/2012. 
 
RODRIGUES FILHO, J. Data Mining: Conceitos, Técnicas e Aplicação. 
Disponível em: <http://beto.pro.br/DtMining.pdf>. Acessado em: 06/08/2013. 
 
VELANDIA, L. Minería de Datos o Data Mining. Disponível em: < 
http://ingenierias.usergioarboleda.edu.co/index.php?option=com_k2&view=item&id=3
69:miner%c..> Acessado em: 08/06/2013. 
 
TODESCO, J. INE 5644 – Mineração de Dados: Aula 1 – O Processo e as 
Tarefas de DM. Disponível em: < http://www.slideshare.net/luccasmaso/aula1-
tarefas>. Acessado em: 08/06/2013.

Outros materiais