DATA MINING

•

UNIMONTES

Patrick Pierre Fernandes Ferreira

01.11.2014

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Banco de Dados II

2.807 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Universidade Estadual de Montes Claros - UNIMONTES
Centro de Ciências Exatas e Tecnológicas - CCET
Sistemas de Informação

DATA MINING

Montes Claros
2013

BRUNO PEREIRA
JADER GABRIEL
MARCELA MAYARA
PATRICK PIERRE

DATA MINING

Trabalho apresentado como instrumento de
avaliação da disciplina de Banco de Dados II
sob a orientação do professor Leandro.

Montes Claros
2013
Sumário

1. Introdução .................................................................................................. 2

2. Resumo ..................................................................................................... 4

3. Gestão da Informação e do Conhecimento ............................................... 5

3.1 Business Inteligence – BI ..................................................................... 6

4. Banco de Dados e SGBD .......................................................................... 6

5. Data Mining ............................................................................................... 8

5.1 Tarefas ................................................................................................. 9

5.2 Métodos e Técnicas ............................................................................. 10

6. Conclusão .................................................................................................. 12

7. Referências ............................................................................................... 13

1. Introdução

Após a Segunda Guerra Mundial, cientistas ingleses e norte americanos, de
maneira independente, conduziam suas pesquisas para o desenvolvimento
do que hoje chamamos computador. Cada grupo pretendia criar uma
máquina eletrônica conduzida por um programa armazenado de instruções
e capaz de executar cálculos numéricos de alta complexidade. Segundo
Harmon e King (1988), o cientista britânico Alan Turing argumentava que tal
máquina, uma vez desenvolvida, teria usos muito diferentes e que,
refletindo sobre a lógica formal no período anterior à Segunda Guerra
Mundial, entendia que as instruções fundamentais dadas a uma máquina
deveriam basear-se em operadores lógicos, tais como “e”, “ou” e “não”.
(RODRIGUES, 2001, pg. 1)

A criação dos primeiros computadores ocorreu devido à necessidade de
se manipular e processar uma quantidade superior de informações, obtendo
respostas mais rápidas e precisas. Inicialmente, acreditava-se que a construção de
uma máquina que trabalhasse com operadores lógicos – tais como or, and e not –
viria a ter um custo extremamente alto, mantendo como foco nos anos iniciais
construir máquinas que trabalhassem com operadores aritméticos – soma,
subtração dentre outros –, dando origem a máquinas de calcular grandes e
“rápidas”, podendo ser considerado o inicio da era da informação. Quase um século
antes, George Boole havia proposto um sistema de numeração para operadores
lógicos baseado somente nos valores 0 e 1 (falso e verdadeiro ou desligado e
ligado, respectivamente), e viria a se tornar a base fundamental para a computação
moderna.

O surgimento dos computadores, assim como sua grande evolução, se
acabaram se tornando fatores fundamentais para a gestão da informação e do
conhecimento. Durantes os anos iniciais, somente empresas de grande porte
conseguiam comprar máquinas que pudessem as auxiliar nos processos
empresariais, por seu alto preço, fato que mudou bastante, como podemos perceber
– atualmente é fácil encontrar computadores simples em todos os tipos de comércio,
por exemplo, e a cada dia um número maior de pessoas tem condições de adquirir
seu próprio Personal Computer.

Como sabemos a gestão da informação e a capacidade de transformá-la
em conhecimento é crucial para o desenvolvimento organizacional. O aumento
3

gradativo da concorrência faz com que surja uma necessidade de agilização do
processo de tomada de decisões, e é exatamente no ponto de encontro da
manipulação da informação que entra a computação. Hoje em dia, é possível
realizar o controle de uma empresa que possui vários pontos em uma cidade em
uma sede central, podendo assim avaliar a lucratividade total da companhia, quanto
cada uma vendeu e comprou sem a necessidade de realizar todo o trabalho
manualmente – o que demandaria muito tempo e atrasaria o processo de tomada de
decisões.

Um fator fundamental para o controle dessas informações é garantir
métodos de acesso aos dados eficientes. Para isso, foram surgindo métodos de
armazenamento e controle de dados, como o armazenamento em arquivos. Os
métodos iniciais de armazenamento eram demasiadamente lentos, pois se
baseavam em buscas sequenciais, fazendo com que o processo de manipulação de
dados se tornasse ineficiente. Com o intuito de acabar com este problema, foram
criados os primeiros Sistemas de Gerenciamento de Banco de Dados – SGBD, que
possibilitaram a manipulação dos dados de forma rápida, eficiente e segura,
funcionando por um sistema de indexação ou hashing.

Um fato que temos que ter em mente ao chegar a este ponto é que
somente o armazenamento da informação de maneira eficiente não surte efeitos no
comportamento empresarial – somente obter uma grande base de dados não ajuda
a melhorar a estratégia da organização. Para que isso aconteça, se faz necessário a
utilização de meios que possibilitem trabalhar essa informação da maneira correta.

O Data Mining trata exatamente dessa necessidade. Cardoso e Machado
(2008) a descrevem da seguinte maneira:

Data mining, ou mineração de dados, é uma técnica que faz parte de uma
das etapas da descoberta de conhecimento em banco de dados. Ela é
capaz de revelar, automaticamente, o conhecimento que está implícito em
grandes quantidades de informações armazenadas nos bancos de dados de
uma organização. Essa técnica pode fazer, entre outras, uma análise
antecipada dos eventos, possibilitando prever tendências e comportamentos
futuros, permitindo aos gestores a tomada de decisões baseada em fatos e
não em suposições. (Cardoso e Machado, 2008, pg 3).

2. Resumo

Este trabalho tem como objetivo a definição e apresentação do conceito
de Data Mining, demonstrando como a sua utilização nos processos organizacionais
pode auxiliar no gerenciamento destas e no posicionamento estratégico.

3. Gestão da Informação e do Conhecimento

A globalização, processo pelo qual o mundo vem passando desde o
mercantilismo, fez com que, nos dias de hoje, a concorrência organizacional
crescesse a níveis mundiais. Atualmente é comum encontrar empresas concorrentes
situadas em regiões extremamente distantes, como outros países e continentes.
Este processo possibilita um crescimento empresarial enorme, mas dificulta um
pouco o gerenciamento da informação – devido ao aumento do volume de dados a
serem tratados.

Como descrito por Novins & Armstrong (1998, Apud Pereira, Rezende, p.
1): “Muitas vezes más decisões são tomadas não pela inexistência do conhecimento
para se tomar decisões melhores e sim porque o conhecimento não estava
disponível no tempo e lugares certos para serem utilizados. Normalmente se
encontram nos cantos da organização onde normalmente são difíceis de se
encontrar”. A função primordial da gestão da informação e do conhecimento é
impedir, por meio de um conjuntode estratégias, que problemas como este
aconteçam, auxiliando no processo de tomada de decisões.

Deste modo, podemos perceber o papel fundamental da gestão da
informação e do conhecimento no meio empresarial, onde qualquer demora no
processo de “distribuição” da informação pode ser vital, e qualquer erro contido
nessas informações pode acabar desencadeando em péssimas decisões, afetando
todos os demais setores da empresa, mas também podemos observar o papel
essencial do setor de TI dentro da empresa, pois para a agilização do processo de
“colheita” e gerenciamento de informações para geração do conhecimento
propriamente dito, a utilização de computadores e softwares eficazes e pessoal
capacitado para lidar com eles, se faz extremamente necessário. Cabe a gestão da
informação e do conhecimento recolher estas informações escondidos nos variados
setores da empresa, decidir o que é relevante e mandar para o setor correto da
empresa, para que possam analisá-los de forma completa e assim melhorar o
processo de tomada de decisão.

O processo de transformação da informação em conhecimento é crucial
para o bom funcionamento de uma organização, englobando todo o processo de
coleta e tratamento de dados, sua transformação em informação com o intuito de
gerar conhecimento e agregar valor à organização. Sem métodos de coleta e
gerenciamento de dados, informações e conhecimento a organização estará fadada
ao declínio, não conseguindo gerenciar seus recursos de maneira eficiente.

3.1. Business Inteligence - BI

O BI – também chamado de “Inteligência de Negócios” – pode ser
definido como todas as fases auxiliares do processo de tomada de decisões,
auxiliando no posicionamento estratégico da organização. Sendo assim, ele engloba
o processo de coleta, organização, análise, compartilhamento e monitoramento da
informação necessária para o processo gestor.

A utilização de um BI eficiente demanda um conjunto de softwares e
aplicações utilizadas para a analise dos dados brutos organizacionais,
possibilitando, desta forma, a redução de custos e a identificação de novos nichos
de mercado. A figura abaixo demonstra, de forma clara, onde o Data Mining é
utilizado em todo o processo.

Figura 1: Fonte: <http://www.slideshare.net/luccasmaso/aula1-tarefas>
7

4. Banco de Dados e SGBDs

Gaudêncio, E. define Banco de Dados como “uma coleção de dados inter-
relacionados, representando informações sobre um domínio específico” – como
exemplos práticos poderíamos fazer uma comparação a uma lista telefônica ou ao
controle do acervo de uma biblioteca. Neste caso, o banco de dados será uma
região onde determinados dados ou informações estarão alocados, utilizando
modelos lógicos, linguagem de consulta estruturada (SQL – Structured Query
Language) e arquitetura física de computadores.

A função dos Sistemas de Gerenciamento de Banco de Dados (SGBDs)
é, como o próprio nome indica, fazer todo o processo de gerenciamento de um ou
mais banco de dados, oferecendo uma interface onde os usuários possam realizar
toda a manipulação dos dados. SGBDs são ainda responsáveis por: controle de
redundância dos dados - evitando o armazenamento da mesma informação
repetidas vezes, o que pode causar inconsistência nos dados; controle de acesso;
armazenamento persistente dos dados; representações de relacionamentos entre os
dados; recuperação de falhas, entre outros.

Uma das funções dos SGBDs realizar uma abstração dos dados, tratando
a relação entre os usuários e o banco de dados e fazendo com que os usuários não
tenham acesso aos processos mais internos do gerenciador, considerando-os
“separadamente”. A imagem a seguir ilustra de forma simples o funcionamento dos
SGBDs de acordo com esta função. Nele percebemos que tanto usuários quanto
programadores terão acesso somente aos programas que farão consultas ao SGBD
e às consultas propriamente ditas, o próprio SGBD irá tratar as informações e
requerimentos exigidos. Outra função deste é prover uma certa independência dos
dados em relação a aplicação. Isto é importante, pois assim, problemas com o
software utilizado para a relação com o banco não acarretarão em danos a base de
dados.
8

Figura 2; Fonte: <http://www.tron.com.br/blog/2010/04/entendendo-o-sgbd-sistema-gerenciador-de-banco-de-
dados/>
5. Data Mining

A utilização dos sistemas de informação aliado aos objetivos corporativos
tem facilitado bastante o funcionamento de diversas organizações. Estas, por sinal,
tem conseguido realizar todo o processo de coleta e armazenamento de dados em
grandes quantidades de maneira surpreendente, mas a grande maioria ainda não
consegue realmente trabalhar toda essa informação para convertê-la em
conhecimento a ser aplicado nos diversos processos empresariais – principalmente
devido ao grande volume de informações.

A Mineração de Dados, ou Data Mining, pode ser considerada uma
pesquisa interdisciplinar com intuito exatamente de revelar, em grandes bases de
dados, quais informações podem ser utilizadas de maneira estratégica, auxiliando e
agilizando ainda mais no processo de tomada de decisões, podendo ser utilizada
para realização de análise de riscos, marketing direcionado, análise de dados
científicos, entre outros.
9

Fayyad (1996, apud Cardoso, O., Machado, R., pg. 503) define ainda
Data Mining como “o processo não-trivial de identificar, em dados, padrões válidos,
novos, potencialmente úteis e ultimamente compreensíveis”. Relembrando que o
Data Mining pode ser vista como uma “pesquisa interdisciplinar”, Cardoso e
Machado citam ainda algumas atividades que Data Mining engloba, sendo, dentre
elas: tecnologias de banco de dados; inteligência artificial; estatística;
reconhecimento de padrões; sistemas baseados em conhecimento; recuperação da
informação; computação de alto desempenho e visualização de dados.

Elsmari e Navathe (2002, apud Cardoso, O., Machado, R, pg. 505) dizem
que, de forma geral, a técnica de data mining compreende quatro propósitos, sendo
eles:

 Previsão: possibilita mostrar como certos atributos dentro dos dados irão
se comportar no futuro;

 Identificação: análise de padrões de dados que possam ser utilizados para
identificar a existência de um item, evento ou atividade;

 Classificação: possibilitando a divisão dos dados de forma que, somente a
partir da combinação de parâmetros, seja possível a identificação de
diferentes classes ou categorias;

 Otimização do uso de recursos limitados, estando entre eles tempo,
espaço, dinheiro, matéria-prima; e maximização de variáveis de resultado,
como vendas ou lucros sob um determinado conjunto de restrições.

5.1 Tarefas

A Mineração de Dados engloba também algumas tarefas fundamentais.
Camilo e Silva citam o que consideraram serem as mais comuns:

 Description (Descrição): tarefa utilizada para a descrição de padrões e
tendências identificados a partir dos dados colidos, oferetendo,
geralmente, uma possível interpretação para os resultados destes;
 Classification (Classificação): visa identificar a qual classe pertence
determinado registro a partir da analise do conjunto de registros fornecidos
– tendo cada registro a identificação de sua classe – na tentativa de
“aprender” a classificar o novo registro – processo de aprendizado
supervisionado.
 Estimation (Estimação) ou Regression (Regressão): tem a mesma
fundamentação que a classificação, porém funciona para quando o
registro é identificado por valores numéricos e não categóricos,
possibilitando estimar o valorde determinada variável a partir da analise
dos demais valores.
 Prediction (Predição): também similar a classificação e estimação, mas
desta vez visando descobrir o valor futuro de determinado atributo.
 Clustering (Agrupamento): visa a identificação e aproximação de registros
similares, sendo estes “divididos” em agrupamentos – ou clusters. Esta
tarefa se diferencia da Classificação por não necessitar de uma pré-
categorização dos registros – aprendizado não-supervisionado. O
Clustering não tem também a pretensão de classificar, estimar ou predizer
o valor de uma variável, mas somente identifica grupos de dados
similares.

5.2 Métodos e Técnicas

Existem classificações diferentes de técnicas e métodos. Han (apud
Camilo, C. Silva, J, pg. 11) utilizou uma metodologia de classificação que levava em
consideração as tarefas que realizam, como seguem nos tópicos abaixo.

 Associações: fundamentada na identificação do relacionamento dos itens
mais frequentes em determinados conjuntos de dados. A análise deste
tipo de dado poderia facilmente levar a conclusão chegada em alguns
casos, como o de uma grande rede de varejo dos USA que descobriu, em
11

sua grande base de dados, uma ligação entre as vendas de fraldas
descartáveis e cerveja – ao fazerem uma análise do caso descobriram
que, no geral, quando a criança ainda era muito pequena o pai que
comprava as fraldas, colocando fraldas fisicamente próximas a cervejas
eles conseguiram aumentar em cerca de 400% as vendas.

 Classificações: podem ser caracterizadas como “supervisionadas” ou
“não-supervisionadas”, e são utilizadas para prever valores de variáveis
categóricas.

 Predições Numéricas: objetiva a previsão de valores futuros de variáveis
contínuas. No caso da previsão para variáveis discretas, as técnicas de
classificação apresentadas anteriormente podem ser aplicadas. Os
métodos mais conhecidos para esta são as regressões.

 Agrupamento: são técnicas consideradas como não-supervisionadas,
possuindo, basicamente, as funcionalidades do clustering, citado
anteriormente.

6. Conclusão

O controle do fluxo de informação e mineração de dados são primordiais
para a boa utilização destes. A não aplicação de métodos que permitam a
manipulação dos dados necessários pode acarretar em um acumulo excessivo de
informação desnecessária ou a falta de percepção de qual dado é necessário.

O Data Mining, a partir de seus métodos de aplicação e, principalmente,
devido a IA aplicada ao mesmo, permite a maximização do uso da base de dados,
possibilitando um gerenciamento mais amplo do BD ao mesmo tempo que facilita o
acesso aos dados que permitem, entre outras coisas, identificar padrões,
possibilitando a uma organização um posicionamento estratégico mais”correto” –
evitando incertezas.

7. Referências bibliográficas

ACCORSI, D. Saiba o que é Data Mining. Disponível em: <
http://www.alvoconhecimento.com.br/2008/04/saiba-o-que-e-data-mining/>.
Acessado em: 08/06/2013.

ALVARENGA NETO, R. RAMOS NETO, J. Gestão da Informação e do
Conhecimento nas organizações – Parte 1. Disponível em:
<http://intranetportal.org.br/wp/2006/01/gestao-da-informacao-e-do-conhecimento-
nas-organizacoes-parte-1/>. Acessado em: 07/08/2012.

BORGES, L. Entendendo o SGBD (Sistema Gerenciador de Banco de Dados).
2010. Disponível em: < ftp://ftp.inf.puc-
rio.br/pub/docs/techreports/02_10_cortes.pdf>. Acessado em: 08/06/2013.

CAMILO, C. SILVA, J. Mineração de Dados: Conceitos, Tarefas, Métodos e
Ferramentas. Disponível em: <
http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001-
09.pdf> Acessado em: 08/06/2013.

CARDOSO, O. MACHADO, R. Gestão do conhecimento usando data mining:
estudo de caso da Universidade Federal de Lavras. Disponível em:
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034-
76122008000300004> Acessado em: 08/06/2013.

CÔRTES, S. PORCARO, R. LIFSCHILTZ, S. Mineração de Dados –
Funcionalidades, Técnicas e Abordagens. Disponível em: <ftp://ftp.inf.puc-
rio.br/pub/docs/techreports/02_10_cortes.pdf>. Acessado em: 08/06/2013.

GAUDÊNCIO, E. Conceituando Banco de Dados e SGBD. 2012. Disponível em:
<http://www.cooperati.com.br/2012/08/19/banco-de-dados-conceituando-banco-de-
dados-e-sgbd/> Acessado em: 08/06/2013.
14

MULCAHAY, R. Business Intelligence Definition and Solutions. Disponível em:
<http://www.cio.com/article/40296/Business_Intelligence_Definition_and_Solutions>
Acessado em: 08/06/2013.

PEREIRA, R. REZENDE, D. ABREU, A. Gestão do conhecimento com apoio dos
recursos de sistemas de informação e tecnologias emergentes. Disponível em:
<http://www.abepro.org.br/biblioteca/ENEGEP2000_E0144.PDF>. Acessado em:
08/06/2012.

RODRIGUES FILHO, J. Data Mining: Conceitos, Técnicas e Aplicação.
Disponível em: <http://beto.pro.br/DtMining.pdf>. Acessado em: 06/08/2013.

VELANDIA, L. Minería de Datos o Data Mining. Disponível em: <
http://ingenierias.usergioarboleda.edu.co/index.php?option=com_k2&view=item&id=3
69:miner%c..> Acessado em: 08/06/2013.

TODESCO, J. INE 5644 – Mineração de Dados: Aula 1 – O Processo e as
Tarefas de DM. Disponível em: < http://www.slideshare.net/luccasmaso/aula1-
tarefas>. Acessado em: 08/06/2013.

DATA MINING

UNIMONTES

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Banco de Dados II

Outros materiais

Outros materiais