Buscar

Mineração de Dados - Ebook 1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 41 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 41 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 41 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

E-book 1
Luciano Rossi
MINERAÇÃO DE 
DADOS
Neste E-Book:
INTRODUÇÃO ����������������������������������������������������������� 3
A ÁREA DE MINERAÇÃO DE DADOS ���������������� 5
CONCEITO DE BUSINESS INTELLIGENCE�������� 6
CONCEITO DE ANALYTICS ����������������������������������13
CONCEITO DE BIG DATA ��������������������������������������17
CONCEITO DE MINERAÇÃO DE DADOS �������� 23
DIFERENÇAS ENTRE OS TERMOS 
CONCEITUADOS ANTERIORMENTE ���������������� 32
CONSIDERAÇÕES FINAIS �����������������������������������37
REFERÊNCIAS BIBLIOGRÁFICAS & 
CONSULTADAS �������������������������������������������������������39
2
INTRODUÇÃO
Neste e-book você poderá aprender sobre um tema 
bastante atual que é a mineração de dados e outros 
desdobramentos conceituais correlatos. Desde o iní-
cio da década de 1990, temos observado um grande 
progresso tanto na produção, coleta e armazenamen-
to de dados. Essa realidade não apresenta indícios 
de mudança, pelo menos em um futuro breve. Nesse 
sentido, esta disciplina nos leva ao questionamento 
de como nós podemos explorar essa realidade, de 
modo que possamos produzir conhecimento relevan-
te a partir de grandes volumes de dados disponíveis.
O advento da internet mudou a forma como vive-
mos de maneira importante. Hoje em dia, muitos 
dos nossos comportamentos em sociedade foram 
modificados por conta da evolução tecnológica. A 
forma como consumimos bens ou serviços, como 
nós nos comunicamos, os nossos relacionamentos, 
enfim, grande parte do nosso comportamento em 
sociedade foi transformado e essa transformação 
tem uma característica importante: a produção de 
dados em larga escala.
Teremos a oportunidade de conhecer os diferentes 
aspectos relacionados com a exploração de dados 
que provêm de fontes distintas. Além disso, vamos 
estudar as tarefas, técnicas e métodos envolvidos no 
processo de se obter conhecimento relevante a partir 
de bancos de dados, sejam eles de quaisquer tipos.
3
Estudaremos os conceitos mais importantes para 
a correta interpretação dos objetivos da área de mi-
neração de dados e outras áreas correlatas. Com o 
aumento exponencial da produção de dados, dife-
rentes áreas surgiram ou foram revitalizadas com 
o objetivo de promover formas para a exploração 
desses dados. Nesse contexto, as áreas que serão 
abordadas neste e-book são (1) business intelligence, 
(2) analytics, (3) big data e (4) mineração de dados.
Vamos conceituar as áreas descritas anteriormente, 
evidenciando suas origens, objetivo e característi-
cas principais. Desse modo, esperamos fornecer 
subsídios para que possamos ter um entendimento 
amplo sobre análises de dados. Além disso, vamos 
contrastar essas áreas, buscando identificar seus 
limites, similaridades e características divergentes.
4
A ÁREA DE MINERAÇÃO 
DE DADOS
A área de mineração de dados (data mining) não 
apresenta limites muito claros. Existem conceitos, 
técnicas e ferramentas que podem ser associados 
a outras áreas do conhecimento, como a estatística, 
a inteligência artificial, a inteligência de negócios 
(business intelligence) e a própria área de ciência 
de dados (data science), dentre outras possíveis de 
serem observadas.
Uma característica comum às áreas correlatas à 
mineração de dados é o interesse em extrair conhe-
cimento a partir de conjuntos de dados de modo que 
haja impacto na tomada de decisão. Há uma pro-
porcionalidade entre o volume de dados disponíveis 
e o conhecimento que pode ser adquirido. Quanto 
mais dados, maior será a possibilidade de se extrair 
conhecimento relevante.
Por outro lado, também existe uma proporcionalidade 
quanto à dificuldade inerente ao processo de análise 
de dados. Quanto maior o volume disponível, maior 
será a complexidade do processo, considerando-se 
desde a dificuldade de armazenamento até a obten-
ção dos insights sobre o contexto desejado.
Nesse contexto, vamos começar identificando al-
guns conceitos que são importantes para o pleno 
entendimento dos objetivos da mineração de dados.
5
CONCEITO DE BUSINESS 
INTELLIGENCE
As organizações contemporâneas utilizam os 
Sistemas Integrados de Informações Gerenciais 
como ferramenta de apoio para a gestão de seus 
processos de negócio. Nesse sentido, essas ferra-
mentas são importantes para a automatização dos 
processos organizacionais, tornando-os mais rápidos 
e assertivos. A rapidez e a assertividade, propiciadas 
pelos sistemas integrados, impactam na redução dos 
custos operacionais, aumento do resultado financeiro 
e aumento da qualidade dos produtos e/ou serviços 
ofertados pela organização.
Os sistemas integrados podem ser classificados em 
três grandes classes, de acordo com o seu objetivo 
ou escopo de atuação.
Os chamados sistemas de planejamento de recursos 
empresarias (Enterprise Resource Planning – ERP) 
têm como objetivo gerenciar todos os processos 
internos à organização, como produção, administra-
ção e financeiro, dentre outros. Esse tipo de sistema 
fornece suporte aos processos por meio da auto-
matização e compartilhamento integrado de dados.
Nesse sentido, os processos organizacionais con-
tam com soluções de base tecnológica para a auto-
matização das rotinas internas, de modo que seja 
possível realizar seu monitoramento. Além disso, 
as funcionalidades providas pelo sistema resultam 
6
em aumento de produtividade, melhoria da qualida-
de e redução de custos, tornando-se um diferencial 
competitivo para as organizações.
Vamos considerar um exemplo, suponha um depar-
tamento de contabilidade que realize todos os seus 
processos de forma manual. Haveria uma grande 
demanda por mão de obra e a maior parte do tempo 
seria consumida com o registro de informações em 
livros caixa e com a consulta de informações regis-
tradas anteriormente. A introdução de um sistema 
computacional integrado em um contexto como esse 
reduziria muito a necessidade de mão de obra, redu-
zindo, também, os custos operacionais. Além disso, 
a integração de diferentes departamentos, por meio 
do sistema, traria agilidade aos processos e maior 
assertividade nos resultados.
Outra classe de sistema muito utilizada reúne funcio-
nalidades voltadas para o gerenciamento da cadeia 
de suprimentos (Supply Chain Management – SCM). 
Esses sistemas são responsáveis pela gestão dos 
processos logísticos internos e externos à organiza-
ção. Nesse caso, podemos destacar a gestão dos 
processos de compra de insumos e matéria-prima, o 
armazenamento e a distribuição de produtos, dentre 
outros processos correlatos.
O SCM promove uma maior visibilidade de todo o 
ciclo de vida dos produtos e serviços oferecidos pela 
organização, evitando gargalos produtivos e reduzin-
do o desperdício de tempo e recursos no decorrer 
do processo produtivo e logístico. Além disso, há 
7
uma maior previsibilidade, em todas as etapas pro-
dutivas, resultando em pontualidade nas entregas 
que são programadas em função de uma demanda 
mais realista. Outro benefício que se pode destacar, 
a partir da automatização promovida pelo SCM, é a 
capacidade que a organização tem de se adaptar 
a possíveis flutuações de mercado e à redução do 
tamanho de seus estoques.
A última classe de sistema integrado é responsável 
pelo gerenciamento do relacionamento com o clien-
te (Customer Relationship Management – CRM). O 
objetivo desse tipo de sistema é realizar a gestão 
de todo o tipo de relação existente entre o cliente e 
a organização, de modo a promover a manutenção 
do relacionamento por meio de um atendimento de 
alto nível às expectativas dos clientes.
O CRM é importante para a manutenção da carteira 
de clientes de uma organização, por meio da exce-
lência no atendimento às demandas dos clientes. 
Além da automatização, o CRM promove a integração 
das equipes de vendas e possibilita um aumento do 
ticket médio por cliente.
Veja que as três classes de sistemas podem ser consi-
deradas individualmente ou em conjunto. Comumente, 
organizações de médio e grande portes contam com 
as três classesde sistemas. Para esses casos, dize-
mos que a empresa possui e-business pleno, abran-
gendo todo o ciclo de vida do produto ou serviço ofer-
tado pela organização, desde a aquisição da matéria 
prima até o recebimento do produto final pelo cliente.
8
A integração entre as classes de sistemas é possi-
bilitada por meio da internet, que fornece os meios 
necessários para que os sistemas interajam e com-
partilhem dados de uma única fonte. Nesse sentido, 
os relacionamentos de uma organização com ou-
tra são denominados Business to Business (B2B) e 
aqueles que envolvem a organização e o cliente são 
chamados de Business to Customer (B2C).
Com a popularização dos sistemas integrados, em 
organizações de diferentes tamanhos, não demorou a 
se perceber que a gestão automática dos processos 
de negócio gerava uma grande quantidade de dados 
que continham informações a respeito do desempe-
nho funcional da organização, em diferentes setores.
Os dados organizacionais são ricos em oportunida-
des de melhoria para as próprias organizações. A 
partir da exploração desses dados, as organizações 
podem obter informações sobre o seu próprio desem-
penho e elaborar estratégias mais condizentes com 
seus objetivos e metas. Além disso, o monitoramento 
dos dados possibilita que os processos sejam man-
tidos sob controle e agilizem as ações corretivas em 
processos com desempenho abaixo do esperado. 
Assim, um desafio que se apresenta é relativo ao 
desenvolvimento de meios para a exploração dessas 
bases de dados (Data Bases – DB).
A área de inteligência de negócios (Business 
Intelligence – BI) fornece subsídios para que os 
agentes tomadores de decisões possam realizar 
suas escolhas considerando parâmetros quantita-
9
tivos, condizentes com a realidade da organização. 
Desse modo, as decisões podem ser baseadas em 
fatos, em oposição àquelas baseadas na intuição 
dos tomadores de decisão. Observe, na Figura 1, um 
esquema ilustrativo das relações e implicações dos 
sistemas integrados de informações gerenciais e a 
inteligência de negócios.
Internet
B2B
SCM
BI
ERP CRM
B2C
DB
Reports
Figura 1: Sistemas Integrados de Informações Gerenciais. 
Fonte: Elaboração Própria.
A inteligência de negócios (BI) é um conjunto de 
processos, comumente baseado em ferramentas 
de tecnologia da informação, que tem por objetivo 
promover a coleta, a organização e a representa-
ção de dados provenientes dos demais processos 
automatizados. Nesse contexto, os resultados dos 
processos de BI visam a ações de maximização de 
10
ganhos e minimização de custos. Além disso, pro-
movem o monitoramento, muitas vezes em tempo 
real, dos indicadores de desempenho dos diferentes 
processos de negócios.
Organizações que operam com e-business pleno 
tomam suas decisões estratégicas com base nas 
análises de seus dados operacionais. Essas decisões 
tendem a ser mais assertivas que aquelas baseadas 
na intuição dos tomadores de decisão. Nesse contex-
to, os indicadores de desempenho são atualizados 
automaticamente, e seus resultados podem ser su-
marizados em dashboards que norteiam os gestores 
em todos os níveis da organização.
Os dashboards são interfaces gráficas customizáveis 
que disponibilizam os resultados de diferentes indica-
dores de desempenho da organização. Esse tipo de 
representação de dados provenientes dos processos 
de BI é muito útil para que seja possível acompanhar 
os resultados das organizações de forma simples 
e rápida. Além disso, os dashboards podem refletir 
as estratégias da organização, por meio do desdo-
bramento em objetivos e metas. Assim, é possível 
acompanhar o desempenho de áreas específicas, 
grupos de colaboradores e resultados individuais.
Nesse contexto, os processos de BI são especial-
mente úteis para a tradução de grandes volumes de 
dados, oriundos dos próprios processos organiza-
cionais, em informações relevantes para a tomada 
de decisão no âmbito corporativo.
11
Figura 2: Exemplo de dashboard. Fonte: Unsplash
O conhecimento instantâneo, que é possibilitado pela 
utilização de processos de BI, permite que os proces-
sos organizacionais sejam rapidamente avaliados e 
corrigidos, de acordo com seus resultados. Assim, 
há grande impacto nos resultados da organização, 
sejam eles relativos à qualidade dos produtos, satis-
fação de clientes e colaboradores ou desempenho 
financeiro.
12
https://unsplash.com/photos/JKUTrJ4vK00
CONCEITO DE ANALYTICS
O conceito de business intelligence (BI), discutido 
anteriormente, como o próprio nome sugere, é es-
pecífico para o contexto organizacional. Além disso, 
o objetivo principal do BI é o monitoramento dos 
processos organizacionais a partir dos dados pro-
duzidos por eles. Porém, com os recentes avanços 
tecnológicos, há uma grande produção de dados 
em praticamente todos os contextos sociais. Como 
discutido anteriormente, a internet foi parcialmen-
te responsável por esse fenômeno de produção de 
dados.
A internet possibilitou, por exemplo, a popularização 
do comércio eletrônico. Assim, quando realizamos 
uma determinada compra, estamos gerando regis-
tros digitais sobre o que procuramos, o que de fato 
adquirimos e quais produtos ou serviços reclama-
mos ou elogiamos. Esse tipo de informação pode 
servir de subsídio para que as organizações possam 
realizar, por exemplo, ações de marketing mais as-
sertivas e localizadas, às vezes até individualmente 
direcionadas.
A simples navegação por sites da internet gera mui-
tos dados. Se você faz uma pesquisa por um deter-
minado produto, os dados dessa pesquisa vão ser 
analisados, automaticamente, e, em uma próxima 
navegação, você receberá publicidade direcionada 
para aquele produto ou serviços que você pesquisou.
13
No contexto das relações, as redes sociais, como o 
Facebook ou Twitter, constituem terreno fértil para 
a obtenção de informações. Saber sobre o que você 
fala, com quem fala e o que fala pode ser matéria-
-prima para diferentes ações, sejam elas mercadoló-
gicas, políticas ou de quaisquer outras características 
que dependam da identificação do perfil dos usuários 
dessas redes.
Imagine a possibilidade de realizar uma segmentação 
de usuários das redes sociais de modo a gerar dife-
rentes grupos por similaridade de interesse. Assim, 
seria possível direcionar publicações específicas, 
de acordo com as preferências de cada grupo, pos-
sibilitando a manipulação dos usuários, seja para 
o consumo ou para qualquer outro objetivo que se 
pretenda.
Além da internet, a massificação do uso dos smar-
tphones em praticamente todas as classes sociais 
é responsável pela geração de grandes volumes de 
dados sobre lugares onde estamos ou estivemos, 
as rotas que utilizamos nos deslocamentos diários 
e com quem trocamos mensagens, enfim, a lista é 
grande e note que não consideramos os diversos apli-
cativos disponíveis para esse tipo de equipamento.
Um exemplo contemporâneo do uso de dados ge-
rados pelos smartphones foi o monitoramento do 
fluxo de pessoas nas cidades, quando da quarente-
na imposta pela Covid-19. O governo do Estado de 
São Paulo, por exemplo, mediu a taxa de isolamento 
social por meio desse tipo de dado.
14
O conceito de internet das coisas (IoT) vem se tor-
nando realidade, materializando-se em residências 
inteligentes e em soluções voltadas para a indústria 
4.0. Nesse sentido, a IoT se refere à possibilidade de 
conectar outros dispositivos, não somente compu-
tadores e similares, à internet. Nesse contexto, não 
é difícil imaginar o volume de dados que sensores e 
assemelhados podem gerar sobre os mais diferentes 
aspectos que possamos considerar.
Com base nos exemplos anteriores, podemos vis-
lumbrar grandes desafios voltados para a captação, 
estruturação, análise e interpretação de grandes vo-
lumes de dados de diferentes fontes. Assim como no 
caso dos processos de BI, o termo Analytics é utiliza-
do para agregar um conjunto de conceitos, ferramen-
tas, técnicas e tecnologias no sentido de promover 
a análise de dados oriundosde diferentes fontes e 
com diferentes características. Esse conceito pode 
ser considerado em diferentes contextos, apesar 
de a associação de Analytics ser, mais comumente, 
observada à aplicação em processos de negócios, 
como sendo um ramo de BI.
Realizar a distinção entre os conceitos de Analytics 
e BI pode não ser uma tarefa tão trivial. Podemos 
considerar que BI se refere à coleta, organização e 
representação de dados, com o objetivo de nortear 
as decisões em uma organização. Por outro lado, 
Analytics considera técnicas mais sofisticadas para 
a interpretação, por vezes não evidente, de informa-
ções que os dados podem conter, considerando sua 
complexidade.
15
Nesse sentido, a aplicação de análise de dados pode 
ser considerada em contextos variados. Por exemplo, 
na saúde, como forma de realizar diagnósticos ba-
seados em poucos sintomas; na detecção de fraude 
bancária, a partir da análise de movimentações finan-
ceiras; no esporte, pela identificação de aspectos que 
precisam ser melhorados em relação ao desempenho 
dos atletas, e em muitos outros contextos.
Há diferentes tipos de análise que são considerados 
sob a definição de Analytics. Grande parte dessas 
análises serão objetos de estudo nesta disciplina 
e serão abordadas no decorrer de nossos estudos.
16
CONCEITO DE BIG DATA
Os exemplos, descritos anteriormente, sobre a pro-
dução em massa de dados de diversas fontes, des-
crevem um paradoxo envolvendo a dificuldade da 
manipulação dos dados e a relevância dos resultados 
pretendidos. Devido ao grande volume, a manipu-
lação de dados torna-se um desafio que envolve, 
principalmente, capacidade de armazenamento e 
de processamento e soluções computacionais, ou 
algorítmicas, robustas. Por outro lado, é justamente 
o grande volume de dados que possibilita a obtenção 
de resultados melhores.
O conceito de big data (considerando em tradução 
livre: grandes dados ou megadados) está associa-
do a dados oriundos da intensa utilização de práti-
cas tecnológicas, cuja característica principal é a 
complexidade.
Considerando-se o histórico da área, o termo big data 
tornou-se sinônimo para as soluções desenvolvidas 
com o objetivo de lidarem com a expansão da com-
plexidade de dados. Além disso, anteriormente o 
conceito de big data estava associado à formulação 
de estratégias para a execução de consultas agre-
gadas em sistemas de banco de dados relacionais.
Conceituar big data como solução para lidar com 
grandes volumes de dados não é uma afirmação 
precisa, apesar de muitas literaturas conceituarem 
dessa maneira. Existem diferentes conceitos utiliza-
17
dos para a representação de conjunto de soluções 
nessa área. Assim, big data está mais próximo de ser 
uma classe de dados do que uma solução propria-
mente dita. Enquanto classe, refere-se a conjuntos 
de dados com características específicas, que são 
muito observadas no contexto atual.
As características do big data podem ser sumariza-
das pelas descrições fornecidas pelos seus 4 “V’s”, 
que são: (1) Volume, (2) Velocidade, (3) Variedade e 
(4) Veracidade. Cada V descreve uma característica 
em particular, as quais são detalhadas a seguir:
 ● Volume: a prática da utilização de redes sociais, o 
uso massivo e intensivo dos smartphones, o comér-
cio digital, a computação em nuvem e o desenvolvi-
mento da internet das coisas (IoT) têm contribuído, 
de maneira importante, para a produção em larga 
escala de dados. Esse fenômeno parece ter vindo 
para ficar e a tendência é que a massa de dados, in-
crementada todos os dias, cresça exponencialmente 
e indefinidamente;
 ● Velocidade: a informação, que é possível de ser 
extraída de conjuntos de dados complexos, tem uma 
importância relativa ao tempo em que ela é obtida. 
O objetivo é que se possa realizar o processo de 
extração de informação em tempo real, ou algo pró-
ximo disso;
 ● Variedade: podemos ter dados estruturados (ta-
belas, arquivos XML) e não estruturados (imagens, 
e-mails), porém, a grande maioria desses dados são 
não estruturados, o que introduz um maior grau de 
18
dificuldade no processamento desses dados. Além 
disso, os dados são de fontes distintas e, comumen-
te, sem relação entre uma fonte e outra;
 ● Veracidade: os dados devem refletir a realidade do 
momento de sua obtenção. Dados antigos não serão 
capazes de traduzir a realidade daquele contexto no 
qual estão inseridos. Nenhum processo é capaz de 
gerar bons resultados com dados ruins.
Ainda no contexto da caracterização do conceito de 
big data, veja que ele se refere à delimitação de um 
tipo específico de desafio, definindo características 
para os conjuntos de dados que podem ser abarca-
dos sob esse conceito. Por outro lado, há referências 
que classificam o conceito como um conjunto de so-
luções para o tratamento desse tipo de desafio, isso 
nos leva a observar uma interseção envolvendo os 
conceitos de big data, analytics e business intelligen-
ce, o que, de fato, não é uma realidade em determi-
nados casos. Além disso, há algumas literaturas que 
introduzem um quinto “V” à conceitualização de big 
data. Assim, o quinto V se refere ao valor que pode 
ser obtido a partir do dado, ou seja, sua utilidade.
19
FIQUE ATENTO
Em termos de classificação, o conceito de big data 
agrupa os dados de acordo com seus respectivos 
tipos em três classes: (1) Social data – que agrupa 
os dados oriundos, por exemplo, de redes sociais, 
(2) Enterprise data – refere-se aos dados oriundos 
de organizações e (3) Personal data – são os da-
dos produzidos a partir de devices de uso pessoal 
conectados à internet.
Como resposta aos desafios resultantes do cresci-
mento da complexidade dos dados, especificamente 
para o problema de armazenagem e do respectivo 
processamento, surgiu um novo paradigma de base 
de dados denominado NoSQL (Not Only SQL). Esse 
novo paradigma propõe o armazenamento dos dados 
de forma distribuída, sem limitação de memória.
Existem diferentes modelos que seguem o concei-
to NoSQL. O sistema colunar subverte o tradicional 
modelo relacional, no qual as colunas definem os 
atributos e armazenam seus respectivos valores. O 
sistema colunar considera as linhas como atributos 
e armazena os valores agrupados nessas linhas, ou 
seja, há a inversão entre linhas e colunas, quando 
comparamos o modelo relacional com o sistema 
colunar. A grande vantagem desse modelo é o pro-
cessamento de valores agregados, que pode ser feito 
percorrendo somente uma única linha. Um exemplo 
do sistema colunar é o Big Table do Google.
20
Suponha, a título de exemplo, um esquema de uma 
relação com os seguintes atributos: RG, Nome, 
Sobrenome e Idade. Nesse contexto, um conjunto 
de registros poderia ser representado como na ta-
bela abaixo:
RG Nome Sobrenome Idade
123 Pedro Souza 21
234 Paulo Assis 34
432 João Silva 54
Tabela 1: Sistema colunar. Fonte: Elaboração Própria.
Esse mesmo conjunto de registros seria representado 
no sistema tabular da seguinte forma:
RG 123 234 432
Nome Pedro Paulo João
Sobrenome Souza Assis Silva
Idade 21 34 54
Tabela 2: Sistema tabular. Fonte: Elaboração Própria.
O sistema documental foi criado com o objetivo de 
atender, principalmente, dados não estruturados. 
Nesse sistema, há um padrão flexível de armaze-
namento, no qual diferentes registros podem ter, 
também, diferentes atributos. Nesse sentido, cada 
registro contém tuplas do tipo atributo-valor.
A vantagem desse modelo é a possibilidade de se 
inserir novas tuplas de forma escalável, sem as li-
mitações de tamanho de campos e quantidade de 
atributos. Um exemplo desse modelo é o MongoDB.
21
Considerando-se o exemplo anterior, no sistema 
documental poderíamos ter a seguinte estrutura: 
{RG: 123, Nome: Pedro, Sobrenome: Souza, Idade: 
21}. Veja que, nesse modelo, nada nos impede de 
termos um registro com atributos diferentes, como: 
{RG: 234, Nome: Paulo, Cidade: São Paulo, Data de 
Nascimento: 12/08/1990}, ou quantidade diferentes 
de atributos.
Os sistemas de grafos consideramuma entidade, co-
mumente denominada vértice ou nó, que pode conter 
diferentes atributos, conectada a outras entidades, 
de modo a representar relações. A utilização desse 
tipo de sistema está condicionada ao formato do 
modelo de dados, no caso de existir a necessidade 
de se representar relações. Um exemplo desse mo-
delo é o Neo4j.
As bases de dados NoSQL consideram a fragmen-
tação e a distribuição de seus dados em diferentes 
servidores. Nesse contexto, os servidores devem 
ser conectados em rede de modo que a utilização 
do sistema distribuído seja transparente ao usuário.
22
CONCEITO DE 
MINERAÇÃO DE DADOS
Na mesma linha dos conceitos definidos anterior-
mente, a área de mineração de dados (data mining) 
surge com o crescimento exponencial da produção 
de dados e da respectiva complexidade observada. 
Trata-se de uma área interdisciplinar que está relacio-
nada a estatística, a banco de dados, a aprendizado 
de máquina (machine learning) e a reconhecimento 
de padrões.
Nesse contexto, é importante observarmos que as 
fronteiras entre essas áreas não são bem definidas 
e podemos ter interseção de técnicas, conceitos e 
ferramentas, dentre outros elementos pertinentes a 
essas áreas. Por exemplo, existem diferentes técni-
cas que são pertinentes à área da estatística. Por 
outro lado, as áreas de aprendizado de máquina e 
reconhecimento de padrões estão mais relacionadas 
com a inteligência artificial. A inteligência artificial 
e a área de banco de dados, dessa forma, são perti-
nentes à Ciência da Computação.
A área de mineração de dados apresenta muitos ele-
mentos em comum com o aprendizado de máquina. 
A principal diferença entre as duas áreas está no 
fato que a mineração de dados considera grandes 
volumes de dados complexos, enquanto o aprendi-
zado de máquina não se debruça sobre esse ponto 
especificamente.
23
A mineração de dados é reconhecida como uma das 
etapas que constituem o Processo de Descoberta 
de Conhecimento em Bases de Dados, ou em inglês 
Knowledge Discovery in Database (KDD). O KDD pode 
ser definido como o processo de descoberta de pa-
drões e tendências por meio da análise de grandes 
conjuntos de dados. Nesse contexto, a mineração 
de dados é considerada a etapa mais importante 
do KDD, cujo objetivo é a execução das análises por 
meio de algoritmos específicos para a descoberta/
reconhecimento de padrões.
Hoje em dia, muitos pesquisadores utilizam os ter-
mos KDD e mineração de dados como sinônimos. 
Desse modo, é comum que seja utilizado o termo 
mineração de dados para se referenciar o processo 
do KDD e as etapas que são descritas por ele de 
forma global.
Considerando-se uma visão ampla, conceitualmente, 
o processo KDD é constituído de diferentes etapas, 
uma delas é a mineração de dados. Assim, a primeira 
etapa do KDD realiza a seleção dos dados que serão 
analisados, a partir de diferentes fontes de dados. 
Essa etapa resulta em um conjunto de dados que 
delimita o contexto a ser analisado.
O conjunto de dados selecionados, de acordo com 
o objetivo pretendido, é submetido à segunda etapa 
do KDD, na qual é feito um pré-processamento dos 
dados. Nessa etapa, são realizadas operações para 
a diminuição de ruído nos dados e, também, são de-
24
finidas as estratégias a respeito de como tratar a 
ausência de determinados valores.
A terceira etapa do KDD se refere à transformação 
dos dados. Assim, o objetivo aqui é a busca pe-
los atributos que serão, de fato, importantes para 
o objetivo definido anteriormente. Outro possível 
tratamento é, a partir de determinados métodos de 
transformação, a redução do número de variáveis 
que serão consideradas no processo.
Finalmente, após os dados terem sido selecionados, 
pré-processados e tratados, chegamos à etapa da 
mineração de dados. Nessa etapa, considerada a 
mais importante do KDD, o objetivo é a descoberta de 
padrões nos dados que sejam úteis para a descober-
ta de conhecimento. Uma observação que pode ser 
feita é que os dados podem ter de ser adaptados de 
acordo com a tarefa de mineração que se pretende.
Há diferentes tarefas, ou técnicas, que podem ser con-
sideradas na etapa de mineração de dados. Assim, 
iremos explorar algumas delas nesse momento, que 
é especialmente importante para que possamos ter 
uma ideia inicial dos objetivos de cada tarefa.
Para compreendermos as descrições feitas para 
cada técnica, é importante que tenhamos um voca-
bulário que seja de entendimento comum. Assim, 
seguem alguns termos e/ou expressões comumente 
utilizados em mineração de dados, com as respec-
tivas definições. Todas as definições são feitas no 
contexto do reconhecimento de padrões e foram 
cunhadas pelo professor
25
 ● Padrão: é uma entidade, objeto, processo ou even-
to, vagamente definido, que pode assumir um nome;
 ● Classe: conjunto de padrões que possuem carac-
terísticas em comum;
 ● Característica ou Atributo: dado extraído de uma 
amostra por meio de medida e/ou processamento;
 ● Classificação: atribuir classes para as amostras, 
baseado em suas características;
 ● Ruído: distorção, falha ou imprecisão que ocorre 
na aquisição dos dados.
Considere que tenhamos por objetivo predizer se 
um paciente é ou não cardiopata. Nesse contex-
to, suponha que tenhamos um conjunto grande de 
prontuários de pacientes e que esses prontuários já 
foram tratados de acordo com as etapas anteriores 
descritas pelo processo KDD. Agora, nosso objetivo é 
poder classificar um novo paciente, como cardiopata 
ou não, de acordo com o que sabemos pelo histórico 
de outros pacientes já diagnosticados.
A tarefa descrita anteriormente é uma tarefa de clas-
sificação. Podemos dizer, por exemplo, que a tarefa 
consiste no aprendizado de uma função na qual as 
variáveis são os sintomas dos pacientes e o resul-
tado da função é a classificação do paciente como 
cardiopata ou não.
Outra possibilidade, considerando-se o mesmo exem-
plo, é a classificação de todo o conjunto de dados 
a partir da função aprendida. Veja que esse tipo de 
26
tarefa não se restringe somente a duas classes, po-
demos considerar um maior número de classes.
A tarefa de regressão tem um conceito similar ao 
da tarefa de classificação. Nesse caso, queremos 
aprender uma função que mapeie os dados em uma 
variável de previsão real. Ou seja, suponha que te-
nhamos vários registros com peso e altura de pesso-
as. Nesse contexto, considere x = altura e y = peso, 
assim, queremos encontrar uma função f(x) = y, ou 
seja, dado o valor da altura, a função retorna o valor 
do peso. Para utilizar um vocabulário mais aderen-
te, dizemos que o modelo prediz o peso a partir da 
altura. Veja que esse exemplo agrega algum erro na 
predição, vamos tratar disso nos tópicos posteriores.
As tarefas de classificação e regressão são conside-
radas como tarefas preditivas, ou seja, o objetivo é 
predizer (prever) o resultado para um novo registro. 
Nesse contexto, há ainda as tarefas descritivas, que 
podem utilizar ou não um processo de treinamento 
(aprendizagem).
A tarefa de agrupamento, ou clustering, tem por 
objetivo organizar os dados em grupos similares. 
Nessa tarefa, podemos utilizar alguma medida de 
similaridade, que vai nos indicar o quanto um objeto 
é similar a outro. Um desafio adicional nessa tarefa 
é a posterior caracterização de cada grupo formado.
A sumarização é uma tarefa descritiva que objetiva 
encontrar uma descrição simples e compacta para 
um conjunto de dados. Perceba que poderíamos 
utilizar a sumarização para caracterizar os grupos 
27
resultantes da tarefa de agrupamento. Comumente, a 
sumarização é utilizada para a exploração interativa 
de dados e para a geração automática de relatórios.
Finalmente, a etapa de interpretação do processo 
KDD consiste em interpretar os padrões minerados, 
na etapa anterior, e, a depender do resultado, retornar 
a alguma etapa anterior para a realização de uma 
interação de modo a melhorar o resultado obtido. 
A Figura 3 ilustra as etapas do processo KDD e os 
respectivosresultados pretendidos.
Dados Dados
Contextualizados
Dados
pré-processados
Dados
tratados
Mineração
de dados
Conhecimento
Seleção
Pré-
processamento
Mineração 
de dadosInterpretação
Transformação
Figura 3: Etapas do processo KDD. Fonte: Elaboração Própria.
A mineração de dados pode ser definida como a 
análise de dados observacionais com o objetivo de 
identificar relações desconhecidas e sumarizar os 
dados em formatos que possam ser compreensíveis 
e úteis para o seu proprietário (Hand et al., 2001).
28
O processo de mineração de dados é composto por 
diferentes etapas. A primeira etapa trata da identifi-
cação e da formalização do problema. Essa etapa é, 
possivelmente, a mais difícil de todas. A segunda eta-
pa é a mais demorada e trata do pré-processamento 
dos dados. A seguir, na terceira etapa, é realizada 
a extração de padrões e, na última etapa, é feito o 
pós-processamento.
A mineração de dados utiliza as tarefas de acordo 
com o objetivo pretendido. Existem diferentes exem-
plos de aplicação que podemos considerar. Um dos 
exemplos de aplicação mais antigos é a extração de 
regras de vendas. Esse exemplo é baseado na apli-
cação de análise de dados às transações de clientes 
de um supermercado. O objetivo é tentar identificar 
padrões de compras dos clientes, de modo que seja 
possível utilizar o conhecimento adquirido para au-
mentar as vendas por meio da modificação da forma 
como os produtos são dispostos nas prateleiras.
Considere uma descoberta importante na análise 
das transações, suponha que existiam muitas que 
continham fraldas e cerveja, na mesma cesta. Assim, 
um analista pode perceber que os pais de crianças 
pequenas vão ao supermercado para comprar fral-
das e aproveitavam para comprar, também, cerve-
jas. Nesse exemplo do supermercado, a tarefa de 
mineração de dados considerada é denominada de 
regras de associação.
O exemplo anterior pode ser utilizado para ilustrar o 
que ocorre comumente nos sites de comércio ele-
29
trônico. Ao se analisar um conjunto de transações, é 
possível identificar, a partir dos interesses de consu-
mo de um determinado cliente, outros produtos que 
têm grande probabilidade de satisfazer o cliente e 
aumentar as vendas.
Outra aplicação ilustrativa pode ser feita com a tarefa 
de recomendação de conteúdo. Suponha uma base 
de dados de produtos, descritos por várias caracte-
rísticas, o objetivo é recomendar ao cliente produtos 
similares ao procurado, que tenham o potencial de, 
também, aumentar o lucro e satisfazer o cliente.
A recomendação de conteúdo é feita considerando-
-se a similaridade dos objetos de interesse. Nesse 
sentido, a similaridade é obtida por meio de medi-
das que definem a distância entre os objetos. Um 
algoritmo que descreve esse processo é o algoritmo 
dos k-vizinhos mais próximos. O objetivo é, dado um 
determinado produto, obter-se os k produtos que 
sejam similares a ele.
Uma tarefa muito próxima da recomendação de con-
teúdo é a recomendação colaborativa, ou filtragem 
colaborativa. A diferença entre elas é que a filtragem 
colaborativa recomenta produtos que o cliente não 
tinha a intenção de comprar. A plataforma Netflix 
(streaming de filmes e séries) utiliza a filtragem co-
laborativa para recomendar filmes com potencial de 
agradar o espectador, com base em filmes a que ele 
assistiu e classificou anteriormente.
As redes sociais são fontes de informações impor-
tantes para as empresas identificarem a percepção 
30
dos clientes que adquiriram seus produtos. No passa-
do, era comum que algumas empresas contratassem 
pessoas para que explorassem as redes sociais em 
busca desse tipo de informação. Nesse contexto, a 
tarefa denominada mineração de sentimentos con-
siste em classificar um conjunto de documentos em 
categorias (classes), de maneira automática.
Existem muitas aplicações práticas para as tarefas 
de mineração de dados que são consideradas por 
grandes empresas com diferentes objetivos. Ao longo 
do curso, exploraremos várias dessas aplicações, 
descrevendo os detalhes técnicos e conceituais, de 
modo a compreender todo o fundamento que é con-
siderado nessas tarefas.
31
DIFERENÇAS ENTRE OS 
TERMOS CONCEITUADOS 
ANTERIORMENTE
Antes de discutirmos as diferenças entre os concei-
tos anteriormente apresentados, vamos nos con-
centrar nas similaridades. Todos os conceitos têm 
por objetivo obter conhecimento a partir de grandes 
conjuntos de dados. Nesse sentido, podemos tratar 
separadamente o conceito de big data.
O big data pode ser considerado um método, técnica 
ou conjunto de ferramentas que contempla soluções 
para se lidar com dados volumosos e complexos. 
Veja que algumas literaturas fazem esse tipo de des-
crição, definindo big data como um processo, o que, 
de fato, pode ser questionado.
Por outro lado, podemos pensar o conceito de big 
data como uma classe (tipo) de dados, para a qual 
existem algumas características que devem ser ob-
servadas. Como vimos anteriormente, essas carac-
terísticas são definidas pelos cinco “V’s” do big data: 
volume, velocidade, variedade, veracidade e valor. 
Nesse contexto, conjuntos de dados que se enqua-
drem nas características descritas são classificados 
como big data.
Apesar de haver várias fontes que descrevem o big 
data como um conjunto de técnicas, veja que a própria 
forma como o conceito é definido, utilizando os cinco 
“V’s”, descreve características que os dados devem 
32
apresentar para serem considerados com big data. 
As técnicas, métodos ou tarefas associadas ao big 
data são, na verdade, derivadas de outros métodos.
Classificações são úteis para que possamos saber 
com o que estamos lidando. No caso de conjuntos 
de dados classificados como big data, sabemos que 
os processos tradicionais para tratamento de dados 
não são aplicáveis, sendo necessários processos 
especificamente elaborados para esse contexto.
Um exemplo que podemos considerar quanto à ca-
racterística pertinente aos dados classificados como 
big data é a heterogeneidade. Essa característica 
está ligada ao “V” que indica a variedade dos da-
dos. A variedade pode ser de fontes ou de tipo de 
dados. Quanto ao tipo, os dados podem não apre-
sentar uma estrutura evidente, ou seja, são dados 
não estruturados.
Uma tabela, por exemplo, é um tipo de dado que 
apresenta uma estrutura. Sabemos o que as linhas 
e colunas na tabela representam e, assim, a mani-
pulação das informações é facilitada por meio da 
semântica dos elementos. Por outro lado, o conteúdo 
de um e-mail não apresenta uma estrutura e a utili-
zação das informações contidas no texto do e-mail 
é mais difícil de realizar.
Suponha que você tenha recebido um e-mail com 
informações a respeito de preços de produtos que 
pretende comprar. Você conseguirá consumir aquela 
informação com facilidade, por meio da leitura do 
texto. Porém, se tivéssemos centenas de e-mails 
33
desse tipo e fôssemos utilizar um computador para 
organizar essas informações teríamos dificuldades.
Os seres humanos lidam muito bem com dados não 
estruturados, como é o caso dos e-mails. Já os com-
putadores têm muita dificuldade para processar esse 
tipo de dado. O problema aqui é que a grande maioria 
dos dados existentes são não estruturados, como 
imagens, sons, textos e fala, dentre muitos outros 
exemplos possíveis de serem listados.
Os processos de BI podem considerar dados clas-
sificados como big data, porém o mais comum é 
que não seja esse o caso. Nesse sentido, BI trata de 
prover representações sumarizadas de dados com 
baixa complexidade. Os dados organizacionais são 
produzidos de acordo com um contexto específico, 
o que resulta em maior previsibilidade.
Por exemplo, dados como quantidade de horas, nú-
mero de peças, preços de produtos, dentre outros, 
representam um contexto específico e mesmo que 
se tenha que realizar desdobramentos desses da-
dos em coeficientes, taxas, índices, médias, enfim, 
alguma medida ou indicador, essa não é uma tarefa 
extremamente complexa.
Nesse contexto,a principal diferença entre BI e 
analytics ou mineração de dados está na complexi-
dade dos dados, ou, em outras palavras, BI não trata 
de dados classificados como big data. Porém, isso 
não é uma regra, podemos ter dados organizacionais 
de alta complexidade e, consequentemente, deman-
das de análise mais sofisticadas.
34
Outra diferença que podemos destacar entre BI e 
analytics ou mineração de dados é o objetivo. BI re-
úne processos de coleta, organização, análise, com-
partilhamento e monitoramento de dados, enquanto 
a mineração de dados, por exemplo, tem por objetivo 
a identificação de padrões em dados.
A utilização crescente de dados no âmbito corporativo 
faz com que outras denominações surjam nesse con-
texto. O business analytics é o nome que se dá para 
processos mais sofisticados de análise de dados nas 
organizações, considerando como objetivo o suporte 
para a tomada de decisões e, como objeto, dados do 
tipo big data. Aqui nós observamos, possivelmente, a 
fusão dos conceitos de BI e analytics, em uma nova 
denominação para a aplicação de técnicas mais es-
pecíficas, de acordo com a demanda apresentada.
A descrição anterior para o business analytics traz 
algumas observações interessantes para a diferen-
ciação do conceito de analytics. Assim, podemos 
descrever esse conceito como uma área de análise 
de dados que concentra diferentes abordagens de 
outras áreas do conhecimento. Trata-se de uma área 
multidimensional que combina as técnicas da mine-
ração de dados aplicadas a big data.
A mineração de dados, por sua vez, é um conjunto 
de técnicas para a descoberta de padrões em con-
juntos de dados. A principal diferença entre analytics 
e mineração de dados é o volume de dados que é 
considerado. Enquanto mineração de dados descreve 
as diferentes técnicas, ou tarefas, que podem ser 
35
consideradas de acordo com o objetivo, analytics 
implementa essas técnicas considerando dados 
classificados como big data.
Outra expressão, muito utilizada hoje em dia para des-
crever uma área da análise de dados, e que descreve 
objetivos, técnicas e processos similares aos discutidos 
até aqui, é a ciência de dados (data science). A ciência 
de dados é uma área multidisciplinar que reúne conhe-
cimentos das áreas da ciência da computação, mate-
mática e estatística. Seu domínio de atuação é bastante 
amplo, cobrindo desde a área de negócios até outros 
domínios mais específicos, como a área da saúde.
Como é possível perceber-se, as diferenças entre as 
áreas, que foram descritas aqui, são bastante sutis. 
Mais importante que tentar diferenciá-las é reconhe-
cer a importância da análise de dados complexos e 
conhecer os problemas que podem ser solucionados 
a partir dela. Uma observação importante é sobre co-
nhecer os detalhes dos problemas, assim, é possível 
identificar, com maior precisão, qual a ferramenta ou 
método que melhor se adequa.
Uma unanimidade, entre os estudiosos da análise de 
dados, é a importância das descobertas possíveis de 
serem obtidas. Alguns utilizam uma analogia com 
o petróleo. Os dados seriam o novo petróleo e, da 
mesma forma que devem existir processos para a 
transformação do petróleo em centenas de derivados 
que geram riqueza, assim também devemos ter um 
arcabouço robusto de soluções para transformar 
dados em conhecimento.
36
CONSIDERAÇÕES FINAIS
Estamos vivenciando a era da informação, na qual 
muitos desafios e oportunidades se apresentam. A 
análise de dados, ou mais especificamente a mine-
ração de dados, proporciona uma base conceitual 
para que possamos, a partir de sua aplicação prática, 
obter novos conhecimentos na forma de padrões e 
regras.
Neste e-book, tivemos a possibilidade de refletir 
sobre as áreas do conhecimento, correlatas e/ou 
complementares à área de Mineração de Dados, que 
tratam da exploração de dados de alta complexidade.
Os processos de business intelligence permitem que 
os tomadores de decisões, no âmbito organizacional, 
possam monitorar o desempenho de seus processos 
de negócio e, consequentemente, acompanhar a evo-
lução de suas organizações. O planejamento estra-
tégico pode ser orientado a partir do conhecimento 
obtido por meio da análise dos dados empresariais.
O arcabouço de técnicas e práticas que permeiam 
as soluções em analytics é importante para nortear 
as ações, em diferentes domínios, em contextos nos 
quais os dados apresentem grande complexidade, 
de forma a obter os melhores resultados para dife-
rentes cenários.
O conceito de big data, seja como método, ferramenta 
ou classe de dados, traz consigo uma vastidão de 
possibilidades. Nesse sentido, o big data evidencia 
37
tanto os desafios, no campo da análise de dados, 
quanto as oportunidades que esse tipo de análise é 
capaz de produzir.
Finalmente, a área de mineração de dados é rica em 
técnicas sofisticadas para a extração de padrões e re-
gras em conjuntos de dados complexos. Sua aplica-
ção é especialmente útil para a realização de inferên-
cias, classificações, agrupamentos e sumarização.
38
Referências Bibliográficas 
& Consultadas
CASTRO, L. N.; FERRARI, D. G. Introdução à mineração 
de dados: conceitos básicos, algoritmos e aplica-
ções. São Paulo: Saraiva, 2016. [Minha Biblioteca].
ELMASRI, R.; NAVATHE, S. B.; Sistema de banco de 
dados. 6. ed. São Paulo: Pearson Addison Wesley, 
2011. [Biblioteca Virtual].
HAND, D. J.; MANNILA, H.; SMYTH, P. Principles of 
data mining (adaptive computation and machine lear-
ning). Cambridge (Massachusetts): MIT Press, 2001.
HEUSER, C. A. Projeto de banco de dados. 6. ed. 
Porto Alegre: Bookman, 2009. [Biblioteca Virtual].
MEDEIROS, L. F. Banco de dados: princípios e prática. 
Curitiba: Intersaberes, 2013. [Biblioteca Virtual].
PUGA, S.; FRANÇA, E.; GOYA, M. Banco de dados: im-
plementação em SQL, PL/SQL e Oracle 11g. São Paulo: 
Pearson Education do Brasil, 2013. [Biblioteca Virtual].
RAMARKRISHNAN, R. Sistemas de gerenciamento 
de banco de dados. 3. ed. Porto Alegre: AMGH, 2001. 
[Biblioteca Virtual].
REZENDE, D. A. Inteligência organizacional como 
modelo de gestão em organizações privadas e pú-
blicas: guia para projeto de Organizacional Business 
Intelligence. São Paulo: Atlas, 2015. [Minha Biblioteca].
TURBAN, E. et al. Business intelligence: um enfoque 
gerencial para a inteligência do negócio. Porto Alegre: 
Bookman, 2009. [Minha Biblioteca].
	Introdução
	A área de mineração de dados
	Conceito de business intelligence
	Conceito de analytics
	Conceito de big data
	Conceito de mineração de dados
	Diferenças entre os termos conceituados anteriormente
	Considerações finais
	Referências Bibliográficas & Consultadas

Continue navegando