Big Data e Ciência de Dados - Unidade 3 - Estrutura e Organização do Big Data

•

ESTÁCIO

Welton Barbosa SMS

31/10/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.887 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Unidade 3
Estrutura e organização do Big Data
Big Data e
Ciência de Dados
Diretor Executivo
DAVID LIRA STEPHEN BARROS
Gerente Editorial
CRISTIANE SILVEIRA CESAR DE OLIVEIRA
Projeto Gráfico
TIAGO DA ROCHA
Autoria
JÉSSICA LAISA DIAS DA SILVA
ALAN DE OLIVEIRA SANTANA
AUTORIA
Jéssica Laisa Dias da Silva
Olá. Sou graduada em Sistemas da Informação pela Universidade de
Ciências Sociais Aplicadas (Unifacisa) e mestre em Sistema e Computação
pela Universidade Federal de Rio Grande do Norte (UFRN). Atualmente,
sou doutoranda em Sistema e Computação pela UFRN e professora
conteudista na elaboração de cadernos.
Alan de Oliveira Santana
Olá. Sou graduado em Ciência da Computação pela Universidade
do Estado do Rio Grande do Norte (UERN) e mestre em Sistemas da
Computação pela Universidade Federal do Rio Grande do Norte (UFRN).
Atualmente, sou professor conteudista, elaborador de cadernos de
questões e doutorando em Ciências da Computação. Como cientista,
atuo no desenvolvimento e avaliação de técnicas de desenvolvimento de
sistemas com ênfase na educação.
Desse modo, fomos convidados pela Editora Telesapiens a integrar
seu elenco de autores independentes. Estamos muito satisfeitos com o
convite e a possibilidade de auxiliar em seu desenvolvimento intelectual
e profissional. Bons estudos!
ICONOGRÁFICOS
Olá. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez
que:
OBJETIVO:
para o início do
desenvolvimento
de uma nova
competência;
DEFINIÇÃO:
houver necessidade
de se apresentar um
novo conceito;
NOTA:
quando necessária
observações ou
complementações
para o seu
conhecimento;
IMPORTANTE:
as observações
escritas tiveram que
ser priorizadas para
você;
EXPLICANDO
MELHOR:
algo precisa ser
melhor explicado ou
detalhado;
VOCÊ SABIA?
curiosidades e
indagações lúdicas
sobre o tema em
estudo, se forem
necessárias;
SAIBA MAIS:
textos, referências
bibliográficas
e links para
aprofundamento do
seu conhecimento;
REFLITA:
se houver a
necessidade de
chamar a atenção
sobre algo a ser
refletido ou discutido
sobre;
ACESSE:
se for preciso acessar
um ou mais sites
para fazer download,
assistir vídeos, ler
textos, ouvir podcast;
RESUMINDO:
quando for preciso
se fazer um resumo
acumulativo das
últimas abordagens;
ATIVIDADES:
quando alguma
atividade de
autoaprendizagem
for aplicada;
TESTANDO:
quando uma
competência for
concluída e questões
forem explicadas;
SUMÁRIO
Processamento de grandes volumes de dados ............................12
Produção de dados ...................................................................................................................... 14
Armazenamento ............................................................................................................................. 16
Framework para processamento de dados ................................................................. 18
Hadoop ................................................................................................................................ 19
Spark ..................................................................................................................................... 20
Storm ..................................................................................................................................... 21
Inteligência de negócio para Big Data .................................................. 22
Big Data e sua importância no mercado de negócio ............................................22
Inteligência de negócio para Big Data .......................................................26
Perfil comportamental do profissional de análise de inteligência
de negócios ......................................................................................................................28
Big Data aplicado no mercado ..............................................................................................29
Magazine Luiza ..............................................................................................................29
Amazon ................................................................................................................................29
Nordstrom......................................................................................................................... 30
Bancos de dados para Big Data ............................................................ 32
Banco NoSql .......................................................................................................................................33
Características bancos de dados NoSQL ...................................................34
Tipos de banco de dados NoSQL ....................................................................35
Principais mecanismos de banco de dados NoSQL ............................................ 36
Cassandra ......................................................................................................................... 36
MongoDB ...........................................................................................................................37
Redis ..................................................................................................................................... 38
HBase ................................................................................................................................... 38
Amazon DynamoDB .............................................................................. 39
Neo4j .................................................................................................................................... 39
Recuperação de informações ................................................................41
Big Data e a recuperação da informação ...................................................43
Ontologia ............................................................................................................................44
Data Warehouse............................................................................................................45
Apache Lucene.................................................................................................................................45
9
UNIDADE
03
Big Data e Ciência de Dados
10
INTRODUÇÃO
Estudamos, anteriormente, como a quantidade de dados é grande
hoje e como é importante a utilização de soluções computacionais como
Big Data e ciência de dados. Assim, nesta unidade vamos nos deter a
estudar como processar grandes massas de dados. Abordaremos sobre
ferramentas e recursos importantes que ajudam a processar a enorme
quantidade de informação.
Veremos ainda sobre inteligência de negócio e como a utilização
de Big Data pode favorecer neste ambiente. Além disso, entenderemos o
tipo de Banco de dados adotado em aplicações de Big Data, bem como
a sua estrutura e tecnologias envolvidas.
Estudaremos ainda, nesta unidade, sobre o Banco de dado
utilizado em aplicações em Big Data, como também a estrutura e as
particularidades destes. Também iremos abordar sobre a importância do
Banco de dados e apresentar exemplos de banco de dados aplicados em
trabalhos que adotam Big Data.
Por fim, abordaremos sobre a recuperação de informação
utilizando as soluções de Big Data e Data Science como outros recursos
computacionais que surgiram.
Big Data e Ciência de Dados
11
OBJETIVOS
Olá. Seja muito bem-vinda (o). Nosso propósito é auxiliar você no
desenvolvimento das seguintes objetivos de aprendizagem até o término
desta etapa de estudos:
1. Conhecer o processamento de grandes volumes de dados.
2. Entender a inteligência de negócio para Big Data.
3. Conhecer os bancos de dados para Big Data.
4. Conhecer o processo de recuperação de informação.
Então? Preparado para adquirir conhecimento sobre um assunto
fascinante e inovador como esse? Vamos lá!
Big Data e Ciênciade Dados
12
Processamento de grandes volumes de dados
OBJETIVO:
Neste capítulo, abordaremos como funciona o processa-
mento de grande volume de dados a partir da explanação
de como os grandes volumes de dados são produzidos
e armazenados. Logo após, exploraremos os frameworks
que realizam este processamento. Prontos? Vamos lá!
É importante relembrar que o Big Data está relacionado e aplicado
à análise, ao processamento e armazenamento de grandes volumes
de dados e que as suas soluções computacionais e seus métodos são
usualmente precisos quando as tecnologias e técnicas clássicas já
não são suficientes para a execução destas atividades (ERL; KHATTAK;
BUHLER, 2016).
Ainda sobre o conceito de Big Data que já estudamos, precisamos
recordar também as características dos “Vs” que o compõe, representado
por esta fórmula apresentada por (TAURION, 2013):
Big Data = volume + variedade + velocidade + veracidade gerando + valor.
Deste modo, o volume representa a quantidade de petabytes de
dados produzidas a cada dia, a qual se estima que este volume dobre a
cada dezoito meses
Segundo Taurion (2013), cada uma desses Vs, conforme apresentado
a seguir, são relacionados com a produção de dados:
• Variedade: caracteriza os dados oriundos de sistemas estruturados
e não estruturados, originados por e-mails, redes sociais como:
Facebook, Twitter, YouTube, entre outras, documentos eletrônicos,
apresentações estilo Powerpoint, mensagens instantâneas,
sensores, etiquetas RFID, câmeras de vídeo, entre outros
(TAURION, 2013).
Big Data e Ciência de Dados
13
Figura 1 – Redes sociais
Fonte: Freepik
• Velocidade: característica relacionada às práticas em tempo real
sobre o grande volume de dados. Esta representa um critério
que se torna muito importante por causa da crescente agilidade
com que as empresas precisam reagir às modificações no cenário
de negócios, bem como a necessidade de dados em tempo
real, interferindo na execução do próprio processo de negócios
(TAURION, 2013).
• Veracidade: essa característica implica em garantir a integridade
dos dados, verificando se fazem sentido e são autênticos
(TAURION, 2013).
• Valor: representando a junção das demais características
(TAURION, 2013).
Podemos citar ainda que, em 2013, a ISACA determinou o Big
Data como conjuntos de dados de grandes volumes ou com rápidas
modificações para serem analisados com processos de banco de dados
relacionais tradicionais, multidimensionais ou ferramentas de software
usualmente utilizadas para capturar, gerenciar e processar os dados em
um tempo favorável (ISACA, 2013).
Dessa forma, a partir desta revisão, entendemos que o Big Data
é justamente uma solução computacional que trabalha como esses
Big Data e Ciência de Dados
14
grandes volumes de dados. Na próxima sessão, teremos a explanação de
onde vem todos esses dados.
Produção de dados
A produção dos dados cresce exponencialmente. Um estudo da A
Universe of Opportunities and Challenges, desenvolvido pela consultoria
EMC, relatou que, de 2006 a 2010, o volume de dados digitais gerados
aumentou de 166 exabytes para 988 exabytes, fazendo a perspectiva que
o volume de dados alcance a casa dos 40.000 exabytes, ou 40 zettabytes
(ou 40 trilhões de Gigabytes), nos próximos anos (GANTZ, 2012).
Figura 2 – Escala de dados
Fonte: Elaborada pelos autores (2020).
Amaral (2016) entende que a produção de dados não está somente
relacionada pela entrada de algum dispositivo, mas também pela
análise ou para execução de procedimentos operacionais, podendo ser
responsáveis por produzir volumes significativos de dados.
Ainda abordando sobre os grandes volumes de dados, vale ressaltar
que estes são processados pelas soluções de Big Data, o qual crescem
e atribuem exigências diferentes de armazenamento e processamento,
expondo um grande desafio às organizações de TI clássicas, visto como os
grandes volumes de dados, necessitam de armazenamento escalonável
e um enfoque distribuído para permitir a consulta deles (ERL et al., 2016).
Big Data e Ciência de Dados
15
Os dados estão sendo produzidos cada vez mais e vem de todas as
partes. Segundo Amaral (2016), dados podem ser comprados, produzidos
ou simplesmente coletados. Segue a descrição de cada um dos tipos de
dados:
• Dados comprados: podem derivar de empresas especializadas
em vender dados, conhecidas como “data brokers”. Os data
brokers permitem o entendimento de como se dá a coleta de
informações sobre os consumidores de diferentes e abundantes
fontes comerciais (FRAZÃO, 2019).
• Dados produzidos: são originados por sistemas transacionais,
operações de processamento exemplificando o fechamento da
folha de pagamento, os processos de transformação de dados e o
ELT (extração, carregamento, transformação).
• Dados coletados: podem ser originados de outros sistemas,
pesquisas, históricos, arquivos ou até de um data warehouse.
Um data warehouse refere-se a um sistema de gerenciamento
de dados projetados para ativar e fornece suporte às tarefas de
business intelligence (BI) (ORACLE, 2020).
Por outro lado, destacamos os dados que são produzidos pelos
sensores, por exemplo, os tipos de sensores em um smartphone são
as câmeras, responsáveis por produzir o maior volume de dados; os
sensores de Touch screen; GPS; como ainda, os sensores direcionados
para a comunicação, como bluetooth, WiFi, WiDi, NFC, entre outros.
Cada vez mais, aumenta-se a tendência de utilização de carros,
bússola, GPS, rádio, TV, câmera fotográfica, filmadora, videogame e
carros, e consequentemente a produção de dados gerados por eles
(AMARAL, 2016).
Big Data e Ciência de Dados
https://www.jota.info/autor/ana-frazao
https://www.oracle.com/br/database/what-is-data-management/
https://www.oracle.com/br/database/what-is-data-management/
16
SAIBA MAIS:
As grandes massas de dados produzidas pelos diversos
equipamentos no artigo Volume de dados exigirá velocidade
para sobreviver ao Big Data. Nele, são citados alguns
exemplos atuais de equipamentos que estão produzindo
grandes volumes de dados e sobre a necessidade da
velocidade exigida para o processamento e análise destes.
Acesse clicando aqui.
Armazenamento
Tendo em vista que os dados estão sendo produzidos a todo
momento e de forma exponencial, este fator acarreta na necessidade de
se ter meios de armazenamento para esses dados devido aos recursos
clássicos já não comportarem tanto as massas de informações criadas,
de forma que, além deste volume de dados, existem as capacidades de
transferência das redes de comunicação que ficam excedidas (KAISLER
et al., 2013). Isto implica afirmar que existe uma necessidade crescente
em revolucionar as tecnologias de armazenamento e de comunicação
(JUSTIN, et al., 2006).
Figura 3 – Armazenamento de dados
Fonte: Freepik
Big Data e Ciência de Dados
https://www.sas.com/pt_br/insights/articles/data-management/volume-de-dados-exigira-velocidade-para-sobreviver-ao-big-data.html
17
Conforme Amaral (2016), o armazenamento viabiliza que
posteriormente os dados possam ser readquiridos facilmente para se
fazer uma cópia, ou para replicar o processo ocorrido, bem como, para
produzir informação ou conhecimento.
É importante ressaltar que o armazenamento deve primar por:
segurança da informação, integridade, minimização de redundância,
concorrência, otimização de espaço etc. Vale salientar ainda que o
armazenamento pode ser realizado em um dispositivo volátil ou não
volátil.
Atualmente, algumas empresas utilizam as aplicações de Big Data
para armazenamento, o ambiente de Cloud Computing ou Computação
em Nuvem.
A computação em Nuvem admite que empresas aluguem
capacidade de computação e armazenamento sob solicitação e com
pagamento relacionado à utilização, ao invés de bancarem grandes
investimentos para a construção e instalação de dispositivos de
computação em grandeescala (SOUSA et al., 2010).
Assim, a computação em Nuvem é uma tecnologia que permite
maior viabilidade do Big Data e, por meio dela, as organizações podem
aproveitar as grandes massas de dados sem ter que investir em grandes
instalações de armazenamento e processamento de dados (DSA, 2017).
IMPORTANTE:
É importante ressaltar que em muitas circunstâncias o
processo de análise dos dados deve ser eficiente e quase
em tempo real, assim, o armazenamento de todos os dados
capturados é quase inviável (WU et al., 2013).
Ao mesmo tempo, a computação em Nuvem oferece ambientes
com ampla capacidade de armazenamento, escaláveis, flexíveis, com
alto desempenho e disponibilidade, tornando-se um importante recurso
que serve como uma opção para viabilizar a construção de aplicações de
gestão e análise de grandes volumes de dados (AGRAWAL et al., 2011).
Big Data e Ciência de Dados
18
Podemos destacar a computação em nuvens com um grande aliado na
utilização de ferramentas de Big Data.
Framework para processamento de dados
Já é sabido que o Big Data pode ser conceituado como grandes
volumes de dados, com diversos níveis de complexidade e muitas vezes
desestruturados, os quais necessitam de outros tipos de ferramentas e
procedimentos para serem processados ou analisados (MAURO et al., 2015).
NOTA:
Para realizar o processamento eficiente dessas grandes
massas de dados, é preciso de um processamento paralelo
extenso e também novos algoritmos de análise, de modo
a obter e fornecer informação apropriada e a tempo de
ocorrer uma tomada de decisão. Isto se deve ao fato de
grandes quantidades de dados implicarem grandes custos
de tempo, pelo que, são necessárias novas estruturas que
possibilitem minimizar consideravelmente o tempo de
processamento (KATAL et al., 2013).
Por seguinte, há algumas tecnologias orientadas a tratar volumes
muito grandes como Hadoop e sistemas de bancos de dados específicos,
como o Cassandra, utilizado hoje pelo Facebook, Twitter e Reddit, os
quais, necessitam trabalhar com muita velocidade com grandes volumes
de dados de modo distribuído (TAURION, 2013).
É importante saber que no contexto de processamento de dados,
pode-se ter três tipos (DU, 2015):
• Processamento em batch: versa para processar dados em
lotes, de modo que, neste tipo de processamento, um conjunto
de dados é instruído da fonte de dados, sendo posteriormente
processado e anotado na fonte de destino. É importante
ressaltar que, historicamente, a grande maioria das tecnologias
de processamento de dados foram projetadas para este tipo de
processamento (STREAMLIO, 2018).
Big Data e Ciência de Dados
19
• Processamento em tempo real: refere-se a processar os dados e
conseguir os resultados quase imediatamente (DU, 2015).
• Processamento em stream: versa em processar dados consecu-
tivamente e atuar sobre os dados em live stream para se obter os
resultados. Os dados são processados como artefatos individuais,
ao invés de serem processados como um lote gradativamente
(DU, 2015).
A seguir, seguem sessões apresentando alguns exemplos de
frameworks que trabalham com processamento de grandes massas de dados.
Hadoop
O Hadoop, como já estudamos, é uma plataforma de software
idealizada pela Apache Software Foundation, open source, escrito em
Java, o qual possibilita o processamento de grandes massas de dados
em clusters de computadores. É necessário ressaltar que o Hadoop
é conhecido pela capacidade de armazenamento, porém, é também
uma ferramenta para processamento por meio do MapReduce. Este
possui dois componentes principais: a estrutura de programação HDFS e
MapReduce, que estão intensamente relacionados entre si (WHITE, 2015),
segue uma descrição dos dois componentes:
• Hadoop Distributed File System (HDFS): trata-se de um sistema
de arquivos distribuído, idealizado para armazenar grandes massas
de dados de modo confiável e realizar a transmissão para os
usuários. O HDFS tem características de tolerância a falhas e pode
ser expandido de um único servidor para milhares de máquinas,
cada uma proporcionando armazenamento local. Este ainda
trabalha em dois tipos de nós, o “Mestre” – gerencia a hierarquia
de sistemas, e vários “Escravos” – nós de dados (SHVACHKO et al.
2010).
• MapReduce: é um modelo de programação para processar e
gerar grandes conjuntos de dados úteis para atividades no mundo
real (DEAN, 2004). Este tem as funções map (mapeamento) e
reduce (redução), de modo que, a função map atende a par
Big Data e Ciência de Dados
20
chave/valor (chave trata o identificador do registro e, valor, o seu
conteúdo) como entrada, e gera pares chave/valor intermediários.
Por sua vez, a função reduce mescla todos os pares associados à
mesma chave (intermediários), permitindo a geração de uma saída
(HASHEM, 2014).
Spark
O Spark é um framework para processamento de Big Data idealizado
com foco em velocidade, facilidade de utilização e análises aprimoradas.
Este foi projetado para garantir uma vasta gama de cargas de tarefas,
como aplicativos em lote, algoritmos interativos, consultas interativas
e streaming, permitindo a tolerância a toda essa carga de trabalho e
minimizando a carga de gerenciamento da manutenção de ferramentas
separadas (SPARK, 2020).
Vale ressaltar que o principal atributo do Spark é a computação em
cluster na memória, aumentando a velocidade de processamento de um
aplicativo. Este, por sua vez, proporciona um framework padronizado e
de simples compreensão para gerenciar e processar Big Data com uma
diversidade de conjuntos de dados de várias naturezas e origens (batch
ou streaming de dados em tempo real).
O framework também suporta as linguagens Python, Java e
Scala, ainda possuindo outros módulos para aprendizado de máquina e
inteligência artificial (PENCHIKALA, 2015).
O conceito principal deste framework é o Resilient Distributed
Datasets (RDD), pelo qual funciona como uma tabela do banco de dados
que pode arquivar qualquer tipo de dado.
Outras características do Spark são, conforme Penchikala (2015):
• Dar suporte a mais do que somente as funções de map e reduce.
• Otimização da utilização de operadores de grafos arbitrários.
• Avaliação sob demanda de consultas de Big Data, favorecendo a
otimização do fluxo global do processamento de dados.
• Apresenta shell interativo para Scala e Python.
Big Data e Ciência de Dados
https://spark.apache.org/
https://spark.apache.org/
https://blog.geekhunter.com.br/o-java-ainda-faz-historia/
https://blog.geekhunter.com.br/aprendizagem-de-maquina-supervisionada-ou-nao-supervisionada/
21
O Spark armazena os dados do RDD em distintas partições,
isso auxilia a reorganização computacional e a questão de otimizar o
processamento dos dados (PENCHIKALA, 2015).
Storm
O Apache Storm é um sistema de computação em tempo real
distribuído e de código aberto que trabalha no processamento de fluxos
de dados ilimitados, fazendo para o processamento em tempo real, o que
o Hadoop fez no processamento em lote.
O Storm trabalha com modelos de streaming para processamento
por meio da camada principal do Storm (APACHE, 2020).
Algumas vantagens do Storm é a facilidade em sua utilização, o
funcionamento como qualquer linguagem de programação, estabilidade
e tolerância a falhas, existem desvantagens também, como confiabilidade,
desempenho, eficiência e gerenciamento (YAQOOB et al., 2016).
RESUMINDO:
Finalizamos este capítulo entendendo que, quando
abordamos grandes massas de dados, lidamos com Big
Data e seu ambiente de trabalho. Podemos perceber
as diversas fontes de dados atuais e como aumentam a
quantidade de dados, contribuindo para esta grande massa
existente e que necessita ser processada. Estudamos
um pouco sobre os tipos de armazenamento quando
se trata de dados e chegamos ao final abordando os
tipos de processamento existentes. Ainda estudando
sobre o processamentoem batch, tempo real e stream,
apresentamos alguns frameworks que trabalham com o
processamento de grandes massas de dados.
Big Data e Ciência de Dados
22
Inteligência de negócio para Big Data
OBJETIVO:
Seguindo os estudos, vamos abordar neste capítulo
sobre inteligência de negócio e como a utilização de Big
Data pode favorecer neste ambiente. Apresentaremos a
relação do Big Data e Business Intelligence e como ambos
trabalham. Abordaremos ainda os ganhos e exemplos de
como se dá suas aplicações. Vamos lá!
Big Data e sua importância no mercado de
negócio
Com a grande produção de dados por meio das análises do Big
Data, é propiciado inovações em tecnologias, produtos, na gestão e na
estratégia das organizações (ZHANG; CHEN; LI, 2013).
Vale ressaltar que o Big Data foi destacado por Cearley (2013) como
uma das 10 tendências de tecnologias estratégicas com a potencialidade
de impacto na vida dos indivíduos e das empresas. Esta lista foi
fundamentada no potencial de cada tecnologia.
Figura 4 – Mercado de negócio
Fonte: Freepik
Big Data e Ciência de Dados
23
Tendo em vista os produtos em abundância e as informações
dos clientes, bem como, registros e a massa de dados disponíveis para
ampliar constantemente novas tecnologias, vê-se o aperfeiçoamento dos
serviços existentes, pois tendem a melhorar a eficiência da produção,
diminuir custos, criar inovações e trazer a satisfação as necessidades dos
clientes (ZHANG et al., 2013).
Segundo Isaca (2013) relata, a análise do Big Data pode impactar no
mercado de negócio de modo positivo nos seguintes processos:
• Desenvolvimento de produto.
• Desenvolvimento do mercado.
• Eficiência nas operações.
• Experiência e fidelidade do cliente.
• Prever a demanda de mercado.
Porém, Bughin (2011) destaca que muitos executivos só buscam
por recursos de Big Data quando precisam urgentemente responder a
uma ameaça ou para encontrar uma oportunidade em um determinado
escopo de mercado.
Um exemplo dado, pelo autor citado acima, relata uma organização
de telecomunicações europeia que após aumentar sua parte de
participação no mercado, decidiu criar um sistema que possibilite
identificar as causas que poderiam levar seus clientes a selecionar uma
ou outra empresa.
Isso foi possível por meio da análise de grandes massas de dados
e o aumento de informações disponibilizadas pelos próprios usuários em
redes sociais e portais das empresas.
Big Data e Ciência de Dados
24
SAIBA MAIS:
Para saber mais sobre a importância e as perspectivas do
Big Data nas empresas, leia este artigo Big Data: informação
e inteligência para os negócios. Nele, é citada uma pesquisa
realizada pela Dell, destacando que as empresas que
utilizam o Big Data apresentaram crescimento de receita
até 53% maior do que as que não exploram esses conceitos.
Acesse clicando aqui.
É importante entender que o Big Data gera modificação na
organização do modelo de negócios devido a trazer consigo as três
características de dados estruturados e não estruturados, em que
necessita de novas capacidades e conhecimentos para que cada setor
realizar o tratamento de dados de modo mais eficiente (ZIKOPOULOS;
EATON, 2012).
O uso de Big Data nas organizações é alavancado pela necessidade
de existir planejamento apropriado e a idealização de estratégias que
resultem na realização das metas e objetivos determinados.
Neste sentido, adotar o Big Data pode contribuir nas empresas
no aspecto de elaboração do planejamento estratégico, de modo a
promover o alcance e na criação de vantagem competitiva (TEIXEIRA;
ALONSO, 2014).
Para autores como Chen e Zhang (2014), o Big Data modificou a
forma como fazemos negócios, gestão e pesquisas. Desta forma, ciências
intensivas de dados, notadamente em computação intensiva de dados,
estão chegando a um mundo que deseja fornecer as ferramentas que
precisamos para lidar com problemas de Big Data.
Desta forma, percebe-se como o Big Data possibilita trazer
resultados extraordinários para as empresas, contudo, a decisão e visão
do executivo sempre será fundamental para o negócio, mas, agora, sendo
mais respaldada pela análise dos dados (GALLANT, 2011).
Podemos destacar o exposto acima mostrando o exemplo trazido
por Vivek Ranadive, CEO da Tibco, um conhecido autor de livros sobre
Big Data e Ciência de Dados
https://www.up.edu.br/blogs/pos-graduacao/big-data-informacao-e-inteligencia-para-os-negocios/
25
o tema, o qual em uma certa loja varejista de material de jardinagem,
é sabido que compradores de semente tem 90% de probabilidade de
comprar fertilizante e 40% de chance de comprar móveis de jardim.
Partindo para uma primeira análise, pode-se imaginar que a melhor
estratégia seja estimular a compra de fertilizante ou expor este próximo
das sementes. Entretanto, analisando com mais detalhe, pode-se verificar
que a melhor estratégia é desenvolver ações que impulsionem a venda
dos móveis, afinal, existe uma margem maior de crescimento para estes
produtos (GALLANT, 2011).
Conforme Davenport (2012) relata, o Big Data motiva a inovação nos
modelos de negócios por meio da análise dos ambientes, desenvolvendo
novos produtos e serviços com a análise de dados originados pelos
consumidores, permitindo cooperações estratégicas ao compartilhar a
grande massa de informações com outras empresas.
IMPORTANTE:
Uma grande contribuição no contexto da aplicação do
Big Data nas empresas é o crescente aumento das fontes
de informações às empresas extraídas das redes sociais,
recursos informatizados de cooperação, bem como os
sensores em vários produtos ou registros de tráfego de
internet, entre outros (DAVENPORT, 2014).
Outras fontes de informações geradas a partir de equipamentos que
originam grandes quantidades de dados e que possibilitam ter relevância
para as empresas, são: telefones celulares, vendas na internet, redes
sociais, comunicação eletrônica, GPS e maquinário computadorizado
(BRYNJOLFSSON, 2012).
Assim, vimos as contribuições que a utilização do Big Data para as
empresas e executivos no contexto geral de mercado e negócio. Contudo,
na próxima sessão vamos entender um pouco mais da aplicação do
Bussines Intelligence trabalhando com Big Data.
Big Data e Ciência de Dados
26
Inteligência de negócio para Big Data
Diante da produção de dados, a busca das empresas por melhorias
em seus negócios e vantagens competitivas entre seus concorrentes,
destaca-se nesse cenário a inteligência de negócios ou Business
Intelligence (BI), um recurso que trata tecnologias, aplicativos e métodos
para a coleta, integração, análise e apresentação de informações no
contexto de negócios.
Em síntese, BI possibilita aos executivos das empresas e tomadores
de decisão de negócios, os recursos apropriados para tomar decisões
melhoradas (LOUZADA, 2019).
Conforme Machado (2018), BI depende de dados estruturados e
refere-se somente ao que já aconteceu, além do mais, não são necessários
cientistas de dados para desenvolverem boas aplicações em BI.
Os painéis que mostram métricas e indicadores importantes de
BI, ganham significado com os dados internos das empresas, exibidos
de modo visual e facilitado. Entretanto, eles não conseguem ir fora dos
limites de operação da empresa.
Disto surge a necessidade de utilizar soluções mais robustas com o
Big Data, apropriados para fazer análises sobre dados não estruturados e,
com isso, enriquecendo a percepção do negócio por meio das correlações
de dados e análises preditivas e prescritivas (MACHADO, 2018).
NOTA:
A análise de Big Data, além de ajudar a lidar com esses
dados complexos, também ampliam a finalidade do BI,
o qual, na maioria das vezes, tem o foco nos bancos de
dados internos das empresas, buscando extrair valor de
dados externo.
Assim, o Big Data favorece trabalhar com grandes volumes de
dados de bancos externos, enriquecendo o processo de tomada de
decisãoe consequentemente os negócios.
Big Data e Ciência de Dados
27
Figura 5 – Inteligência de mercado
Fonte: Freepik
O trabalho com Big Data corresponde a uma preocupação para
a inteligência de negócios, visto que se caracterizam por alto volume,
variedade e velocidade, requerendo competências tecnológicas
avançadas, muitas vezes, ainda não desenvolvidas ou consolidadas para
manipular e gerar conhecimento antecipado aos fatos (KWON; SIM, 2013).
Vale ressaltar que a solução de Big Data não permite definir as
causas das correlações encontradas, porém, por meio de análises
multivariadas, é possível controlar as variáveis e seus efeitos em outras
variáveis.
Isso implica uma exigência maior na escolha de profissionais em
projetos de Big Data devido a complexidade e habilidades específicas
exigidas (MACHADO, 2018).
Já com relação ao Business Intelligence, podemos entender,
de modo geral, como um recurso ou etapa a ser seguida após o Big
Data extrair e utilizar os dados para compreender o negócio, ensina os
profissionais envolvidos a tomarem ações de modo melhor.
Desta forma, o BI será adotado como uma solução que proporciona
o filtro e ordena as informações, possibilitando com que elas se
compartilhem entre si avaliando e as direcionando estrategicamente.
Big Data e Ciência de Dados
28
SAIBA MAIS:
No artigo Inteligência de negócios: o que é e como fazer a
análise de dados?, você poderá ver uma explanação de
ambos recursos tecnológicos e algumas características de
cada. Acesse clicando aqui.
Assim, ainda podemos inferir que o BI é a sustentação do Big
Data, empresas com sistemas de Business Intelligence robustos terão
maior probabilidade de começarem projetos em Big Data, uma vez que
descobertas, permitem ser testadas e monitoradas de modo rápido pelo
sistema de BI (MACHADO, 2018).
Perfil comportamental do profissional de análise de
inteligência de negócios
Garro (2017) listou algumas habilidades de perfis comportamentais
dos profissionais analistas de BI precisam ter para vencer os desafios da
área, segue a lista:
• Comunicação: ter a habilidade de se expressar e se fazer entender
são pontos importantes. Transmitir com clareza na conceituação
de premissas para realizar as tarefas, deliberar escopos e
riscos procurando oferecer as soluções de Inteligência em uma
linguagem clara e prática.
• Pacificador: é importante o analista de BI fazer a ponte entre os
envolvidos, apresentando a capacidade de traduzir a regra de
negócio para o ambiente técnico.
• Liderança: é de extrema importância que o analista de BI tenha
o perfil de liderança para delegar as soluções e definir os papéis
dos envolvidos. Necessitará também ter uma postura apropriada e
segura de suas definições, bem como, nortear a equipe e as áreas
interessadas.
• Conhecimento técnico: é de extrema importância que o analista
de BI tenha conhecimento técnico profundo e não apenas saber o
Big Data e Ciência de Dados
https://www.up.edu.br/blogs/pos-graduacao/big-data-informacao-e-inteligencia-para-os-negocios/
29
desenho da solução. Este também é responsável por dar garantias
que a solução seja elaborada com a tecnologia adequada e no
melhor ambiente.
• Atitude: é importante que o analista de BI compreenda que ele
é efetivamente quem tem a responsabilidade de fazer as coisas
acontecerem. É ele quem possui o raciocínio lógico e quem
define processos, desenha modelos de soluções e detém o
conhecimento do negócio e técnico, portanto, sem ele as coisas
não funcionam.
Em suma, é importante que você saiba que os analistas de BI,
de modo geral, lidam com análise e projetos de modelagem de dados
utilizando dados coletados, seja de um armazém de dados centralizado
ou de variados bancos de dados em toda a organização. Cada organização
pode escolher as habilidades mais relevantes para escolher o seu analista
de BI.
Big Data aplicado no mercado
Apresentaremos, nesta seção, alguns exemplos de sucesso de
empresas que utilizam as soluções de Big Data para poderem otimizar
seus serviços.
Magazine Luiza
Uma das iniciativas do 2014 do Magazine Luiza foi criar o Luizalabs,
um laboratório de Tecnologia e Inovação com intuito de produzir produtos
e serviços para o varejo, aperfeiçoando a experiência de compra dos
clientes. Outro projeto que merece destaque e muito importante é
o Bob, um aplicativo de Big Data que tem a finalidade atual de fazer
recomendações do Magazine Luiza e também responsável por enviar
propostas de compras por e-mail e outros dispositivos (FÉLIX, 2018).
Amazon
A Amazon passou por uma expansão por um determinado tempo
no seu modelo de negócios, o qual antes era só de venda online de
Big Data e Ciência de Dados
30
livros e atualmente se transformou em uma das maiores varejistas de
bens físicos e virtuais, como: ebooks, streaming de vídeos e serviços
web. Implementaram o Amazon Now e passaram a competir com
supermercados, oferecendo produtos frescos e com uma entrega rápida
(MARR, 2016).
Conforme Marr (2016), a Amazon tem utilizado o Big Data para os
seus recursos de recomendações, por meio dos dados e da monitoração
do que os usuários compram, o que eles veem, qual horário da navegação,
o endereço de entrega para determinar dados demográficos, seus
comentários e opiniões registradas no site. Nos usuários do aplicativo
para celular, também coletam a localização pelo GPS e informações
sobre aplicativos usados no celular.
Nordstrom
A Nordstrom é uma empresa varejista de moda de luxo dos Estados
Unidos. É reconhecida pela qualidade no atendimento e serviço ao
consumidor, assim como no merchandising. Essa marca adotou como
marketing um projeto de Big Data, criando um laboratório que o aplica
para gerar insights por meio de tendências de comportamento de compra
de seus clientes e, com isso, promove produtos específicos em canais
direcionados para seus clientes (MACHADO, 2018).
Figura 6 – Marketing
Fonte: Freepik
Big Data e Ciência de Dados
31
É interessante ressaltar que a Nordstrom extrai os dados de suas
páginas na web, perfis em redes sociais (Facebook: possui 3 milhões
de likes, Pinterest: 2,5 milhões de seguidores e Twitter: meio milhão de
seguidores), estatísticas de vendas em lojas físicas, programa de fidelidade
e até por meio da wi-fi. Um exemplo com monitoração da rede wi-fi foi um
experimento na loja física em Dallas, monitorando o comportamento de
consumidores (MACHADO, 2018).
RESUMINDO:
Estudamos neste capítulo como os produtos em abundância
e as informações dos clientes, bem como, registros de
dados e a massa de dados disponíveis, são usadas como
solução computacional de Big Data, na qual pode agregar
valor para os modelos de negócio. Vimos ainda, no decorrer
do capítulo, a importância e as contribuições geradas
pela utilização do Big Data, como também a sua relação
com BI e como estes recursos se complementam. Além
do exposto, destacamos o perfil de comportamento do
analista de BI. Por fim, abordamos exemplos de empresas
que adotaram o Big Data para melhorar seus negócios e
atrair mais clientes.
Big Data e Ciência de Dados
32
Bancos de dados para Big Data
OBJETIVO:
Neste capítulo, estudaremos sobre Banco de dados que
trabalhe com Big Data, a estrutura e as particularidades
destes. Também iremos abordar sobre a importância
do Banco de Dados e demonstrar exemplos de banco
de dados aplicados em trabalhos que adotam Big Data.
Preparados? Vamos lá!
Já estudamos e sabemos que a definição de Big Data trata de
conjuntos de dados, cujo tamanho e capacidade permitem capturar,
armazenar, gerenciar e analisar dados (MANYKA et al., 2011).
Figura 7 – Banco de dados
Fonte: Freepik
Conforme Amaral (2016), atualmente, com as exigências de
aplicações mais robustas, surgiram necessidades de novos meios de
gerenciamento de dados, por causa das aplicações que agregam grandes
volumes de dados, como prontuário eletrônico,gestão de documentos,
análises de séries temporais, entre outros.
Big Data e Ciência de Dados
33
Antes, existia o modelo relacional que tinha foco em primar
pela normalização, integridade e não redundância de dados, porém a
nova aplicação tem como prioridade maior escalabilidade, volume e
processamento (AMARAL, 2016).
Por conseguinte, é exigido outro tipo de banco de dados para
trabalhar com Big Data, justamente devido aos diferentes tipos de dados,
sejam eles estruturados, semiestruturados e não estruturados.
Com isto, nas próximas seções iremos abordar sobre essas
estruturas que surgiram para ajudar a trabalhar com Big Data.
Banco NoSql
Com a necessidade de ter estruturas de banco de dados que
tratem dados em grande volume, variedade e velocidade do Big Data,
precisou surgir outros modelos, como os softwares de banco de dados
NoSQL, desenhados para tratar imensas massas de dados estruturados e
não estruturados (TAURION, 2013).
O termo “NoSql” originou-se em 1998, porém iniciou-se, de modo
efetivo, em 2004, com a idealização do Banco de Dados BigTable pela
empresa Google. Logo após, vieram outras iniciativas pela empresa
Amazon, em 2007, e Facebook, em 2008, pelos quais distribuíram,
respectivamente, os BDs Dynamo e Cassandra. A partir daí, surgiram
diversas soluções em Banco de Dados NoSql (IANNI, 2013).
É importante destacar ainda que este termo, NoSQL, não implica
especificamente que não se pode utilizar uma linguagem declarativa para
consultar dados em um gerenciador NoSQL, porém significa que são
bancos de dados que não estão somente com base no modelo relacional
(AMARAL, 2016).
Nos bancos de dados NoSQL, as tabelas são denominadas como
tabelas de hash distribuídas, de modo que, uma vez armazenado objetos
indexados por chaves, objetos são encontrados pelas suas chaves.
Diferentemente dos bancos de dados estruturados, o banco de dados
NoSQL é modelado para aumentar a sua escala em sentido horizontal,
Big Data e Ciência de Dados
34
isso implica dizer que a indexação se dá por meio de clusters distribuídos
em hardwares de baixo custo (MACHADO, 2018).
SAIBA MAIS:
Leia sobre as diferenças de NoSQL no artigo O que é
NoSQL? Você poderá ter uma explanação geral sobre
NoSQL e a diferença com banco de dados relacional.
Acesse clicando aqui.
Podemos ressaltar também que os bancos de dados NoSQL
trabalham usando uma variedade de modelos de dados para acessar
e gerenciar os dados. De modo geral, esses bancos são aperfeiçoados
designadamente para aplicativos que exigem modelos de grande volume
de dados, menor latência e flexibilidade. Essas condições são consentidas
mediante a flexibilização de algumas restrições de consistência de dados
dos outros bancos.
Características bancos de dados NoSQL
Tendo em vista que há vários bancos de dados NoSQL em que
cada um foi idealizado para resolver diferentes problemas, esses, em sua
maioria, contêm características em comum que se tornam dos bancos de
dados NoSQL. Estão descritas a seguir, conforme (LÓSCIO, et al. 2008):
• Alta escalabilidade.
• Alta performance.
• Alta disponibilidade.
• Processamento distribuído.
• Ausência de esquema.
• Manter a replicação de dados.
• Trabalha com armazenamento de dados estruturados e não
estruturados.
• Contém um API simples para acesso aos dados.
Big Data e Ciência de Dados
https://aws.amazon.com/pt/nosql/
35
• Maior flexibilidade às propriedades ACID (Atomicidade,
Consistência, Isolamento e Durabilidade).
• Não suportam a linguagem SQL.
• São produtos novos.
Após a descrição desse banco de dados, na próxima seção vamos
abordar sobre os tipos de bancos de dados NoSQL.
Tipos de banco de dados NoSQL
Segundo Amaral (2016), existem diversas famílias de produtos
NoSQL, com cada família partilhando um mesmo conjunto de padrão de
armazenamento. A seguir, temos a descrição de modo geral de cada um
desses tipos:
• Chave-valor: os BDs, com base neste modelo, utilizam o conceito
de uma chave e um valor conhecido, como uma tabela hash para
constituída dos registros e garantindo que não ocorra redundância
(VARDANYAN, 2013). Esse modelo mais tradicional ao invés
de conter uma tabela com um número fixo de colunas tipadas,
trabalha com o termo chave-valor, ou KVS, acrônimo para Key-
Value Store, de modo que, em vez de conter um conjunto de
atributos, a operação adiciona informações nos bancos somente
com a chave e um valor. Algumas implementações do tipo KVS
são Couchbase, Kyoto Cabinet, Redis e DynamoDB da Amazon.
• Banco de Dados orientado a documentos: o modelo armazena
chave e valor, porém são organizados em conjuntos, permitindo
o armazenamento de estruturas como um arquivo JSON. São
exemplos de implementações deste modelo o MongoDB e o
CouchDB, com este último também da função Apache (AMARAL,
2016).
• Banco de dados orientado a grafos: este modelo usa a
estrutura de grafo para guardar as informações, de modo que, as
informações são classificadas e armazenadas como entidades,
bem como, suas relações são estabelecidas por meio das ligações
Big Data e Ciência de Dados
36
entre os elementos do grafo. Este modelo é flexível e pode ser
escalado através de várias máquinas (VARDANYAN, 2013). Estes
são aplicados em várias áreas na medicina, genética, economia
e matemática. Exemplos destes bancos de dados são o Neo4j
e FlockDB, que utilizam estruturas otimizadas para armazenar e
operar sobre grafos (AMARAL, 2016).
NOTA:
Assim, percebemos que os Banco de dados NoSql surgiram
para solucionar problemas com aplicações que trabalham
de maneira distribuída e com volume de dados. Contudo,
merece ser enfatizado que NoSql não foi idealizado para
substituir os bancos de dados relacionais, e sim para
solucionar problemas de escalabilidade e disponibilidade
de servidores de bancos de dados para as aplicações.
Em suma, o NoSql é uma opção alternativa ao Modelo Relacional
para atender determinados escopos, nos quais os Bancos de Dados
Relacionais apresentam lacunas.
Principais mecanismos de banco de dados
NoSQL
Diante do exposto, podemos destacar alguns dos principais
mecanismos de banco de dados NoSQL como MongoDB, Redis, Cassandra,
HBase, Amazon DynamoDB e Neo4j, dessa forma, nas próximas seções
serão apresentadas as características e funções de cada um.
Cassandra
O Apache Cassandra é um banco de dados NoSQL open source
escalável, adotado para gerenciar dados estruturados, semiestruturados
e não estruturados sobre múltiplos meios de dados e na Nuvem.
O Cassandra tem características que proporcionam a contínua
disponibilidade, escalabilidade linear e um operacional simples por
Big Data e Ciência de Dados
37
meio de muitos servidores sem um único ponto de falha, o qual, contém
uma arquitetura masterless em forma de anel, em que não existe um nó
principal, funcionando juntamente como um modelo de dados dinâmicos
criados para obter maior flexibilidade e rápidas respostas (APACHE, 2020).
Outra característica é que o Cassandra é um de banco de dados
descentralizado, distribuído e orientado à coluna, de modo que, este é
otimizado para clusters e fornece acesso de baixa latência a clientes.
Uma das vantagens do design de banco de dados Cassandra é por
ele ser orientado por coluna, facilitando alguns tipos de pesquisas de dados
e podendo se tornar mais veloz devido aos dados esperados poderem ser
armazenados continuamente em uma única linha (MATOS, 2019).
É interessante destacar que Cassandra é utilizado por grandes
empresas como Facebook, Twitter e Digg.
MongoDB
O MongoDB tem o foco em determinar modelos de dados
apropriados para sua aplicação, contudo, as técnicas utilizadas são muito
variadas daquelas consideradas nos bancos de dados relacionais. Isso se
deve por se atentar com os dados que são extraídos do banco diferente
dos bancos de dados tradicionais no escopo relacional.
Vale ressaltar que,no MongoDB, os dados não são tratados como
registros, mas como documentos no formato JSON e usam conceitos
de coleções (CRIVELINI, 2018).
O MongoDB também fornece os recursos necessários para um
meio de produção, por meio de: balanceamento de carga, replicação,
indexação, consulta e pode operar como um sistema de arquivos com
balanceamento de carga e tolerância a falhas. Outra característica
importante do MongoDB é a escalabilidade criada para grandes volumes
de dados (MATOS, 2019).
Conforme Queiroz et al. (2013), o MongoDB trabalha com coleções
de documentos lembrando o conceito de tabelas e linhas da tecnologia
Big Data e Ciência de Dados
38
relacional, porém com a diferença dos documentos não precisarem ter o
mesmo esquema. O MongoDB está em uso no Foursquare e SourceForge.
Redis
O Redis tem uma implementação key-value store, esta trata de ser
um paradigma que atribui valores às chaves para facilitar a entrada e o
armazenamento desses valores. Esta tecnologia suporta seus pares de
valores-chave na memória, permitindo seu acesso rápido.
Ao longo do tempo, muitas APIs foram elaboradas para uma
variedade maior de linguagens de programação, tornando o Redis uma
boa opção para desenvolvedores (MATOS, 2019). Dessa forma, temos o
Remote Dictionary Server (Redis) sendo um banco de dados NoSQL do
tipo chave-valor e que armazena os dados em memória.
É importante destacar também que os comandos são atômicos, de
modo que a ordem de execução das operações é a mesma ordem das
chamadas.
Outras características são criar as chaves e decidir por quanto
tempo elas devem existir, ou seja, possibilita configurar o tempo em que
as chaves são deletadas automaticamente.
Um exemplo prático disso é a característica em sessões de usuário
e carrinhos de compras. Ainda merece destaque que toda consulta é
realizada por meio da chave, na qual se retorna um valor e as redundâncias
de dados não são um problema tão grave (MONTEIRO, 2020).
HBase
O HBase é um banco de dados orientado à coluna, distribuído
em implementação gratuita e aberta do BigTable do Google. Este tem a
característica de facilitar e encontrar de modo eficiente os dados dispersos
e distribuídos, sendo um dos seus pontos fortes. O HBase possui uma
série de implementações em empresas como LinkedIn, Facebook e
Spotify (MATOS, 2019).
Big Data e Ciência de Dados
39
Podemos destacar que muitos projetos relacionados do Apache
oferecem suporte ao HBase, fornecendo uma camada SQL para acesso
a dados, o que ajuda os administradores de banco de dados relacionais
que buscam implementar uma solução NoSQL e como existe um número
grande de instalações Hadoop, o HBase é uma importante solução de
armazenamento NoSQL (MATOS, 2019).
Amazon DynamoDB
O Amazon DynamoDB é um serviço do banco de dados NoSQL em
Nuvem disponibilizado pela Amazon Web Service (AWS). O DynamoDB é
muito veloz e flexível para todas as aplicações que precisam de latência
constante abaixo de 10 milissegundos em qualquer escala.
O serviço deste banco de dados em Nuvem é todo gerenciável e
compatível com os modelos de armazenamento de documentos e de chave-
valor, propiciando dados flexíveis, desempenho confiável e a escalabilidade
automática da capacidade de throughput, fazendo desse serviço uma opção
apropriada para aplicações móveis, web, jogos, tecnologia de anúncios e
internet das coisas (IoT), por exemplo (MATOS, 2019).
Merece destaque algumas empresas como Lyft, Airbnb e Redfin,
bem como, Samsung, Toyota, e Capital One, que dependem da escala
e da atuação do DynamoDB para comportar seus volumes de trabalho
(AWS, 2020).
Neo4j
O Neo4j é o sistema de gerenciamento de banco de dados com base
em grafos (ou Graph Database), sendo o sistema mais conhecido e usado
atualmente desta categoria. Esse Graph Database é estruturado com
forma de grafo, de modo que, as arestas atuam como relacionamentos
entre os vértices, relacionando diretamente com as instâncias de dados
umas com as outras. Este também possui uma implementação de código
aberto, em que os dados no Neo4j podem ser acessados e atualizados
por meio da Cypher Query Language, uma linguagem semelhante à
linguagem SQL (MATOS, 2019).
Big Data e Ciência de Dados
http://www.cienciaedados.com/aprendendo-internet-of-things-com-raspberry-pi/
40
Podemos apresentar que uma das vantagens de banco é, em alguns
casos de uso, como cenários de mineração de dados e reconhecimento de
padrões, as associações entre instâncias de dados serem explicitamente
declaradas (MATOS, 2019).
RESUMINDO:
Estudamos, neste capítulo, que, devido à grande produção
de dados e os avanços das aplicações, houve o incentivo
para o surgimento de um banco de dados que pudesse
trabalhar com os diferentes tipos de dados que os bancos
relacionais não poderiam trabalhar. Com isto, abordamos
ainda o surgimento dos bancos de dados da família NoSQL
e trabalham usando uma variedade de modelos de dados
para acessar e gerenciar as informações. De modo geral,
esses bancos são aperfeiçoados designadamente para
aplicativos que exigem modelos de grande volume de
dados, menor latência e flexibilidade. Abordamos ainda
sobre os princípios, características e os seus tipos de
banco de dados NoSQL se baseando em chave-valor e
outro baseando-se em documentos, bem como os que
usam como base grafos. Vimos também as características
e exemplos práticos de banco de dados adotados por
empresas de sucesso.
Big Data e Ciência de Dados
41
Recuperação de informações
OBJETIVO:
Neste capítulo, vamos abordar aqui sobre a recuperação
de informação utilizando as soluções de Big Data e Data
Science como outros recursos computacionais que
surgiram. Prontos? Vamos lá!
Atualmente, as áreas de gestão, recuperação da Informação e
Apoio à Decisão estão sendo provocadas devido ao volume, variedade
e velocidade de uma grande massa de dados de diversos tipos,
semiestruturados e não estruturados, de origem complexa que precisam
ser buscados e analisados quanto ao seu valor e veracidade, que também
é disponibilizado às organizações como grandes oportunidades de terem
um conhecimento profundo e mais preciso de seus negócios.
Figura 8 – Recuperar informações
Fonte: Freepik
Com isto, temos a recuperação da informação se tornando o centro
de muitas pesquisas por conta da grande quantidade de informações,
que atualmente se encontram espalhadas pela rede.
Big Data e Ciência de Dados
42
A recuperação da informação trata com a representação,
armazenamento, a organização e acesso às informações, precisando
prover ao usuário aquilo que ele necessita de um modo facilitado (YATES;
NETO, 1999).
Conforme Araújo Júnior (2007), a recuperação da informação é o
processo de buscar documentos e itens de informação que foram objeto
de armazenamento com intuito de possibilitar o acesso dos usuários aos
componentes de informações e objetos de uma solicitação.
IMPORTANTE:
É importante que você entenda que o processo de
Recuperação da Informação visa buscar um conjunto de
documentos de um sistema, os quais são os que suprem
as necessidades informacionais do usuário. Deste modo,
o usuário não está interessado em recuperar dados,
nem achar documentos que atendam sua expressão de
busca, contudo, deseja encontrar a informação sobre um
determinado assunto (FERNEDA, 2003).
Para Guedes e Araújo Júnior (2014), o processamento da informação
se torna mais eficiente se o armazenamento tiver ocorrido com melhor
qualidade e os produtos resultantes deste processamento forem
apresentados na linguagem apropriada ao usuário. Os autores ainda
afirmam que a atenção com o ruído, redundância, canal de comunicação
e codificação têm impactos positivos na etapa de interrogação e busca,
devido ao sistema estar organizado e livre de informações desnecessárias
ou distorcidas, contribuindo com a recuperação da informação.
Segundo a Associação Nacionalde Pesquisa e Pós-Graduação
em Ciência da Informação, os sucessivos avanços das tecnologias da
informação, têm favorecido novos modos de acessar, recuperar, armazenar,
gerir e interagir com a informação. Assim, os objetos tradicionais para
apresentar a informação já não são satisfatórios, bem como, os ambientes
de interação com a informação têm estado em transformação, tal como o
comportamento das pessoas (ENANCIB, 2014).
Big Data e Ciência de Dados
43
Big Data e a recuperação da informação
Como já vimos, em ambientes de Big Data, o uso de bancos de
dados relacionais não é apropriado para a persistência, processamento e
recuperação dos dados em ambientes escaláveis e com diferentes tipos
de dados.
Estudamos que, para tentar resolver este quesito da persistência da
informação, foram originados novos conceitos nas tecnologias de banco
de dados, como o NoSQL (Not Only SQL).
Conforme Diana e Gerosa (2010) afirmam, esses bancos vieram para
representar soluções viáveis ao modelo relacional, proporcionando maior
escalabilidade e velocidade no armazenamento dos dados.
Beyer e Laney (2012) definem Big Data como grande volume,
velocidade e/ou alta variedade de informações que necessitam de novas
formas de processamento para permitir a melhor tomada de decisão,
nova descoberta do conhecimento e otimização de processos.
Assim, no processo de busca da informação em cenários da
Inteligência Competitiva e Big Data, são utilizados robôs de extração de
dados na Internet. Segundo Deters e Adaime (2003), esses são sistemas
que coletam os dados da web e montam uma base de dados, que é
processada para aumentar a rapidez na recuperação de informação.
Conforme afirma Silva (2003), a extração de informações importantes
pode classificar uma página seguindo um contexto de domínio e também
recuperar informações estruturando-as e armazenando-as em bases de
dados.
Com o propósito de adicionar significado aos conteúdos buscados
em domínio específico, associam-se aos robôs de busca na web conceitos
semânticos que permitem realizar a procura, não mais por palavras-
chave num processo de busca textual, mas sim por significado e valor,
extraindo das páginas e serviços da web informações de real relevância,
descartando aquilo que é desnecessário (SILVA, 2003).
Big Data e Ciência de Dados
44
Figura 9 – Busca da informação
Fonte: Freepik
A partir disso, a ontologia aparece como solução na busca de inserir
semântica neste processo. Veja a seguir um pouco mais sobre ontologia.
Ontologia
Na busca por realizar a coleta dos dados referente a um escopo
determinado de conhecimento, surge o termo Ontologia.
Aplicada a Ciência da Computação e Informática, a Ontologia é uma
estrutura de dados utilizada para representar um conjunto de termos de
uma determinada área do conhecimento ou domínio.
A ontologia, conforme Silva (2003), é definida como um elemento
da ciência que estuda o ser e seus relacionamentos e, neste sentido, a
utilização de ontologias é essencial no processo de desenvolvimento dos
robôs de busca semântica, sendo aplicada na Ciência da Computação e
na Ciência da Informação para permitir uma descoberta de modo mais
inteligente e mais próxima do funcionamento do processo cognitivo do
usuário, de forma que a extração de dados se torne muito mais relevante.
Segundo Santarém (2010), a Ciência da Computação usa a ontologia
quando se trata da obtenção de conhecimentos por meio de dados
Big Data e Ciência de Dados
45
semiestruturados, usando-a para aplicar técnicas e métodos, para processar
as informações.
Data Warehouse
Segundo Inmon (2005), um Data Warehouse é um conjunto de
dados orientado a assuntos integrados não voláteis, com variações no
tempo e com dados corporativos granulares que permitem dar suporte
às decisões da gestão.
Isto implica dizer que um Data Warehouse está orientado para as
principais áreas de uma organização e é suportada por múltiplas fontes de
dados, as quais os dados são transformados, formatados, reorganizados e
integrados, bem como, uma vez armazenada a informação, esta fica guarda
e não se perde, sendo mantido um histórico de dados (INMON, 2005).
O Data Warehouse é uma variante no tempo que implica num avanço
dos dados ao longo do tempo, como também é diferente de uma base
de dados operacional (GOLFARELLI; RIZZI, 2009). Enquanto estas últimas
são transacionais, os Data Warehouses têm as características particulares
de estarem direcionados a aplicações de apoio à decisão e de serem
otimizados para a recuperação de dados e não para o processamento de
transações rotineiras (ELMASRI; NAVATHE, 2003).
Apache Lucene
A tecnologia Apache Lucene é considerada uma biblioteca de
software livre para indexação e recuperação de informações que em sua
elaboração foi escrita em Java. Essa foi desenvolvida por Doug Cuttingol,
no ano 2000, foi aperfeiçoada e, logo após, incorporada à Fundação
Apache (MILHOMEM, 2013).
Conforme Andrade (2010) afirma, Lucene concede um nível
adequado de abstração para um conjunto robusto de técnicas
fundamentadas no modelo Vetorial e Booleano.
A biblioteca Lucene é formada por duas partes: indexação e
pesquisa, com base em palavra-chave, o algoritmo processa os dados
gerando um formato que possibilita a realização de consultas.
Big Data e Ciência de Dados
46
Por conseguinte, temos que Lucene é utilizado para indexar e
pesquisar dados em páginas de web, documentos armazenados em
sistemas locais de arquivo, arquivos de texto simples, HTML ou qualquer
outro formato por meio do qual é possível coletar informações textuais
(ANDRADE, 2010).
IMPORTANTE:
Entretanto, é importante que você saiba que para pesquisar
grandes quantidades de texto de modo rápido em um
primeiro momento, de acordo com Andrade (2010), Lucene
indexa o texto e o transforma em um formato que o permite
deixá-lo mais veloz na busca.
Este processo é chamado de indexação e sua saída é denominada
de índice. Logo, a busca ou pesquisa se trata do processo de buscar
palavras em um índice para encontrar documentos em que elas aparecem.
Já existem fundamentalmente duas funcionalidades importantes:
o processo de indexação, acessível por meio do comando indexer,
e o processo de busca, disponível por meio do comando searcher
(ANDRADE, 2010).
Abaixo segue a descrição das duas etapas:
• Indexação: usa em seu índice a estrutura de dados denominada
de índice invertido, em que cada conceito acrescentado possui
uma referência para o arquivo que o contém (MACHADO, 2013).
• Busca: no Lucene, para cada documento atual no resultado de
alguma busca, é aplicada uma pontuação que representa a
semelhança de tal documento com a consulta. O cálculo dessa
pontuação é feito baseando-se no modelo de recuperação de
informação escolhido.
Big Data e Ciência de Dados
47
Figura 10 – Indexar e Buscar documento
Fonte: Freepik
Ainda, podemos citar o que o autor Machado (2013) relata: a
biblioteca Lucene suporta os seguintes modelos:
• Modelo Booleano.
• Modelo Espaço Vetorial.
• Modelo Probabilístico.
• Modelo com base em Linguagem Natural.
Todavia, é bom destacar que por padrão, a busca no Lucene
acontece por meio da combinação de duas técnicas de recuperação de
informação: Modelo Espaço Vetorial e Modelo Booleano.
Contudo, uma vantagem para o programador é que não precisa
implementar algoritmos de busca e classificação, pois a biblioteca Lucene
tem mecanismos para calcular a pontuação de cada documento que seja
referente a uma consulta e retornar documentos relevantes conforme
com essas pontuações (MILHOMEM, 2013).
SAIBA MAIS:
Para saber mais sobre o assunto, leia o artigo Usando o
Apache Lucene para procura de texto. Acesse clicando aqui.
Big Data e Ciência de Dados
https://www.ibm.com/developerworks/br/java/library/os-apache-lucenesearch/index.html
48
No artigo citado, é dada uma explanação geralsobre esta tecnologia
e exemplos como o da biblioteca Lucene para fornecer recursos de
busca para o Eclipse IDE e empresas como IBM, AOL e Hewlett-Packard,
destacando a linguagem de programação, o qual, suporta Perl, Python,
C++ e .NET.
RESUMINDO:
Finalizamos este capítulo estudando um pouco sobre
recuperação de informação, fazendo uma abordagem
no contexto geral sobre o que ela trata e passando sobre
seu processo. Vimos que a recuperação da informação
trata a representação, armazenamento, a organização e
acesso às informações. Assim, abordamos ainda sua
importância para a tomada de decisão e mostramos como
é relacionada à ciência de dados e da informação, de modo
que, explanamos como o Big Data, Data Warehouse e
ontologias estão relacionadas neste processo. Por fim, foi
apresentada a biblioteca Apache que trabalha no processo
de recuperação de informação, o Lucene.
Big Data e Ciência de Dados
49
REFERÊNCIAS
4 Componentes principais para a infraestrutura de big Data.
DSA, 2017. Disponível em: http://datascienceacademy.com.br/blog/4-
componentes- principais-para-a-infraestrutura-de-big-data/. Acesso em:
04 jun. 2020.
AGRAWAL, D.; DAS, S.; EL ABBADI, A. Big data and cloud computing:
current state and future opportunities. In: INTERNATIONAL CONFERENCE
ON EXTENDING DATABASE TECHNOLOGY, 14., 2011, New York. Anais […]
New York: EDBT/ICDT, 2011. p. 530-533.
AMARAL, F. Introdução à Ciência de Dados: mineração de dados e
Big Data. Rio de Janeiro: ALTA Books, 2016.
AMAZON DynamoDB. AWS, [s. d]. Disponível em: https://aws.
amazon.com/pt/dynamodb. Acesso em: 04 jun. 2020.
ANDRADE, C.; SOUZA, C.; MAFORT, F. Sistema gerenciador de
documentos. Orientador: Orientador: Jonh Edson Ribeiro de Carvalho.
2011. Monografia (Graduação em Ciência da Computação). Universidade
Gama Filho. Piedade. 2011.
APACHE Spark - Introduction. Tutorials Point, [s. d]. Disponível
em:https://www.tutorialspoint.com/apache_spark/apache_spark_
introduction.htm. Acesso em: 01 jun. 2020.
ARAÚJO, H. Precisão no processo de busca e recuperação da
informação. Brasília: Thesaurus, 2007.
BIG Data: impactos e benefícios. ISACA, [s. d.]. Disponível em: http://
www.isaca.org/Knowledge-Center/Research/Documents/BigData_
whp_Por_0413.pdf. Acesso em: 01 jun. 2020.
BOSSO, M. Volume de dados exigirá velocidade para sobreviver ao
Big Data. SAS, 2019. Disponível em: https://www.sas.com/pt_br/insights/
articles/data-management/volume-de-dados-exigira-velocidade-para-
sobreviver-ao-big-data.html. Acesso em: 01 jun. 2020.
Big Data e Ciência de Dados
50
BRYNJOLFSSON, E; MCAFEE, A. Big Data – A Revolução da Gestão.
Harvard Business Review, 2012.
BUGHIN, J; LIVINGSTON, J. Marwaha, S. Seizing the potential of
‘big data’. Atlanta: McKinsey Global Institute, 2011.
CEARLEY, D; CLAUNCH, C. The Top 10 Strategic Technology Trends
for Gartner. Gartner, 2013. Disponível em: https://www.gartner.com/en/
documents/2335015/the-top-10-strategic-technology-trends-for-2013.
Acesso em: 15 fev. 2022.
CHEN, P.; ZHANG, Y. Data-intensive applications, challenges,
techniques and technologies: A survey on Big Data. Information Sciences,
v. 275, p. 314-347, 2014.
CRIVELINI, W. Começando a Entender os Bancos de Dados NoSQL:
o MongoDB. Meu Negócio, 2020. Disponível em: https://meunegocio.uol.
com.br/academia/tecnologia/comecando-a-entender-os-bancos-de-
dados-nosql-o-mongodb.html#rmcl. Acesso em: 5 mai. 2020)
DAVENPORT, T.; BARTH, P.; BEAN, R. How ‘Big Data’ is Different. MIT
Sloan Management Review, 2012.
DEAN, J.; GHEMAWAT, S. MapReduce: simplified data processing
on large clusters. Communications of the ACM, v. 52, n. 1, p. 107-113, jan.
2008.
DETERS, I.; ADAIME, F. Um estudo comparativo dos sistemas de
busca na web. ENCONTRO DE ESTUDANTES DE INFORMÁTICA DO
TOCANTINS, 5., 2003, Palmas. Anais [...] Palmas: [s. n.], 2003. p. 189-200.
DIANA, M. de; GEROSA, A. Nosql na web 2.0: um estudo comparativo
de bancos não relacionais para armazenamento de dados na web 2.0.
WORKSHOP DE TESES E DISSERTAÇÕES EM BANCO DE DADOS, 9., [s. l.].
Anais [...] [s. l. s. n.], 2012.
DOCUMENTATION. Apache Cassandra 3.0, [s. d.]. Disponível em:
https://cassandra.apache.org/doc/latest/. Acesso em: 5 jun. 2020.
ELMASRI, R.; NAVATHE, B. Fundamentals of Database Systems. 4.
ed. Boston: Addison-Wesley Longman Publishing Co., Inc, 2013.
Big Data e Ciência de Dados
51
EREVELLES, S.; FUKAWA, N.; SWAYNE, L. Big Data consumer
analytics and the transformation of marketing. Journal of Business, p.
897-904,2014.
ERL, T.; KHATTAK, W.; BUHLER, P. Big Data Fundamentals:
concepts, drivers & techniques. Boston: Prentice Hall, 2016.
FÉLIX, M. et al. Critical Success Factors for Big Data Adoption in
the Virtual Retail: Magazine Luiza Case Study. Rev. Bras. Gest. Neg, São
Paulo, v. 20, n. 1, jan-mar. 2018 p.112-126.
FERNEDA, E. Recuperação da Informação: análise sobre a
contribuição da Ciência da Computação para a Ciência da Informação.
2003. Tese (Doutorado em Ciência da Computação.) – Escola de
Comunicação e Artes. USP. São Paulo. 2003.
FRAZÃO, A. A indústria dos dados pessoais e os data brokers.
Minuto de Segurança, 2019. Disponível em: https://minutodaseguranca.
blog.br/a-industria-dos-dados-pessoais-e-os-data-brokers/. Acesso em:
4 jun. 2020.
GANTZ, J.; REINSEL, D. The Digital Universe. Big Data, Bigger Digital
Shadows, and Biggest Growth in the Far East. EMC, 2020. Disponível
em:http://www.emc.com/collateral/analyst-reports/idc-the-digital-
universe-in-2020.pdf. Acesso em: 03 jun. 2020.
GARRO, F. Inteligência de negócios é uma especialização muito
valorizada pelo mercado: entenda seus desafios e diferenciais. IGTI,
2017. Disponível em: https://www.igti.com.br/blog/carreira-inteligencia-
negocios/. Acesso em: 03 jun. 2020.
GOLFARELLI, M.; RIZZI, S. Data Warehouse Design: modern
principles and methodologies. New York: McGrawHill Inc., 2009.
HASHEM, T. et al. The rise of “big data” on cloud computing: Review
and open research issues. Information Systems, v. 47, p. 98-111. 2014.
IANNI, V. Introdução aos bancos de dados NoSQL. DevMedia, [s.
d.]. Disponível em: http://www.devmedia.com.br/introducao-aos-bancos-
de-dados-nosql/26044. Acesso em: 03 jun. 2020.
Big Data e Ciência de Dados
52
INMON, H.; HACKATHORN, D. Como Usar o Data Warehouse. Rio
de Janeiro: Infobook, 2013.
INTELIGÊNCIA de negócios: o que é e como fazer a análise de
dados? Mutant BR, [s. d.]. Disponível em: https://mutantbr.com/blog/
inteligencia-de-negocios-o-que-e-e-como-fazer-a-analise-de-dados/.
Acesso em: 03 jun. 2020.
JUSTIN, S. et al. A Survey on Big Data and Its Research Challenges.
ARPN Journal of Engineering and Applied Sciences, v. 10, n. 8, p. 3343-
3347. 2011.
KAISLER, S. et al. Big Data: Issues and Challenges Moving Forward.
System sciences (HICSS). In: HAWAII INTERNATIONAL CONFERENCE ON,
46., 2013, [s. l.]. Anais […] [s. l. s. n.], 2013. p. 995-1004.
KWON, O.; SIM, J. Effects of data set features on the performances
of classification algorithms. Expert Systems with Applications, v. 40, n. 5,
p. 1847-1857. 2013.
LÓSCIO, F.; PONTES, S.; OLIVEIRA, R. Nosql no desenvolvimento
de aplocações web colaborativas. São Paulo: [s. n.], 2011.
LOUZADA, P. Inteligência de negócios e Big Data: 2 passos em
direção ao future. FM2S, 2019. Disponível em: https://www.fm2s.com.br/
inteligencia-de-negocios-e-big-data-2-passos-em-direcao-ao-futuro/.
Acesso em: 04 jun. 2020.
MACHADO, D. A Percepção de Big Data do varejo: características
e desafios. FGV, 2017. Disponível em: http://bibliotecadigital.fgv.br/ocs/
index.php/clav/clav2017/paper/view/6124. Acesso em: 04 jun. 2020.
MANYIKA, J.; CHUI, M. Big Data: a próxima fronteira para inovação,
concorrência e produtividade. [s. l.]: McKinsey Global Institute, 2011.
MARR, B. Big Data in Practice. West Sussex: Wiley, 2016.
MATOS, D. Top 6 NoSQL Databases. Ciência e Dados, 2019.
Disponível em: http://www.cienciaedados.com/top-6-nosql-databases.Acesso em: 05 jun. 2020.
Big Data e Ciência de Dados
53
MILHOMEM, W. Indexação de termos para um sistema de
recuperação da informação utilizando computação distribuída.
Orientador: Orientador: Fernando Luiz de Oliveira. 2013. Monografia
(Graduação em Sistemas de Informação) – Centro Universitário Luterano
de Palmas. Palmas. 2013.
MONTEIRO, D. SQL ou NoSQL? Você conhece o Redis?
Db4Beginners, 2020. Disponível em: http://db4beginners.com/blog/sql-
ou-nosql-redis/. Acesso em: 05 jun. 2020.
O QUE é NoSQL? AWS, [s. d.]. Disponível em: https://aws.amazon.
com/pt/nosql/. Acesso em: 05 jun. 2020
PENCHIKALA, S. Big Data com Apache Spark - Parte 1: Introdução.
INFOQ, 2015. Disponível em: https://www.infoq.com/br/articles/apache-
spark-introduction/. Acesso em: 03 jun. 2020.
QUEIROZ, R. et al. Geographic Databases and NoSQL.
Accomlishments and future directions. Revista Brasileira de Cartografia,
p. 479-492, 2013.
SANTAREM, E. Representação Iterativa: um modelo para
Repositórios Digitais. Tese (Doutorado em Ciência da Informação) –
Faculdade de Filosofia e Ciências. Universidade Estadual Paulista. Marília.
2010.
SHVACHKO, K.; KUANG, H.; RADIA, S. The Hadoop Distributed
File System. Incline Village. IEEEXPLORE, 2010. Disponível em: https://
ieeexplore.ieee.org/abstract/document/5496972. Acesso em: 1 jun. 2020.
SILVA, P. Inteligência competitiva na Internet: um processo otimizado
por agentes inteligentes. Ciência da informação, v. 1, n. 32. 2003.
SONAWANE, A. Usando o Apache Lucene para procura de texto.
IBM, [s. d.]. Disponível em: https://www.ibm.com/developerworks/br/
java/library/os-apache-lucenesearch/index.html. Acesso em: 5 jun. 2020.
SOUSA, C. et al. Gerenciamento de dados em Nuvem: Conceitos,
sistemas e desafios. SBBD, p. 101-130. 2010.
Big Data e Ciência de Dados
54
STREAMLIO. Understanding Batch, Microbatch, and Streaming.
Dzone, 2018. Disponível em: https://dzone.com/articles/understanding-
batch-microbatch-and-stream-processi. Acesso em: 01 jun. 2020.
TAURION, C. Big Data. Rio de Janeiro: Brasport, 2013.
TEIXEIRA, C.; ALONSO, C. A importância do planejamento
estratégico para as pequenas empresas. Rio de Janeiro: SEGET, 2014.
VARDANYAN, M. Escolhendo a ferramenta certa para o banco
de dados NoSql. iMaters, [s. d.]. Disponível em: http://imasters.com.br/
artigo/21781/banco-de-dados/escolhendo--aferramenta-certa-para-o-
banco-de-dados-nosql/. Acesso em: 04 jun. 2020.
WHAT is a data warehouse. Oracle. [s. d.]. Disponível em: https://
www.oracle.com/br/database/what-is-a-data-warehouse/. Acesso em:
01 jun. 2020.
WHITE, T. Hadoop: The Definitive Guide. 4. ed. Paris: O’Reilly Media,
2015.
WU, X. et al. Top 10 algorithms in data mining. Knowledge and
Information Systems, v. 14, n. 1, p. 1-37. 2008.
YAQOOB et al. Big data: From beginning to future. International
Journal of Information Management, v. 36, n. 6, p. 1231-1247, dez. 2016.
YATES, B.; RIBEIRO, B. Modern information retrieval. New York:
ACM; Harlow: Addison – Wesley, 1999.
ZHANG, J. et al. Opportunities of innovation under challenges of big
data. 2013, In: INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND
KNOWLEDGE DISCOVERY, 10., 2013, [s. l.]. Anais […]. [s. l.]: FSKD, 2013. p.
669-673.
ZIKOPOULOS, P.; EATON, C. Understanding Big Data: Analytics for
enterprise class hadoop and streaming data. New York: Mc Ghram Hill,
2012.
Big Data e Ciência de Dados
Processamento de grandes volumes de dados
Produção de dados
Armazenamento
Framework para processamento de dados
Hadoop
Spark
Storm
Inteligência de negócio para Big Data
Big Data e sua importância no mercado de negócio
Inteligência de negócio para Big Data
Perfil comportamental do profissional de análise de inteligência de negócios
Big Data aplicado no mercado
Magazine Luiza
Amazon
Nordstrom
Bancos de dados para Big Data
Banco NoSql
Características bancos de dados NoSQL
Tipos de banco de dados NoSQL
Principais mecanismos de banco de dados NoSQL
Cassandra
MongoDB
Redis
HBase
Amazon DynamoDB
Neo4j
Recuperação de informações
Big Data e a recuperação da informação
Ontologia
Data Warehouse
Apache Lucene