Buscar

Big Data e Ciência de Dados - Unidade 3 - Estrutura e Organização do Big Data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Unidade 3
Estrutura e organização do Big Data
Big Data e 
Ciência de Dados
Diretor Executivo 
DAVID LIRA STEPHEN BARROS
Gerente Editorial 
CRISTIANE SILVEIRA CESAR DE OLIVEIRA
Projeto Gráfico 
TIAGO DA ROCHA
Autoria 
JÉSSICA LAISA DIAS DA SILVA
ALAN DE OLIVEIRA SANTANA
AUTORIA
Jéssica Laisa Dias da Silva 
Olá. Sou graduada em Sistemas da Informação pela Universidade de 
Ciências Sociais Aplicadas (Unifacisa) e mestre em Sistema e Computação 
pela Universidade Federal de Rio Grande do Norte (UFRN). Atualmente, 
sou doutoranda em Sistema e Computação pela UFRN e professora 
conteudista na elaboração de cadernos.
Alan de Oliveira Santana 
Olá. Sou graduado em Ciência da Computação pela Universidade 
do Estado do Rio Grande do Norte (UERN) e mestre em Sistemas da 
Computação pela Universidade Federal do Rio Grande do Norte (UFRN). 
Atualmente, sou professor conteudista, elaborador de cadernos de 
questões e doutorando em Ciências da Computação. Como cientista, 
atuo no desenvolvimento e avaliação de técnicas de desenvolvimento de 
sistemas com ênfase na educação.
Desse modo, fomos convidados pela Editora Telesapiens a integrar 
seu elenco de autores independentes. Estamos muito satisfeitos com o 
convite e a possibilidade de auxiliar em seu desenvolvimento intelectual 
e profissional. Bons estudos!
ICONOGRÁFICOS
Olá. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez 
que:
OBJETIVO:
para o início do 
desenvolvimento 
de uma nova 
competência;
DEFINIÇÃO:
houver necessidade 
de se apresentar um 
novo conceito;
NOTA:
quando necessária 
observações ou 
complementações 
para o seu 
conhecimento;
IMPORTANTE:
as observações 
escritas tiveram que 
ser priorizadas para 
você;
EXPLICANDO 
MELHOR: 
algo precisa ser 
melhor explicado ou 
detalhado;
VOCÊ SABIA?
curiosidades e 
indagações lúdicas 
sobre o tema em 
estudo, se forem 
necessárias;
SAIBA MAIS: 
textos, referências 
bibliográficas 
e links para 
aprofundamento do 
seu conhecimento;
REFLITA:
se houver a 
necessidade de 
chamar a atenção 
sobre algo a ser 
refletido ou discutido 
sobre;
ACESSE: 
se for preciso acessar 
um ou mais sites 
para fazer download, 
assistir vídeos, ler 
textos, ouvir podcast;
RESUMINDO:
quando for preciso 
se fazer um resumo 
acumulativo das 
últimas abordagens;
ATIVIDADES: 
quando alguma 
atividade de 
autoaprendizagem 
for aplicada;
TESTANDO:
quando uma 
competência for 
concluída e questões 
forem explicadas;
SUMÁRIO
Processamento de grandes volumes de dados ............................12
Produção de dados ...................................................................................................................... 14
Armazenamento ............................................................................................................................. 16
Framework para processamento de dados ................................................................. 18
Hadoop ................................................................................................................................ 19
Spark ..................................................................................................................................... 20
Storm ..................................................................................................................................... 21
Inteligência de negócio para Big Data .................................................. 22
Big Data e sua importância no mercado de negócio ............................................22
Inteligência de negócio para Big Data .......................................................26
Perfil comportamental do profissional de análise de inteligência 
de negócios ......................................................................................................................28
Big Data aplicado no mercado ..............................................................................................29
Magazine Luiza ..............................................................................................................29
Amazon ................................................................................................................................29
Nordstrom......................................................................................................................... 30
Bancos de dados para Big Data ............................................................ 32
Banco NoSql .......................................................................................................................................33
Características bancos de dados NoSQL ...................................................34
Tipos de banco de dados NoSQL ....................................................................35
Principais mecanismos de banco de dados NoSQL ............................................ 36
Cassandra ......................................................................................................................... 36
MongoDB ...........................................................................................................................37
Redis ..................................................................................................................................... 38
HBase ................................................................................................................................... 38
Amazon DynamoDB .............................................................................. 39
Neo4j .................................................................................................................................... 39
Recuperação de informações ................................................................41
Big Data e a recuperação da informação ...................................................43
Ontologia ............................................................................................................................44
Data Warehouse............................................................................................................45
Apache Lucene.................................................................................................................................45
9
UNIDADE
03
Big Data e Ciência de Dados
10
INTRODUÇÃO
Estudamos, anteriormente, como a quantidade de dados é grande 
hoje e como é importante a utilização de soluções computacionais como 
Big Data e ciência de dados. Assim, nesta unidade vamos nos deter a 
estudar como processar grandes massas de dados. Abordaremos sobre 
ferramentas e recursos importantes que ajudam a processar a enorme 
quantidade de informação.
Veremos ainda sobre inteligência de negócio e como a utilização 
de Big Data pode favorecer neste ambiente. Além disso, entenderemos o 
tipo de Banco de dados adotado em aplicações de Big Data, bem como 
a sua estrutura e tecnologias envolvidas.
Estudaremos ainda, nesta unidade, sobre o Banco de dado 
utilizado em aplicações em Big Data, como também a estrutura e as 
particularidades destes. Também iremos abordar sobre a importância do 
Banco de dados e apresentar exemplos de banco de dados aplicados em 
trabalhos que adotam Big Data.
Por fim, abordaremos sobre a recuperação de informação 
utilizando as soluções de Big Data e Data Science como outros recursos 
computacionais que surgiram.
Big Data e Ciência de Dados
11
OBJETIVOS
Olá. Seja muito bem-vinda (o). Nosso propósito é auxiliar você no 
desenvolvimento das seguintes objetivos de aprendizagem até o término 
desta etapa de estudos:
1. Conhecer o processamento de grandes volumes de dados.
2. Entender a inteligência de negócio para Big Data.
3. Conhecer os bancos de dados para Big Data.
4. Conhecer o processo de recuperação de informação.
Então? Preparado para adquirir conhecimento sobre um assunto 
fascinante e inovador como esse? Vamos lá!
Big Data e Ciênciade Dados
12
Processamento de grandes volumes de dados 
OBJETIVO:
Neste capítulo, abordaremos como funciona o processa-
mento de grande volume de dados a partir da explanação 
de como os grandes volumes de dados são produzidos 
e armazenados. Logo após, exploraremos os frameworks 
que realizam este processamento. Prontos? Vamos lá!
É importante relembrar que o Big Data está relacionado e aplicado 
à análise, ao processamento e armazenamento de grandes volumes 
de dados e que as suas soluções computacionais e seus métodos são 
usualmente precisos quando as tecnologias e técnicas clássicas já 
não são suficientes para a execução destas atividades (ERL; KHATTAK; 
BUHLER, 2016).
Ainda sobre o conceito de Big Data que já estudamos, precisamos 
recordar também as características dos “Vs” que o compõe, representado 
por esta fórmula apresentada por (TAURION, 2013):
Big Data = volume + variedade + velocidade + veracidade gerando + valor. 
Deste modo, o volume representa a quantidade de petabytes de 
dados produzidas a cada dia, a qual se estima que este volume dobre a 
cada dezoito meses 
Segundo Taurion (2013), cada uma desses Vs, conforme apresentado 
a seguir, são relacionados com a produção de dados:
 • Variedade: caracteriza os dados oriundos de sistemas estruturados 
e não estruturados, originados por e-mails, redes sociais como: 
Facebook, Twitter, YouTube, entre outras, documentos eletrônicos, 
apresentações estilo Powerpoint, mensagens instantâneas, 
sensores, etiquetas RFID, câmeras de vídeo, entre outros 
(TAURION, 2013). 
Big Data e Ciência de Dados
13
Figura 1 – Redes sociais 
Fonte: Freepik
 • Velocidade: característica relacionada às práticas em tempo real 
sobre o grande volume de dados. Esta representa um critério 
que se torna muito importante por causa da crescente agilidade 
com que as empresas precisam reagir às modificações no cenário 
de negócios, bem como a necessidade de dados em tempo 
real, interferindo na execução do próprio processo de negócios 
(TAURION, 2013).
 • Veracidade: essa característica implica em garantir a integridade 
dos dados, verificando se fazem sentido e são autênticos 
(TAURION, 2013). 
 • Valor: representando a junção das demais características 
(TAURION, 2013).
Podemos citar ainda que, em 2013, a ISACA determinou o Big 
Data como conjuntos de dados de grandes volumes ou com rápidas 
modificações para serem analisados com processos de banco de dados 
relacionais tradicionais, multidimensionais ou ferramentas de software 
usualmente utilizadas para capturar, gerenciar e processar os dados em 
um tempo favorável (ISACA, 2013).
Dessa forma, a partir desta revisão, entendemos que o Big Data 
é justamente uma solução computacional que trabalha como esses 
Big Data e Ciência de Dados
14
grandes volumes de dados. Na próxima sessão, teremos a explanação de 
onde vem todos esses dados.
Produção de dados 
A produção dos dados cresce exponencialmente. Um estudo da A 
Universe of Opportunities and Challenges, desenvolvido pela consultoria 
EMC, relatou que, de 2006 a 2010, o volume de dados digitais gerados 
aumentou de 166 exabytes para 988 exabytes, fazendo a perspectiva que 
o volume de dados alcance a casa dos 40.000 exabytes, ou 40 zettabytes 
(ou 40 trilhões de Gigabytes), nos próximos anos (GANTZ, 2012).
Figura 2 – Escala de dados
Fonte: Elaborada pelos autores (2020).
Amaral (2016) entende que a produção de dados não está somente 
relacionada pela entrada de algum dispositivo, mas também pela 
análise ou para execução de procedimentos operacionais, podendo ser 
responsáveis por produzir volumes significativos de dados. 
Ainda abordando sobre os grandes volumes de dados, vale ressaltar 
que estes são processados pelas soluções de Big Data, o qual crescem 
e atribuem exigências diferentes de armazenamento e processamento, 
expondo um grande desafio às organizações de TI clássicas, visto como os 
grandes volumes de dados, necessitam de armazenamento escalonável 
e um enfoque distribuído para permitir a consulta deles (ERL et al., 2016).
Big Data e Ciência de Dados
15
Os dados estão sendo produzidos cada vez mais e vem de todas as 
partes. Segundo Amaral (2016), dados podem ser comprados, produzidos 
ou simplesmente coletados. Segue a descrição de cada um dos tipos de 
dados:
 • Dados comprados: podem derivar de empresas especializadas 
em vender dados, conhecidas como “data brokers”. Os  data 
brokers  permitem o entendimento de como se dá a coleta de 
informações sobre os consumidores de diferentes e abundantes 
fontes comerciais (FRAZÃO, 2019).
 • Dados produzidos: são originados por sistemas transacionais, 
operações de processamento exemplificando o fechamento da 
folha de pagamento, os processos de transformação de dados e o 
ELT (extração, carregamento, transformação). 
 • Dados coletados: podem ser originados de outros sistemas, 
pesquisas, históricos, arquivos ou até de um data warehouse. 
Um  data warehouse  refere-se a um sistema de gerenciamento 
de dados  projetados para ativar e fornece suporte às tarefas de 
business intelligence (BI) (ORACLE, 2020).
Por outro lado, destacamos os dados que são produzidos pelos 
sensores, por exemplo, os tipos de sensores em um smartphone são 
as câmeras, responsáveis por produzir o maior volume de dados; os 
sensores de Touch screen; GPS; como ainda, os sensores direcionados 
para a comunicação, como bluetooth, WiFi, WiDi, NFC, entre outros. 
Cada vez mais, aumenta-se a tendência de utilização de carros, 
bússola, GPS, rádio, TV, câmera fotográfica, filmadora, videogame e 
carros, e consequentemente a produção de dados gerados por eles 
(AMARAL, 2016).
Big Data e Ciência de Dados
https://www.jota.info/autor/ana-frazao
https://www.oracle.com/br/database/what-is-data-management/
https://www.oracle.com/br/database/what-is-data-management/
16
SAIBA MAIS:
As grandes massas de dados produzidas pelos diversos 
equipamentos no artigo Volume de dados exigirá velocidade 
para sobreviver ao Big Data. Nele, são citados alguns 
exemplos atuais de equipamentos que estão produzindo 
grandes volumes de dados e sobre a necessidade da 
velocidade exigida para o processamento e análise destes. 
Acesse clicando aqui. 
Armazenamento 
Tendo em vista que os dados estão sendo produzidos a todo 
momento e de forma exponencial, este fator acarreta na necessidade de 
se ter meios de armazenamento para esses dados devido aos recursos 
clássicos já não comportarem tanto as massas de informações criadas, 
de forma que, além deste volume de dados, existem as capacidades de 
transferência das redes de comunicação que ficam excedidas (KAISLER 
et al., 2013). Isto implica afirmar que existe uma necessidade crescente 
em revolucionar as tecnologias de armazenamento e de comunicação 
(JUSTIN, et al., 2006).
Figura 3 – Armazenamento de dados 
Fonte: Freepik
Big Data e Ciência de Dados
https://www.sas.com/pt_br/insights/articles/data-management/volume-de-dados-exigira-velocidade-para-sobreviver-ao-big-data.html
17
Conforme Amaral (2016), o armazenamento viabiliza que 
posteriormente os dados possam ser readquiridos facilmente para se 
fazer uma cópia, ou para replicar o processo ocorrido, bem como, para 
produzir informação ou conhecimento. 
É importante ressaltar que o armazenamento deve primar por: 
segurança da informação, integridade, minimização de redundância, 
concorrência, otimização de espaço etc. Vale salientar ainda que o 
armazenamento pode ser realizado em um dispositivo volátil ou não 
volátil.
Atualmente, algumas empresas utilizam as aplicações de Big Data 
para armazenamento, o ambiente de Cloud Computing ou Computação 
em Nuvem. 
A computação em Nuvem admite que empresas aluguem 
capacidade de computação e armazenamento sob solicitação e com 
pagamento relacionado à utilização, ao invés de bancarem grandes 
investimentos para a construção e instalação de dispositivos de 
computação em grandeescala (SOUSA et al., 2010).
Assim, a computação em Nuvem é uma tecnologia que permite 
maior viabilidade do Big Data e, por meio dela, as organizações podem 
aproveitar as grandes massas de dados sem ter que investir em grandes 
instalações de armazenamento e processamento de dados (DSA, 2017).
IMPORTANTE:
É importante ressaltar que em muitas circunstâncias o 
processo de análise dos dados deve ser eficiente e quase 
em tempo real, assim, o armazenamento de todos os dados 
capturados é quase inviável (WU et al., 2013).
Ao mesmo tempo, a computação em Nuvem oferece ambientes 
com ampla capacidade de armazenamento, escaláveis, flexíveis, com 
alto desempenho e disponibilidade, tornando-se um importante recurso 
que serve como uma opção para viabilizar a construção de aplicações de 
gestão e análise de grandes volumes de dados (AGRAWAL et al., 2011). 
Big Data e Ciência de Dados
18
Podemos destacar a computação em nuvens com um grande aliado na 
utilização de ferramentas de Big Data.
Framework para processamento de dados 
Já é sabido que o Big Data pode ser conceituado como grandes 
volumes de dados, com diversos níveis de complexidade e muitas vezes 
desestruturados, os quais necessitam de outros tipos de ferramentas e 
procedimentos para serem processados ou analisados (MAURO et al., 2015).
NOTA:
Para realizar o processamento eficiente dessas grandes 
massas de dados, é preciso de um processamento paralelo 
extenso e também novos algoritmos de análise, de modo 
a obter e fornecer informação apropriada e a tempo de 
ocorrer uma tomada de decisão. Isto se deve ao fato de 
grandes quantidades de dados implicarem grandes custos 
de tempo, pelo que, são necessárias novas estruturas que 
possibilitem minimizar consideravelmente o tempo de 
processamento (KATAL et al., 2013).
Por seguinte, há algumas tecnologias orientadas a tratar volumes 
muito grandes como Hadoop e sistemas de bancos de dados específicos, 
como o Cassandra, utilizado hoje pelo Facebook, Twitter e Reddit, os 
quais, necessitam trabalhar com muita velocidade com grandes volumes 
de dados de modo distribuído (TAURION, 2013).
É importante saber que no contexto de processamento de dados, 
pode-se ter três tipos (DU, 2015): 
 • Processamento em batch: versa para processar dados em 
lotes, de modo que, neste tipo de processamento, um conjunto 
de dados é instruído da fonte de dados, sendo posteriormente 
processado e anotado na fonte de destino. É importante 
ressaltar que, historicamente, a grande maioria das tecnologias 
de processamento de dados foram projetadas para este tipo de 
processamento (STREAMLIO, 2018).
Big Data e Ciência de Dados
19
 • Processamento em tempo real: refere-se a processar os dados e 
conseguir os resultados quase imediatamente (DU, 2015). 
 • Processamento em stream: versa em processar dados consecu-
tivamente e atuar sobre os dados em live stream para se obter os 
resultados. Os dados são processados como artefatos individuais, 
ao invés de serem processados como um lote gradativamente 
(DU, 2015).
A seguir, seguem sessões apresentando alguns exemplos de 
frameworks que trabalham com processamento de grandes massas de dados.
Hadoop
O Hadoop, como já estudamos, é uma plataforma de software 
idealizada pela Apache Software Foundation, open source, escrito em 
Java, o qual possibilita o processamento de grandes massas de dados 
em clusters de computadores. É necessário ressaltar que o Hadoop 
é conhecido pela capacidade de armazenamento, porém, é também 
uma ferramenta para processamento por meio do MapReduce. Este 
possui dois componentes principais: a estrutura de programação HDFS e 
MapReduce, que estão intensamente relacionados entre si (WHITE, 2015), 
segue uma descrição dos dois componentes: 
 • Hadoop Distributed File System (HDFS): trata-se de um sistema 
de arquivos distribuído, idealizado para armazenar grandes massas 
de dados de modo confiável e realizar a transmissão para os 
usuários. O HDFS tem características de tolerância a falhas e pode 
ser expandido de um único servidor para milhares de máquinas, 
cada uma proporcionando armazenamento local. Este ainda 
trabalha em dois tipos de nós, o “Mestre” – gerencia a hierarquia 
de sistemas, e vários “Escravos” – nós de dados (SHVACHKO et al. 
2010). 
 • MapReduce: é um modelo de programação para processar e 
gerar grandes conjuntos de dados úteis para atividades no mundo 
real (DEAN, 2004). Este tem as funções map (mapeamento) e 
reduce (redução), de modo que, a função map atende a par 
Big Data e Ciência de Dados
20
chave/valor (chave trata o identificador do registro e, valor, o seu 
conteúdo) como entrada, e gera pares chave/valor intermediários. 
Por sua vez, a função reduce mescla todos os pares associados à 
mesma chave (intermediários), permitindo a geração de uma saída 
(HASHEM, 2014). 
Spark
O Spark é um framework para processamento de Big Data idealizado 
com foco em velocidade, facilidade de utilização e análises aprimoradas. 
Este foi projetado para garantir uma vasta gama de cargas de tarefas, 
como aplicativos em lote, algoritmos interativos, consultas interativas 
e streaming,  permitindo a tolerância a toda essa carga de trabalho e 
minimizando a carga de gerenciamento da manutenção de ferramentas 
separadas (SPARK, 2020).  
Vale ressaltar que o principal atributo do Spark é a computação em 
cluster na memória, aumentando a velocidade de processamento de um 
aplicativo. Este, por sua vez, proporciona um framework padronizado e 
de simples compreensão para gerenciar e processar Big Data com uma 
diversidade de conjuntos de dados de várias naturezas e origens (batch 
ou streaming de dados em tempo real). 
O  framework  também suporta as linguagens Python,  Java  e 
Scala, ainda possuindo outros módulos para aprendizado de máquina e 
inteligência artificial (PENCHIKALA, 2015).
O conceito principal deste framework é o Resilient Distributed 
Datasets (RDD), pelo qual funciona como uma tabela do banco de dados 
que pode arquivar qualquer tipo de dado. 
Outras características do Spark são, conforme Penchikala (2015):
 • Dar suporte a mais do que somente as funções de map e reduce.
 • Otimização da utilização de operadores de grafos arbitrários.
 • Avaliação sob demanda de consultas de Big Data, favorecendo a 
otimização do fluxo global do processamento de dados.
 • Apresenta shell interativo para Scala e Python.
Big Data e Ciência de Dados
https://spark.apache.org/
https://spark.apache.org/
https://blog.geekhunter.com.br/o-java-ainda-faz-historia/
https://blog.geekhunter.com.br/aprendizagem-de-maquina-supervisionada-ou-nao-supervisionada/
21
O Spark armazena os dados do RDD em distintas partições, 
isso auxilia a reorganização computacional e a questão de otimizar o 
processamento dos dados (PENCHIKALA, 2015).
Storm
O Apache Storm é um sistema de computação em tempo real 
distribuído e de código aberto que trabalha no processamento de fluxos 
de dados ilimitados, fazendo para o processamento em tempo real, o que 
o Hadoop fez no processamento em lote. 
O Storm trabalha com modelos de streaming para processamento 
por meio da camada principal do Storm (APACHE, 2020).
Algumas vantagens do Storm é a facilidade em sua utilização, o 
funcionamento como qualquer linguagem de programação, estabilidade 
e tolerância a falhas, existem desvantagens também, como confiabilidade, 
desempenho, eficiência e gerenciamento (YAQOOB et al., 2016).
RESUMINDO:
Finalizamos este capítulo entendendo que, quando 
abordamos grandes massas de dados, lidamos com Big 
Data e seu ambiente de trabalho. Podemos perceber 
as diversas fontes de dados atuais e como aumentam a 
quantidade de dados, contribuindo para esta grande massa 
existente e que necessita ser processada. Estudamos 
um pouco sobre os tipos de armazenamento quando 
se trata de dados e chegamos ao final abordando os 
tipos de processamento existentes. Ainda estudando 
sobre o processamentoem batch, tempo real e stream, 
apresentamos alguns frameworks que trabalham com o 
processamento de grandes massas de dados.
Big Data e Ciência de Dados
22
Inteligência de negócio para Big Data
OBJETIVO:
Seguindo os estudos, vamos abordar neste capítulo 
sobre inteligência de negócio e como a utilização de Big 
Data pode favorecer neste ambiente. Apresentaremos a 
relação do Big Data e Business Intelligence e como ambos 
trabalham. Abordaremos ainda os ganhos e exemplos de 
como se dá suas aplicações. Vamos lá!
Big Data e sua importância no mercado de 
negócio
Com a grande produção de dados por meio das análises do Big 
Data, é propiciado inovações em tecnologias, produtos, na gestão e na 
estratégia das organizações (ZHANG; CHEN; LI, 2013).
Vale ressaltar que o Big Data foi destacado por Cearley (2013) como 
uma das 10 tendências de tecnologias estratégicas com a potencialidade 
de impacto na vida dos indivíduos e das empresas. Esta lista foi 
fundamentada no potencial de cada tecnologia.
Figura 4 – Mercado de negócio
Fonte: Freepik
Big Data e Ciência de Dados
23
Tendo em vista os produtos em abundância e as informações 
dos clientes, bem como, registros e a massa de dados disponíveis para 
ampliar constantemente novas tecnologias, vê-se o aperfeiçoamento dos 
serviços existentes, pois tendem a melhorar a eficiência da produção, 
diminuir custos, criar inovações e trazer a satisfação as necessidades dos 
clientes (ZHANG et al., 2013). 
Segundo Isaca (2013) relata, a análise do Big Data pode impactar no 
mercado de negócio de modo positivo nos seguintes processos:
 • Desenvolvimento de produto.
 • Desenvolvimento do mercado.
 • Eficiência nas operações. 
 • Experiência e fidelidade do cliente. 
 • Prever a demanda de mercado.
Porém, Bughin (2011) destaca que muitos executivos só buscam 
por recursos de Big Data quando precisam urgentemente responder a 
uma ameaça ou para encontrar uma oportunidade em um determinado 
escopo de mercado. 
Um exemplo dado, pelo autor citado acima, relata uma organização 
de telecomunicações europeia que após aumentar sua parte de 
participação no mercado, decidiu criar um sistema que possibilite 
identificar as causas que poderiam levar seus clientes a selecionar uma 
ou outra empresa. 
Isso foi possível por meio da análise de grandes massas de dados 
e o aumento de informações disponibilizadas pelos próprios usuários em 
redes sociais e portais das empresas.
Big Data e Ciência de Dados
24
SAIBA MAIS:
Para saber mais sobre a importância e as perspectivas do 
Big Data nas empresas, leia este artigo Big Data: informação 
e inteligência para os negócios. Nele, é citada uma pesquisa 
realizada pela Dell, destacando que as empresas que 
utilizam o Big Data apresentaram crescimento de receita 
até 53% maior do que as que não exploram esses conceitos. 
Acesse clicando aqui.
É importante entender que o Big Data gera modificação na 
organização do modelo de negócios devido a trazer consigo as três 
características de dados estruturados e não estruturados, em que 
necessita de novas capacidades e conhecimentos para que cada setor 
realizar o tratamento de dados de modo mais eficiente (ZIKOPOULOS; 
EATON, 2012).
O uso de Big Data nas organizações é alavancado pela necessidade 
de existir planejamento apropriado e a idealização de estratégias que 
resultem na realização das metas e objetivos determinados. 
Neste sentido, adotar o Big Data pode contribuir nas empresas 
no aspecto de elaboração do planejamento estratégico, de modo a 
promover o alcance e na criação de vantagem competitiva (TEIXEIRA; 
ALONSO, 2014).
Para autores como Chen e Zhang (2014), o Big Data modificou a 
forma como fazemos negócios, gestão e pesquisas. Desta forma, ciências 
intensivas de dados, notadamente em computação intensiva de dados, 
estão chegando a um mundo que deseja fornecer as ferramentas que 
precisamos para lidar com problemas de Big Data.
Desta forma, percebe-se como o Big Data possibilita trazer 
resultados extraordinários para as empresas, contudo, a decisão e visão 
do executivo sempre será fundamental para o negócio, mas, agora, sendo 
mais respaldada pela análise dos dados (GALLANT, 2011).
Podemos destacar o exposto acima mostrando o exemplo trazido 
por Vivek Ranadive, CEO da Tibco, um conhecido autor de livros sobre 
Big Data e Ciência de Dados
https://www.up.edu.br/blogs/pos-graduacao/big-data-informacao-e-inteligencia-para-os-negocios/
25
o tema, o qual em uma certa loja varejista de material de jardinagem, 
é sabido que compradores de semente tem 90% de probabilidade de 
comprar fertilizante e 40% de chance de comprar móveis de jardim. 
Partindo para uma primeira análise, pode-se imaginar que a melhor 
estratégia seja estimular a compra de fertilizante ou expor este próximo 
das sementes. Entretanto, analisando com mais detalhe, pode-se verificar 
que a melhor estratégia é desenvolver ações que impulsionem a venda 
dos móveis, afinal, existe uma margem maior de crescimento para estes 
produtos (GALLANT, 2011).
Conforme Davenport (2012) relata, o Big Data motiva a inovação nos 
modelos de negócios por meio da análise dos ambientes, desenvolvendo 
novos produtos e serviços com a análise de dados originados pelos 
consumidores, permitindo cooperações estratégicas ao compartilhar a 
grande massa de informações com outras empresas.
IMPORTANTE:
Uma grande contribuição no contexto da aplicação do 
Big Data nas empresas é o crescente aumento das fontes 
de informações às empresas extraídas das redes sociais, 
recursos informatizados de cooperação, bem como os 
sensores em vários produtos ou registros de tráfego de 
internet, entre outros (DAVENPORT, 2014). 
Outras fontes de informações geradas a partir de equipamentos que 
originam grandes quantidades de dados e que possibilitam ter relevância 
para as empresas, são: telefones celulares, vendas na internet, redes 
sociais, comunicação eletrônica, GPS e maquinário computadorizado 
(BRYNJOLFSSON, 2012).
Assim, vimos as contribuições que a utilização do Big Data para as 
empresas e executivos no contexto geral de mercado e negócio. Contudo, 
na próxima sessão vamos entender um pouco mais da aplicação do 
Bussines Intelligence trabalhando com Big Data.
Big Data e Ciência de Dados
26
Inteligência de negócio para Big Data 
Diante da produção de dados, a busca das empresas por melhorias 
em seus negócios e vantagens competitivas entre seus concorrentes, 
destaca-se nesse cenário a inteligência de negócios ou Business 
Intelligence (BI), um recurso que trata tecnologias, aplicativos e métodos 
para a coleta, integração, análise e apresentação de informações no 
contexto de negócios. 
Em síntese, BI possibilita aos executivos das empresas e tomadores 
de decisão de negócios, os recursos apropriados para tomar decisões 
melhoradas (LOUZADA, 2019).
Conforme Machado (2018), BI depende de dados estruturados e 
refere-se somente ao que já aconteceu, além do mais, não são necessários 
cientistas de dados para desenvolverem boas aplicações em BI. 
Os painéis que mostram métricas  e  indicadores importantes de 
BI, ganham significado com os dados internos das empresas, exibidos 
de modo visual e facilitado. Entretanto, eles não conseguem ir fora dos 
limites de operação da empresa. 
Disto surge a necessidade de utilizar soluções mais robustas com o 
Big Data, apropriados para fazer análises sobre dados não estruturados e, 
com isso, enriquecendo a percepção do negócio por meio das correlações 
de dados e análises preditivas e prescritivas (MACHADO, 2018).
NOTA:
A análise de Big Data, além de ajudar a lidar com esses 
dados complexos, também ampliam a finalidade do BI, 
o qual, na maioria das vezes, tem o foco nos bancos de 
dados internos das empresas, buscando extrair valor de 
dados externo. 
Assim, o Big Data favorece trabalhar com grandes volumes de 
dados de bancos externos, enriquecendo o processo de tomada de 
decisãoe consequentemente os negócios.
Big Data e Ciência de Dados
27
Figura 5 – Inteligência de mercado
Fonte: Freepik
O trabalho com Big Data corresponde a uma preocupação para 
a inteligência de negócios, visto que se caracterizam por alto volume, 
variedade e velocidade, requerendo competências tecnológicas 
avançadas, muitas vezes, ainda não desenvolvidas ou consolidadas para 
manipular e gerar conhecimento antecipado aos fatos (KWON; SIM, 2013). 
Vale ressaltar que a solução de Big Data não permite definir as 
causas das correlações encontradas, porém, por meio de análises 
multivariadas, é possível controlar as variáveis e seus efeitos em outras 
variáveis. 
Isso implica uma exigência maior na escolha de profissionais em 
projetos de Big Data devido a complexidade e habilidades específicas 
exigidas (MACHADO, 2018).
Já com relação ao Business Intelligence, podemos entender, 
de modo geral, como um recurso ou etapa a ser seguida após o Big 
Data extrair e utilizar os dados para compreender o negócio, ensina os 
profissionais envolvidos a tomarem ações de modo melhor. 
Desta forma, o BI será adotado como uma solução que proporciona 
o filtro e ordena as informações, possibilitando com que elas se 
compartilhem entre si avaliando e as direcionando estrategicamente.
Big Data e Ciência de Dados
28
SAIBA MAIS:
No artigo Inteligência de negócios: o que é e como fazer a 
análise de dados?, você poderá ver uma explanação de 
ambos recursos tecnológicos e algumas características de 
cada. Acesse clicando aqui.
Assim, ainda podemos inferir que o BI é a sustentação do Big 
Data, empresas com sistemas de Business Intelligence robustos terão 
maior probabilidade de começarem projetos em Big Data, uma vez que 
descobertas, permitem ser testadas e monitoradas de modo rápido pelo 
sistema de BI (MACHADO, 2018). 
Perfil comportamental do profissional de análise de 
inteligência de negócios
Garro (2017) listou algumas habilidades de perfis comportamentais 
dos profissionais analistas de BI precisam ter para vencer os desafios da 
área, segue a lista:
 • Comunicação: ter a habilidade de se expressar e se fazer entender 
são pontos importantes. Transmitir com clareza na  conceituação 
de premissas para realizar as tarefas, deliberar escopos e 
riscos procurando oferecer as soluções de Inteligência em uma 
linguagem clara e prática.
 • Pacificador: é importante o analista de BI  fazer a ponte entre os 
envolvidos, apresentando a capacidade de  traduzir a regra de 
negócio para o ambiente técnico.
 • Liderança: é de extrema importância que o analista de BI tenha 
o perfil de liderança para delegar as soluções e definir os papéis 
dos envolvidos. Necessitará também ter uma postura apropriada e 
segura de suas definições, bem como, nortear a equipe e as áreas 
interessadas.
 • Conhecimento técnico: é de extrema importância que o analista 
de BI tenha conhecimento técnico profundo e não apenas saber o 
Big Data e Ciência de Dados
https://www.up.edu.br/blogs/pos-graduacao/big-data-informacao-e-inteligencia-para-os-negocios/
29
desenho da solução. Este também é responsável por dar garantias 
que a solução seja elaborada com a tecnologia adequada e no 
melhor ambiente.
 • Atitude:  é importante que o analista de BI compreenda que ele 
é efetivamente quem tem a responsabilidade de fazer as coisas 
acontecerem.   É ele quem possui o raciocínio lógico e quem 
define processos, desenha modelos de soluções e detém o 
conhecimento do negócio e técnico, portanto, sem ele as coisas 
não funcionam. 
Em suma, é importante que você saiba que os analistas de BI, 
de modo geral, lidam com análise e projetos de modelagem de dados 
utilizando dados coletados, seja de um armazém de dados centralizado 
ou de variados bancos de dados em toda a organização. Cada organização 
pode escolher as habilidades mais relevantes para escolher o seu analista 
de BI.
Big Data aplicado no mercado
Apresentaremos, nesta seção, alguns exemplos de sucesso de 
empresas que utilizam as soluções de Big Data para poderem otimizar 
seus serviços.
Magazine Luiza
Uma das iniciativas do 2014 do Magazine Luiza foi criar o Luizalabs, 
um laboratório de Tecnologia e Inovação com intuito de produzir produtos 
e serviços para o varejo, aperfeiçoando a experiência de compra dos 
clientes. Outro projeto que merece destaque e muito importante é 
o Bob, um aplicativo de Big Data que tem a finalidade atual de fazer 
recomendações do Magazine Luiza e também responsável por enviar 
propostas de compras por e-mail e outros dispositivos (FÉLIX, 2018).
Amazon
A Amazon passou por uma expansão por um determinado tempo 
no seu modelo de negócios, o qual antes era só de venda online de 
Big Data e Ciência de Dados
30
livros e atualmente se transformou em uma das maiores varejistas de 
bens físicos e virtuais, como: ebooks, streaming de vídeos e serviços 
web. Implementaram o Amazon Now e passaram a competir com 
supermercados, oferecendo produtos frescos e com uma entrega rápida 
(MARR, 2016).
Conforme Marr (2016), a Amazon tem utilizado o Big Data para os 
seus recursos de recomendações, por meio dos dados e da monitoração 
do que os usuários compram, o que eles veem, qual horário da navegação, 
o endereço de entrega para determinar dados demográficos, seus 
comentários e opiniões registradas no site. Nos usuários do aplicativo 
para celular, também coletam a localização pelo GPS e informações 
sobre aplicativos usados no celular.
Nordstrom
A Nordstrom é uma empresa varejista de moda de luxo dos Estados 
Unidos. É reconhecida pela qualidade no atendimento e serviço ao 
consumidor, assim como no merchandising. Essa marca adotou como 
marketing um projeto de Big Data, criando um laboratório que o aplica 
para gerar insights por meio de tendências de comportamento de compra 
de seus clientes e, com isso, promove produtos específicos em canais 
direcionados para seus clientes (MACHADO, 2018). 
Figura 6 – Marketing
Fonte: Freepik
Big Data e Ciência de Dados
31
É interessante ressaltar que a Nordstrom extrai os dados de suas 
páginas na web, perfis em redes sociais (Facebook: possui 3 milhões 
de likes, Pinterest: 2,5 milhões de seguidores e Twitter: meio milhão de 
seguidores), estatísticas de vendas em lojas físicas, programa de fidelidade 
e até por meio da wi-fi. Um exemplo com monitoração da rede wi-fi foi um 
experimento na loja física em Dallas, monitorando o comportamento de 
consumidores (MACHADO, 2018).
RESUMINDO:
Estudamos neste capítulo como os produtos em abundância 
e as informações dos clientes, bem como, registros de 
dados e a massa de dados disponíveis, são usadas como 
solução computacional de Big Data, na qual pode agregar 
valor para os modelos de negócio. Vimos ainda, no decorrer 
do capítulo, a importância e as contribuições geradas 
pela utilização do Big Data, como também a sua relação 
com BI e como estes recursos se complementam. Além 
do exposto, destacamos o perfil de comportamento do 
analista de BI. Por fim, abordamos exemplos de empresas 
que adotaram o Big Data para melhorar seus negócios e 
atrair mais clientes.
Big Data e Ciência de Dados
32
Bancos de dados para Big Data
OBJETIVO:
Neste capítulo, estudaremos sobre Banco de dados que 
trabalhe com Big Data, a estrutura e as particularidades 
destes. Também iremos abordar sobre a importância 
do Banco de Dados e demonstrar exemplos de banco 
de dados aplicados em trabalhos que adotam Big Data. 
Preparados? Vamos lá!
Já estudamos e sabemos que a definição de Big Data trata de 
conjuntos de dados, cujo tamanho e capacidade permitem capturar, 
armazenar, gerenciar e analisar dados (MANYKA et al., 2011).
Figura 7 – Banco de dados
Fonte: Freepik
Conforme Amaral (2016), atualmente, com as exigências de 
aplicações mais robustas, surgiram necessidades de novos meios de 
gerenciamento de dados, por causa das aplicações que agregam grandes 
volumes de dados, como prontuário eletrônico,gestão de documentos, 
análises de séries temporais, entre outros. 
Big Data e Ciência de Dados
33
Antes, existia o modelo relacional que tinha foco em primar 
pela normalização, integridade e não redundância de dados, porém a 
nova aplicação tem como prioridade maior escalabilidade, volume e 
processamento (AMARAL, 2016).
Por conseguinte, é exigido outro tipo de banco de dados para 
trabalhar com Big Data, justamente devido aos diferentes tipos de dados, 
sejam eles estruturados, semiestruturados e não estruturados.
Com isto, nas próximas seções iremos abordar sobre essas 
estruturas que surgiram para ajudar a trabalhar com Big Data.
Banco NoSql
Com a necessidade de ter estruturas de banco de dados que 
tratem dados em grande volume, variedade e velocidade do Big Data, 
precisou surgir outros modelos, como os softwares de banco de dados 
NoSQL, desenhados para tratar imensas massas de dados estruturados e 
não estruturados (TAURION, 2013).
O termo “NoSql” originou-se em 1998, porém iniciou-se, de modo 
efetivo, em 2004, com a idealização do Banco de Dados BigTable pela 
empresa Google. Logo após, vieram outras iniciativas pela empresa 
Amazon, em 2007, e Facebook, em 2008, pelos quais distribuíram, 
respectivamente, os BDs Dynamo e Cassandra. A partir daí, surgiram 
diversas soluções em Banco de Dados NoSql (IANNI, 2013). 
É importante destacar ainda que este termo, NoSQL, não implica 
especificamente que não se pode utilizar uma linguagem declarativa para 
consultar dados em um gerenciador NoSQL, porém significa que são 
bancos de dados que não estão somente com base no modelo relacional 
(AMARAL, 2016).
Nos bancos de dados NoSQL, as tabelas são denominadas como 
tabelas de hash distribuídas, de modo que, uma vez armazenado objetos 
indexados por chaves, objetos são encontrados pelas suas chaves. 
Diferentemente dos bancos de dados estruturados, o banco de dados 
NoSQL é modelado para aumentar a sua escala em sentido horizontal, 
Big Data e Ciência de Dados
34
isso implica dizer que a indexação se dá por meio de clusters distribuídos 
em hardwares de baixo custo (MACHADO, 2018).
SAIBA MAIS:
Leia sobre as diferenças de NoSQL no artigo O que é 
NoSQL? Você poderá ter uma explanação geral sobre 
NoSQL e a diferença com banco de dados relacional. 
Acesse clicando aqui.
Podemos ressaltar também que os bancos de dados NoSQL 
trabalham usando uma variedade de modelos de dados para acessar 
e gerenciar os dados. De modo geral, esses bancos são aperfeiçoados 
designadamente para aplicativos que exigem modelos de grande volume 
de dados, menor latência e flexibilidade. Essas condições são consentidas 
mediante a flexibilização de algumas restrições de consistência de dados 
dos outros bancos. 
Características bancos de dados NoSQL
Tendo em vista que há vários bancos de dados NoSQL em que 
cada um foi idealizado para resolver diferentes problemas, esses, em sua 
maioria, contêm características em comum que se tornam dos bancos de 
dados NoSQL. Estão descritas a seguir, conforme (LÓSCIO, et al. 2008): 
 • Alta escalabilidade. 
 • Alta performance. 
 • Alta disponibilidade.
 • Processamento distribuído.
 • Ausência de esquema. 
 • Manter a replicação de dados. 
 • Trabalha com armazenamento de dados estruturados e não 
estruturados. 
 • Contém um API simples para acesso aos dados. 
Big Data e Ciência de Dados
https://aws.amazon.com/pt/nosql/
35
 • Maior flexibilidade às propriedades ACID (Atomicidade, 
Consistência, Isolamento e Durabilidade). 
 • Não suportam a linguagem SQL.
 • São produtos novos.
Após a descrição desse banco de dados, na próxima seção vamos 
abordar sobre os tipos de bancos de dados NoSQL.
Tipos de banco de dados NoSQL
Segundo Amaral (2016), existem diversas famílias de produtos 
NoSQL, com cada família partilhando um mesmo conjunto de padrão de 
armazenamento. A seguir, temos a descrição de modo geral de cada um 
desses tipos:
 • Chave-valor: os BDs, com base neste modelo, utilizam o conceito 
de uma chave e um valor conhecido, como uma tabela hash para 
constituída dos registros e garantindo que não ocorra redundância 
(VARDANYAN, 2013). Esse modelo mais tradicional ao invés 
de conter uma tabela com um número fixo de colunas tipadas, 
trabalha com o termo chave-valor, ou KVS, acrônimo para Key-
Value Store, de modo que, em vez de conter um conjunto de 
atributos, a operação adiciona informações nos bancos somente 
com a chave e um valor. Algumas implementações do tipo KVS 
são Couchbase, Kyoto Cabinet, Redis e DynamoDB da Amazon.
 • Banco de Dados orientado a documentos: o modelo armazena 
chave e valor, porém são organizados em conjuntos, permitindo 
o armazenamento de estruturas como um arquivo JSON. São 
exemplos de implementações deste modelo o MongoDB e o 
CouchDB, com este último também da função Apache (AMARAL, 
2016).
 • Banco de dados orientado a grafos: este modelo usa a 
estrutura de grafo para guardar as informações, de modo que, as 
informações são classificadas e armazenadas como entidades, 
bem como, suas relações são estabelecidas por meio das ligações 
Big Data e Ciência de Dados
36
entre os elementos do grafo. Este modelo é flexível e pode ser 
escalado através de várias máquinas (VARDANYAN, 2013). Estes 
são aplicados em várias áreas na medicina, genética, economia 
e matemática. Exemplos destes bancos de dados são o Neo4j 
e FlockDB, que utilizam estruturas otimizadas para armazenar e 
operar sobre grafos (AMARAL, 2016).
NOTA:
Assim, percebemos que os Banco de dados NoSql surgiram 
para solucionar problemas com aplicações que trabalham 
de maneira distribuída e com volume de dados. Contudo, 
merece ser enfatizado que NoSql não foi idealizado para 
substituir os bancos de dados relacionais, e sim para 
solucionar problemas de escalabilidade e disponibilidade 
de servidores de bancos de dados para as aplicações. 
Em suma, o NoSql é uma opção alternativa ao Modelo Relacional 
para atender determinados escopos, nos quais os Bancos de Dados 
Relacionais apresentam lacunas.
Principais mecanismos de banco de dados 
NoSQL
Diante do exposto, podemos destacar alguns dos principais 
mecanismos de banco de dados NoSQL como MongoDB, Redis, Cassandra, 
HBase, Amazon DynamoDB e Neo4j, dessa forma, nas próximas seções 
serão apresentadas as características e funções de cada um.
Cassandra
O Apache Cassandra é um banco de dados NoSQL open source 
escalável, adotado para gerenciar dados estruturados, semiestruturados 
e não estruturados sobre múltiplos meios de dados e na Nuvem. 
O Cassandra tem características que proporcionam a contínua 
disponibilidade, escalabilidade linear e um operacional simples por 
Big Data e Ciência de Dados
37
meio de muitos servidores sem um único ponto de falha, o qual, contém 
uma arquitetura masterless em forma de anel, em que não existe um nó 
principal, funcionando juntamente como um modelo de dados dinâmicos 
criados para obter maior flexibilidade e rápidas respostas (APACHE, 2020).
Outra característica é que o Cassandra é um de banco de dados 
descentralizado, distribuído e orientado à coluna, de modo que, este é 
otimizado para clusters e fornece acesso de baixa latência a clientes. 
Uma das vantagens do design de banco de dados Cassandra é por 
ele ser orientado por coluna, facilitando alguns tipos de pesquisas de dados 
e podendo se tornar mais veloz devido aos dados esperados poderem ser 
armazenados continuamente em uma única linha (MATOS, 2019).
É interessante destacar que Cassandra é utilizado por grandes 
empresas como Facebook, Twitter e Digg.
MongoDB
O MongoDB tem o foco em determinar modelos de dados 
apropriados para sua aplicação, contudo, as técnicas utilizadas são muito 
variadas daquelas consideradas nos bancos de dados relacionais. Isso se 
deve por se atentar com os dados que são extraídos do banco diferente 
dos bancos de dados tradicionais no escopo relacional. 
Vale ressaltar que,no MongoDB, os dados não são tratados como 
registros, mas como  documentos  no formato JSON e usam conceitos 
de coleções (CRIVELINI, 2018).
O MongoDB também fornece os recursos necessários para um 
meio de produção, por meio de: balanceamento de carga, replicação, 
indexação, consulta e pode operar como um sistema de arquivos com 
balanceamento de carga e tolerância a falhas. Outra característica 
importante do MongoDB é a escalabilidade criada para grandes volumes 
de dados (MATOS, 2019).
Conforme Queiroz et al. (2013), o MongoDB trabalha com coleções 
de documentos lembrando o conceito de tabelas e linhas da tecnologia 
Big Data e Ciência de Dados
38
relacional, porém com a diferença dos documentos não precisarem ter o 
mesmo esquema. O MongoDB está em uso no Foursquare e SourceForge.
Redis
O Redis tem uma implementação key-value store, esta trata de ser 
um paradigma que atribui valores às chaves para facilitar a entrada e o 
armazenamento desses valores. Esta tecnologia suporta seus pares de 
valores-chave na memória, permitindo seu acesso rápido. 
Ao longo do tempo, muitas APIs foram elaboradas para uma 
variedade maior de linguagens de programação, tornando o Redis uma 
boa opção para desenvolvedores (MATOS, 2019). Dessa forma, temos o 
Remote  Dictionary  Server (Redis) sendo um banco de dados NoSQL do 
tipo chave-valor e que armazena os dados em memória. 
É importante destacar também que os comandos são atômicos, de 
modo que a ordem de execução das operações é a mesma ordem das 
chamadas.
Outras características são criar as chaves e decidir por quanto 
tempo elas devem existir, ou seja, possibilita configurar o tempo em que 
as chaves são deletadas automaticamente.
Um exemplo prático disso é a característica em sessões de usuário 
e carrinhos de compras. Ainda merece destaque que toda consulta é 
realizada por meio da chave, na qual se retorna um valor e as redundâncias 
de dados não são um problema tão grave (MONTEIRO, 2020).
HBase
O HBase é um banco de dados orientado à coluna, distribuído 
em implementação gratuita e aberta do BigTable do Google. Este tem a 
característica de facilitar e encontrar de modo eficiente os dados dispersos 
e distribuídos, sendo um dos seus pontos fortes. O HBase possui uma 
série de implementações em empresas como LinkedIn, Facebook e 
Spotify (MATOS, 2019).
Big Data e Ciência de Dados
39
Podemos destacar que muitos projetos relacionados do Apache 
oferecem suporte ao HBase, fornecendo uma camada SQL para acesso 
a dados, o que ajuda os administradores de banco de dados relacionais 
que buscam implementar uma solução NoSQL e como existe um número 
grande de instalações Hadoop, o HBase é uma importante solução de 
armazenamento NoSQL (MATOS, 2019).
Amazon DynamoDB 
O Amazon DynamoDB é um serviço do banco de dados NoSQL em 
Nuvem disponibilizado pela Amazon Web Service (AWS). O DynamoDB é 
muito veloz e flexível para todas as aplicações que precisam de latência 
constante abaixo de 10 milissegundos em qualquer escala. 
O serviço deste banco de dados em Nuvem é todo gerenciável e 
compatível com os modelos de armazenamento de documentos e de chave-
valor, propiciando dados flexíveis, desempenho confiável e a escalabilidade 
automática da capacidade de throughput, fazendo desse serviço uma opção 
apropriada para aplicações móveis, web, jogos, tecnologia de anúncios e 
internet das coisas (IoT), por exemplo (MATOS, 2019). 
Merece destaque algumas empresas como Lyft, Airbnb e Redfin, 
bem como, Samsung, Toyota, e Capital One, que dependem da escala 
e da atuação do DynamoDB para comportar seus volumes de trabalho 
(AWS, 2020).
Neo4j
O Neo4j é o sistema de gerenciamento de banco de dados com base 
em grafos (ou Graph Database), sendo o sistema mais conhecido e usado 
atualmente desta categoria. Esse Graph Database é estruturado com 
forma de grafo, de modo que, as arestas atuam como relacionamentos 
entre os vértices, relacionando diretamente com as instâncias de dados 
umas com as outras. Este também possui uma implementação de código 
aberto, em que os dados no Neo4j podem ser acessados e atualizados 
por meio da Cypher Query Language, uma linguagem semelhante à 
linguagem SQL (MATOS, 2019). 
Big Data e Ciência de Dados
http://www.cienciaedados.com/aprendendo-internet-of-things-com-raspberry-pi/
40
Podemos apresentar que uma das vantagens de banco é, em alguns 
casos de uso, como cenários de mineração de dados e reconhecimento de 
padrões, as associações entre instâncias de dados serem explicitamente 
declaradas (MATOS, 2019). 
RESUMINDO:
Estudamos, neste capítulo, que, devido à grande produção 
de dados e os avanços das aplicações, houve o incentivo 
para o surgimento de um banco de dados que pudesse 
trabalhar com os diferentes tipos de dados que os bancos 
relacionais não poderiam trabalhar. Com isto, abordamos 
ainda o surgimento dos bancos de dados da família NoSQL 
e trabalham usando uma variedade de modelos de dados 
para acessar e gerenciar as informações. De modo geral, 
esses bancos são aperfeiçoados designadamente para 
aplicativos que exigem modelos de grande volume de 
dados, menor latência e flexibilidade. Abordamos ainda 
sobre os princípios, características e os seus tipos de 
banco de dados NoSQL se baseando em chave-valor e 
outro baseando-se em documentos, bem como os que 
usam como base grafos. Vimos também as características 
e exemplos práticos de banco de dados adotados por 
empresas de sucesso.
Big Data e Ciência de Dados
41
Recuperação de informações
OBJETIVO:
Neste capítulo, vamos abordar aqui sobre a recuperação 
de informação utilizando as soluções de Big Data e Data 
Science como outros recursos computacionais que 
surgiram. Prontos? Vamos lá!
Atualmente, as áreas de gestão, recuperação da Informação e 
Apoio à Decisão estão sendo provocadas devido ao volume, variedade 
e velocidade de uma grande massa de dados de diversos tipos, 
semiestruturados e não estruturados, de origem complexa que precisam 
ser buscados e analisados quanto ao seu valor e veracidade, que também 
é disponibilizado às organizações como grandes oportunidades de terem 
um conhecimento profundo e mais preciso de seus negócios.
Figura 8 – Recuperar informações
Fonte: Freepik
Com isto, temos a recuperação da informação se tornando o centro 
de muitas pesquisas por conta da grande quantidade de informações, 
que atualmente se encontram espalhadas pela rede. 
Big Data e Ciência de Dados
42
A recuperação da informação trata com a representação, 
armazenamento, a organização e acesso às informações, precisando 
prover ao usuário aquilo que ele necessita de um modo facilitado (YATES; 
NETO, 1999).
Conforme Araújo Júnior (2007), a recuperação da informação é o 
processo de buscar documentos e itens de informação que foram objeto 
de armazenamento com intuito de possibilitar o acesso dos usuários aos 
componentes de informações e objetos de uma solicitação.
IMPORTANTE:
É importante que você entenda que o processo de 
Recuperação da Informação visa buscar um conjunto de 
documentos de um sistema, os quais são os que suprem 
as necessidades informacionais do usuário. Deste modo, 
o usuário não está interessado em recuperar dados, 
nem achar documentos que atendam sua expressão de 
busca, contudo, deseja encontrar a informação sobre um 
determinado assunto (FERNEDA, 2003).
Para Guedes e Araújo Júnior (2014), o processamento da informação 
se torna mais eficiente se o armazenamento tiver ocorrido com melhor 
qualidade e os produtos resultantes deste processamento forem 
apresentados na linguagem apropriada ao usuário. Os autores ainda 
afirmam que a atenção com o ruído, redundância, canal de comunicação 
e codificação têm impactos positivos na etapa de interrogação e busca, 
devido ao sistema estar organizado e livre de informações desnecessárias 
ou distorcidas, contribuindo com a recuperação da informação.
Segundo a Associação Nacionalde Pesquisa e Pós-Graduação 
em Ciência da Informação, os sucessivos avanços das tecnologias da 
informação, têm favorecido novos modos de acessar, recuperar, armazenar, 
gerir e interagir com a informação. Assim, os objetos tradicionais para 
apresentar a informação já não são satisfatórios, bem como, os ambientes 
de interação com a informação têm estado em transformação, tal como o 
comportamento das pessoas (ENANCIB, 2014).
Big Data e Ciência de Dados
43
Big Data e a recuperação da informação
Como já vimos, em ambientes de Big Data, o uso de bancos de 
dados relacionais não é apropriado para a persistência, processamento e 
recuperação dos dados em ambientes escaláveis e com diferentes tipos 
de dados. 
Estudamos que, para tentar resolver este quesito da persistência da 
informação, foram originados novos conceitos nas tecnologias de banco 
de dados, como o NoSQL (Not Only SQL). 
Conforme Diana e Gerosa (2010) afirmam, esses bancos vieram para 
representar soluções viáveis ao modelo relacional, proporcionando maior 
escalabilidade e velocidade no armazenamento dos dados.
Beyer e Laney (2012) definem Big Data como grande volume, 
velocidade e/ou alta variedade de informações que necessitam de novas 
formas de processamento para permitir a melhor tomada de decisão, 
nova descoberta do conhecimento e otimização de processos. 
Assim, no processo de busca da informação em cenários da 
Inteligência Competitiva e Big Data, são utilizados robôs de extração de 
dados na Internet. Segundo Deters e Adaime (2003), esses são sistemas 
que coletam os dados da web e montam uma base de dados, que é 
processada para aumentar a rapidez na recuperação de informação.
Conforme afirma Silva (2003), a extração de informações importantes 
pode classificar uma página seguindo um contexto de domínio e também 
recuperar informações estruturando-as e armazenando-as em bases de 
dados. 
Com o propósito de adicionar significado aos conteúdos buscados 
em domínio específico, associam-se aos robôs de busca na web conceitos 
semânticos que permitem realizar a procura, não mais por palavras-
chave num processo de busca textual, mas sim por significado e valor, 
extraindo das páginas e serviços da web informações de real relevância, 
descartando aquilo que é desnecessário (SILVA, 2003). 
Big Data e Ciência de Dados
44
Figura 9 – Busca da informação
Fonte: Freepik
A partir disso, a ontologia aparece como solução na busca de inserir 
semântica neste processo. Veja a seguir um pouco mais sobre ontologia.
Ontologia
Na busca por realizar a coleta dos dados referente a um escopo 
determinado de conhecimento, surge o termo Ontologia. 
Aplicada a Ciência da Computação e Informática, a Ontologia é uma 
estrutura de dados utilizada para representar um conjunto de termos de 
uma determinada área do conhecimento ou domínio.
A ontologia, conforme Silva (2003), é definida como um elemento 
da ciência que estuda o ser e seus relacionamentos e, neste sentido, a 
utilização de ontologias é essencial no processo de desenvolvimento dos 
robôs de busca semântica, sendo aplicada na Ciência da Computação e 
na Ciência da Informação para permitir uma descoberta de modo mais 
inteligente e mais próxima do funcionamento do processo cognitivo do 
usuário, de forma que a extração de dados se torne muito mais relevante. 
Segundo Santarém (2010), a Ciência da Computação usa a ontologia 
quando se trata da obtenção de conhecimentos por meio de dados 
Big Data e Ciência de Dados
45
semiestruturados, usando-a para aplicar técnicas e métodos, para processar 
as informações.
Data Warehouse
Segundo Inmon (2005), um Data Warehouse é um conjunto de 
dados orientado a assuntos integrados não voláteis, com variações no 
tempo e com dados corporativos granulares que permitem dar suporte 
às decisões da gestão. 
Isto implica dizer que um Data Warehouse está orientado para as 
principais áreas de uma organização e é suportada por múltiplas fontes de 
dados, as quais os dados são transformados, formatados, reorganizados e 
integrados, bem como, uma vez armazenada a informação, esta fica guarda 
e não se perde, sendo mantido um histórico de dados (INMON, 2005).
O Data Warehouse é uma variante no tempo que implica num avanço 
dos dados ao longo do tempo, como também é diferente de uma base 
de dados operacional (GOLFARELLI; RIZZI, 2009). Enquanto estas últimas 
são transacionais, os Data Warehouses têm as características particulares 
de estarem direcionados a aplicações de apoio à decisão e de serem 
otimizados para a recuperação de dados e não para o processamento de 
transações rotineiras (ELMASRI; NAVATHE, 2003).
Apache Lucene
A tecnologia Apache Lucene é considerada uma biblioteca de 
software livre para indexação e recuperação de informações que em sua 
elaboração foi escrita em Java. Essa foi desenvolvida por Doug Cuttingol, 
no ano 2000, foi aperfeiçoada e, logo após, incorporada à Fundação 
Apache (MILHOMEM, 2013). 
Conforme Andrade (2010) afirma, Lucene concede um nível 
adequado de abstração para um conjunto robusto de técnicas 
fundamentadas no modelo Vetorial e Booleano. 
A biblioteca Lucene é formada por duas partes: indexação e 
pesquisa, com base em palavra-chave, o algoritmo processa os dados 
gerando um formato que possibilita a realização de consultas.
Big Data e Ciência de Dados
46
Por conseguinte, temos que Lucene é utilizado para indexar e 
pesquisar dados em páginas de web, documentos armazenados em 
sistemas locais de arquivo, arquivos de texto simples, HTML ou qualquer 
outro formato por meio do qual é possível coletar informações textuais 
(ANDRADE, 2010). 
IMPORTANTE:
Entretanto, é importante que você saiba que para pesquisar 
grandes quantidades de texto de modo rápido em um 
primeiro momento, de acordo com Andrade (2010), Lucene 
indexa o texto e o transforma em um formato que o permite 
deixá-lo mais veloz na busca. 
Este processo é chamado de indexação e sua saída é denominada 
de índice. Logo, a busca ou pesquisa se trata do processo de buscar 
palavras em um índice para encontrar documentos em que elas aparecem. 
Já existem fundamentalmente duas funcionalidades importantes: 
o processo de indexação, acessível por meio do comando indexer, 
e o processo de busca, disponível por meio do comando searcher 
(ANDRADE, 2010). 
Abaixo segue a descrição das duas etapas:
 • Indexação: usa em seu índice a estrutura de dados denominada 
de índice invertido, em que cada conceito acrescentado possui 
uma referência para o arquivo que o contém (MACHADO, 2013).
 • Busca: no Lucene, para cada documento atual no resultado de 
alguma busca, é aplicada uma pontuação que representa a 
semelhança de tal documento com a consulta. O cálculo dessa 
pontuação é feito baseando-se no modelo de recuperação de 
informação escolhido.
Big Data e Ciência de Dados
47
Figura 10 – Indexar e Buscar documento
Fonte: Freepik
Ainda, podemos citar o que o autor Machado (2013) relata: a 
biblioteca Lucene suporta os seguintes modelos: 
 • Modelo Booleano. 
 • Modelo Espaço Vetorial.
 • Modelo Probabilístico. 
 • Modelo com base em Linguagem Natural. 
Todavia, é bom destacar que por padrão, a busca no Lucene 
acontece por meio da combinação de duas técnicas de recuperação de 
informação: Modelo Espaço Vetorial e Modelo Booleano. 
Contudo, uma vantagem para o programador é que não precisa 
implementar algoritmos de busca e classificação, pois a biblioteca Lucene 
tem mecanismos para calcular a pontuação de cada documento que seja 
referente a uma consulta e retornar documentos relevantes conforme 
com essas pontuações (MILHOMEM, 2013).
SAIBA MAIS:
Para saber mais sobre o assunto, leia o artigo Usando o 
Apache Lucene para procura de texto. Acesse clicando aqui. 
Big Data e Ciência de Dados
https://www.ibm.com/developerworks/br/java/library/os-apache-lucenesearch/index.html
48
No artigo citado, é dada uma explanação geralsobre esta tecnologia 
e exemplos como o da biblioteca Lucene para fornecer recursos de 
busca para o Eclipse IDE e empresas como IBM, AOL e Hewlett-Packard, 
destacando a linguagem de programação, o qual, suporta Perl, Python, 
C++ e .NET.
RESUMINDO:
Finalizamos este capítulo estudando um pouco sobre 
recuperação de informação, fazendo uma abordagem 
no contexto geral sobre o que ela trata e passando sobre 
seu processo. Vimos que a recuperação da informação 
trata a representação, armazenamento, a organização e 
acesso às informações. Assim, abordamos ainda sua 
importância para a tomada de decisão e mostramos como 
é relacionada à ciência de dados e da informação, de modo 
que, explanamos como o Big Data, Data Warehouse e 
ontologias estão relacionadas neste processo. Por fim, foi 
apresentada a biblioteca Apache que trabalha no processo 
de recuperação de informação, o Lucene. 
Big Data e Ciência de Dados
49
REFERÊNCIAS
4 Componentes principais para a infraestrutura de big Data. 
DSA, 2017. Disponível em: http://datascienceacademy.com.br/blog/4-
componentes- principais-para-a-infraestrutura-de-big-data/. Acesso em: 
04 jun. 2020.
AGRAWAL, D.; DAS, S.; EL ABBADI, A. Big data and cloud computing: 
current state and future opportunities. In: INTERNATIONAL CONFERENCE 
ON EXTENDING DATABASE TECHNOLOGY, 14., 2011, New York. Anais […] 
New York: EDBT/ICDT, 2011. p. 530-533.
AMARAL, F. Introdução à Ciência de Dados: mineração de dados e 
Big Data. Rio de Janeiro: ALTA Books, 2016.
AMAZON DynamoDB. AWS, [s. d]. Disponível em: https://aws.
amazon.com/pt/dynamodb. Acesso em: 04 jun. 2020.
ANDRADE, C.; SOUZA, C.; MAFORT, F. Sistema gerenciador de 
documentos. Orientador: Orientador: Jonh Edson Ribeiro de Carvalho. 
2011. Monografia (Graduação em Ciência da Computação). Universidade 
Gama Filho. Piedade. 2011.
APACHE Spark - Introduction. Tutorials Point, [s. d]. Disponível 
em:https://www.tutorialspoint.com/apache_spark/apache_spark_
introduction.htm. Acesso em: 01 jun. 2020.
ARAÚJO, H. Precisão no processo de busca e recuperação da 
informação. Brasília: Thesaurus, 2007.
BIG Data: impactos e benefícios. ISACA, [s. d.]. Disponível em: http://
www.isaca.org/Knowledge-Center/Research/Documents/BigData_
whp_Por_0413.pdf. Acesso em: 01 jun. 2020.
BOSSO, M. Volume de dados exigirá velocidade para sobreviver ao 
Big Data. SAS, 2019. Disponível em: https://www.sas.com/pt_br/insights/
articles/data-management/volume-de-dados-exigira-velocidade-para-
sobreviver-ao-big-data.html. Acesso em: 01 jun. 2020.
Big Data e Ciência de Dados
50
BRYNJOLFSSON, E; MCAFEE, A. Big Data – A Revolução da Gestão. 
Harvard Business Review, 2012.
BUGHIN, J; LIVINGSTON, J. Marwaha, S. Seizing the potential of 
‘big data’. Atlanta: McKinsey Global Institute, 2011.
CEARLEY, D; CLAUNCH, C. The Top 10 Strategic Technology Trends 
for Gartner. Gartner, 2013. Disponível em: https://www.gartner.com/en/
documents/2335015/the-top-10-strategic-technology-trends-for-2013. 
Acesso em: 15 fev. 2022.
CHEN, P.; ZHANG, Y. Data-intensive applications, challenges, 
techniques and technologies: A survey on Big Data. Information Sciences, 
v. 275, p. 314-347, 2014.
CRIVELINI, W. Começando a Entender os Bancos de Dados NoSQL: 
o MongoDB. Meu Negócio, 2020. Disponível em: https://meunegocio.uol.
com.br/academia/tecnologia/comecando-a-entender-os-bancos-de-
dados-nosql-o-mongodb.html#rmcl. Acesso em: 5 mai. 2020)
DAVENPORT, T.; BARTH, P.; BEAN, R. How ‘Big Data’ is Different. MIT 
Sloan Management Review, 2012.
DEAN, J.; GHEMAWAT, S. MapReduce: simplified data processing 
on large clusters. Communications of the ACM, v. 52, n. 1, p. 107-113, jan. 
2008.
DETERS, I.; ADAIME, F. Um estudo comparativo dos sistemas de 
busca na web. ENCONTRO DE ESTUDANTES DE INFORMÁTICA DO 
TOCANTINS, 5., 2003, Palmas. Anais [...] Palmas: [s. n.], 2003. p. 189-200.
DIANA, M. de; GEROSA, A. Nosql na web 2.0: um estudo comparativo 
de bancos não relacionais para armazenamento de dados na web 2.0. 
WORKSHOP DE TESES E DISSERTAÇÕES EM BANCO DE DADOS, 9., [s. l.]. 
Anais [...] [s. l. s. n.], 2012. 
DOCUMENTATION. Apache Cassandra 3.0, [s. d.]. Disponível em: 
https://cassandra.apache.org/doc/latest/. Acesso em: 5 jun. 2020.
ELMASRI, R.; NAVATHE, B. Fundamentals of Database Systems. 4. 
ed. Boston: Addison-Wesley Longman Publishing Co., Inc, 2013.
Big Data e Ciência de Dados
51
EREVELLES, S.; FUKAWA, N.; SWAYNE, L. Big Data consumer 
analytics and the transformation of marketing. Journal of Business, p. 
897-904,2014.
ERL, T.; KHATTAK, W.; BUHLER, P. Big Data Fundamentals: 
concepts, drivers & techniques. Boston: Prentice Hall, 2016.
FÉLIX, M. et al. Critical Success Factors for Big Data Adoption in 
the Virtual Retail: Magazine Luiza Case Study. Rev. Bras. Gest. Neg, São 
Paulo, v. 20, n. 1, jan-mar. 2018 p.112-126. 
FERNEDA, E. Recuperação da Informação: análise sobre a 
contribuição da Ciência da Computação para a Ciência da Informação. 
2003. Tese (Doutorado em Ciência da Computação.) – Escola de 
Comunicação e Artes. USP. São Paulo. 2003.
FRAZÃO, A. A indústria dos dados pessoais e os data brokers. 
Minuto de Segurança, 2019. Disponível em: https://minutodaseguranca.
blog.br/a-industria-dos-dados-pessoais-e-os-data-brokers/. Acesso em: 
4 jun. 2020.
GANTZ, J.; REINSEL, D. The Digital Universe. Big Data, Bigger Digital 
Shadows, and Biggest Growth in the Far East. EMC, 2020. Disponível 
em:http://www.emc.com/collateral/analyst-reports/idc-the-digital-
universe-in-2020.pdf. Acesso em: 03 jun. 2020.
GARRO, F. Inteligência de negócios é uma especialização muito 
valorizada pelo mercado: entenda seus desafios e diferenciais. IGTI, 
2017. Disponível em: https://www.igti.com.br/blog/carreira-inteligencia-
negocios/. Acesso em: 03 jun. 2020.
GOLFARELLI, M.; RIZZI, S. Data Warehouse Design: modern 
principles and methodologies. New York: McGrawHill Inc., 2009.
HASHEM, T. et al. The rise of “big data” on cloud computing: Review 
and open research issues. Information Systems, v. 47, p. 98-111. 2014. 
IANNI, V. Introdução aos bancos de dados NoSQL. DevMedia, [s. 
d.]. Disponível em: http://www.devmedia.com.br/introducao-aos-bancos-
de-dados-nosql/26044. Acesso em: 03 jun. 2020.
Big Data e Ciência de Dados
52
INMON, H.; HACKATHORN, D. Como Usar o Data Warehouse. Rio 
de Janeiro: Infobook, 2013.
INTELIGÊNCIA de negócios: o que é e como fazer a análise de 
dados? Mutant BR, [s. d.]. Disponível em: https://mutantbr.com/blog/
inteligencia-de-negocios-o-que-e-e-como-fazer-a-analise-de-dados/. 
Acesso em: 03 jun. 2020.
JUSTIN, S. et al. A Survey on Big Data and Its Research Challenges. 
ARPN Journal of Engineering and Applied Sciences, v. 10, n. 8, p. 3343-
3347. 2011.
KAISLER, S. et al. Big Data: Issues and Challenges Moving Forward. 
System sciences (HICSS). In: HAWAII INTERNATIONAL CONFERENCE ON, 
46., 2013, [s. l.]. Anais […] [s. l. s. n.], 2013. p. 995-1004. 
KWON, O.; SIM, J. Effects of data set features on the performances 
of classification algorithms. Expert Systems with Applications, v. 40, n. 5, 
p. 1847-1857. 2013.
LÓSCIO, F.; PONTES, S.; OLIVEIRA, R. Nosql no desenvolvimento 
de aplocações web colaborativas. São Paulo: [s. n.], 2011. 
LOUZADA, P. Inteligência de negócios e Big Data: 2 passos em 
direção ao future. FM2S, 2019. Disponível em: https://www.fm2s.com.br/
inteligencia-de-negocios-e-big-data-2-passos-em-direcao-ao-futuro/. 
Acesso em: 04 jun. 2020.
MACHADO, D. A Percepção de Big Data do varejo: características 
e desafios. FGV, 2017. Disponível em: http://bibliotecadigital.fgv.br/ocs/
index.php/clav/clav2017/paper/view/6124. Acesso em: 04 jun. 2020.
MANYIKA, J.; CHUI, M. Big Data: a próxima fronteira para inovação, 
concorrência e produtividade. [s. l.]: McKinsey Global Institute, 2011.
MARR, B. Big Data in Practice. West Sussex: Wiley, 2016.
MATOS, D. Top 6 NoSQL Databases. Ciência e Dados, 2019. 
Disponível em: http://www.cienciaedados.com/top-6-nosql-databases.Acesso em: 05 jun. 2020.
Big Data e Ciência de Dados
53
MILHOMEM, W. Indexação de termos para um sistema de 
recuperação da informação utilizando computação distribuída. 
Orientador: Orientador: Fernando Luiz de Oliveira. 2013. Monografia 
(Graduação em Sistemas de Informação) – Centro Universitário Luterano 
de Palmas. Palmas. 2013.
MONTEIRO, D. SQL ou NoSQL? Você conhece o Redis? 
Db4Beginners, 2020. Disponível em: http://db4beginners.com/blog/sql-
ou-nosql-redis/. Acesso em: 05 jun. 2020.
O QUE é NoSQL? AWS, [s. d.]. Disponível em: https://aws.amazon.
com/pt/nosql/. Acesso em: 05 jun. 2020
PENCHIKALA, S. Big Data com Apache Spark - Parte 1: Introdução. 
INFOQ, 2015. Disponível em: https://www.infoq.com/br/articles/apache-
spark-introduction/. Acesso em: 03 jun. 2020.
QUEIROZ, R. et al. Geographic Databases and NoSQL. 
Accomlishments and future directions. Revista Brasileira de Cartografia, 
p. 479-492, 2013.
SANTAREM, E. Representação Iterativa: um modelo para 
Repositórios Digitais. Tese (Doutorado em Ciência da Informação) – 
Faculdade de Filosofia e Ciências. Universidade Estadual Paulista. Marília. 
2010.
SHVACHKO, K.; KUANG, H.; RADIA, S. The Hadoop Distributed 
File System. Incline Village. IEEEXPLORE, 2010. Disponível em: https://
ieeexplore.ieee.org/abstract/document/5496972. Acesso em: 1 jun. 2020.
SILVA, P. Inteligência competitiva na Internet: um processo otimizado 
por agentes inteligentes. Ciência da informação, v. 1, n. 32. 2003.
SONAWANE, A. Usando o Apache Lucene para procura de texto. 
IBM, [s. d.]. Disponível em: https://www.ibm.com/developerworks/br/
java/library/os-apache-lucenesearch/index.html. Acesso em: 5 jun. 2020.
SOUSA, C. et al. Gerenciamento de dados em Nuvem: Conceitos, 
sistemas e desafios. SBBD, p. 101-130. 2010.
Big Data e Ciência de Dados
54
STREAMLIO. Understanding Batch, Microbatch, and Streaming. 
Dzone, 2018. Disponível em: https://dzone.com/articles/understanding-
batch-microbatch-and-stream-processi. Acesso em: 01 jun. 2020.
TAURION, C. Big Data. Rio de Janeiro: Brasport, 2013.
TEIXEIRA, C.; ALONSO, C. A importância do planejamento 
estratégico para as pequenas empresas. Rio de Janeiro: SEGET, 2014.
VARDANYAN, M. Escolhendo a ferramenta certa para o banco 
de dados NoSql. iMaters, [s. d.]. Disponível em: http://imasters.com.br/
artigo/21781/banco-de-dados/escolhendo--aferramenta-certa-para-o-
banco-de-dados-nosql/. Acesso em: 04 jun. 2020.
WHAT is a data warehouse. Oracle. [s. d.]. Disponível em: https://
www.oracle.com/br/database/what-is-a-data-warehouse/. Acesso em: 
01 jun. 2020.
WHITE, T. Hadoop: The Definitive Guide. 4. ed. Paris: O’Reilly Media, 
2015.
WU, X. et al. Top 10 algorithms in data mining. Knowledge and 
Information Systems, v. 14, n. 1, p. 1-37. 2008.
YAQOOB et al. Big data: From beginning to future. International 
Journal of Information Management, v. 36, n. 6, p. 1231-1247, dez. 2016.
YATES, B.; RIBEIRO, B. Modern information retrieval. New York: 
ACM; Harlow: Addison – Wesley, 1999.
ZHANG, J. et al. Opportunities of innovation under challenges of big 
data. 2013, In: INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND 
KNOWLEDGE DISCOVERY, 10., 2013, [s. l.]. Anais […]. [s. l.]: FSKD, 2013. p. 
669-673. 
ZIKOPOULOS, P.; EATON, C. Understanding Big Data: Analytics for 
enterprise class hadoop and streaming data. New York: Mc Ghram Hill, 
2012.
Big Data e Ciência de Dados
	Processamento de grandes volumes de dados 
	Produção de dados 
	Armazenamento 
	Framework para processamento de dados 
	Hadoop
	Spark
	Storm
	Inteligência de negócio para Big Data
	Big Data e sua importância no mercado de negócio
	Inteligência de negócio para Big Data 
	Perfil comportamental do profissional de análise de inteligência de negócios
	Big Data aplicado no mercado
	Magazine Luiza
	Amazon
	Nordstrom
	Bancos de dados para Big Data
	Banco NoSql
	Características bancos de dados NoSQL
	Tipos de banco de dados NoSQL
	Principais mecanismos de banco de dados NoSQL
	Cassandra
	MongoDB
	Redis
	HBase
	Amazon DynamoDB 
	Neo4j
	Recuperação de informações
	Big Data e a recuperação da informação
	Ontologia
	Data Warehouse
	Apache Lucene

Continue navegando