Buscar

Big Data Analytics- Análise e Visualização dos Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 238 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 238 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 238 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Indaial – 2021
Análise e 
VisuAlizAção 
dos dAdos
Prof. Arquelau Pasta
1a Edição
Big dAtA 
AnAlytics:
Elaboração:
Prof. Arquelau Pasta
Copyright © UNIASSELVI 2021
 Revisão, Diagramação e Produção:
Equipe Desenvolvimento de Conteúdos EdTech
Centro Universitário Leonardo da Vinci – UNIASSELVI
 Ficha catalográfica elaborada pela equipe Conteúdos EdTech UNIASSELVI
Impresso por:
P291b
 Pasta, Arquelau
 
 Big data analytics: análise e visualização dos dados. / 
Arquelau Pasta – Indaial: UNIASSELVI, 2021.
 
 228 p.; il.
 ISBN 978-65-5663-747-1
 ISBN Digital 978-65-5663-748-8 
 
 1. Big data analytics. - Brasil. II. Centro Universitário Leonardo 
da Vinci.
 CDD 004
Prezado acadêmico! Seja bem-vindo à disciplina de Big Data Analytics: Análise 
e Visualização dos Dados.
Este livro didático foi elaborado com o intuito de contribuir e aprimorar o seu 
conhecimento acerca destas três unidades principais: Unidade 1: Big Data Analytics; 
Unidade 2: Trabalhando com Dados e Unidade 3: Big Data para Negócios.
Em muitas empresas, a análise de dados já faz parte da rotina de negócios. Esta 
é uma das estratégias utilizadas no auxílio da otimização dos processos administrativos 
e ajuda no entendimento do padrão de comportamento dos clientes e do mercado, 
buscando tornar os produtos e/ou serviços mais competitivos, e por que não mais 
lucrativos. O que observamos é que a quantidade de dados gerados cresce a cada dia 
e nem pensar em fazer uma análise nesses dados de forma manual. É neste momento 
que entra em ação o Big Data Analytics.
Com o avanço das tecnologias digitais, as plataformas estão possibilitando cada 
vez mais a geração de dados, mas ainda há pouca análise desses dados. Este cenário 
permite que haja uma forte tendência na criação de novas técnicas e ferramentas 
capazes de realizar análises em tempo real, visando a um melhor desempenho para 
aqueles que souberem interpretar as informações geradas. Com investimentos na 
utilização de ferramentas de Big Data Analytics, as empresas podem desenvolver seus 
produtos e/ou serviços de forma mais eficiente e eficaz, tendo significativa melhora em 
seus processos. A correta utilização do Big Data Analytics possibilita que as empresas 
atraiam mais clientes, mantenham os já existentes, explorem novos mercados e, de 
quebra, se tornem mais competitivas e lucrativas.
Aproveitamos este momento para destacar que os exercícios NÃO SÃO 
OPCIONAIS. O objetivo de cada exercício deste livro didático é a fixação de determinado 
conceito, bem como o aprimoramento dos seus saberes. É aí que reside a importância 
de você realizar todas as atividades propostas. Sugerimos fortemente que, em caso 
de dúvida em algum exercício, você entre em contato com seu tutor externo e que 
não passe para o exercício seguinte enquanto o atual não estiver completamente 
compreendido.
Por fim, ressaltamos que, mesmo sendo uma área muito ampla, o livro didático 
lhe oferece um início sólido e consistente do tema. Desejamos a você uma excelente 
experiência nos estudos dos conteúdos desta disciplina! 
Prof. Arquelau Pasta
APRESENTAÇÃO
Olá, acadêmico! Para melhorar a qualidade dos materiais ofertados a você – e 
dinamizar, ainda mais, os seus estudos –, nós disponibilizamos uma diversidade de QR Codes 
completamente gratuitos e que nunca expiram. O QR Code é um código que permite que você 
acesse um conteúdo interativo relacionado ao tema que você está estudando. Para utilizar 
essa ferramenta, acesse as lojas de aplicativos e baixe um leitor de QR Code. Depois, é só 
aproveitar essa facilidade para aprimorar os seus estudos.
GIO
QR CODE
Olá, eu sou a Gio!
No livro didático, você encontrará blocos com informações 
adicionais – muitas vezes essenciais para o seu entendimento 
acadêmico como um todo. Eu ajudarei você a entender 
melhor o que são essas informações adicionais e por que você 
poderá se beneficiar ao fazer a leitura dessas informações 
durante o estudo do livro. Ela trará informações adicionais 
e outras fontes de conhecimento que complementam o 
assunto estudado em questão.
Na Educação a Distância, o livro impresso, entregue a todos 
os acadêmicos desde 2005, é o material-base da disciplina. 
A partir de 2021, além de nossos livros estarem com um 
novo visual – com um formato mais prático, que cabe na 
bolsa e facilita a leitura –, prepare-se para uma jornada 
também digital, em que você pode acompanhar os recursos 
adicionais disponibilizados através dos QR Codes ao longo 
deste livro. O conteúdo continua na íntegra, mas a estrutura 
interna foi aperfeiçoada com uma nova diagramação no 
texto, aproveitando ao máximo o espaço da página – o que 
também contribui para diminuir a extração de árvores para 
produção de folhas de papel, por exemplo.
Preocupados com o impacto de ações sobre o meio ambiente, 
apresentamos também este livro no formato digital. Portanto, 
acadêmico, agora você tem a possibilidade de estudar com 
versatilidade nas telas do celular, tablet ou computador.
Preparamos também um novo layout. Diante disso, você 
verá frequentemente o novo visual adquirido. Todos esses 
ajustes foram pensados a partir de relatos que recebemos 
nas pesquisas institucionais sobre os materiais impressos, 
para que você, nossa maior prioridade, possa continuar os 
seus estudos com um material atualizado e de qualidade.
Acadêmico, você sabe o que é o ENADE? O Enade é um 
dos meios avaliativos dos cursos superiores no sistema federal de 
educação superior. Todos os estudantes estão habilitados a participar 
do ENADE (ingressantes e concluintes das áreas e cursos a serem 
avaliados). Diante disso, preparamos um conteúdo simples e objetivo 
para complementar a sua compreensão acerca do ENADE. Confira, 
acessando o QR Code a seguir. Boa leitura!
ENADE
LEMBRETE
Olá, acadêmico! Iniciamos agora mais uma 
disciplina e com ela um novo conhecimento. 
Com o objetivo de enriquecer seu conheci-
mento, construímos, além do livro que está em 
suas mãos, uma rica trilha de aprendizagem, 
por meio dela você terá contato com o vídeo 
da disciplina, o objeto de aprendizagem, materiais complementa-
res, entre outros, todos pensados e construídos na intenção de 
auxiliar seu crescimento.
Acesse o QR Code, que levará ao AVA, e veja as novidades que 
preparamos para seu estudo.
Conte conosco, estaremos juntos nesta caminhada!
SUMÁRIO
UNIDADE 1 - INTRODUÇÃO AO BIG DATA ANALYTICS ......................................................... 1
TÓPICO 1 - A ERA DOS DADOS ..............................................................................................3
1 INTRODUÇÃO .......................................................................................................................3
2 É TEMPO DE DADOS ............................................................................................................3
RESUMO DO TÓPICO 1 .........................................................................................................10
AUTOATIVIDADE ...................................................................................................................11
TÓPICO 2 - DO SMART AO BIG DATA ................................................................................... 13
1 INTRODUÇÃO ..................................................................................................................... 13
2 DO MICRO AO MACRO ...................................................................................................... 13
3 DATA DEVICES .................................................................................................................. 21
4 DATA COLLECTORS ........................................................................................................ 22
5 DATA AGGREGATORS ......................................................................................................22
6 DATA USERS E BUYERS................................................................................................... 22
RESUMO DO TÓPICO 2 ........................................................................................................ 25
AUTOATIVIDADE ................................................................................................................. 26
TÓPICO 3 - OS Vs DO BIG DATA .......................................................................................... 29
1 INTRODUÇÃO .................................................................................................................... 29
2 BIG DATA E SEUS V’s ....................................................................................................... 29
2.1 VOLUME .................................................................................................................................................30
2.2 VELOCIDADE ........................................................................................................................................32
2.3 VERACIDADE .......................................................................................................................................33
2.4 VARIEDADE ..........................................................................................................................................35
2.5 VALOR .................................................................................................................................................... 37
2.6 VISUALIZAÇÃO ....................................................................................................................................38
2.7 VOLATILIDADE .....................................................................................................................................39
RESUMO DO TÓPICO 3 ........................................................................................................ 42
AUTOATIVIDADE ................................................................................................................. 43
TÓPICO 4 - O CICLO DE VIDA DO BIG DATA ....................................................................... 45
1 INTRODUÇÃO .................................................................................................................... 45
2 AS FASES DO BIG DATA ................................................................................................... 45
2.1 DESCOBERTA....................................................................................................................................... 48
2.2 PREPARAÇÃO DOS DADOS ...............................................................................................................51
2.3 PLANEJAMENTO DE MODELOS ......................................................................................................52
2.4 CONSTRUINDO O MODELO ...............................................................................................................53
2.5 COMUNICAR OS RESULTADOS ........................................................................................................53
2.6 OPERACIONALIZAÇÃO ......................................................................................................................54
RESUMO DO TÓPICO 4 ........................................................................................................ 55
AUTOATIVIDADE ................................................................................................................. 56
TÓPICO 5 - OS MITOS E VERDADES DO BIG DATA .............................................................59
1 INTRODUÇÃO .....................................................................................................................59
2 VERDADES E MENTIRAS SOBRE BIG DATA ....................................................................59
2.1 MITO 1 – BIG DATA É PARA GRANDES EMPRESAS ......................................................................60
2.2 MITO 2 – BIG DATA REQUER GRANDES ORÇAMENTOS E GRANDES EQUIPES ...................60
2.3 MITO 3 – QUANTO MAIS DADOS, MELHOR! ...................................................................................61
2.4 MITO 4 – O BIG DATA SUBSTITUIRÁ O DATA WAREHOUSE ......................................................62
2.5 MITO 5 – BIG DATA TORNA QUALQUER EMPRESA LUCRATIVA ..............................................62
RESUMO DO TÓPICO 5 ........................................................................................................ 63
AUTOATIVIDADE ................................................................................................................. 64
TÓPICO 6 - APLICAÇÕES MAIS USUAIS DE BIG DATA ......................................................67
1 INTRODUÇÃO .....................................................................................................................67
2 QUEM USA BIG DATA? ......................................................................................................67
LEITURA COMPLEMENTAR ................................................................................................. 71
RESUMO DO TÓPICO 6 .........................................................................................................76
AUTOATIVIDADE .................................................................................................................. 77
REFERÊNCIAS ......................................................................................................................79
UNIDADE 2 — TRABALHANDO COM DADOS ...................................................................... 83
TÓPICO 1 — PROCESSANDO DADOS PARA BIG DATA ....................................................... 85
1 INTRODUÇÃO .................................................................................................................... 85
2 PROCESSAMENTO DE DADOS ........................................................................................ 86
2.1 EXPLOSÃO DE DADOS ........................................................................................................................87
2.1.1 Como lidar com a escalabilidade em Big Data? ..................................................................90
2.1.2 Escalabilidade horizontal .........................................................................................................94
2.1.3 Escalabilidade vertical ..............................................................................................................96
RESUMO DO TÓPICO 1 .........................................................................................................99
AUTOATIVIDADE ................................................................................................................100
TÓPICO 2 - BIG DATA E A COMPUTAÇÃO EM NUVEM ......................................................103
1 INTRODUÇÃO ...................................................................................................................103
2 BIG DATA E CLOUD COMPUTING ....................................................................................103
2.1 IAAS: INFRAESTRUTURA COMO SERVIÇO ..................................................................................106
2.2 PAAS: PLATAFORMA COMO SERVIÇO ......................................................................................... 107
2.3 SAAS: SOFTWARE COMO SERVIÇO ..............................................................................................108
2.4 FAAS: FUNÇÕES COMO SERVIÇO .................................................................................................109
3 OS TIPOS DE IMPLANTAÇÃO DE NUVENS ..................................................................... 112
3.1 NUVEM PÚBLICA ................................................................................................................................112
3.2 NUVEM PRIVADA...............................................................................................................................113
3.3 COMMUNITY CLOUD .........................................................................................................................113
3.4 NUVEM HÍBRIDA ................................................................................................................................114
RESUMO DO TÓPICO 2 ....................................................................................................... 116
AUTOATIVIDADE .................................................................................................................117
TÓPICO 3 - BANCOS DE DADOS PARA BIG DATA............................................................. 119
1 INTRODUÇÃO ................................................................................................................... 119
2 TIPOS DE BANCOS DE DADOS PARA BIG DATA ............................................................120
2.1 BANCO DE DADOS NOSQL .............................................................................................................. 122
3 CLASSIFICAÇÕES DE BANCOS DE DADOS NÃO RELACIONAIS .................................. 131
3.1 BANCOS DE DADOS ORIENTADO A CHAVE/VALOR...................................................................131
3.2 BANCOS DE DADOS ORIENTADOS A DOCUMENTOS ............................................................... 133
3.3 BANCOS DE DADOS ORIENTADOS A COLUNAS ....................................................................... 137
3.4 BANCOS DE DADOS ORIENTADOS A GRAFOS .......................................................................... 139
4 MONGODB .......................................................................................................................142
5 A ABORDAGEM NÃO RELACIONAL ............................................................................... 144
5.1 CRIAÇÃO OU GERAÇÃO DE CHAVE ............................................................................................... 147
6 PREPARAÇÃO DOS DADOS ............................................................................................148
LEITURA COMPLEMENTAR ............................................................................................... 151
RESUMO DO TÓPICO 3 .......................................................................................................155
AUTOATIVIDADE ................................................................................................................156
REFERÊNCIAS ....................................................................................................................158
UNIDADE 3 — BIG DATA PARA NEGÓCIOS ........................................................................163
TÓPICO 1 — BIG DATA NAS ORGANIZAÇÕES ....................................................................165
1 INTRODUÇÃO ...................................................................................................................165
2 BIG DATA NAS ORGANIZAÇÕES .....................................................................................166
2.1 FASES DO BIG DATA ..........................................................................................................................168
2.1.1 Fase 1 – descoberta ................................................................................................................. 169
2.1.2 Fase 2 – preparação e processamento dos dados ......................................................... 169
2.1.3 Fase 3 – planejamento do modelo ...................................................................................... 170
2.1.4 Fase 4 – construção do modelo ........................................................................................... 171
2.1.5 Fase 5 – comunicação dos resultados ............................................................................... 171
2.1.6 Fase 6 – medição da eficácia ................................................................................................ 171
2.2 COMO AS EMPRESAS USAM BIG DATA PARA CAPTAR E RETER SEUS CLIENTES? ........ 173
2.2.1 Transformando dados em decisões .................................................................................... 175
2.3 O BIG DATA NO MARKETING............................................................................................................176
2.4 BIG DATA E GERENCIAMENTO DE RISCOS ..................................................................................177
2.5 BIG DATA E A CADEIA DE SUPRIMENTOS ................................................................................... 179
RESUMO DO TÓPICO 1 ....................................................................................................... 181
AUTOATIVIDADE ................................................................................................................182
TÓPICO 2 - INOVAÇÃO E TOMADA DE DECISÃO COM BIG DATA .....................................185
1 INTRODUÇÃO ...................................................................................................................185
2.1 BIG DATA E OS SISTEMAS DE INFORMAÇÃO .............................................................................. 187
2.1.1 Implementação de Sistemas de Big Data em Organizações ........................................190
2.2 BIG DATA E SEUS TIPOS DE ANÁLISES ....................................................................................... 192
2.2.1 Análise descritiva ..................................................................................................................... 193
2.2.2 Análise diagnóstica ................................................................................................................ 195
2.2.3 Análise preditiva ..................................................................................................................... 196
2.2.4 Análise prescritiva ..................................................................................................................198
RESUMO DO TÓPICO 2 ...................................................................................................... 200
AUTOATIVIDADE ................................................................................................................201
TÓPICO 3 - BIG DATA NA PRÁTICA .................................................................................. 203
1 INTRODUÇÃO .................................................................................................................. 203
2 IMPLANTANDO BIG DATA NAS EMPRESAS .................................................................. 203
2.1 EM BUSCA DOS DADOS PERFEITOS ............................................................................................ 204
2.2 DESENHANDO UMA METODOLOGIA PARA BIG DATA ............................................................. 206
2.3 ESCOLHAM SUAS ARMAS ..............................................................................................................207
 2.3.1 Hadoop ......................................................................................................................................208
 2.3.2 Bancos de dados NoSQL ...................................................................................................... 209
 2.3.3 MapReduce ..............................................................................................................................211
 2.3.4 Yarn ............................................................................................................................................ 213
 2.3.5 Spark .......................................................................................................................................... 215
 2.3.6 Tableau .....................................................................................................................................216
2.4 PREPARE SEUS GUERREIROS ...................................................................................................... 217
LEITURA COMPLEMENTAR .............................................................................................. 220
RESUMO DO TÓPICO 3 ...................................................................................................... 223
AUTOATIVIDADE ............................................................................................................... 224
REFERÊNCIAS ................................................................................................................... 226
1
UNIDADE 1 - 
INTRODUÇÃO AO BIG DATA 
ANALYTICS
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você deverá ser capaz de:
• definir e esclarecer os principais conceitos relacionados ao Big Data Analytics;
• analisar e discutir, a partir dos conceitos e da compreensão dos componentes que 
fazem parte da arquitetura de Big Data;
• identificar as principais problemáticas associadas à elaboração de um projeto de Big 
Data Analytics;
• analisar as fontes de origem e tipos de dados a serem trabalhados no Big Data 
Analytics;
• categorizar as principais vertentes do Big Data Analytics.
Esta unidade está dividida em seis tópicos. No decorrer dela, você encontrará 
autoatividades com o objetivo de reforçar o conteúdo apresentado.
TÓPICO 1 – A ERA DOS DADOS
TÓPICO 2 – DO SMART AO BIG DATA
TÓPICO 3 – OS Vs DO BIG DATA 
TÓPICO 4 – O CICLO DE VIDA DO BIG DATA 
TÓPICO 5 – OS MITOS E VERDADES DO BIG DATA 
TÓPICO 6 – APLICAÇÕES MAIS USUAIS DE BIG DATA
Preparado para ampliar seus conhecimentos? Respire e vamos em frente! Procure 
um ambiente que facilite a concentração, assim absorverá melhor as informações.
CHAMADA
2
CONFIRA 
A TRILHA DA 
UNIDADE 1!
Acesse o 
QR Code abaixo:
3
A ERA DOS DADOS
1 INTRODUÇÃO
Devido ao rápido crescimento das tecnologias de rede sem fio (por exemplo, 5G) 
e à crescente demanda por serviços com alta qualidade de serviço solicitação (QoS), 
o gerenciamento de recursos de rede torna-se uma etapa permanentemente mais 
desafiadora que requer ser corretamente projetada para avançar o desempenho da rede. 
Os dados digitais produzidos são, em parte, resultado do uso de dispositivos 
conectados à internet. Assim, smartphones, tablets e computadores transmitem dados 
de seus usuários. Objetos inteligentes conectados transmitem informações do uso de 
objetos cotidianos pelo consumidor. 
Além dos dispositivos conectados, os dados vêm de uma ampla gama de 
fontes: dados demográficos, dados climáticos, dados científicos e médicos, dados de 
consumo de energia etc. Todos esses dados fornecem informações da localização dos 
usuários dos dispositivos, suas viagens, seus interesses, seus hábitos de consumo, 
suas atividades de lazer, e seus projetos e assim por diante. 
Neste tópico, você compreenderá a origem dos dados, quais são as principais 
fontes que estão gerando esta quantidade gigantesca. Além disso, conhecerá as novas 
tendências na geração de dados.
TÓPICO 1 - UNIDADE 1
2 É TEMPO DE DADOS
A quantidade de dados gerados cresceu vertiginosamente, nos últimos anos, 
atingindo uma posição sem precedentes vistos, levando a qualquer dado para atrair 
mais atenção do que com dados em tabelas de qualquer banco de dados.
Em 2020, o surto do COVID-19 intensificou ainda mais a geração de dados 
digitais, pode se dizer que 2020 introduziu uma nova era, na qual a tecnologia e os 
dados assumiram papéis mais significativos em nosso cotidiano.
A cada clique do mouse, a cada reação nas mídias sociais, compartilhamento, 
foto enviada, áudio ou vídeo do Youtube ou qualquer outra plataforma de streaming, os 
dados são gerados, sem levar em consideração os dados gerados pelos ERP, softwares 
ou até mesmo a escrita deste livro. Esses dados, quando devidamente analisados, nos 
auxiliam a entender melhor este mundo que se atualiza a cada milissegundo numa 
velocidade mais do que incrível. 
4
Em 2015, estimava-se que 2,5 quintilhões de bytes eram gerados todos os 
dias. O Instituto Gartner (2018 apud GASTOS GLOBAIS [...], 2018), estimou que até 2020 
teríamos um total de 40 trilhões de gigabytes de dados sendo gerados por dia, isto 
significa 2,2 milhões de terabytes sendo gerados diariamente.
A plataforma Domo (2020), especializada em dados, apresenta um infográfico 
com informações de onde vem esta quantidade de dados gerados.
FIGURA 1 – FONTE DA ORIGEM DOS DADOS
FONTE: <https://bit.ly/3ingqlW>. Acesso em: 23 abr. 2021.
De acordo com uma estimativa da IBM, 2,5 quintilhões de bytes de dados são 
criados todos os dias. Um relatório recente da Domo (2020) estima a quantidade de 
dados gerados a cada minuto em plataformas on-line populares. A seguir, estão alguns 
dos principais dados do relatório:
• usuários do Facebook compartilham quase 4,16 milhões posts de conteúdo;
• usuários do Twitter enviam quase 300.000 tweets;
• usuários do Instagram curtem quase 1,73 milhão de fotos;
5
• usuários do YouTube carregam 500 horas de novo conteúdo de vídeo;
• usuários da Apple baixam quase 51.000 aplicativos;
• usuários de Skype fazem quase 110.000 novas chamadas;
• a Amazon recebe 4.300 novos visitantes;
• assinantes da Netflix transmitem quase 405.000 horas de vídeo.
Todos esses dados sendo gerados diariamente e de modo não sigiloso estão 
à disposição, porém, simplesmente ter acesso a eles não os fazem valer. Você precisa 
saber qual a finalidade, para o que você os quer, quais são seus interesses sobres eles, 
o que você quer extrair? Amaral (2016, p. 11) destaca que:
Na era da informação e conhecimento, analisar dados não é uma 
atividade qualquer para empresas e governos, é uma questão 
de sobrevivência. Em um mundo globalizado, e cada vez mais 
competitivo, em que dados eletrônicos são produzidos de forma 
exponencial, quem for capaz de extrair informação e conhecimento 
de dados de forma eficiente, venderá mais, produzirá mais, gastará 
menos, terá clientes mais satisfeitos, fornecedores mais eficientes e 
estará em conformidade com agências reguladoras e fiscalizadoras. 
Não somos capazes ainda de avaliar com precisão como essa nova 
era que está surgindo será, mas sabemos que a produção e análise 
de dados terão um papel fundamental.
A globalização e o e-commerce estão mudando radicalmente as preferências 
dos consumidores e uma enxurrada de jovens empreendedores da internet que está 
impulsionando mudanças descontínuas no ambiente de negócios surgiu. 
Essa mudança está se tornando mais ambígua e difícil de prever e planejar. Por 
exemplo, o Facebook transformou o mercado de varejo on-line à medida que várias plata-
formas transformaram as telecomunicações, e o Google transformou o universo de pes-
quisas. Com certeza uma mudança fundamental nas teorias recentes da estratégia é que 
a vantagem competitiva não é algo que uma empresa possui nem algo que possa proteger.
Desde o início das aplicações de computadores para problemas de negócios, 
na década de 1950, e certamente desde meados da década de 1960, quando os 
primeiros sistemas de gerenciamento de banco de dados bem-sucedidos começaram 
a aparecer, houve um aumento constante na quantidade de dados armazenados e no 
reconhecimento do valor desses dados, além da simples informatização das tarefas 
rotineiras. Na linguagem do Big Data, o volume de dados tem aumentado de forma 
constante e substancial, da década de 1960 até os dias atuais. 
Podemos dizer que os avanços tecnológicos e as mudanças geradas por estes 
avanços, produziram um tipo de “universo paralelo”, que está em franca expansão de 
novos conteúdos, novos dados, novas fontes de informações. Dados são criados cons-
tante e diariamente a uma taxa cada vez maior. Smartphones, mídias sociais, sensores 
acoplados nos mais diversos equipamentos, exemplo para diagnóstico médico, terminais 
bancários, geram dados que precisam ser processados e armazenados em tempo real.
6
Mesmo conseguindoacompanhar este gigantesco fluxo de dados é 
extremamente difícil ter uma noção do que estes dados tratam, especialmente quando 
não são tratados com as noções tradicionais de estrutura de dados, para identificar 
padrões significativos e extrair informações úteis. Esses desafios do dilúvio de dados 
apresentam a oportunidade de transformar negócios, governo, ciência e vida cotidiana.
Várias empresas estão na liderança do desenvolvimento de sua capacidade de 
coletar e explorar dados:
• As operadoras de cartão de crédito monitoram cada compra que seus clientes fazem 
e podem identificar compras fraudulentas ou até mesmo o uso indevido do cartão, 
por roubo, como exemplo, com alto grau de precisão usando regras derivadas do 
processamento de bilhões de transações;
• As operadoras de telefonia móvel analisam os padrões de chamada dos assinantes 
para determinar, por exemplo, se os contatos frequentes de um chamador estão em 
uma rede concorrente. Se essa rede concorrente está oferecendo uma promoção 
atraente que pode causar o cancelamento do contrato do assinante, a empresa 
de telefonia móvel pode oferecer proativamente ao assinante um incentivo para 
permanecer em seu contrato.
• Para empresas como LinkedIn e Facebook, o dado em si é seu principal produto. 
As avaliações dessas empresas são fortemente derivadas dos dados que coletam 
e hospedam, que contém cada vez mais valor intrínseco à medida que os dados 
crescem.
Após todo esse cenário, você já deve ter se perguntado: qual é a quantidade 
que eu gero por dia? Vamos começar com as suas redes sociais, quantas curtidas, 
quantos comentários você faz por dia? E seus e-mails, particular e de trabalho, quantos 
você recebe por dia, sejam “oficiais” ou spans. Quantas vezes você fez uma pesquisa no 
Google? Quantos anúncios são enviados para você enquanto você assiste a um vídeo no 
Youtube? Então, o que essas empresas fazem com estes dados? Onde essas empresas 
armazenam estes dados e para quê?
Devemos dar uma parada e perguntarmos: onde fica nossa privacidade 
neste cenário? Como garantir que nossos dados pessoais, bancários, por 
exemplo, não sejam utilizados por pessoas que querem tirar proveito de 
forma incorreta? Será que a Lei Geral de Proteção de Dados nos garantirá 
esta privacidade?
INTERESSANTE
7
A ciência de dados surgiu com a necessidade de lidarmos com 
a enorme quantidade de dados e informações geradas por 
nossas ações em conjunto com algum artefato – neste caso, 
tecnológico. Ela atende a uma demanda interdisciplinar, na qual 
estão inseridas outras tecnologias voltadas aos dados, como 
Big Data. O termo foi mencionado inicialmente em meados 
de 2010, mas, antes, seus conceitos eram compreendidos 
por outros termos, como OLAP (Online Analytical Processing) 
e BI (Business Intelligence). Podemos notar que, apesar de 
conseguirmos visualizar claramente a quantidade de dados 
que temos ao nosso redor, variantes do termo já vêm sendo 
utilizadas há algum tempo (GONÇALVES; ROGÉRIO; MORAES, 
2019, p. 4, grifo do original).
Devido à grande quantidade ou estrutura destes dados, eles não podem 
simplesmente ser analisados apenas usando bancos de dados ou métodos tradicionais. 
Essas análises exigem novas ferramentas e tecnologias para armazenar, gerenciar e 
realizar o benefício do negócio. Essas novas ferramentas e tecnologias permitem a 
criação, manipulação e gerenciamento de grandes conjuntos de dados e os ambientes 
de armazenamento que os abrigam. O que nos faz perceber que existe uma grande 
quantidade de dados gerados nas mais diversas fontes, e nos mais variados formatos, 
sejam estruturados ou não.
A taxa de criação de dados está acelerando, impulsionada por muitos dos itens. 
As mídias sociais e o sequenciamento genético, as pesquisas na área da saúde, estão 
entre as fontes de Big Data que mais crescem e exemplos de fontes não tradicionais de 
dados sendo usadas para análise.
Por exemplo, em 2012, os usuários do Facebook postaram 700 atualizações 
de status por segundo em todo o mundo, que podem ser aproveitadas para deduzir 
interesses latentes ou visões políticas dos usuários e mostrar anúncios relevantes. Por 
exemplo, na atualização em que uma mulher muda seu status de relacionamento de 
“solteira” para “noiva”, desencadearia anúncios de vestidos de noiva, planejamento de 
casamento ou serviços de mudança de nome.
O Facebook também pode construir gráficos sociais para analisar quais usuários 
estão conectados uns aos outros como uma rede interconectada. Em março de 2013, o 
Facebook lançou um novo recurso chamado “pesquisa gráfica”, permitindo que usuários 
e desenvolvedores pesquisassem gráficos sociais para pessoas com interesses 
semelhantes, hobbies e locais compartilhados.
8
FIGURA 2 – ORIGEM DOS DADOS
FONTE: <https://shutr.bz/3504qio>. Acesso em: 23 abr. 2021.
A popularização da internet, a partir dos anos 1995, sinalizou uma mudança 
de rota, não apenas na quantidade de dados, mas também mais significativamente na 
taxa em que os dados chegaram, isto é velocidade de geração de dados; a diversidade 
de fontes de onde chegaram e os tipos de dados disponíveis para quase todos, o que 
significa a variedade dos dados gerados. 
Mais importante do que as mudanças quantitativas, houve uma enorme 
mudança qualitativa na quantidade de detalhes, realizada e mantida por essas bases 
de dados. Essas mudanças, combinadas com mudanças drásticas na tecnologia 
disponível para analisar e extrair informações desses dados, o custo e a disponibilidade 
de processamento e armazenamento para os dados, e mecanismos de origem/
entrega, como smartphones e sensores, por sua vez, impulsionaram mudanças nas 
oportunidades que podem ser criadas pela excelência no uso de dados e informações.
Mais do que isso, eles têm impulsionado mudanças no que consideramos ser 
dados disponíveis para análise, em que vemos os possíveis resultados como sendo, 
como vemos a informação em si e, o mais importante, a capacidade que temos de usar 
os resultados para impactar eventos reais.
Mas a internet e o acesso resultante do consumidor a grandes quantidades de 
dados, em grande parte não estruturados, foi apenas a primeira onda de mudanças 
no volume de dados. Apesar de ter o efeito de disponibilizar esses dados a qualquer 
momento e a quase qualquer pessoa, e, pelo menos, tão importante, tornando quase 
todos uma fonte potencial (e muitas vezes real) de dados, eles acessaram apenas uma 
pequena fração da geração potencial e uso de dados.
9
Duas tendências existentes, e uma tendência emergente, preencheram esse 
vazio e estão aumentando drasticamente o volume, a velocidade, a variedade e, 
especialmente, os detalhes oportunos dos dados gerados e consumidos. São mobilidade, 
comunicação sem fio e tendência para dados “abertos”.
A primeira tendência, mobilidade, cria cada vez mais dados e ao mesmo tempo a 
demanda por dados. Ela reduz drasticamente o tempo no qual a informação é percebida 
como valor, as vezes para segundos. 
Fizemos uma pergunta simples: quanto tempo você está disposto a esperar 
para receber uma atualização de uma notícia? Lembre-se, você tem um smartphone e 
acesso à Internet a sua disposição.
A segunda tendência, comunicação sem fio, tem possibilitado a utilização de 
sensores em quase todos os lugares. A quantidade de dados gerados por sensores de 
temperatura, vento, condições climáticas, ou até mesmo situações envolvendo a saúde 
humana, como, por exemplo, medição de glicose, também está crescendo e tornando 
uma fonte para análise destes dados.
A última tendência “dados abertos”, se deve à utilização crescente de todos 
estes dispositivos por parte de um número cada vez maior de pessoas, deixando de 
estar presente somente nos ambientes corporativos, fazendo parte do nosso cotidiano.
Para uma empresa, é essencial ter acesso a cada vez mais dados do ambiente 
em que opera. Isso permitirá examinar não as classes de comportamento, mas casos 
individuais. Isso explica por que essa revolução trouxe o surgimentodas chamadas 
“startups”, cujo objetivo é processar automaticamente os dados conhecidos como Big 
Data. Certamente nos encontramos na frente de um dos elementos do que algumas 
pessoas chamam de “nova revolução industrial”. 
Está claro que a onipresença dos dados e devido à grande quantidade em 
que estão sendo gerados, irá criar uma demanda por profissionais que saibam coletar, 
armazenar, processar e, o mais importante, extrair informações desse grande conjunto 
de dados, para que cada vez mais sejamos capazes de entender as implicações que 
este novo universo nos traz.
10
Neste tópico, você adquiriu certos aprendizados, como:
RESUMO DO TÓPICO 1
• A quantidade de dados gerados no mundo está crescente vertiginosamente.
• Empresas, como as operadoras de cartão de crédito, telefonia, LinkedIn, Facebook, 
dentre tantas outras, têm os dados como seus ativos principais. 
 
• Existem três grandes tendências para a geração de novos dados, sendo elas a 
mobilidade, a comunicação sem fio e a de dados abertos.
 
• Devido à quantidade de dados gerados, eles não podem ser analisados com um 
simples banco de dados. 
11
1 O Big Data refere-se ao volume, variedade e velocidade de dados – estruturados ou 
não –transmitidos através de redes em processos de transformação e em dispositivos 
de armazenamento até que se torne um conhecimento útil para as empresas. Diante 
deste contexto, podemos afirmar que o Big Data começou: 
a) ( ) Com o surgimento de grande volume de dados gerados em função dos 
avanços tecnológicos.
b) ( ) Com o avanço nas metodologias de tomada de decisões estratégicas das empresas.
c) ( ) Com o avanço no poder de processamento dos computadores disponíveis para 
a população.
d) ( ) Com a necessidade de estarmos sempre conectados as redes sociais divulgando 
no cotidiano.
e) ( ) Com a criação de novas ferramentas de gerenciamento de banco de dados relacionais.
2 Usando de habilidades de programação, conhecimento de domínio e conhecimento 
matemático e estatístico, podemos analisar dados brutos e encontrar padrões 
ocultos. Uma empresa interessada em encontrar insights para gerenciar melhor a 
tomada de decisões a respeito de seus cliente e produtos, terá melhores chances se 
investir em:
a) ( ) Banco de dados Relacionais.
b) ( ) ERP.
c) ( ) Data Science.
d) ( ) Big Data.
e) ( ) Governança de Dados.
3 O Big Data Analytics é considerado um desdobramento do Big Data, softwares 
capazes de trabalhar com dados para transformá-los em informações úteis às 
empresas. O Big Data Analytics se difere do BI (Business Intelligence) por apresentar:
a) ( ) A priorização do ambiente de negócios, não levando em consideração as demais 
áreas da empresa.
b) ( ) A análise das dúvidas já conhecidas pela empresa, com o objetivo de obter 
respostas.
c) ( ) Melhorar a qualidade na coleta dos dados para diminuir o espaço no bando de dados.
d) ( ) A análise dos dados existente e dos futuros para indicar novos caminhos para 
a empresa.
e) ( ) A melhora na comunicação com seus clientes, ofertando novas promoções.
AUTOATIVIDADE
12
4 O Ministério Público Federal possui um conjunto de dados, em que o volume, a velo-
cidade e a variedade de dados são muito grandes, tornando-se difícil de gerenciá-los, 
manipulá-los e analisá-los. A este conjunto de dados, damos o nome de:
a) ( ) Data Warehouse.
b) ( ) Data Mart.
c) ( ) Big Data.
d) ( ) Cloud Computing.
e) ( ) Business Analytics.
5 No universo Big Data, as empresas buscam desbloquear o potencial de dados para gerar 
valor. Elas também estão impacientes para encontrar novas maneiras de processar esses 
dados e tomar decisões mais inteligentes, o que resultará em melhor atendimento ao 
cliente, melhor eficiência de processos e melhores resultados estratégicos. Sabendo 
disso, responda, na sua visão, como o Big Data pode auxiliar as empresas na construção 
desse valor?
13
DO SMART AO BIG DATA
1 INTRODUÇÃO
O surgimento de novas tecnologias, aplicações e fenômenos sociais cria novos 
modelos de negócios, comunidades e complexidades do sistema. Algumas dessas 
mudanças não são lineares e criam mudanças de tipo, como novas forças empresariais 
motrizes e novas estruturas organizacionais, que, por sua vez, impulsionam novas formas 
de interagir e conduzir negócios. Facebook, LinkedIn, Google e Twitter, combinados com 
dispositivos móveis, introduzem tais tecnologias emergentes, que geram ferramentas 
para fácil construção comunitária, colaboração e criação de conhecimento, baseadas 
em redes sociais.
Um requisito fundamental para uma análise de dados bem-sucedida é ter 
acesso a dados semanticamente ricos que vinculem elementos de informação 
pertinentes para análise objetiva. 
No entanto, a situação mudou com o Big Data, porque os dados agora vêm 
de várias fontes de tipos muito diferentes e de diferentes formas (estruturadas, não 
estruturadas). Isso nos leva a dizer que novas ferramentas de processamento de 
dados são agora necessárias, assim como métodos capazes de combinar milhares de 
conjuntos de dados.
Neste tópico, você irá compreender e distinguir a classificação dos dados em 
relação a sua organização, verá exemplos práticos desta organização dos dados e 
compreenderá também como os novos elementos participantes do ecossistema do Big 
Data estão interagindo.
UNIDADE 1 TÓPICO 2 - 
2 DO MICRO AO MACRO 
É incrível como a quantidade de dados para analisar cresceu tão dramaticamente 
durante os últimos 20 anos. Lembramos os dias antes da Web, antes do Big Data, antes 
das mídias sociais e antes do mobile, é incrível como a quantidade de dados para 
analisar cresceu, um banco de dados de clientes com informações básicas, dados de 
compras de varejo de terceiros ou informações de relatórios de crédito eram tão ricos ou 
tão detalhados quanto os dados que uma empresa esperava analisar. 
14
Naquela época era possível construir um bom negócio baseado em informações 
a partir de algo tão simples quanto realizar pesquisas regulares de benchmark e vender 
os resultados para as empresas. Naquela época, as empresas estavam trabalhando com 
menos informações do que precisavam, e, simplesmente, não havia fluxo de informações 
profundas de clientes, concorrentes e do setor em comparação com o que existe hoje. 
O feeling e a experiência eram características de negócio levadas em consideração nas 
reuniões de planejamento. 
Os dados gerados podem vir de várias formas, incluindo dados estruturados 
e não estruturados, como dados financeiros, arquivos de texto, arquivos multimídia e 
mapeamentos genéticos. Diferente da maioria de análise de dados, o Big Data trabalha, 
em sua maioria, com dados não estruturados ou quando semiestruturados, fato que faz 
com que tenhamos diferentes técnicas e ferramentas para extração e processamento 
destes dados.
Mata (2019, p. 15) retrata um pouco da origem dos dados, remontando as 
planilhas eletrônicas:
Os dados que antes eram apenas armazenados em planilhas ele-
trônicas ou em Banco de Dados Relacionais para fins de consulta e/
ou conformidade, hoje estão prontos para uso com as mais diversas 
finalidades. Essa realidade permitiu que áreas da ciência começas-
sem a ganhar destaque, tais como a Computação, a Estatística, a 
Matemática, o Processamento de Linguagem Natural e muitas ou-
tras que abrangem o conhecimento. Além disso, novas tecnologias 
emergiram a partir dessa nova realidade, em que muitas empresas 
investem recursos em soluções de Análise de Dados (Data Analy-
tics) cada vez mais robustas, sejam proprietárias ou open-sources.
É necessário desenvolver esses dados, explorando o conteúdo de e-mails 
e chamadas de voz, e combinar essas informações com atividades de navegação 
no site da empresa. Além disso, também é possível estudar mensagens trocadas em 
redes sociais (Facebook, Twitter, LinkedIn etc.) a fim de identificar novas tendências ou 
identificar os produtos que estão sendo mais comentados.
O acesso aos dados possibilita o enriquecimentode análises quantitativas e 
qualitativas. Os contatos dos clientes podem ser analisados através de dados coletados 
por um call center. Esse tipo de produto também pode ser oferecido em quantidade 
limitada, assim como os prospectos eletrônicos. 
O processo de coleta, processamento e interpretação de informações, não se 
limita à definição de ideias, mas também consiste em materializá-las, a fim de garantir 
uma melhor produção de conhecimento que leve à inovação. 
A inteligência competitiva permite que cada empresa otimize suas ofertas de 
serviços em termos qualitativos e quantitativos, bem como otimize sua tecnologia 
de produção.
15
GRÁFICO 1 – ORGANIZAÇÃO DOS DADOS
FONTE: O autor
O Gráfico 1 mostra quatro tipos de estruturas de dados, com 80 a 90% do 
crescimento futuro de dados provenientes de tipos de dados não estruturados. Embora 
diferente, os quatro são comumente misturados. 
Um Sistema Gerenciador de Banco de Dados Relacionais (SGBDR), por exemplo, 
armazena registro de uma chamada de call center de várias empresas, seja para atendi-
mento ao cliente ou suporte técnico. O SGBDR pode armazenar as características dessas 
chamadas como a data, hora da chamada, ou o tipo da máquina e o problema apresentado.
Além disso, o sistema provavelmente terá dados não estruturados, quase 
ou semiestruturados, como informações de registro de chamadas de um campo de 
observação contidas no formulário, livre retiradas de um corpo de e-mail relativo ao 
problema, histórico de bate-papo do cliente ou transcrição de uma chamada telefônica 
descrevendo o problema técnico e o arquivo de solução ou áudio da conversa de 
chamada telefônica. Muitos insights poderiam ser extraídos dos dados não estruturados, 
quase ou semiestruturados nos dados do call center.
Não obstante, a análise de dados estruturados tende a ser a técnica mais 
utilizada, se faz necessária uma técnica diferente para responder aos desafios da análise 
de dados semiestruturados (mostrados como XML), quase estruturados (mostrados 
como um clickstream) e dados não estruturados.
Vamos apresentar os quatro modelos de dados e como cada um deles pode 
aparecer, para que você consiga diferenciá-los.
• Dados estruturados: possuem estrutura bem definida e rígida. Este tipo não é 
diferente do tipo definido para eles. Contém dados, formato e estrutura definidos (ou 
seja, dados de transação, bancos de dados tradicionais, arquivos CSV e até planilhas 
simples). Veja exemplo no Quadro 1.
16
O melhor exemplo de dados estruturados é o de um banco de dados, no qual 
os dados são definidos conforme o esquema, que, por sua vez, define as tabelas, seus 
campos e tipos.
Os dados estruturados compreendem apenas uma pequena 
parcela dos dados que estão sendo analisados no mundo. Esse 
formato é representado por linhas e colunas e estão armazenados 
em Bancos de Dados Relacionais ou planilhas eletrônicas, tais como: 
Oracle, Excel, MySQL, entre outros. Algumas características dessas 
estruturas são a facilidade de acesso e manipulação, além de um 
esquema de armazenamento e organização bem definidos. Isso quer 
dizer que podemos obter respostas rápidas para alguns tipos de 
perguntas ao realizar uma simples consulta em um banco de dados. 
Para exemplificar, podemos extrair a média de idade dos alunos com 
sexo masculino do Ensino Médio considerando uma determinada 
escola com um simples SQL e utilizando campos estruturados, como 
idade, sexo, escolaridade e escola (MATA, 2019, p. 26).
Lembrem-se, não estamos falando dos tipos de dados de um Banco de 
Dados, mas da estrutura dos dados coletados para análise.
ATENÇÃO
QUADRO 1 – EXEMPLO DE DADOS ESTRUTURADOS
FONTE: Adaptado de IBGE (2020) 
17
• Dados semiestruturados: arquivos de dados textuais com um padrão perceptível 
que permite a análise – como arquivos de dados Extensible Markup Language (XML) 
autodescritos e definidos por um esquema XML. Veja um exemplo no Quadro 2.
Schreiner (2020, p. 71) destaca que: “A Web é composta por uma grande 
quantidade de dados semiestruturados e crus, como as páginas Web (cuja estrutura 
descrita no documento HTML expressa muito pouco do significado do conteúdo do 
documento) e conteúdo multimídia (imagens, sons e vídeos).
Os dados semiestruturados são dados que ainda não foram categorizados, 
organizados num repositório específico, como um banco de dados, mas que, todavia, 
tem informações associadas a eles, como metadados, que o tornam mais acessível ao 
processamento do que os dados brutos.
Mata (2019, p. 26-27) nos apresenta desta forma os dados semiestruturados:
No que se refere a dados semiestruturados, estes normalmente 
estão espalhados pela Web em arquivos HTML, XML ou em Banco de 
Dados não Relacionais, como o MongoDB, que possui uma estrutura 
semelhante a um arquivo JSON. Se pensarmos em um arquivo XML 
ou HTML, perceberemos que existe uma diferença nesses tipos de 
estruturas: a hierarquia ou a estrutura em árvore. As tags ou elementos 
possuem uma certa organização e qualificam os documentos. Os nós 
apresentam uma certa flexibilidade e não contêm uma representação 
fixa ou rígida como em um modelo estruturado, ao contrário, alguns 
campos (tags) podem conter descrições ou informações textuais, 
por exemplo, páginas web (como HTML e CSS), campos de e-mail, 
informações de redes sociais etc.
QUADRO 2 – EXEMPLO DADOS SEMIESTRUTURADOS
FONTE: O autor
18
• Dados quase estruturados: dados textuais com formatos de dados erráticos que 
podem ser formatados com esforço, ferramentas e tempo (por exemplo, dados de 
fluxo de cliques da Web que podem conter inconsistências nos valores e formatos de 
dados). Acompanhe o exemplo na Figura 3.
FIGURA 3 – EXEMPLO DE DADOS QUASE ESTRUTURADOS
FONTE: <https://shutr.bz/3g30JP7>. Acesso em: 23 abr. 2021.
• Dados não estruturados: dados que não têm estrutura inerente, que podem incluir 
documentos de texto, PDFs, imagens, sons e vídeo. Veja na Figura 4.
FIGURA 4 – EXEMPLO DE DADOS NÃO ESTRUTURADOS
FONTE: <https://www.youtube.com/user/wwwuniasselvi>. Acesso em: 23 abr. 2021.
19
A principal diferença entre os dados estruturados e os não estruturados 
consiste principalmente na sua classificação, na qual os dados 
estruturados possuem características detalhadas de sua composição, 
tipo, tamanho, restrições, enquanto os não estruturados não as contém, 
exemplo dos arquivos textuais, arquivos de mídia (som e imagem).
IMPORTANTE
Mata (2019, p. 47) destaca que: “Dados não estruturados representam uma fonte 
rica para extração de insights e são alvo de interesse das empresas especialmente nos 
dias de hoje. Por isso, é necessário construir uma arquitetura que suporte o alto volume 
de dados e que seja flexível a variados tipos de estruturas”.
Francisco (2015) nos apresenta um gráfico detalhando a evolução da quantidade 
de dados gerados, suas respectivas fontes e a estrutura na qual estão classificados.
GRÁFICO 2 – EVOLUÇÃO DOS DADOS GERADOS E SUA CATEGORIZAÇÃO
FONTE: Francisco (2015, p. 9)
20
Devemos concordar que, após a popularização da microcomputação, as três 
principais tendências de tecnologia da informação na última década foram a computação 
em nuvem, os dispositivos mobile e as mídias sociais. Essas três megatendências 
transformaram nossa economia, nossa sociedade e nossas vidas cotidianas.
O Big Data é definido como coleções de conjuntos de dados cujo volume, 
velocidade ou variedade é tão grande que é difícil armazenar, gerenciar, processar e 
analisar os dados usando bancos de dados tradicionais e ferramentas de processamento 
de dados. Nos últimos anos, houve um crescimento exponencial dos dados estruturados 
e não estruturados gerados pela tecnologia da informação, industrial, saúde, internet 
das Coisas (IoT) e outros sistemas.
Ressaltamos que para garantir a coleta relevante, e antes de passar a analisar 
os dados, é essencial definir para quais necessidades analíticas esses dados serão 
pesquisados e coletados, e com quais técnicas e ferramentas.
Os quatro tipos de dadosdescritos anteriormente, às vezes, são generalizados 
em apenas dois grupos: dados estruturados e não estruturados. O Big Data descreve 
novos tipos de dados com os quais a maioria das organizações pode não estar 
acostumada a trabalhar.
O Big Data vem de duas formas: os dados estruturados destinados ao 
processamento de computadores e a linguagem não estruturada que as pessoas leem, 
escrevem e falam. Infelizmente, nenhum sistema de computador hoje pode traduzir de 
forma confiável linguagem não estruturada para os formatos estruturados de bancos de 
dados, planilhas e a web semântica. Mas eles podem fazer um monte de processamento 
útil, e eles estão se tornando mais versáteis. 
As aplicações de Big Data abrangem uma ampla gama de domínios, incluindo 
(mas não se limitando apenas) casas, cidades, meio ambiente, sistemas de energia, 
varejo, logística, indústria em geral, agricultura, Internet das Coisas (IoT) e saúde.
O Big Data tem o potencial de alimentar a próxima geração de aplicativos 
inteligentes que aproveitarão o poder dos dados para tornar os aplicativos mais 
inteligentes. Os aplicativos de Big Data abrangem uma ampla gama de domínios como 
web, varejo e marketing, sistema bancário e financeiro, industrial, saúde, ambiental, 
Internet das Coisas (IoT) e sistemas cibernéticos.
O verdadeiro desafio no Big Data é a descoberta dos dados certos em massas 
de dados não estruturados, mais do que nossos recursos de análise Big Data desafiam 
nossos recursos de detecção de dados.
A tendência do Big Data está gerando uma enorme quantidade de informações 
de muitas novas fontes. Esse dilúvio de dados requer análises avançadas e novos players 
do mercado para aproveitar essas oportunidades e novas dinâmicas de mercado. 
21
Ao mesmo tempo, muitas empresas estão agora inundadas com um grande 
volume e velocidade de dados de vários locais e fontes: dados B2B, dados B2C, 
dados de tráfego, dados transacionais, dados de fornecedores de terceiros, dados 
macroeconômicos e assim por diante. 
Além das fontes de dados mais tradicionais, dados da Web, dados de mídia 
social, dados móveis e novas fontes de terceiros adicionaram outra camada de 
complexidade ao quebra-cabeça de big data que as empresas estão ansiosas para 
resolver. Embora alguns nem saibam por onde começar a lidar com a avalanche de 
dados, outros ainda estão lutando para sair do relatório básico.
Organizações e empresas de análises de dados estão percebendo que os dados 
que podem coletar de indivíduos contêm valor intrínseco e, como resultado, uma nova 
economia está surgindo. À medida que este novo ecossistema se define, existe quatro 
principais elementos nesta interconexão.
3 DATA DEVICES
Dispositivos de dados coletam dados de vários locais e geram continuamente 
novos dados sobre esses dados. Para cada gigabyte de novos dados criados, um 
petabyte adicional de dados é criado sobre esses dados:
• Por exemplo, considere alguém jogando um videogame on-line através de um PC, 
console de jogo ou smartphone. Neste caso, o provedor de videogame captura dados 
de habilidade e dos níveis alcançados pelo jogador. Sistemas inteligentes monitoram 
e registram como e quando o usuário joga o jogo. Como consequência, o provedor 
de jogos pode ajustar a dificuldade do jogo, sugerir outros jogos relacionados que 
provavelmente interessariam ao usuário, e oferecer equipamentos adicionais e 
melhorias para o personagem com base na idade, sexo e interesses do usuário. 
Essas informações podem ser armazenadas localmente ou enviadas para a nuvem 
do provedor de jogos para analisar os hábitos e oportunidades de jogo para upsell e 
cross-sell, e identificar perfis arquetípicos de tipos específicos de usuários.
• Os smartphones fornecem outra rica fonte de dados. Além de mensagens e uso bá-
sico do telefone, eles armazenam e transmitem dados de uso da Internet, uso de 
SMS e localização em tempo real. Esses metadados podem ser usados para analisar 
padrões de tráfego, escaneando a densidade de smartphones em locais para rastrear 
a velocidade dos carros ou o congestionamento relativo de tráfego em estradas mo-
vimentadas. Desta forma, dispositivos GPS em carros podem dar aos motoristas atu-
alizações em tempo real e oferecer rotas alternativas para evitar atrasos no trânsito.
• Os cartões de fidelidade de compras no varejo registram não apenas a quantidade 
que o indivíduo gasta, mas as localizações das lojas que a pessoa visita, os tipos 
de produtos comprados, as lojas onde as mercadorias são compradas com mais 
frequência, e as combinações de produtos comprados juntos. A coleta desses dados 
fornece insights dos hábitos de compra e viagem e a probabilidade de anúncios bem-
sucedidos direcionados a certos tipos de promoções de varejo.
22
4 DATA COLLECTORS 
Os coletores de dados incluem entidades amostrais que coletam dados do 
dispositivo e usuários.
• Dados de uma operadora de TV a cabo que rastreia os programas que uma pessoa 
assiste, quais canais de TV alguém vai ou não vai pagar para assistir sob demanda, e 
os preços que alguém está disposto a pagar pelo conteúdo de TV Premium;
• Lojas de varejo que rastreiam o caminho que um cliente percorre em sua loja enquanto 
empurra um carrinho de compras com um chip RFID para que eles possam medir 
quais produtos obtêm mais tráfego de pé usando dados geoespaciais coletados dos 
chips RFID.
5 DATA AGGREGATORS
Agregadores de dados, essas organizações compilam dados dos dispositivos 
e padrões de uso coletados por agências governamentais, lojas de varejo e sites. Por 
sua vez, eles podem optar por transformar e embalar os dados como produtos para 
vender para listar corretores, que podem querer gerar listas de marketing de pessoas 
que podem ser boas metas para campanhas de anúncios específicas.
6 DATA USERS E BUYERS
Os usuários e compradores de dados, esses grupos se beneficiam diretamente 
dos dados coletados e agregados por outros dentro da cadeia de valor de dados.
• Os bancos de varejo, atuando como compradores de dados, podem querer saber quais 
clientes têm maior probabilidade de solicitar um segundo empréstimo ou uma outra 
linha de crédito. Para fornecer informações para essa análise, os bancos de varejo 
podem comprar dados de um agregador de dados. Esse tipo de dados pode incluir 
informações demográficas de pessoas que vivem em locais específicos; pessoas que 
parecem ter um nível específico de dívida, mas ainda possuem pontuações de crédito 
sólidas (ou outras características, como pagar contas em dia e ter contas de poupança) 
que podem ser usadas para inferir créditos; e aqueles que estão pesquisando na web 
para obter informações de como pagar dívidas ou fazer projetos de reforma de casas. 
A obtenção de dados dessas várias fontes e agregadores permitirá uma campanha 
de marketing mais direcionada, o que teria sido mais desafiador antes do Big Data 
devido à falta de informações ou tecnologias de alto desempenho.
• Usando tecnologias como o Hadoop para realizar o processamento de linguagem 
natural em dados textuais não estruturados de sites de mídia social, os usuários 
podem medir a reação a eventos como campanhas presidenciais. 
23
As pessoas podem, por exemplo, querer determinar sentimentos públicos em relação a 
um candidato analisando blogs relacionados e comentários on-line. Da mesma forma, 
os usuários de dados podem querer rastrear e se preparar para desastres naturais 
identificando quais áreas uma enchente afeta primeiro, com base em quais áreas 
geográficas estão tuitando sobre isso ou discutindo-o através das mídias sociais.
FIGURA 5 – ELEMENTOS DE INTERAÇÃO NO ECOSSISTEMA DO BIG DATA
FONTE: <https://bit.ly/3dHKkyq>. Acesso em: 23 abr. 2021.
De acordo com a figura apresentada para este ecossistema de Big Data 
emergente, os tipos de dados e a dinâmica de mercado relacionada variam muito. 
Esses conjuntos de dados podem incluir dados de sensores, texto, conjuntos de dados 
estruturados e mídias sociais. Com isso em mente, vale lembrar que esses conjuntosde dados não funcionarão bem dentro dos bancos de dados tradicionais, arquitetados 
para agilizar relatórios e dashboards e serem gerenciados centralmente. Em vez disso, 
problemas e projetos de Big Data requerem diferentes abordagens para ter sucesso.
Os analistas precisam fazer parcerias com TI e DBAs para obter os dados 
necessários dentro de um repositório que contenha dados brutos, dados agregados e 
dados com vários tipos de estrutura. 
Ao observarmos o contexto do ecossistema emergente de Big Data, nos 
deparamos com novos atores surgindo. Atores que trabalham com a curadoria, o 
armazenamento, a produção, o tratamento e o processamento destes dados. Além 
disso, a necessidade de aplicar técnicas analíticas mais avançadas a problemas de 
negócios cada vez mais complexos tem impulsionado o surgimento de novas funções, 
novas plataformas tecnológicas e novos métodos analíticos.
24
Apache Hadoop é uma estrutura de código aberto que permite que as 
empresas processem grandes quantidades de informações de forma 
altamente paralela. Hadoop representa uma implementação específica 
do paradigma MapReduce e foi projetado por Doug Cutting e Mike 
Cafarella, em 2005, para usar dados com estruturas variadas. Disponível 
em: https://hadoop.apache.org/.
NOTA
25
RESUMO DO TÓPICO 2
 Neste tópico, você adquiriu certos aprendizados, como:
• Dados estruturados possuem estrutura bem definida e rígida.
• Dados semiestruturados são arquivos de dados textuais com um padrão perceptível 
que permite a análise.
• Dados quase estruturados: dados textuais com formatos de dados erráticos que 
podem ser formatados com esforço, ferramentas e tempo.
• Dados não estruturados: dados que não têm estrutura inerente, que podem incluir 
documentos de texto, PDFs, imagens, sons e vídeo.
• Houve uma evolução gigantesca na geração de dados desestruturados com o 
advento da Internet e das redes sociais. 
• O Big Data trabalha com dados não estruturados.
• Existem quatro principais elementos no ecossistema de Big Data, sendo eles: 
dispositivos de dados, coletores de dados, agregadores de dados e usuários e 
compradores de dados. 
26
1 O Big Data trabalha com dados oriundos das mais diversas fontes, em sua maioria, 
gerados pelas mídias sociais. Quando estamos trabalhando com esse tipo de dados, 
nos referimos a qual tipo:
a) ( ) Quase estruturado.
b) ( ) Não estruturado.
c) ( ) Estruturado.
d) ( ) Semiestruturado.
e) ( ) Pré estruturados.
2 A Nota Fiscal Eletrônica gera também um arquivo no formato XML. Em relação ao tipo 
de estrutura de dados para Big Data, este formato consiste em qual tipo de dados:
a) ( ) Dados estruturados.
b) ( ) Não estruturados.
c) ( ) Semi estruturados.
d) ( ) Quase estruturados.
e) ( ) Desestruturados.
3 Os bancos de dados relacionais trabalham com tabelas contendo os atributos a 
serem armazenados. Este tipo de dado no Big Data é considerado como:
a) ( ) Quase estruturado.
b) ( ) Não estruturado.
c) ( ) Estruturado.
d) ( ) Semiestruturado.
e) ( ) Pré estruturados.
4 O mouse se tornou um periférico muito importante, os praticantes de jogos 
eletrônicos possuem mouses muito sensíveis que respondem aos comandos quase 
que em tempo real. Esses comandos, muitas vezes acionados por clique nos botões 
do mouse, também geram dados que podem ser analisados pelo Big Data. Ao analisar 
essa afirmação, estamos falando de qual tipo de estrutura de dados?
a) ( ) Não estruturado.
b) ( ) Quase estruturado.
c) ( ) Estruturado.
d) ( ) Pré estruturados. 
e) ( ) Semiestruturado.
AUTOATIVIDADE
27
5 Quando usamos nosso cartão, seja ele de crédito ou débito, em nossa compras, 
os dados gerados por essa ação informam não somente o valor da compra, mas 
uma série de outras informações podem ser geradas, como a loja onde compramos, 
o tipo de produto comprado, a periodicidade de nossas compras, ou seja, nosso 
hábito de compras. A coleta desses dados se dá por intermédio de qual elemento da 
interconexão do ecossistema de Big Data?
a) ( ) Data Devices.
b) ( ) Data Center.
c) ( ) Data Collectors.
d) ( ) Data Users.
e) ( ) Data Buyers.
28
29
TÓPICO 3 - 
OS Vs DO BIG DATA
1 INTRODUÇÃO
No universo Big Data, as empresas buscam desbloquear o potencial de dados 
para gerar valor. Eles também estão impacientes para encontrar novas maneiras 
de processar esses dados e tomar decisões mais inteligentes, o que resultará em 
melhor atendimento ao cliente, melhor eficiência de processos e melhores resultados 
estratégicos.
Na literatura, o conceito de Big Data é definido em termos da teoria dos “três 
Vs”, dos “cinco Vs”, ou dos “sete Vs”. A velocidade exponencial com que os dados são 
gerados, bem como a multiplicidade de fontes que os geram em diferentes formatos 
(digital, texto, imagens etc.), são características desse fenômeno.
Neste tópico, você compreenderá estas características e como elas auxiliar a 
explicar os desafios postos para quem deseja desenvolver um projeto de Big Data.
UNIDADE 1
2 BIG DATA E SEUS V’s
O mundo dos dados está se tornando mais competitivo a cada dia, como 
refletido em termos de volume, variedade e valor. É por isso que agora falamos sobre 
Big Data. Os dados são um ativo fundamental para a criação de valor, bem como um 
elemento que favorece e promove a inovação, o crescimento e o desenvolvimento. Com 
a revolução digital, os dados assumiram um papel central na economia. No entanto, 
alcançar todo o potencial dos dados depende da forma como são apresentados. Deve 
ser usado e reutilizado de diferentes maneiras sem diminuir seu valor.
Vimos que a velocidade em que os dados são gerados é incrível, o volume de 
dados gerados está crescendo cada vez mais e a variedade dos dados é outro fator 
importantíssimo quando falamos de dados. Isso vem de encontro ao conceito que 
define o Big Data como: “[...] um grande volume de informações, com alta velocidade e/
ou ativos de informações de alta variedade que exige formas inovadoras e econômicas 
de processamento de informações que permitem uma melhor percepção na tomada de 
decisão e automação de processos” (BIG DATA, 2018, s. p.).
30
Gonçalves, Rogério e Morais (2019, p. 19) destacam que o “O termo Big Data 
é, muitas vezes, caracterizado por três vertentes que, inclusive, são conhecidas como 
os três Vs: volume, variedade e veracidade”, acrescentando em seguida mais dois Vs: 
“É comum nos depararmos com outros dois Vs que também contemplam de forma 
coerente os conceitos sobre essa tecnologia: o valor e a velocidade”. 
2.1 VOLUME
O Big Data é uma forma de dados cujo volume é tão grande que não caberia 
em uma única máquina, portanto, ferramentas e frameworks especializados são 
necessários para armazenar processos e analisar tais dados. Quando comparados com 
dados pequenos, o Big Data aumentou em volume e velocidade e expandiu-se para 
incluir uma variedade de outros tipos de dados.
Por exemplo, aplicativos de mídia social processam bilhões de mensagens todos 
os dias, sistemas industriais e de energia podem gerar terabytes de dados de sensores 
todos os dias, aplicativos de agregação de táxi podem processar milhões de transações 
em um dia etc. 
Os volumes de dados gerados pela moderna TI, industrial, saúde, Internet 
das Coisas e outros sistemas estão crescendo exponencialmente impulsionados pela 
redução dos custos de armazenamento e processamento de dados e pela necessidade 
de extrair insights valiosos dos dados para melhorar os processos de negócios, eficiência 
e servidão aos consumidores. 
Embora não exista um limite fixo para que o volume de dados seja considerado 
como big data, no entanto, normalmente, o termo big data é usado para dados em 
grande escala difíceis de armazenar, gerenciar e processar usando bancos de dados 
tradicionais e arquiteturas de processamento de dados.
O volume de dados gerados é tão grande que é impossível ser armazenado, 
processado e analisado por apenas uma máquina. Você se lembra da época em que se 
levava disquete?Para recordar as medidas em byte, veja este comparativo, disponível 
em: https://bit.ly/3oSZENQ.
DICAS
31
FIGURA 6 – VOLUME DE DADOS GERADOS
FONTE: <https://bit.ly/350c4t5>. Acesso em: Acesso em: 23 abr. 2021.
Também Mata (2019, p. 23), ao analisar a questão de volume dos dados, 
menciona que o volume: 
[...] diz respeito à quantidade de dados – com tamanhos na ordem 
de peta, hepta ou exabytes sendo gerados e que, uma vez extraídos, 
deverão ser suportados na arquitetura de Big Data. Isso quer dizer 
que o quesito escalabilidade precisa ser pensado no início de uma 
implementação do Big Data.
O volume de dados é muito bem evidenciado quando falamos da quantidade 
de e-mails enviados, da quantidade de mensagens trocadas em nossas redes sociais, 
na quantidade de transações bancárias realizadas, em praticamente todas as ações 
efetuadas nessa nova era. 
Todos esses elementos servem de ponto de partida para entendermos o volume, 
a quantidade, de dados gerados no mundo atualmente.
Esta enorme quantidade de dados gerada diariamente nos permite fazer as 
mais variadas análises nos mais variados tipos de dados. Esse também é um fator 
muito relevante no tocante à armazenagem desses dados, como vemos a expansão 
dos servidores, dos serviços de nuvem disponibilizados que vêm aumentando 
constantemente.
32
2.2 VELOCIDADE
A segunda característica diz respeito à dinâmica do volume de dados, ou seja, 
a natureza sensível ao tempo do Big Data, já que a velocidade de sua criação e uso é 
muitas vezes (quase) em tempo real.
A velocidade dos dados é muito alta e os dados precisam ser analisados em 
tempo real. O crescimento dos dados e a explosão das mídias sociais mudaram a forma 
como olhamos para eles. Houve um tempo em que costumávamos acreditar que os 
dados de ontem eram recentes. No entanto, canais de notícias e rádios mudaram a 
rapidez com que recebemos a notícia. Hoje, as pessoas respondem nas redes sociais 
para atualizá-los com o mais recente acontecimento, o imediatismo nas respostas. Nas 
mídias sociais, às vezes, algumas mensagens antigas (um tweet, atualizações de status 
etc.) não é algo que interessa aos usuários. Muitas vezes descartam mensagens antigas 
e prestam atenção às atualizações recentes. O movimento dos dados agora é quase em 
tempo real e a janela de atualização foi reduzida a frações dos segundos.
Velocidade simplesmente significa que os dados têm um fluxo contínuo e 
uma velocidade rápida entrando em sua organização, que, às vezes, é referida como 
“streaming”. Infelizmente, como o volume de dados aumentou dramaticamente em toda 
a empresa, a velocidade também aumentou. Isso se deve principalmente ao crescimento 
da Internet e do uso móvel, de tal forma que os dados estão fluindo 24 horas por dia, 
sete dias por semana, todos os dias do ano. Portanto, se você é uma empresa de 
internet, sua arquitetura de dados e ferramentas devem acomodar o processamento de 
alta velocidade de dados e volume o tempo todo, sem parar. Como resultado, empresas 
como varejistas on-line são capazes de compilar grandes histórias de cada clique e 
interação dos clientes, não apenas as vendas finais. Amaral (2016, p. 15) destaca que a 
velocidade:
 
[...] a velocidade diz respeito não somente a da produção do dado em 
si, mas a velocidade do processamento e produção de informação 
e conhecimento, visto que o valor da informação é inversamente 
proporcional ao tempo em que ocorreu o evento que gerou o dado. 
Por exemplo, ocorreu uma falha em um equipamento. O operador 
recebe o alerta 5 segundos depois da falha: ele desliga o equipamento, 
identifica a falha, aperta o colar de suporte vibratório e a linha de 
produção volta a produzir em 10 minutos.
Já, para Mata (2019, p. 24-25), a:
 
Velocidade está relacionada a questões de desempenho. O 
processamento dos dados precisa ser eficiente a ponto de não 
causar altas taxas de latência no fluxo de dados. O sucesso de uma 
implementação do Big Data também está relacionado a entregar 
respostas em tempo hábil e, por isso, estratégias (por exemplo, 
cache dos dados) podem ser adotadas para otimizar o desempenho. 
33
É importante considerar também qual o foco da análise, isto é, se 
o processamento será em lote (batch) ou em tempo real, ou ambos 
(arquitetura Lambda). Essa questão é um importante requisito de 
negócio, pois quando lidamos com processamento em lote são 
alocados maiores recursos de armazenamentos em detrimento ao 
processamento em tempo real.
A alta velocidade dos dados resulta no volume de dados acumulados para se 
tornar muito grande, em curto espaço de tempo. Alguns aplicativos podem ter prazos 
rigorosos para análise de dados (como negociação ou detecção de fraudes on-line) 
e os dados precisam ser analisados em tempo real. Ferramentas especializadas são 
necessárias para ingerir esses dados de alta velocidade na infraestrutura de Big Data 
e analisar os dados em tempo real.
GRÁFICO 3 – TENDÊNCIA DE CRESCIMENTO DO VOLUME DE DADOS DURANTE OS ANOS
FONTE: <https://bit.ly/2TSVE3q>. Acesso em: 23 abr. 2021.
O Gráfico 3 nos apresenta a quantidade de dados gerados desde 2010, e faz 
uma projeção até o ano de 2020. Se observarmos a quantidade gerada podemos fazer 
uma analogia com a velocidade com que estes dados estão sendo gerados, pois a 
crescente utilização de smartphones dentre outras formas de disseminação, faz com 
que mais dados sejam produzidos e colocados à disposição a cada minuto. Cabe 
destacar que estes dados são analisados no momento em que eles são gerados, não 
sendo armazenados em um banco de dados.
2.3 VERACIDADE
Você confia em tudo o que é postado nas redes sociais? Não é possível ter o 
controle das informações falsas publicadas na internet, mas através de análises e com 
uma base estatística aplicada nos grandes volumes de dados é possível verificar se a 
informação é verdadeira ou falsa.
34
Para que tenhamos um bom resultado na análise, é necessário que os dados 
sejam verídicos e de acordo com a realidade. A questão da velocidade apresentada 
anteriormente está intrinsecamente alinhada com a veracidade dos dados, uma vez que 
os dados representam o momento em que foram gerados, desde que sejam verídicos 
realmente, não sejam fake, forjados. 
[...] precisamos confiar nos dados adquiridos e a veracidade está 
relacionada à inconsistência, à ambiguidade e à incompletude 
desses dados. Quando anexamos fontes de dados externas à 
nossa arquitetura, precisamos ter um cuidado especial, uma 
vez que não temos total controle desses dados, como teríamos 
se estivéssemos coletando dados de sistemas legados da 
empresa. Por isso, devemos sempre questionar os dados que 
adquirimos e garantir que a origem da nossa arquitetura não seja 
comprometida com dados que possam enviesar ou distorcer 
nossas análises. Assim, a veracidade desempenha um papel 
importante dentro do Big Data (MATA, 2019, p. 24, grifo do original).
FIGURA 7 – VERACIDADE DOS DADOS
FONTE: <https://shutr.bz/3w77g0O>. Acesso em: 23 abr. 2021.
A veracidade refere-se à precisão dos dados. Para extrair valor dos dados, os 
dados precisam ser limpos para remover o ruído. Aplicativos baseados em dados só 
podem colher os benefícios do Big Data quando os dados são significativos e precisos. 
Portanto, a limpeza de dados é importante para que dados incorretos e defeituosos 
possam ser filtrados.
Para Lokianova e Rubin (2014), a veracidade em Big Data está diretamente 
relacionada com o gerenciamento de incertezas. As autoras trazem uma proposta de 
reduzir a incerteza dos dados textuais, utilizando ferramentas de linguística compu-
tacional, sendo avaliados em três elementos: veracidade, objetividade e credibilidade.
35
A veracidade dos dados, em geral, é o quão preciso ou verdadeiro um conjunto 
de dados pode ser. No contexto do Big Data, no entanto, ele assume um pouco mais 
de significado. Mais especificamente, quando se trata da precisão do Big Data, não é 
apenas a qualidade dos dados em si, mas o quão confiável é a fonte de dados,

Continue navegando