Big Data Analytics- Análise e Visualização dos Dados

•

Colegio Franciscano Santo Inacio

Ryan Silva

22/10/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 238 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 238 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 238 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Matemática

639.671 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Indaial – 2021
Análise e
VisuAlizAção
dos dAdos
Prof. Arquelau Pasta
1a Edição
Big dAtA
AnAlytics:
Elaboração:
Prof. Arquelau Pasta
Copyright © UNIASSELVI 2021
Revisão, Diagramação e Produção:
Equipe Desenvolvimento de Conteúdos EdTech
Centro Universitário Leonardo da Vinci – UNIASSELVI
Ficha catalográfica elaborada pela equipe Conteúdos EdTech UNIASSELVI
Impresso por:
P291b
Pasta, Arquelau

Big data analytics: análise e visualização dos dados. /
Arquelau Pasta – Indaial: UNIASSELVI, 2021.

228 p.; il.
ISBN 978-65-5663-747-1
ISBN Digital 978-65-5663-748-8

1. Big data analytics. - Brasil. II. Centro Universitário Leonardo
da Vinci.
CDD 004
Prezado acadêmico! Seja bem-vindo à disciplina de Big Data Analytics: Análise
e Visualização dos Dados.
Este livro didático foi elaborado com o intuito de contribuir e aprimorar o seu
conhecimento acerca destas três unidades principais: Unidade 1: Big Data Analytics;
Unidade 2: Trabalhando com Dados e Unidade 3: Big Data para Negócios.
Em muitas empresas, a análise de dados já faz parte da rotina de negócios. Esta
é uma das estratégias utilizadas no auxílio da otimização dos processos administrativos
e ajuda no entendimento do padrão de comportamento dos clientes e do mercado,
buscando tornar os produtos e/ou serviços mais competitivos, e por que não mais
lucrativos. O que observamos é que a quantidade de dados gerados cresce a cada dia
e nem pensar em fazer uma análise nesses dados de forma manual. É neste momento
que entra em ação o Big Data Analytics.
Com o avanço das tecnologias digitais, as plataformas estão possibilitando cada
vez mais a geração de dados, mas ainda há pouca análise desses dados. Este cenário
permite que haja uma forte tendência na criação de novas técnicas e ferramentas
capazes de realizar análises em tempo real, visando a um melhor desempenho para
aqueles que souberem interpretar as informações geradas. Com investimentos na
utilização de ferramentas de Big Data Analytics, as empresas podem desenvolver seus
produtos e/ou serviços de forma mais eficiente e eficaz, tendo significativa melhora em
seus processos. A correta utilização do Big Data Analytics possibilita que as empresas
atraiam mais clientes, mantenham os já existentes, explorem novos mercados e, de
quebra, se tornem mais competitivas e lucrativas.
Aproveitamos este momento para destacar que os exercícios NÃO SÃO
OPCIONAIS. O objetivo de cada exercício deste livro didático é a fixação de determinado
conceito, bem como o aprimoramento dos seus saberes. É aí que reside a importância
de você realizar todas as atividades propostas. Sugerimos fortemente que, em caso
de dúvida em algum exercício, você entre em contato com seu tutor externo e que
não passe para o exercício seguinte enquanto o atual não estiver completamente
compreendido.
Por fim, ressaltamos que, mesmo sendo uma área muito ampla, o livro didático
lhe oferece um início sólido e consistente do tema. Desejamos a você uma excelente
experiência nos estudos dos conteúdos desta disciplina!
Prof. Arquelau Pasta
APRESENTAÇÃO
Olá, acadêmico! Para melhorar a qualidade dos materiais ofertados a você – e
dinamizar, ainda mais, os seus estudos –, nós disponibilizamos uma diversidade de QR Codes
completamente gratuitos e que nunca expiram. O QR Code é um código que permite que você
acesse um conteúdo interativo relacionado ao tema que você está estudando. Para utilizar
essa ferramenta, acesse as lojas de aplicativos e baixe um leitor de QR Code. Depois, é só
aproveitar essa facilidade para aprimorar os seus estudos.
GIO
QR CODE
Olá, eu sou a Gio!
No livro didático, você encontrará blocos com informações
adicionais – muitas vezes essenciais para o seu entendimento
acadêmico como um todo. Eu ajudarei você a entender
melhor o que são essas informações adicionais e por que você
poderá se beneficiar ao fazer a leitura dessas informações
durante o estudo do livro. Ela trará informações adicionais
e outras fontes de conhecimento que complementam o
assunto estudado em questão.
Na Educação a Distância, o livro impresso, entregue a todos
os acadêmicos desde 2005, é o material-base da disciplina.
A partir de 2021, além de nossos livros estarem com um
novo visual – com um formato mais prático, que cabe na
bolsa e facilita a leitura –, prepare-se para uma jornada
também digital, em que você pode acompanhar os recursos
adicionais disponibilizados através dos QR Codes ao longo
deste livro. O conteúdo continua na íntegra, mas a estrutura
interna foi aperfeiçoada com uma nova diagramação no
texto, aproveitando ao máximo o espaço da página – o que
também contribui para diminuir a extração de árvores para
produção de folhas de papel, por exemplo.
Preocupados com o impacto de ações sobre o meio ambiente,
apresentamos também este livro no formato digital. Portanto,
acadêmico, agora você tem a possibilidade de estudar com
versatilidade nas telas do celular, tablet ou computador.
Preparamos também um novo layout. Diante disso, você
verá frequentemente o novo visual adquirido. Todos esses
ajustes foram pensados a partir de relatos que recebemos
nas pesquisas institucionais sobre os materiais impressos,
para que você, nossa maior prioridade, possa continuar os
seus estudos com um material atualizado e de qualidade.
Acadêmico, você sabe o que é o ENADE? O Enade é um
dos meios avaliativos dos cursos superiores no sistema federal de
educação superior. Todos os estudantes estão habilitados a participar
do ENADE (ingressantes e concluintes das áreas e cursos a serem
avaliados). Diante disso, preparamos um conteúdo simples e objetivo
para complementar a sua compreensão acerca do ENADE. Confira,
acessando o QR Code a seguir. Boa leitura!
ENADE
LEMBRETE
Olá, acadêmico! Iniciamos agora mais uma
disciplina e com ela um novo conhecimento.
Com o objetivo de enriquecer seu conheci-
mento, construímos, além do livro que está em
suas mãos, uma rica trilha de aprendizagem,
por meio dela você terá contato com o vídeo
da disciplina, o objeto de aprendizagem, materiais complementa-
res, entre outros, todos pensados e construídos na intenção de
auxiliar seu crescimento.
Acesse o QR Code, que levará ao AVA, e veja as novidades que
preparamos para seu estudo.
Conte conosco, estaremos juntos nesta caminhada!
SUMÁRIO
UNIDADE 1 - INTRODUÇÃO AO BIG DATA ANALYTICS ......................................................... 1
TÓPICO 1 - A ERA DOS DADOS ..............................................................................................3
1 INTRODUÇÃO .......................................................................................................................3
2 É TEMPO DE DADOS ............................................................................................................3
RESUMO DO TÓPICO 1 .........................................................................................................10
AUTOATIVIDADE ...................................................................................................................11
TÓPICO 2 - DO SMART AO BIG DATA ................................................................................... 13
1 INTRODUÇÃO ..................................................................................................................... 13
2 DO MICRO AO MACRO ...................................................................................................... 13
3 DATA DEVICES .................................................................................................................. 21
4 DATA COLLECTORS ........................................................................................................ 22
5 DATA AGGREGATORS ......................................................................................................22
6 DATA USERS E BUYERS................................................................................................... 22
RESUMO DO TÓPICO 2 ........................................................................................................ 25
AUTOATIVIDADE ................................................................................................................. 26
TÓPICO 3 - OS Vs DO BIG DATA .......................................................................................... 29
1 INTRODUÇÃO .................................................................................................................... 29
2 BIG DATA E SEUS V’s ....................................................................................................... 29
2.1 VOLUME .................................................................................................................................................30
2.2 VELOCIDADE ........................................................................................................................................32
2.3 VERACIDADE .......................................................................................................................................33
2.4 VARIEDADE ..........................................................................................................................................35
2.5 VALOR .................................................................................................................................................... 37
2.6 VISUALIZAÇÃO ....................................................................................................................................38
2.7 VOLATILIDADE .....................................................................................................................................39
RESUMO DO TÓPICO 3 ........................................................................................................ 42
AUTOATIVIDADE ................................................................................................................. 43
TÓPICO 4 - O CICLO DE VIDA DO BIG DATA ....................................................................... 45
1 INTRODUÇÃO .................................................................................................................... 45
2 AS FASES DO BIG DATA ................................................................................................... 45
2.1 DESCOBERTA....................................................................................................................................... 48
2.2 PREPARAÇÃO DOS DADOS ...............................................................................................................51
2.3 PLANEJAMENTO DE MODELOS ......................................................................................................52
2.4 CONSTRUINDO O MODELO ...............................................................................................................53
2.5 COMUNICAR OS RESULTADOS ........................................................................................................53
2.6 OPERACIONALIZAÇÃO ......................................................................................................................54
RESUMO DO TÓPICO 4 ........................................................................................................ 55
AUTOATIVIDADE ................................................................................................................. 56
TÓPICO 5 - OS MITOS E VERDADES DO BIG DATA .............................................................59
1 INTRODUÇÃO .....................................................................................................................59
2 VERDADES E MENTIRAS SOBRE BIG DATA ....................................................................59
2.1 MITO 1 – BIG DATA É PARA GRANDES EMPRESAS ......................................................................60
2.2 MITO 2 – BIG DATA REQUER GRANDES ORÇAMENTOS E GRANDES EQUIPES ...................60
2.3 MITO 3 – QUANTO MAIS DADOS, MELHOR! ...................................................................................61
2.4 MITO 4 – O BIG DATA SUBSTITUIRÁ O DATA WAREHOUSE ......................................................62
2.5 MITO 5 – BIG DATA TORNA QUALQUER EMPRESA LUCRATIVA ..............................................62
RESUMO DO TÓPICO 5 ........................................................................................................ 63
AUTOATIVIDADE ................................................................................................................. 64
TÓPICO 6 - APLICAÇÕES MAIS USUAIS DE BIG DATA ......................................................67
1 INTRODUÇÃO .....................................................................................................................67
2 QUEM USA BIG DATA? ......................................................................................................67
LEITURA COMPLEMENTAR ................................................................................................. 71
RESUMO DO TÓPICO 6 .........................................................................................................76
AUTOATIVIDADE .................................................................................................................. 77
REFERÊNCIAS ......................................................................................................................79
UNIDADE 2 — TRABALHANDO COM DADOS ...................................................................... 83
TÓPICO 1 — PROCESSANDO DADOS PARA BIG DATA ....................................................... 85
1 INTRODUÇÃO .................................................................................................................... 85
2 PROCESSAMENTO DE DADOS ........................................................................................ 86
2.1 EXPLOSÃO DE DADOS ........................................................................................................................87
2.1.1 Como lidar com a escalabilidade em Big Data? ..................................................................90
2.1.2 Escalabilidade horizontal .........................................................................................................94
2.1.3 Escalabilidade vertical ..............................................................................................................96
RESUMO DO TÓPICO 1 .........................................................................................................99
AUTOATIVIDADE ................................................................................................................100
TÓPICO 2 - BIG DATA E A COMPUTAÇÃO EM NUVEM ......................................................103
1 INTRODUÇÃO ...................................................................................................................103
2 BIG DATA E CLOUD COMPUTING ....................................................................................103
2.1 IAAS: INFRAESTRUTURA COMO SERVIÇO ..................................................................................106
2.2 PAAS: PLATAFORMA COMO SERVIÇO ......................................................................................... 107
2.3 SAAS: SOFTWARE COMO SERVIÇO ..............................................................................................108
2.4 FAAS: FUNÇÕES COMO SERVIÇO .................................................................................................109
3 OS TIPOS DE IMPLANTAÇÃO DE NUVENS ..................................................................... 112
3.1 NUVEM PÚBLICA ................................................................................................................................112
3.2 NUVEM PRIVADA...............................................................................................................................113
3.3 COMMUNITY CLOUD .........................................................................................................................113
3.4 NUVEM HÍBRIDA ................................................................................................................................114
RESUMO DO TÓPICO 2 ....................................................................................................... 116
AUTOATIVIDADE .................................................................................................................117
TÓPICO 3 - BANCOS DE DADOS PARA BIG DATA............................................................. 119
1 INTRODUÇÃO ................................................................................................................... 119
2 TIPOS DE BANCOS DE DADOS PARA BIG DATA ............................................................120
2.1 BANCO DE DADOS NOSQL .............................................................................................................. 122
3 CLASSIFICAÇÕES DE BANCOS DE DADOS NÃO RELACIONAIS .................................. 131
3.1 BANCOS DE DADOS ORIENTADO A CHAVE/VALOR...................................................................131
3.2 BANCOS DE DADOS ORIENTADOS A DOCUMENTOS ............................................................... 133
3.3 BANCOS DE DADOS ORIENTADOS A COLUNAS ....................................................................... 137
3.4 BANCOS DE DADOS ORIENTADOS A GRAFOS .......................................................................... 139
4 MONGODB .......................................................................................................................142
5 A ABORDAGEM NÃO RELACIONAL ............................................................................... 144
5.1 CRIAÇÃO OU GERAÇÃO DE CHAVE ............................................................................................... 147
6 PREPARAÇÃO DOS DADOS ............................................................................................148
LEITURA COMPLEMENTAR ............................................................................................... 151
RESUMO DO TÓPICO 3 .......................................................................................................155
AUTOATIVIDADE ................................................................................................................156
REFERÊNCIAS ....................................................................................................................158
UNIDADE 3 — BIG DATA PARA NEGÓCIOS ........................................................................163
TÓPICO 1 — BIG DATA NAS ORGANIZAÇÕES ....................................................................165
1 INTRODUÇÃO ...................................................................................................................165
2 BIG DATA NAS ORGANIZAÇÕES .....................................................................................166
2.1 FASES DO BIG DATA ..........................................................................................................................168
2.1.1 Fase 1 – descoberta ................................................................................................................. 169
2.1.2 Fase 2 – preparação e processamento dos dados ......................................................... 169
2.1.3 Fase 3 – planejamento do modelo ...................................................................................... 170
2.1.4 Fase 4 – construção do modelo ........................................................................................... 171
2.1.5 Fase 5 – comunicação dos resultados ............................................................................... 171
2.1.6 Fase 6 – medição da eficácia ................................................................................................ 171
2.2 COMO AS EMPRESAS USAM BIG DATA PARA CAPTAR E RETER SEUS CLIENTES? ........ 173
2.2.1 Transformando dados em decisões .................................................................................... 175
2.3 O BIG DATA NO MARKETING............................................................................................................176
2.4 BIG DATA E GERENCIAMENTO DE RISCOS ..................................................................................177
2.5 BIG DATA E A CADEIA DE SUPRIMENTOS ................................................................................... 179
RESUMO DO TÓPICO 1 ....................................................................................................... 181
AUTOATIVIDADE ................................................................................................................182
TÓPICO 2 - INOVAÇÃO E TOMADA DE DECISÃO COM BIG DATA .....................................185
1 INTRODUÇÃO ...................................................................................................................185
2.1 BIG DATA E OS SISTEMAS DE INFORMAÇÃO .............................................................................. 187
2.1.1 Implementação de Sistemas de Big Data em Organizações ........................................190
2.2 BIG DATA E SEUS TIPOS DE ANÁLISES ....................................................................................... 192
2.2.1 Análise descritiva ..................................................................................................................... 193
2.2.2 Análise diagnóstica ................................................................................................................ 195
2.2.3 Análise preditiva ..................................................................................................................... 196
2.2.4 Análise prescritiva ..................................................................................................................198
RESUMO DO TÓPICO 2 ...................................................................................................... 200
AUTOATIVIDADE ................................................................................................................201
TÓPICO 3 - BIG DATA NA PRÁTICA .................................................................................. 203
1 INTRODUÇÃO .................................................................................................................. 203
2 IMPLANTANDO BIG DATA NAS EMPRESAS .................................................................. 203
2.1 EM BUSCA DOS DADOS PERFEITOS ............................................................................................ 204
2.2 DESENHANDO UMA METODOLOGIA PARA BIG DATA ............................................................. 206
2.3 ESCOLHAM SUAS ARMAS ..............................................................................................................207
2.3.1 Hadoop ......................................................................................................................................208
2.3.2 Bancos de dados NoSQL ...................................................................................................... 209
2.3.3 MapReduce ..............................................................................................................................211
2.3.4 Yarn ............................................................................................................................................ 213
2.3.5 Spark .......................................................................................................................................... 215
2.3.6 Tableau .....................................................................................................................................216
2.4 PREPARE SEUS GUERREIROS ...................................................................................................... 217
LEITURA COMPLEMENTAR .............................................................................................. 220
RESUMO DO TÓPICO 3 ...................................................................................................... 223
AUTOATIVIDADE ............................................................................................................... 224
REFERÊNCIAS ................................................................................................................... 226
1
UNIDADE 1 -
INTRODUÇÃO AO BIG DATA
ANALYTICS
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você deverá ser capaz de:
• definir e esclarecer os principais conceitos relacionados ao Big Data Analytics;
• analisar e discutir, a partir dos conceitos e da compreensão dos componentes que
fazem parte da arquitetura de Big Data;
• identificar as principais problemáticas associadas à elaboração de um projeto de Big
Data Analytics;
• analisar as fontes de origem e tipos de dados a serem trabalhados no Big Data
Analytics;
• categorizar as principais vertentes do Big Data Analytics.
Esta unidade está dividida em seis tópicos. No decorrer dela, você encontrará
autoatividades com o objetivo de reforçar o conteúdo apresentado.
TÓPICO 1 – A ERA DOS DADOS
TÓPICO 2 – DO SMART AO BIG DATA
TÓPICO 3 – OS Vs DO BIG DATA
TÓPICO 4 – O CICLO DE VIDA DO BIG DATA
TÓPICO 5 – OS MITOS E VERDADES DO BIG DATA
TÓPICO 6 – APLICAÇÕES MAIS USUAIS DE BIG DATA
Preparado para ampliar seus conhecimentos? Respire e vamos em frente! Procure
um ambiente que facilite a concentração, assim absorverá melhor as informações.
CHAMADA
2
CONFIRA
A TRILHA DA
UNIDADE 1!
Acesse o
QR Code abaixo:
3
A ERA DOS DADOS
1 INTRODUÇÃO
Devido ao rápido crescimento das tecnologias de rede sem fio (por exemplo, 5G)
e à crescente demanda por serviços com alta qualidade de serviço solicitação (QoS),
o gerenciamento de recursos de rede torna-se uma etapa permanentemente mais
desafiadora que requer ser corretamente projetada para avançar o desempenho da rede.
Os dados digitais produzidos são, em parte, resultado do uso de dispositivos
conectados à internet. Assim, smartphones, tablets e computadores transmitem dados
de seus usuários. Objetos inteligentes conectados transmitem informações do uso de
objetos cotidianos pelo consumidor.
Além dos dispositivos conectados, os dados vêm de uma ampla gama de
fontes: dados demográficos, dados climáticos, dados científicos e médicos, dados de
consumo de energia etc. Todos esses dados fornecem informações da localização dos
usuários dos dispositivos, suas viagens, seus interesses, seus hábitos de consumo,
suas atividades de lazer, e seus projetos e assim por diante.
Neste tópico, você compreenderá a origem dos dados, quais são as principais
fontes que estão gerando esta quantidade gigantesca. Além disso, conhecerá as novas
tendências na geração de dados.
TÓPICO 1 - UNIDADE 1
2 É TEMPO DE DADOS
A quantidade de dados gerados cresceu vertiginosamente, nos últimos anos,
atingindo uma posição sem precedentes vistos, levando a qualquer dado para atrair
mais atenção do que com dados em tabelas de qualquer banco de dados.
Em 2020, o surto do COVID-19 intensificou ainda mais a geração de dados
digitais, pode se dizer que 2020 introduziu uma nova era, na qual a tecnologia e os
dados assumiram papéis mais significativos em nosso cotidiano.
A cada clique do mouse, a cada reação nas mídias sociais, compartilhamento,
foto enviada, áudio ou vídeo do Youtube ou qualquer outra plataforma de streaming, os
dados são gerados, sem levar em consideração os dados gerados pelos ERP, softwares
ou até mesmo a escrita deste livro. Esses dados, quando devidamente analisados, nos
auxiliam a entender melhor este mundo que se atualiza a cada milissegundo numa
velocidade mais do que incrível.
4
Em 2015, estimava-se que 2,5 quintilhões de bytes eram gerados todos os
dias. O Instituto Gartner (2018 apud GASTOS GLOBAIS [...], 2018), estimou que até 2020
teríamos um total de 40 trilhões de gigabytes de dados sendo gerados por dia, isto
significa 2,2 milhões de terabytes sendo gerados diariamente.
A plataforma Domo (2020), especializada em dados, apresenta um infográfico
com informações de onde vem esta quantidade de dados gerados.
FIGURA 1 – FONTE DA ORIGEM DOS DADOS
FONTE: <https://bit.ly/3ingqlW>. Acesso em: 23 abr. 2021.
De acordo com uma estimativa da IBM, 2,5 quintilhões de bytes de dados são
criados todos os dias. Um relatório recente da Domo (2020) estima a quantidade de
dados gerados a cada minuto em plataformas on-line populares. A seguir, estão alguns
dos principais dados do relatório:
• usuários do Facebook compartilham quase 4,16 milhões posts de conteúdo;
• usuários do Twitter enviam quase 300.000 tweets;
• usuários do Instagram curtem quase 1,73 milhão de fotos;
5
• usuários do YouTube carregam 500 horas de novo conteúdo de vídeo;
• usuários da Apple baixam quase 51.000 aplicativos;
• usuários de Skype fazem quase 110.000 novas chamadas;
• a Amazon recebe 4.300 novos visitantes;
• assinantes da Netflix transmitem quase 405.000 horas de vídeo.
Todos esses dados sendo gerados diariamente e de modo não sigiloso estão
à disposição, porém, simplesmente ter acesso a eles não os fazem valer. Você precisa
saber qual a finalidade, para o que você os quer, quais são seus interesses sobres eles,
o que você quer extrair? Amaral (2016, p. 11) destaca que:
Na era da informação e conhecimento, analisar dados não é uma
atividade qualquer para empresas e governos, é uma questão
de sobrevivência. Em um mundo globalizado, e cada vez mais
competitivo, em que dados eletrônicos são produzidos de forma
exponencial, quem for capaz de extrair informação e conhecimento
de dados de forma eficiente, venderá mais, produzirá mais, gastará
menos, terá clientes mais satisfeitos, fornecedores mais eficientes e
estará em conformidade com agências reguladoras e fiscalizadoras.
Não somos capazes ainda de avaliar com precisão como essa nova
era que está surgindo será, mas sabemos que a produção e análise
de dados terão um papel fundamental.
A globalização e o e-commerce estão mudando radicalmente as preferências
dos consumidores e uma enxurrada de jovens empreendedores da internet que está
impulsionando mudanças descontínuas no ambiente de negócios surgiu.
Essa mudança está se tornando mais ambígua e difícil de prever e planejar. Por
exemplo, o Facebook transformou o mercado de varejo on-line à medida que várias plata-
formas transformaram as telecomunicações, e o Google transformou o universo de pes-
quisas. Com certeza uma mudança fundamental nas teorias recentes da estratégia é que
a vantagem competitiva não é algo que uma empresa possui nem algo que possa proteger.
Desde o início das aplicações de computadores para problemas de negócios,
na década de 1950, e certamente desde meados da década de 1960, quando os
primeiros sistemas de gerenciamento de banco de dados bem-sucedidos começaram
a aparecer, houve um aumento constante na quantidade de dados armazenados e no
reconhecimento do valor desses dados, além da simples informatização das tarefas
rotineiras. Na linguagem do Big Data, o volume de dados tem aumentado de forma
constante e substancial, da década de 1960 até os dias atuais.
Podemos dizer que os avanços tecnológicos e as mudanças geradas por estes
avanços, produziram um tipo de “universo paralelo”, que está em franca expansão de
novos conteúdos, novos dados, novas fontes de informações. Dados são criados cons-
tante e diariamente a uma taxa cada vez maior. Smartphones, mídias sociais, sensores
acoplados nos mais diversos equipamentos, exemplo para diagnóstico médico, terminais
bancários, geram dados que precisam ser processados e armazenados em tempo real.
6
Mesmo conseguindoacompanhar este gigantesco fluxo de dados é
extremamente difícil ter uma noção do que estes dados tratam, especialmente quando
não são tratados com as noções tradicionais de estrutura de dados, para identificar
padrões significativos e extrair informações úteis. Esses desafios do dilúvio de dados
apresentam a oportunidade de transformar negócios, governo, ciência e vida cotidiana.
Várias empresas estão na liderança do desenvolvimento de sua capacidade de
coletar e explorar dados:
• As operadoras de cartão de crédito monitoram cada compra que seus clientes fazem
e podem identificar compras fraudulentas ou até mesmo o uso indevido do cartão,
por roubo, como exemplo, com alto grau de precisão usando regras derivadas do
processamento de bilhões de transações;
• As operadoras de telefonia móvel analisam os padrões de chamada dos assinantes
para determinar, por exemplo, se os contatos frequentes de um chamador estão em
uma rede concorrente. Se essa rede concorrente está oferecendo uma promoção
atraente que pode causar o cancelamento do contrato do assinante, a empresa
de telefonia móvel pode oferecer proativamente ao assinante um incentivo para
permanecer em seu contrato.
• Para empresas como LinkedIn e Facebook, o dado em si é seu principal produto.
As avaliações dessas empresas são fortemente derivadas dos dados que coletam
e hospedam, que contém cada vez mais valor intrínseco à medida que os dados
crescem.
Após todo esse cenário, você já deve ter se perguntado: qual é a quantidade
que eu gero por dia? Vamos começar com as suas redes sociais, quantas curtidas,
quantos comentários você faz por dia? E seus e-mails, particular e de trabalho, quantos
você recebe por dia, sejam “oficiais” ou spans. Quantas vezes você fez uma pesquisa no
Google? Quantos anúncios são enviados para você enquanto você assiste a um vídeo no
Youtube? Então, o que essas empresas fazem com estes dados? Onde essas empresas
armazenam estes dados e para quê?
Devemos dar uma parada e perguntarmos: onde fica nossa privacidade
neste cenário? Como garantir que nossos dados pessoais, bancários, por
exemplo, não sejam utilizados por pessoas que querem tirar proveito de
forma incorreta? Será que a Lei Geral de Proteção de Dados nos garantirá
esta privacidade?
INTERESSANTE
7
A ciência de dados surgiu com a necessidade de lidarmos com
a enorme quantidade de dados e informações geradas por
nossas ações em conjunto com algum artefato – neste caso,
tecnológico. Ela atende a uma demanda interdisciplinar, na qual
estão inseridas outras tecnologias voltadas aos dados, como
Big Data. O termo foi mencionado inicialmente em meados
de 2010, mas, antes, seus conceitos eram compreendidos
por outros termos, como OLAP (Online Analytical Processing)
e BI (Business Intelligence). Podemos notar que, apesar de
conseguirmos visualizar claramente a quantidade de dados
que temos ao nosso redor, variantes do termo já vêm sendo
utilizadas há algum tempo (GONÇALVES; ROGÉRIO; MORAES,
2019, p. 4, grifo do original).
Devido à grande quantidade ou estrutura destes dados, eles não podem
simplesmente ser analisados apenas usando bancos de dados ou métodos tradicionais.
Essas análises exigem novas ferramentas e tecnologias para armazenar, gerenciar e
realizar o benefício do negócio. Essas novas ferramentas e tecnologias permitem a
criação, manipulação e gerenciamento de grandes conjuntos de dados e os ambientes
de armazenamento que os abrigam. O que nos faz perceber que existe uma grande
quantidade de dados gerados nas mais diversas fontes, e nos mais variados formatos,
sejam estruturados ou não.
A taxa de criação de dados está acelerando, impulsionada por muitos dos itens.
As mídias sociais e o sequenciamento genético, as pesquisas na área da saúde, estão
entre as fontes de Big Data que mais crescem e exemplos de fontes não tradicionais de
dados sendo usadas para análise.
Por exemplo, em 2012, os usuários do Facebook postaram 700 atualizações
de status por segundo em todo o mundo, que podem ser aproveitadas para deduzir
interesses latentes ou visões políticas dos usuários e mostrar anúncios relevantes. Por
exemplo, na atualização em que uma mulher muda seu status de relacionamento de
“solteira” para “noiva”, desencadearia anúncios de vestidos de noiva, planejamento de
casamento ou serviços de mudança de nome.
O Facebook também pode construir gráficos sociais para analisar quais usuários
estão conectados uns aos outros como uma rede interconectada. Em março de 2013, o
Facebook lançou um novo recurso chamado “pesquisa gráfica”, permitindo que usuários
e desenvolvedores pesquisassem gráficos sociais para pessoas com interesses
semelhantes, hobbies e locais compartilhados.
8
FIGURA 2 – ORIGEM DOS DADOS
FONTE: <https://shutr.bz/3504qio>. Acesso em: 23 abr. 2021.
A popularização da internet, a partir dos anos 1995, sinalizou uma mudança
de rota, não apenas na quantidade de dados, mas também mais significativamente na
taxa em que os dados chegaram, isto é velocidade de geração de dados; a diversidade
de fontes de onde chegaram e os tipos de dados disponíveis para quase todos, o que
significa a variedade dos dados gerados.
Mais importante do que as mudanças quantitativas, houve uma enorme
mudança qualitativa na quantidade de detalhes, realizada e mantida por essas bases
de dados. Essas mudanças, combinadas com mudanças drásticas na tecnologia
disponível para analisar e extrair informações desses dados, o custo e a disponibilidade
de processamento e armazenamento para os dados, e mecanismos de origem/
entrega, como smartphones e sensores, por sua vez, impulsionaram mudanças nas
oportunidades que podem ser criadas pela excelência no uso de dados e informações.
Mais do que isso, eles têm impulsionado mudanças no que consideramos ser
dados disponíveis para análise, em que vemos os possíveis resultados como sendo,
como vemos a informação em si e, o mais importante, a capacidade que temos de usar
os resultados para impactar eventos reais.
Mas a internet e o acesso resultante do consumidor a grandes quantidades de
dados, em grande parte não estruturados, foi apenas a primeira onda de mudanças
no volume de dados. Apesar de ter o efeito de disponibilizar esses dados a qualquer
momento e a quase qualquer pessoa, e, pelo menos, tão importante, tornando quase
todos uma fonte potencial (e muitas vezes real) de dados, eles acessaram apenas uma
pequena fração da geração potencial e uso de dados.
9
Duas tendências existentes, e uma tendência emergente, preencheram esse
vazio e estão aumentando drasticamente o volume, a velocidade, a variedade e,
especialmente, os detalhes oportunos dos dados gerados e consumidos. São mobilidade,
comunicação sem fio e tendência para dados “abertos”.
A primeira tendência, mobilidade, cria cada vez mais dados e ao mesmo tempo a
demanda por dados. Ela reduz drasticamente o tempo no qual a informação é percebida
como valor, as vezes para segundos.
Fizemos uma pergunta simples: quanto tempo você está disposto a esperar
para receber uma atualização de uma notícia? Lembre-se, você tem um smartphone e
acesso à Internet a sua disposição.
A segunda tendência, comunicação sem fio, tem possibilitado a utilização de
sensores em quase todos os lugares. A quantidade de dados gerados por sensores de
temperatura, vento, condições climáticas, ou até mesmo situações envolvendo a saúde
humana, como, por exemplo, medição de glicose, também está crescendo e tornando
uma fonte para análise destes dados.
A última tendência “dados abertos”, se deve à utilização crescente de todos
estes dispositivos por parte de um número cada vez maior de pessoas, deixando de
estar presente somente nos ambientes corporativos, fazendo parte do nosso cotidiano.
Para uma empresa, é essencial ter acesso a cada vez mais dados do ambiente
em que opera. Isso permitirá examinar não as classes de comportamento, mas casos
individuais. Isso explica por que essa revolução trouxe o surgimentodas chamadas
“startups”, cujo objetivo é processar automaticamente os dados conhecidos como Big
Data. Certamente nos encontramos na frente de um dos elementos do que algumas
pessoas chamam de “nova revolução industrial”.
Está claro que a onipresença dos dados e devido à grande quantidade em
que estão sendo gerados, irá criar uma demanda por profissionais que saibam coletar,
armazenar, processar e, o mais importante, extrair informações desse grande conjunto
de dados, para que cada vez mais sejamos capazes de entender as implicações que
este novo universo nos traz.
10
Neste tópico, você adquiriu certos aprendizados, como:
RESUMO DO TÓPICO 1
• A quantidade de dados gerados no mundo está crescente vertiginosamente.
• Empresas, como as operadoras de cartão de crédito, telefonia, LinkedIn, Facebook,
dentre tantas outras, têm os dados como seus ativos principais.

• Existem três grandes tendências para a geração de novos dados, sendo elas a
mobilidade, a comunicação sem fio e a de dados abertos.

• Devido à quantidade de dados gerados, eles não podem ser analisados com um
simples banco de dados.
11
1 O Big Data refere-se ao volume, variedade e velocidade de dados – estruturados ou
não –transmitidos através de redes em processos de transformação e em dispositivos
de armazenamento até que se torne um conhecimento útil para as empresas. Diante
deste contexto, podemos afirmar que o Big Data começou:
a) ( ) Com o surgimento de grande volume de dados gerados em função dos
avanços tecnológicos.
b) ( ) Com o avanço nas metodologias de tomada de decisões estratégicas das empresas.
c) ( ) Com o avanço no poder de processamento dos computadores disponíveis para
a população.
d) ( ) Com a necessidade de estarmos sempre conectados as redes sociais divulgando
no cotidiano.
e) ( ) Com a criação de novas ferramentas de gerenciamento de banco de dados relacionais.
2 Usando de habilidades de programação, conhecimento de domínio e conhecimento
matemático e estatístico, podemos analisar dados brutos e encontrar padrões
ocultos. Uma empresa interessada em encontrar insights para gerenciar melhor a
tomada de decisões a respeito de seus cliente e produtos, terá melhores chances se
investir em:
a) ( ) Banco de dados Relacionais.
b) ( ) ERP.
c) ( ) Data Science.
d) ( ) Big Data.
e) ( ) Governança de Dados.
3 O Big Data Analytics é considerado um desdobramento do Big Data, softwares
capazes de trabalhar com dados para transformá-los em informações úteis às
empresas. O Big Data Analytics se difere do BI (Business Intelligence) por apresentar:
a) ( ) A priorização do ambiente de negócios, não levando em consideração as demais
áreas da empresa.
b) ( ) A análise das dúvidas já conhecidas pela empresa, com o objetivo de obter
respostas.
c) ( ) Melhorar a qualidade na coleta dos dados para diminuir o espaço no bando de dados.
d) ( ) A análise dos dados existente e dos futuros para indicar novos caminhos para
a empresa.
e) ( ) A melhora na comunicação com seus clientes, ofertando novas promoções.
AUTOATIVIDADE
12
4 O Ministério Público Federal possui um conjunto de dados, em que o volume, a velo-
cidade e a variedade de dados são muito grandes, tornando-se difícil de gerenciá-los,
manipulá-los e analisá-los. A este conjunto de dados, damos o nome de:
a) ( ) Data Warehouse.
b) ( ) Data Mart.
c) ( ) Big Data.
d) ( ) Cloud Computing.
e) ( ) Business Analytics.
5 No universo Big Data, as empresas buscam desbloquear o potencial de dados para gerar
valor. Elas também estão impacientes para encontrar novas maneiras de processar esses
dados e tomar decisões mais inteligentes, o que resultará em melhor atendimento ao
cliente, melhor eficiência de processos e melhores resultados estratégicos. Sabendo
disso, responda, na sua visão, como o Big Data pode auxiliar as empresas na construção
desse valor?
13
DO SMART AO BIG DATA
1 INTRODUÇÃO
O surgimento de novas tecnologias, aplicações e fenômenos sociais cria novos
modelos de negócios, comunidades e complexidades do sistema. Algumas dessas
mudanças não são lineares e criam mudanças de tipo, como novas forças empresariais
motrizes e novas estruturas organizacionais, que, por sua vez, impulsionam novas formas
de interagir e conduzir negócios. Facebook, LinkedIn, Google e Twitter, combinados com
dispositivos móveis, introduzem tais tecnologias emergentes, que geram ferramentas
para fácil construção comunitária, colaboração e criação de conhecimento, baseadas
em redes sociais.
Um requisito fundamental para uma análise de dados bem-sucedida é ter
acesso a dados semanticamente ricos que vinculem elementos de informação
pertinentes para análise objetiva.
No entanto, a situação mudou com o Big Data, porque os dados agora vêm
de várias fontes de tipos muito diferentes e de diferentes formas (estruturadas, não
estruturadas). Isso nos leva a dizer que novas ferramentas de processamento de
dados são agora necessárias, assim como métodos capazes de combinar milhares de
conjuntos de dados.
Neste tópico, você irá compreender e distinguir a classificação dos dados em
relação a sua organização, verá exemplos práticos desta organização dos dados e
compreenderá também como os novos elementos participantes do ecossistema do Big
Data estão interagindo.
UNIDADE 1 TÓPICO 2 -
2 DO MICRO AO MACRO
É incrível como a quantidade de dados para analisar cresceu tão dramaticamente
durante os últimos 20 anos. Lembramos os dias antes da Web, antes do Big Data, antes
das mídias sociais e antes do mobile, é incrível como a quantidade de dados para
analisar cresceu, um banco de dados de clientes com informações básicas, dados de
compras de varejo de terceiros ou informações de relatórios de crédito eram tão ricos ou
tão detalhados quanto os dados que uma empresa esperava analisar.
14
Naquela época era possível construir um bom negócio baseado em informações
a partir de algo tão simples quanto realizar pesquisas regulares de benchmark e vender
os resultados para as empresas. Naquela época, as empresas estavam trabalhando com
menos informações do que precisavam, e, simplesmente, não havia fluxo de informações
profundas de clientes, concorrentes e do setor em comparação com o que existe hoje.
O feeling e a experiência eram características de negócio levadas em consideração nas
reuniões de planejamento.
Os dados gerados podem vir de várias formas, incluindo dados estruturados
e não estruturados, como dados financeiros, arquivos de texto, arquivos multimídia e
mapeamentos genéticos. Diferente da maioria de análise de dados, o Big Data trabalha,
em sua maioria, com dados não estruturados ou quando semiestruturados, fato que faz
com que tenhamos diferentes técnicas e ferramentas para extração e processamento
destes dados.
Mata (2019, p. 15) retrata um pouco da origem dos dados, remontando as
planilhas eletrônicas:
Os dados que antes eram apenas armazenados em planilhas ele-
trônicas ou em Banco de Dados Relacionais para fins de consulta e/
ou conformidade, hoje estão prontos para uso com as mais diversas
finalidades. Essa realidade permitiu que áreas da ciência começas-
sem a ganhar destaque, tais como a Computação, a Estatística, a
Matemática, o Processamento de Linguagem Natural e muitas ou-
tras que abrangem o conhecimento. Além disso, novas tecnologias
emergiram a partir dessa nova realidade, em que muitas empresas
investem recursos em soluções de Análise de Dados (Data Analy-
tics) cada vez mais robustas, sejam proprietárias ou open-sources.
É necessário desenvolver esses dados, explorando o conteúdo de e-mails
e chamadas de voz, e combinar essas informações com atividades de navegação
no site da empresa. Além disso, também é possível estudar mensagens trocadas em
redes sociais (Facebook, Twitter, LinkedIn etc.) a fim de identificar novas tendências ou
identificar os produtos que estão sendo mais comentados.
O acesso aos dados possibilita o enriquecimentode análises quantitativas e
qualitativas. Os contatos dos clientes podem ser analisados através de dados coletados
por um call center. Esse tipo de produto também pode ser oferecido em quantidade
limitada, assim como os prospectos eletrônicos.
O processo de coleta, processamento e interpretação de informações, não se
limita à definição de ideias, mas também consiste em materializá-las, a fim de garantir
uma melhor produção de conhecimento que leve à inovação.
A inteligência competitiva permite que cada empresa otimize suas ofertas de
serviços em termos qualitativos e quantitativos, bem como otimize sua tecnologia
de produção.
15
GRÁFICO 1 – ORGANIZAÇÃO DOS DADOS
FONTE: O autor
O Gráfico 1 mostra quatro tipos de estruturas de dados, com 80 a 90% do
crescimento futuro de dados provenientes de tipos de dados não estruturados. Embora
diferente, os quatro são comumente misturados.
Um Sistema Gerenciador de Banco de Dados Relacionais (SGBDR), por exemplo,
armazena registro de uma chamada de call center de várias empresas, seja para atendi-
mento ao cliente ou suporte técnico. O SGBDR pode armazenar as características dessas
chamadas como a data, hora da chamada, ou o tipo da máquina e o problema apresentado.
Além disso, o sistema provavelmente terá dados não estruturados, quase
ou semiestruturados, como informações de registro de chamadas de um campo de
observação contidas no formulário, livre retiradas de um corpo de e-mail relativo ao
problema, histórico de bate-papo do cliente ou transcrição de uma chamada telefônica
descrevendo o problema técnico e o arquivo de solução ou áudio da conversa de
chamada telefônica. Muitos insights poderiam ser extraídos dos dados não estruturados,
quase ou semiestruturados nos dados do call center.
Não obstante, a análise de dados estruturados tende a ser a técnica mais
utilizada, se faz necessária uma técnica diferente para responder aos desafios da análise
de dados semiestruturados (mostrados como XML), quase estruturados (mostrados
como um clickstream) e dados não estruturados.
Vamos apresentar os quatro modelos de dados e como cada um deles pode
aparecer, para que você consiga diferenciá-los.
• Dados estruturados: possuem estrutura bem definida e rígida. Este tipo não é
diferente do tipo definido para eles. Contém dados, formato e estrutura definidos (ou
seja, dados de transação, bancos de dados tradicionais, arquivos CSV e até planilhas
simples). Veja exemplo no Quadro 1.
16
O melhor exemplo de dados estruturados é o de um banco de dados, no qual
os dados são definidos conforme o esquema, que, por sua vez, define as tabelas, seus
campos e tipos.
Os dados estruturados compreendem apenas uma pequena
parcela dos dados que estão sendo analisados no mundo. Esse
formato é representado por linhas e colunas e estão armazenados
em Bancos de Dados Relacionais ou planilhas eletrônicas, tais como:
Oracle, Excel, MySQL, entre outros. Algumas características dessas
estruturas são a facilidade de acesso e manipulação, além de um
esquema de armazenamento e organização bem definidos. Isso quer
dizer que podemos obter respostas rápidas para alguns tipos de
perguntas ao realizar uma simples consulta em um banco de dados.
Para exemplificar, podemos extrair a média de idade dos alunos com
sexo masculino do Ensino Médio considerando uma determinada
escola com um simples SQL e utilizando campos estruturados, como
idade, sexo, escolaridade e escola (MATA, 2019, p. 26).
Lembrem-se, não estamos falando dos tipos de dados de um Banco de
Dados, mas da estrutura dos dados coletados para análise.
ATENÇÃO
QUADRO 1 – EXEMPLO DE DADOS ESTRUTURADOS
FONTE: Adaptado de IBGE (2020)
17
• Dados semiestruturados: arquivos de dados textuais com um padrão perceptível
que permite a análise – como arquivos de dados Extensible Markup Language (XML)
autodescritos e definidos por um esquema XML. Veja um exemplo no Quadro 2.
Schreiner (2020, p. 71) destaca que: “A Web é composta por uma grande
quantidade de dados semiestruturados e crus, como as páginas Web (cuja estrutura
descrita no documento HTML expressa muito pouco do significado do conteúdo do
documento) e conteúdo multimídia (imagens, sons e vídeos).
Os dados semiestruturados são dados que ainda não foram categorizados,
organizados num repositório específico, como um banco de dados, mas que, todavia,
tem informações associadas a eles, como metadados, que o tornam mais acessível ao
processamento do que os dados brutos.
Mata (2019, p. 26-27) nos apresenta desta forma os dados semiestruturados:
No que se refere a dados semiestruturados, estes normalmente
estão espalhados pela Web em arquivos HTML, XML ou em Banco de
Dados não Relacionais, como o MongoDB, que possui uma estrutura
semelhante a um arquivo JSON. Se pensarmos em um arquivo XML
ou HTML, perceberemos que existe uma diferença nesses tipos de
estruturas: a hierarquia ou a estrutura em árvore. As tags ou elementos
possuem uma certa organização e qualificam os documentos. Os nós
apresentam uma certa flexibilidade e não contêm uma representação
fixa ou rígida como em um modelo estruturado, ao contrário, alguns
campos (tags) podem conter descrições ou informações textuais,
por exemplo, páginas web (como HTML e CSS), campos de e-mail,
informações de redes sociais etc.
QUADRO 2 – EXEMPLO DADOS SEMIESTRUTURADOS
FONTE: O autor
18
• Dados quase estruturados: dados textuais com formatos de dados erráticos que
podem ser formatados com esforço, ferramentas e tempo (por exemplo, dados de
fluxo de cliques da Web que podem conter inconsistências nos valores e formatos de
dados). Acompanhe o exemplo na Figura 3.
FIGURA 3 – EXEMPLO DE DADOS QUASE ESTRUTURADOS
FONTE: <https://shutr.bz/3g30JP7>. Acesso em: 23 abr. 2021.
• Dados não estruturados: dados que não têm estrutura inerente, que podem incluir
documentos de texto, PDFs, imagens, sons e vídeo. Veja na Figura 4.
FIGURA 4 – EXEMPLO DE DADOS NÃO ESTRUTURADOS
FONTE: <https://www.youtube.com/user/wwwuniasselvi>. Acesso em: 23 abr. 2021.
19
A principal diferença entre os dados estruturados e os não estruturados
consiste principalmente na sua classificação, na qual os dados
estruturados possuem características detalhadas de sua composição,
tipo, tamanho, restrições, enquanto os não estruturados não as contém,
exemplo dos arquivos textuais, arquivos de mídia (som e imagem).
IMPORTANTE
Mata (2019, p. 47) destaca que: “Dados não estruturados representam uma fonte
rica para extração de insights e são alvo de interesse das empresas especialmente nos
dias de hoje. Por isso, é necessário construir uma arquitetura que suporte o alto volume
de dados e que seja flexível a variados tipos de estruturas”.
Francisco (2015) nos apresenta um gráfico detalhando a evolução da quantidade
de dados gerados, suas respectivas fontes e a estrutura na qual estão classificados.
GRÁFICO 2 – EVOLUÇÃO DOS DADOS GERADOS E SUA CATEGORIZAÇÃO
FONTE: Francisco (2015, p. 9)
20
Devemos concordar que, após a popularização da microcomputação, as três
principais tendências de tecnologia da informação na última década foram a computação
em nuvem, os dispositivos mobile e as mídias sociais. Essas três megatendências
transformaram nossa economia, nossa sociedade e nossas vidas cotidianas.
O Big Data é definido como coleções de conjuntos de dados cujo volume,
velocidade ou variedade é tão grande que é difícil armazenar, gerenciar, processar e
analisar os dados usando bancos de dados tradicionais e ferramentas de processamento
de dados. Nos últimos anos, houve um crescimento exponencial dos dados estruturados
e não estruturados gerados pela tecnologia da informação, industrial, saúde, internet
das Coisas (IoT) e outros sistemas.
Ressaltamos que para garantir a coleta relevante, e antes de passar a analisar
os dados, é essencial definir para quais necessidades analíticas esses dados serão
pesquisados e coletados, e com quais técnicas e ferramentas.
Os quatro tipos de dadosdescritos anteriormente, às vezes, são generalizados
em apenas dois grupos: dados estruturados e não estruturados. O Big Data descreve
novos tipos de dados com os quais a maioria das organizações pode não estar
acostumada a trabalhar.
O Big Data vem de duas formas: os dados estruturados destinados ao
processamento de computadores e a linguagem não estruturada que as pessoas leem,
escrevem e falam. Infelizmente, nenhum sistema de computador hoje pode traduzir de
forma confiável linguagem não estruturada para os formatos estruturados de bancos de
dados, planilhas e a web semântica. Mas eles podem fazer um monte de processamento
útil, e eles estão se tornando mais versáteis.
As aplicações de Big Data abrangem uma ampla gama de domínios, incluindo
(mas não se limitando apenas) casas, cidades, meio ambiente, sistemas de energia,
varejo, logística, indústria em geral, agricultura, Internet das Coisas (IoT) e saúde.
O Big Data tem o potencial de alimentar a próxima geração de aplicativos
inteligentes que aproveitarão o poder dos dados para tornar os aplicativos mais
inteligentes. Os aplicativos de Big Data abrangem uma ampla gama de domínios como
web, varejo e marketing, sistema bancário e financeiro, industrial, saúde, ambiental,
Internet das Coisas (IoT) e sistemas cibernéticos.
O verdadeiro desafio no Big Data é a descoberta dos dados certos em massas
de dados não estruturados, mais do que nossos recursos de análise Big Data desafiam
nossos recursos de detecção de dados.
A tendência do Big Data está gerando uma enorme quantidade de informações
de muitas novas fontes. Esse dilúvio de dados requer análises avançadas e novos players
do mercado para aproveitar essas oportunidades e novas dinâmicas de mercado.
21
Ao mesmo tempo, muitas empresas estão agora inundadas com um grande
volume e velocidade de dados de vários locais e fontes: dados B2B, dados B2C,
dados de tráfego, dados transacionais, dados de fornecedores de terceiros, dados
macroeconômicos e assim por diante.
Além das fontes de dados mais tradicionais, dados da Web, dados de mídia
social, dados móveis e novas fontes de terceiros adicionaram outra camada de
complexidade ao quebra-cabeça de big data que as empresas estão ansiosas para
resolver. Embora alguns nem saibam por onde começar a lidar com a avalanche de
dados, outros ainda estão lutando para sair do relatório básico.
Organizações e empresas de análises de dados estão percebendo que os dados
que podem coletar de indivíduos contêm valor intrínseco e, como resultado, uma nova
economia está surgindo. À medida que este novo ecossistema se define, existe quatro
principais elementos nesta interconexão.
3 DATA DEVICES
Dispositivos de dados coletam dados de vários locais e geram continuamente
novos dados sobre esses dados. Para cada gigabyte de novos dados criados, um
petabyte adicional de dados é criado sobre esses dados:
• Por exemplo, considere alguém jogando um videogame on-line através de um PC,
console de jogo ou smartphone. Neste caso, o provedor de videogame captura dados
de habilidade e dos níveis alcançados pelo jogador. Sistemas inteligentes monitoram
e registram como e quando o usuário joga o jogo. Como consequência, o provedor
de jogos pode ajustar a dificuldade do jogo, sugerir outros jogos relacionados que
provavelmente interessariam ao usuário, e oferecer equipamentos adicionais e
melhorias para o personagem com base na idade, sexo e interesses do usuário.
Essas informações podem ser armazenadas localmente ou enviadas para a nuvem
do provedor de jogos para analisar os hábitos e oportunidades de jogo para upsell e
cross-sell, e identificar perfis arquetípicos de tipos específicos de usuários.
• Os smartphones fornecem outra rica fonte de dados. Além de mensagens e uso bá-
sico do telefone, eles armazenam e transmitem dados de uso da Internet, uso de
SMS e localização em tempo real. Esses metadados podem ser usados para analisar
padrões de tráfego, escaneando a densidade de smartphones em locais para rastrear
a velocidade dos carros ou o congestionamento relativo de tráfego em estradas mo-
vimentadas. Desta forma, dispositivos GPS em carros podem dar aos motoristas atu-
alizações em tempo real e oferecer rotas alternativas para evitar atrasos no trânsito.
• Os cartões de fidelidade de compras no varejo registram não apenas a quantidade
que o indivíduo gasta, mas as localizações das lojas que a pessoa visita, os tipos
de produtos comprados, as lojas onde as mercadorias são compradas com mais
frequência, e as combinações de produtos comprados juntos. A coleta desses dados
fornece insights dos hábitos de compra e viagem e a probabilidade de anúncios bem-
sucedidos direcionados a certos tipos de promoções de varejo.
22
4 DATA COLLECTORS
Os coletores de dados incluem entidades amostrais que coletam dados do
dispositivo e usuários.
• Dados de uma operadora de TV a cabo que rastreia os programas que uma pessoa
assiste, quais canais de TV alguém vai ou não vai pagar para assistir sob demanda, e
os preços que alguém está disposto a pagar pelo conteúdo de TV Premium;
• Lojas de varejo que rastreiam o caminho que um cliente percorre em sua loja enquanto
empurra um carrinho de compras com um chip RFID para que eles possam medir
quais produtos obtêm mais tráfego de pé usando dados geoespaciais coletados dos
chips RFID.
5 DATA AGGREGATORS
Agregadores de dados, essas organizações compilam dados dos dispositivos
e padrões de uso coletados por agências governamentais, lojas de varejo e sites. Por
sua vez, eles podem optar por transformar e embalar os dados como produtos para
vender para listar corretores, que podem querer gerar listas de marketing de pessoas
que podem ser boas metas para campanhas de anúncios específicas.
6 DATA USERS E BUYERS
Os usuários e compradores de dados, esses grupos se beneficiam diretamente
dos dados coletados e agregados por outros dentro da cadeia de valor de dados.
• Os bancos de varejo, atuando como compradores de dados, podem querer saber quais
clientes têm maior probabilidade de solicitar um segundo empréstimo ou uma outra
linha de crédito. Para fornecer informações para essa análise, os bancos de varejo
podem comprar dados de um agregador de dados. Esse tipo de dados pode incluir
informações demográficas de pessoas que vivem em locais específicos; pessoas que
parecem ter um nível específico de dívida, mas ainda possuem pontuações de crédito
sólidas (ou outras características, como pagar contas em dia e ter contas de poupança)
que podem ser usadas para inferir créditos; e aqueles que estão pesquisando na web
para obter informações de como pagar dívidas ou fazer projetos de reforma de casas.
A obtenção de dados dessas várias fontes e agregadores permitirá uma campanha
de marketing mais direcionada, o que teria sido mais desafiador antes do Big Data
devido à falta de informações ou tecnologias de alto desempenho.
• Usando tecnologias como o Hadoop para realizar o processamento de linguagem
natural em dados textuais não estruturados de sites de mídia social, os usuários
podem medir a reação a eventos como campanhas presidenciais.
23
As pessoas podem, por exemplo, querer determinar sentimentos públicos em relação a
um candidato analisando blogs relacionados e comentários on-line. Da mesma forma,
os usuários de dados podem querer rastrear e se preparar para desastres naturais
identificando quais áreas uma enchente afeta primeiro, com base em quais áreas
geográficas estão tuitando sobre isso ou discutindo-o através das mídias sociais.
FIGURA 5 – ELEMENTOS DE INTERAÇÃO NO ECOSSISTEMA DO BIG DATA
FONTE: <https://bit.ly/3dHKkyq>. Acesso em: 23 abr. 2021.
De acordo com a figura apresentada para este ecossistema de Big Data
emergente, os tipos de dados e a dinâmica de mercado relacionada variam muito.
Esses conjuntos de dados podem incluir dados de sensores, texto, conjuntos de dados
estruturados e mídias sociais. Com isso em mente, vale lembrar que esses conjuntosde dados não funcionarão bem dentro dos bancos de dados tradicionais, arquitetados
para agilizar relatórios e dashboards e serem gerenciados centralmente. Em vez disso,
problemas e projetos de Big Data requerem diferentes abordagens para ter sucesso.
Os analistas precisam fazer parcerias com TI e DBAs para obter os dados
necessários dentro de um repositório que contenha dados brutos, dados agregados e
dados com vários tipos de estrutura.
Ao observarmos o contexto do ecossistema emergente de Big Data, nos
deparamos com novos atores surgindo. Atores que trabalham com a curadoria, o
armazenamento, a produção, o tratamento e o processamento destes dados. Além
disso, a necessidade de aplicar técnicas analíticas mais avançadas a problemas de
negócios cada vez mais complexos tem impulsionado o surgimento de novas funções,
novas plataformas tecnológicas e novos métodos analíticos.
24
Apache Hadoop é uma estrutura de código aberto que permite que as
empresas processem grandes quantidades de informações de forma
altamente paralela. Hadoop representa uma implementação específica
do paradigma MapReduce e foi projetado por Doug Cutting e Mike
Cafarella, em 2005, para usar dados com estruturas variadas. Disponível
em: https://hadoop.apache.org/.
NOTA
25
RESUMO DO TÓPICO 2
Neste tópico, você adquiriu certos aprendizados, como:
• Dados estruturados possuem estrutura bem definida e rígida.
• Dados semiestruturados são arquivos de dados textuais com um padrão perceptível
que permite a análise.
• Dados quase estruturados: dados textuais com formatos de dados erráticos que
podem ser formatados com esforço, ferramentas e tempo.
• Dados não estruturados: dados que não têm estrutura inerente, que podem incluir
documentos de texto, PDFs, imagens, sons e vídeo.
• Houve uma evolução gigantesca na geração de dados desestruturados com o
advento da Internet e das redes sociais.
• O Big Data trabalha com dados não estruturados.
• Existem quatro principais elementos no ecossistema de Big Data, sendo eles:
dispositivos de dados, coletores de dados, agregadores de dados e usuários e
compradores de dados.
26
1 O Big Data trabalha com dados oriundos das mais diversas fontes, em sua maioria,
gerados pelas mídias sociais. Quando estamos trabalhando com esse tipo de dados,
nos referimos a qual tipo:
a) ( ) Quase estruturado.
b) ( ) Não estruturado.
c) ( ) Estruturado.
d) ( ) Semiestruturado.
e) ( ) Pré estruturados.
2 A Nota Fiscal Eletrônica gera também um arquivo no formato XML. Em relação ao tipo
de estrutura de dados para Big Data, este formato consiste em qual tipo de dados:
a) ( ) Dados estruturados.
b) ( ) Não estruturados.
c) ( ) Semi estruturados.
d) ( ) Quase estruturados.
e) ( ) Desestruturados.
3 Os bancos de dados relacionais trabalham com tabelas contendo os atributos a
serem armazenados. Este tipo de dado no Big Data é considerado como:
a) ( ) Quase estruturado.
b) ( ) Não estruturado.
c) ( ) Estruturado.
d) ( ) Semiestruturado.
e) ( ) Pré estruturados.
4 O mouse se tornou um periférico muito importante, os praticantes de jogos
eletrônicos possuem mouses muito sensíveis que respondem aos comandos quase
que em tempo real. Esses comandos, muitas vezes acionados por clique nos botões
do mouse, também geram dados que podem ser analisados pelo Big Data. Ao analisar
essa afirmação, estamos falando de qual tipo de estrutura de dados?
a) ( ) Não estruturado.
b) ( ) Quase estruturado.
c) ( ) Estruturado.
d) ( ) Pré estruturados.
e) ( ) Semiestruturado.
AUTOATIVIDADE
27
5 Quando usamos nosso cartão, seja ele de crédito ou débito, em nossa compras,
os dados gerados por essa ação informam não somente o valor da compra, mas
uma série de outras informações podem ser geradas, como a loja onde compramos,
o tipo de produto comprado, a periodicidade de nossas compras, ou seja, nosso
hábito de compras. A coleta desses dados se dá por intermédio de qual elemento da
interconexão do ecossistema de Big Data?
a) ( ) Data Devices.
b) ( ) Data Center.
c) ( ) Data Collectors.
d) ( ) Data Users.
e) ( ) Data Buyers.
28
29
TÓPICO 3 -
OS Vs DO BIG DATA
1 INTRODUÇÃO
No universo Big Data, as empresas buscam desbloquear o potencial de dados
para gerar valor. Eles também estão impacientes para encontrar novas maneiras
de processar esses dados e tomar decisões mais inteligentes, o que resultará em
melhor atendimento ao cliente, melhor eficiência de processos e melhores resultados
estratégicos.
Na literatura, o conceito de Big Data é definido em termos da teoria dos “três
Vs”, dos “cinco Vs”, ou dos “sete Vs”. A velocidade exponencial com que os dados são
gerados, bem como a multiplicidade de fontes que os geram em diferentes formatos
(digital, texto, imagens etc.), são características desse fenômeno.
Neste tópico, você compreenderá estas características e como elas auxiliar a
explicar os desafios postos para quem deseja desenvolver um projeto de Big Data.
UNIDADE 1
2 BIG DATA E SEUS V’s
O mundo dos dados está se tornando mais competitivo a cada dia, como
refletido em termos de volume, variedade e valor. É por isso que agora falamos sobre
Big Data. Os dados são um ativo fundamental para a criação de valor, bem como um
elemento que favorece e promove a inovação, o crescimento e o desenvolvimento. Com
a revolução digital, os dados assumiram um papel central na economia. No entanto,
alcançar todo o potencial dos dados depende da forma como são apresentados. Deve
ser usado e reutilizado de diferentes maneiras sem diminuir seu valor.
Vimos que a velocidade em que os dados são gerados é incrível, o volume de
dados gerados está crescendo cada vez mais e a variedade dos dados é outro fator
importantíssimo quando falamos de dados. Isso vem de encontro ao conceito que
define o Big Data como: “[...] um grande volume de informações, com alta velocidade e/
ou ativos de informações de alta variedade que exige formas inovadoras e econômicas
de processamento de informações que permitem uma melhor percepção na tomada de
decisão e automação de processos” (BIG DATA, 2018, s. p.).
30
Gonçalves, Rogério e Morais (2019, p. 19) destacam que o “O termo Big Data
é, muitas vezes, caracterizado por três vertentes que, inclusive, são conhecidas como
os três Vs: volume, variedade e veracidade”, acrescentando em seguida mais dois Vs:
“É comum nos depararmos com outros dois Vs que também contemplam de forma
coerente os conceitos sobre essa tecnologia: o valor e a velocidade”.
2.1 VOLUME
O Big Data é uma forma de dados cujo volume é tão grande que não caberia
em uma única máquina, portanto, ferramentas e frameworks especializados são
necessários para armazenar processos e analisar tais dados. Quando comparados com
dados pequenos, o Big Data aumentou em volume e velocidade e expandiu-se para
incluir uma variedade de outros tipos de dados.
Por exemplo, aplicativos de mídia social processam bilhões de mensagens todos
os dias, sistemas industriais e de energia podem gerar terabytes de dados de sensores
todos os dias, aplicativos de agregação de táxi podem processar milhões de transações
em um dia etc.
Os volumes de dados gerados pela moderna TI, industrial, saúde, Internet
das Coisas e outros sistemas estão crescendo exponencialmente impulsionados pela
redução dos custos de armazenamento e processamento de dados e pela necessidade
de extrair insights valiosos dos dados para melhorar os processos de negócios, eficiência
e servidão aos consumidores.
Embora não exista um limite fixo para que o volume de dados seja considerado
como big data, no entanto, normalmente, o termo big data é usado para dados em
grande escala difíceis de armazenar, gerenciar e processar usando bancos de dados
tradicionais e arquiteturas de processamento de dados.
O volume de dados gerados é tão grande que é impossível ser armazenado,
processado e analisado por apenas uma máquina. Você se lembra da época em que se
levava disquete?Para recordar as medidas em byte, veja este comparativo, disponível
em: https://bit.ly/3oSZENQ.
DICAS
31
FIGURA 6 – VOLUME DE DADOS GERADOS
FONTE: <https://bit.ly/350c4t5>. Acesso em: Acesso em: 23 abr. 2021.
Também Mata (2019, p. 23), ao analisar a questão de volume dos dados,
menciona que o volume:
[...] diz respeito à quantidade de dados – com tamanhos na ordem
de peta, hepta ou exabytes sendo gerados e que, uma vez extraídos,
deverão ser suportados na arquitetura de Big Data. Isso quer dizer
que o quesito escalabilidade precisa ser pensado no início de uma
implementação do Big Data.
O volume de dados é muito bem evidenciado quando falamos da quantidade
de e-mails enviados, da quantidade de mensagens trocadas em nossas redes sociais,
na quantidade de transações bancárias realizadas, em praticamente todas as ações
efetuadas nessa nova era.
Todos esses elementos servem de ponto de partida para entendermos o volume,
a quantidade, de dados gerados no mundo atualmente.
Esta enorme quantidade de dados gerada diariamente nos permite fazer as
mais variadas análises nos mais variados tipos de dados. Esse também é um fator
muito relevante no tocante à armazenagem desses dados, como vemos a expansão
dos servidores, dos serviços de nuvem disponibilizados que vêm aumentando
constantemente.
32
2.2 VELOCIDADE
A segunda característica diz respeito à dinâmica do volume de dados, ou seja,
a natureza sensível ao tempo do Big Data, já que a velocidade de sua criação e uso é
muitas vezes (quase) em tempo real.
A velocidade dos dados é muito alta e os dados precisam ser analisados em
tempo real. O crescimento dos dados e a explosão das mídias sociais mudaram a forma
como olhamos para eles. Houve um tempo em que costumávamos acreditar que os
dados de ontem eram recentes. No entanto, canais de notícias e rádios mudaram a
rapidez com que recebemos a notícia. Hoje, as pessoas respondem nas redes sociais
para atualizá-los com o mais recente acontecimento, o imediatismo nas respostas. Nas
mídias sociais, às vezes, algumas mensagens antigas (um tweet, atualizações de status
etc.) não é algo que interessa aos usuários. Muitas vezes descartam mensagens antigas
e prestam atenção às atualizações recentes. O movimento dos dados agora é quase em
tempo real e a janela de atualização foi reduzida a frações dos segundos.
Velocidade simplesmente significa que os dados têm um fluxo contínuo e
uma velocidade rápida entrando em sua organização, que, às vezes, é referida como
“streaming”. Infelizmente, como o volume de dados aumentou dramaticamente em toda
a empresa, a velocidade também aumentou. Isso se deve principalmente ao crescimento
da Internet e do uso móvel, de tal forma que os dados estão fluindo 24 horas por dia,
sete dias por semana, todos os dias do ano. Portanto, se você é uma empresa de
internet, sua arquitetura de dados e ferramentas devem acomodar o processamento de
alta velocidade de dados e volume o tempo todo, sem parar. Como resultado, empresas
como varejistas on-line são capazes de compilar grandes histórias de cada clique e
interação dos clientes, não apenas as vendas finais. Amaral (2016, p. 15) destaca que a
velocidade:

[...] a velocidade diz respeito não somente a da produção do dado em
si, mas a velocidade do processamento e produção de informação
e conhecimento, visto que o valor da informação é inversamente
proporcional ao tempo em que ocorreu o evento que gerou o dado.
Por exemplo, ocorreu uma falha em um equipamento. O operador
recebe o alerta 5 segundos depois da falha: ele desliga o equipamento,
identifica a falha, aperta o colar de suporte vibratório e a linha de
produção volta a produzir em 10 minutos.
Já, para Mata (2019, p. 24-25), a:

Velocidade está relacionada a questões de desempenho. O
processamento dos dados precisa ser eficiente a ponto de não
causar altas taxas de latência no fluxo de dados. O sucesso de uma
implementação do Big Data também está relacionado a entregar
respostas em tempo hábil e, por isso, estratégias (por exemplo,
cache dos dados) podem ser adotadas para otimizar o desempenho.
33
É importante considerar também qual o foco da análise, isto é, se
o processamento será em lote (batch) ou em tempo real, ou ambos
(arquitetura Lambda). Essa questão é um importante requisito de
negócio, pois quando lidamos com processamento em lote são
alocados maiores recursos de armazenamentos em detrimento ao
processamento em tempo real.
A alta velocidade dos dados resulta no volume de dados acumulados para se
tornar muito grande, em curto espaço de tempo. Alguns aplicativos podem ter prazos
rigorosos para análise de dados (como negociação ou detecção de fraudes on-line)
e os dados precisam ser analisados em tempo real. Ferramentas especializadas são
necessárias para ingerir esses dados de alta velocidade na infraestrutura de Big Data
e analisar os dados em tempo real.
GRÁFICO 3 – TENDÊNCIA DE CRESCIMENTO DO VOLUME DE DADOS DURANTE OS ANOS
FONTE: <https://bit.ly/2TSVE3q>. Acesso em: 23 abr. 2021.
O Gráfico 3 nos apresenta a quantidade de dados gerados desde 2010, e faz
uma projeção até o ano de 2020. Se observarmos a quantidade gerada podemos fazer
uma analogia com a velocidade com que estes dados estão sendo gerados, pois a
crescente utilização de smartphones dentre outras formas de disseminação, faz com
que mais dados sejam produzidos e colocados à disposição a cada minuto. Cabe
destacar que estes dados são analisados no momento em que eles são gerados, não
sendo armazenados em um banco de dados.
2.3 VERACIDADE
Você confia em tudo o que é postado nas redes sociais? Não é possível ter o
controle das informações falsas publicadas na internet, mas através de análises e com
uma base estatística aplicada nos grandes volumes de dados é possível verificar se a
informação é verdadeira ou falsa.
34
Para que tenhamos um bom resultado na análise, é necessário que os dados
sejam verídicos e de acordo com a realidade. A questão da velocidade apresentada
anteriormente está intrinsecamente alinhada com a veracidade dos dados, uma vez que
os dados representam o momento em que foram gerados, desde que sejam verídicos
realmente, não sejam fake, forjados.
[...] precisamos confiar nos dados adquiridos e a veracidade está
relacionada à inconsistência, à ambiguidade e à incompletude
desses dados. Quando anexamos fontes de dados externas à
nossa arquitetura, precisamos ter um cuidado especial, uma
vez que não temos total controle desses dados, como teríamos
se estivéssemos coletando dados de sistemas legados da
empresa. Por isso, devemos sempre questionar os dados que
adquirimos e garantir que a origem da nossa arquitetura não seja
comprometida com dados que possam enviesar ou distorcer
nossas análises. Assim, a veracidade desempenha um papel
importante dentro do Big Data (MATA, 2019, p. 24, grifo do original).
FIGURA 7 – VERACIDADE DOS DADOS
FONTE: <https://shutr.bz/3w77g0O>. Acesso em: 23 abr. 2021.
A veracidade refere-se à precisão dos dados. Para extrair valor dos dados, os
dados precisam ser limpos para remover o ruído. Aplicativos baseados em dados só
podem colher os benefícios do Big Data quando os dados são significativos e precisos.
Portanto, a limpeza de dados é importante para que dados incorretos e defeituosos
possam ser filtrados.
Para Lokianova e Rubin (2014), a veracidade em Big Data está diretamente
relacionada com o gerenciamento de incertezas. As autoras trazem uma proposta de
reduzir a incerteza dos dados textuais, utilizando ferramentas de linguística compu-
tacional, sendo avaliados em três elementos: veracidade, objetividade e credibilidade.
35
A veracidade dos dados, em geral, é o quão preciso ou verdadeiro um conjunto
de dados pode ser. No contexto do Big Data, no entanto, ele assume um pouco mais
de significado. Mais especificamente, quando se trata da precisão do Big Data, não é
apenas a qualidade dos dados em si, mas o quão confiável é a fonte de dados,