Buscar

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Introdução a Big Data
Apresentação
A sociedade iniciou um processo de produção de dados jamais visto por meio de aplicativos de 
mensagens instantâneas, pedidos on-line, aluguéis, entre outros. Assim como a indústria, em sua 
revolução 4.0, fez com que os seus dados produzidos aproximassem em escala exponencial. Os 
tweets chegaram à marca volumosa de milhões por dia, com uma produção veloz e uma variedade 
grandiosa de fotos, vídeos, áudios, textos, etc.
Com isso, percebeu-se o valor dos dados gerados e também que, a partir deles, pode-se ter 
inferências diversas a respeito dos usuários. Nesse contexto, a proposta de uma solução de big data 
é oferecer uma abordagem consistente no tratamento do constante crescimento e da 
complexidade dos dados.
Nesta Unidade de Aprendizagem, você vai conhecer a definição de big data, discutir os seus Vs e as 
implicações, bem como os tipos de dados dentro de seu contexto.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Definir big data.•
Discutir os Vs do big data e as implicações.•
Apontar os tipos de dados relacionados ao big data.•
Desafio
Empresas do ramo petroleiro são multinacionais que geram imensas quantidades de dados 
multivariados. Os dados podem ser provenientes dos seus sistemas de gestão próprios, cruzados 
com dados de gestão de pessoas, de sensores de equipamentos, meteorológicos, entre outros.
Pensando nisso, imagine que você foi contratado pela empresa Oil & Cia como consultor big data, a 
fim de analisar o seu cenário interno e organizar os dados gerados.
Conheça a empresa e os seus processos:
Após análise do cenário, faça um relatório que mapeie os 5 Vs do big data dentro do contexto 
explanado pelo gerente, informando, ainda, o que são um dado estruturado e um dado não 
estruturado.
Infográfico
Há armazenamento de dados desde o homem pré-histórico, de uma forma, de fato, eficiente para a 
sua época. Ao longo do tempo, avança-se a cada momento, incluindo os pergaminhos para 
armazenar escritos e conhecimento, ao ponto de, posteriormente, existirem as bibliotecas.
Caminhando para os dias atuais, percebe-se a substituição das listas escritas de telefone e 
lembretes por aplicativos virtuais, bem como o uso massivo de cartões e moedas digitais. Assim, é 
possível perceber que o modo de armazenamento e produção de dados foi se modificando 
gradativamente.
Acompanhe, no Infográfico a seguir, uma linha do tempo sobre o big data e a história do 
armazenamento e da produção dos dados.
Conteúdo interativo disponível na plataforma de ensino!
Conteúdo do livro
Levando em conta que a sociedade atual está permeada pela produção e pelo armazenamento de 
dados, é interessante perceber como ocorreu essa saída do meio físico para o meio digital. Nesse 
cenário, é essencial conhecer os fundamentos do big data e os princípios que o norteiam, além de 
identificar o seu uso pelas pessoas, pelas empresas, pelas organizações e também pelo governo. 
 
Leia o capítulo Introdução a big data, da obra Introdução à Ciência de Dados, para compreender a 
definição de big data, os 5 Vs envolvidos e os tipos de dados que podem existir nesse contexto.
Boa leitura.
INTRODUÇÃO À 
CIÊNCIA DE 
DADOS
Luiz Fernando Calaça Silva
Introdução a big data
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
  Definir big data.
  Discutir os Vs do big data e implicações.
  Apontar os tipos de dados relacionados a big data.
Introdução
Desde os primórdios, o homem armazenou dados para si e para outros, 
por meio de desenhos nas rochas e arte rupestre. Esse registro era feito 
com o objetivo de tomar alguma decisão ou possibilitar o acesso ao 
conhecimento. À medida que as sociedades se tornavam mais comple-
xas, o volume de armazenamento de dados foi aumentando cada vez 
mais. Isso levou à construção de bibliotecas e à posterior invenção da 
imprensa, por Johannes Gutenberg, por volta de 1450. O próprio ábaco, 
um instrumento mecânico de origem chinesa criado no século V a.C., 
armazenava informações sobre os números e ajudava na computação.
Posteriormente, o surgimento da internet para a troca de informações, 
durante a Segunda Guerra Mundial e a Guerra Fria (1945–1991), tornou ainda 
mais necessário o armazenamento de dados para uma análise posterior. Com 
o tempo, foram sendo desenvolvidas várias maneiras de armazenar essas 
informações: mainframes, disquetes, fitas, HDs, NAS (Network-Attached Storage), 
ambiente cluster, pen drives, CDs, DVDs.
Na sociedade moderna, passou-se a produzir dados de diversas fontes, 
seja em redes sociais (fotos, vídeos, mensagens), em compras on-line, em 
aplicativos de entrega, em cursos EaD, em transações com moedas e ban-
cos digitais. Além disso, houve a substituição dos papéis, como agenda 
física, prontuário médico, pedido de exames, para o contexto digital.
Nesse sentido, as empresas perceberam o valor de armazenar e pro-
cessar dados estratégicos. Assim, a nova corrida de poder tornou-se 
clara: os dados passaram a ser vistos como o novo petróleo. Por conse-
quência, podemos observar um crescimento gradativo na produção e 
no armazenamento dos dados ao longo da história, até chegarmos ao 
contexto de big data.
Neste capítulo, você vai estudar sobre o conceito e as características 
inerentes a big data. Ainda, conhecerá os cinco Vs envolvidos nesse cená-
rio e verá os principais tipos de dados que são relacionados ao contexto.
1 A sociedade dos dados e o que define 
o big data
A cultura moderna passou a produzir e armazenar mais dados. Com um 
computador ou um smartphone nas mãos, passamos a ter acesso a um volume 
maior de informações. Assim, o crescimento do envio de fotos, vídeos, áudio 
e mensagens em texto de forma massiva fez com que a relação social se 
transformasse em digital. Foi nesse cenário que surgiu o conceito de big data.
Segundo Mauro, Greco e Grimaldi (2015, documento on-line, tradução 
nossa), big data é definido da seguinte forma: “O Big Data representa ativos 
de informação caracterizados por alto volume, velocidade e variedade, que 
requerem tecnologias e métodos de análise específicos para serem transfor-
mados em valor [...]”. A partir do crescimento de centenas de Terabytes de 
dados, começou-se então a sistematizar o contexto de big data.
A definição desse termo parte de cinco princípios: velocidade, volume, 
variedade, veracidade e valor. Você verá que tais princípios sempre caminham 
juntos nesse contexto. Assim, big data é um termo abrangente que trata de 
diversas áreas e compõe os vários estudos relacionados.
Na área acadêmica, foram criados departamentos voltados para a engenha-
ria e a ciência de dados, de modo a compor os conjuntos de conhecimentos 
e estudos que a área exigia. Logo, surgiram também diversas profissões 
relacionadas a essa área. O engenheiro de dados trata das estratégias de aqui-
sição, armazenamento e disponibilidade dos dados. O cientista de dados 
e o engenheiro de aprendizado de máquina (em inglês, machine learning) 
compõem o contexto de análise exploratória, reconhecimento de padrões e 
análise preditiva, bem como outros contextos correlatos. Já o engenheiro de 
DataOps atua de forma semelhante ao de DevOps da engenharia de software, 
mas voltado para o contexto dos dados.
Introdução a big data2
A produção exponencial de dados com a internet 
das coisas
A internet das coisas emergiu com um potencial notável, fazendo com que o 
contexto dos dispositivos conectados elevasse exponencialmente a produção de 
dados. Nesse cenário, uma rede de sensores sem fi o comumente utilizados na 
agropecuária produz dados volumosos a cada segundo, com monitoramentos 
intermitentes. Em uma plantação, por exemplo, verifi ca-se a umidade do solo; 
no galinheiro, monitoram-se a temperatura e a umidade do ambiente, entre 
outros. Com isso, produz-se um grande volume de dados.
A produção de geladeiras, ares-condicionados, ventiladores, panelas elétricas 
e outrosdispositivos com conexão fez com que o cotidiano fosse permeado pela 
internet das coisas. Assim, com tantos dados produzidos, é necessário organizar 
uma estrutura de armazenamento e processamento para a tomada de decisão.
O termo “internet das coisas” se refere à interconexão de dispositivos inteligentes, que 
produzem, consomem e transmitem dados. Temos diversos serviços na nuvem que 
compõem o contexto, além de diversas placas e sistemas embarcados.
A produção de dados pelas pessoas
Os maiores produtores de dados no mundo são os próprios seres humanos. 
Anteriormente, cada um poderia apenas criar pequenas anotações para si ou 
dentro de um pequeno grupo. Agora, temos à disposição um ambiente massivo 
de compartilhamento de arquivos on-line.
Ao andarmos, produzimos dados por meio das nossas posições de GPS, que 
são transmitidas em tempo real via aplicativos. A nossa fala produz dados que 
são analisados por assistentes virtuais. Se estivermos hospitalizados, a nossa 
respiração produzirá dados, por meio de sensores, para o prontuário médico. 
Além disso, a utilização das redes sociais torna-se cada vez maior, gerando 
imensas quantidades de dados. O envio de e-mails diários com propagandas 
e para o fechamento de negócios, a alocação de fotos de viagens na nuvem 
e diversas outras situações do nosso cotidiano geram dados, em volume e 
velocidade estrondosos. Logo, na era de big data, viver é produzir dados.
3Introdução a big data
A produção de dados públicos pelos governos
Os governos também produzem uma gama estrondosa de dados, nas mais di-
versas frentes: saúde, infraestrutura, transporte, educação, turismo, economia, 
licitações, contratos, entre outras. No Brasil, esses dados são disponibilizados 
no site do Governo Federal e são comumente consumidos por entidades que 
têm algum interesse específi co no acompanhamento das atividades públicas. 
Além disso, o mercado busca realizar, a partir desses dados, diversas análises 
preditivas. Por outro lado, os governos também utilizam dados uns dos outros, 
a fi m de melhorarem as suas políticas públicas.
2 Os Vs do big data e o seu impacto 
nas tecnologias e na sociedade
O big data mudou a forma como as empresas veem os seus dados. Atualmente, 
cada informação sobre o seu próprio negócio e cliente passou a ser crucial na 
tomada de decisão. No contexto acadêmico, surgem cada vez mais estudos 
sobre esse novo cenário, a fi m de colaborar para um melhor armazenamento, 
processamento e análise de dados. 
Nesse sentido, as características de big data e os seus cinco Vs mostraram 
a sistematização do contexto, oferecendo uma visão de como devem ser os 
estudos e as soluções tecnológicas propostos para a área. Veja a seguir mais 
informações sobre cada um desses aspectos.
Volume
A referência ao tamanho dos dados produzidos e à necessidade de serem 
armazenados engloba o volume do big data. Atualmente, não estamos falando 
de Terabytes, mas sim de Zettabytes ou de Brotonbytes.
Velocidade
A velocidade na produção de dados pode ser vista, por exemplo, pela ótica 
das redes sociais, em que temos milhões de trocas de mensagens por minuto. 
Imagine que um milhão de pessoas enviassem 10 mensagens apenas pela 
manhã, ou seja, nas primeiras seis horas do seu dia. Nesse caso, já teríamos 
Introdução a big data4
10 milhões de dados a serem armazenados. A realidade, no entanto, é muito 
maior. A produção de dados é veloz, seja em monitoramento, por meio de 
sensores, ou nos dados que as próprias pessoas produzem.
Variedade
A multiplicidade de tipos de arquivos dentro do big data é, de fato, uma 
característica pontual. Quando passamos a produzir, em sua maioria, dados 
digitais, transformamos tarefas físicas em dados on-line. Esses dados podem 
ser agendas, pedidos de compras e entregas, envio de mensagem de texto, 
áudio, vídeo e imagem. Essa variedade pode ser composta e armazenada, por 
exemplo, na estrutura de arquivos HDFS do Apache Hadoop, e gerenciada 
pelos seus diversos serviços, como Hive, Hbase, Spark, entre outros.
Veracidade
A composição da veracidade dos dados em big data é parte característica da 
qualidade de dados e da melhoria contínua. Não podemos utilizar dados que 
não representam o problema ou, ainda, que possuem viés. Nesse contexto, a 
ciência de dados se ocupa de limpar e organizar os dados, de forma a aumentar 
a confi abilidade da informação oriunda de um conjunto de dados. Um excelente 
framework para o contexto da qualidade de dados vem do The Dama guide to 
the data management body of knowledge (MOSLEY; BRACKETT; EARLEY, 
2010). Nele você pode encontrar escopos, processos e a defi nição de papéis 
que auxiliam na governança de dados. 
Valor
O primeiro passo que ocorreu no big data foi a necessidade de armazenar os 
dados, para só depois ver o que fazer com eles. Isso se deu porque se perce-
beu que, com a ascensão da análise preditiva, ter muitos dados a respeito de 
determinado contexto poderia ter um valor inestimável. A regra geral atual é 
“guarde, porque amanhã isso valerá muito”.
O uso de dados para as empresas já era utilizado no business intelligence, 
que ficou conhecido pelas teorias do data warehouse e as respectivas especifi-
cidades, com técnicas para criar estruturas de dados e adentrar os dashboards. 
Porém, a análise preditiva ganhou imensa importância, já que todos querem 
prever o futuro com base nas diversas variáveis em um contexto. 
5Introdução a big data
Outros Vs
Segundo Taleb, Serhani e Dssouli (2019), há ainda outros Vs envolvidos. 
Alguns deles são a variabilidade, que consiste na mudança constante dos 
dados; a viscosidade, que se refere à difi culdade de trabalhar com a grande 
variedade de dados envolvidos; a volatilidade, que ocorre quando os dados 
podem ser perdidos; a validade, que permite verifi car se o dado é verdadeiro 
e verifi cável. Além disso, citam-se a visualização, como uma forma acessível 
aos dados; a viralidade, como uma forma de um dado fi car em evidência em 
toda a rede muito rápido; e a vulnerabilidade dos dados, pois há a latente 
questão da segurança. 
Ingestão de dados e armazenamento no Apache Hadoop
Os dados podem ter diversas formas. Eles podem estar estruturados como planilhas, em 
sistemas ERP, podem ser semiestruturados ou não estruturados, como dados de redes 
sociais, ou podem vir de uma rede de sensores sem fio que produzem informações 
como temperatura, umidade ou pressão (Figura 1). 
Figura 1. Os diversos tipos de dados dentro do contexto big data.
Fonte: Caetano (2018, documento on-line).
Para lidar com esses dados, poderíamos levar todos esses arquivos para dentro 
do sistema de arquivos HDFS utilizando o serviço Sqoop do ecossistema Hadoop, 
conforme a Figura 2. Para fazer a ingestão dos dados estruturados, poderíamos usar 
o serviço Hive, ou, ainda, levar os dados não estruturados por meio de Flume, Kafka 
ou Spark Streaming para a estrutura do Cassandra, Redis ou Hbase.
Introdução a big data6
3 Os tipos de dados envolvidos no contexto 
big data
Os dados tradicionais que conhecemos se referem a dados tabulares, ou seja, dados 
organizados em planilhas ou dentro de um banco relacional — os chamados dados 
estruturados. No entanto, há no big data novos tipos de dados: os não estruturados 
e os semiestruturados. Esse novo tipo de dados é oriundo de estruturas não rela-
cionais e, portanto, não têm sentido em uma estrutura comum de banco de dados.
Quando pensamos no mundo do streaming, é fácil perceber os Vs do big 
data. Serviços como Netflix, YouTube ou Vimeo fizeram com que o consumo 
de vídeos crescesse imensamente. Nesse cenário, garantir a entrega e ter 
recursos de rede e armazenamento para consumir e salvar diversos conteúdos 
foi possível porque o armazenamento se tornou acessível, seja por meio das 
memórias ou pelos serviços na nuvem.
Figura 2. Ecossistema Hadoop e os seus diversos serviços.
Fonte: Corbari (2019, documento on-line).
Assim, organizamos um data lake, isto é, um repositório central em que são arma-zenados todos os tipos de dados: estruturados, semiestruturados e não estruturados. 
Nesse repositório, os dados são depositados no seu estado bruto para uma análise 
posterior (COUTO et al., 2019).
7Introdução a big data
Temos ainda dados oriundos de sensores diversos, por meio de câmeras 
de segurança ou por sensores utilizados no contexto do agronegócio e da 
indústria. O monitoramento contínuo desses sensores fez com que fossem 
criadas estruturas volumosas de dados. Além disso, a ascensão da tecnologia 
blockchain e as plataformas de contratos inteligentes também colaboraram para 
o aumento dos arquivos digitais. Um exemplo disso é a plataforma Ethereum.
Outros tipos de dados são aqueles fornecidos pelo governo, bem como os 
advindos do fluxo de e-mails e das redes sociais. Estas últimas tornaram-se 
o principal meio de produção e consumo de dados: fotos, vídeos, mensagens 
postadas e instantâneas, áudios. Atualmente, diversas empresas têm o seu 
principal canal de comunicação e vendas dentro dessas redes.
Os dados estruturados
Os dados estruturados são defi nidos como tendo o formato tabular, isto é, de 
linhas e colunas, conforme mostra a Figura 3. As planilhas eletrônicas e as 
tabelas dos bancos de dados são bons exemplos. Veja que, nesse tipo de dados, 
há uma estrutura fi xa e, normalmente, vários dados estão relacionados entre si.
Figura 3. Banco relacional e dados tabulares.
Fonte: GUJ (2015, documento on-line). 
Introdução a big data8
Os dados semiestruturados e não estruturados
Os dados não estruturados são aqueles que não têm estrutura defi nida, como 
uma postagem em uma rede social, uma página na internet e dados oriundos 
de sensores, e-mails, áudios, vídeos e outros. Já os dados semiestruturados 
são aqueles que têm uma pequena estrutura defi nida, como arquivos XML (Ex-
tensible Markup Language), arquivos RDF (Resource Description Framework) 
do contexto da web semântica e arquivos em formato JSON. O surgimento 
dos bancos Nosql, como MongoDB, Redis, Cassandra e Hbase formam a 
base de armazenamento para o contexto dos dados semi e não estruturados.
Neste capítulo, você viu sobre os Vs envolvidos nos conceitos e princípios 
de big data, os tipos de dados, algumas tecnologias e as aplicações em alguns 
contextos. A produção de dados continua em grande escala, e conhecer sobre 
o big data é estar preparado para lidar com esse contexto.
CAETANO, J. A. Por que estudar preparação de dados? 2018. Disponível em: https://www.
igti.com.br/blog/por-que-estudar-preparacao-de-dados/. Acesso em: 19 abr. 2020.
CORBARI, E. Semantix: ecossistema hadoop. 2019. Disponível em: https://www.slideshare.
net/EdersonMoura1/semantix-ecossistema-hadoop-141345193. Acesso em: 19 abr. 2002.
COUTO, J. et al. A mapping study about data lakes: An improved definition and possible 
architectures. In: INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING AND 
KNOWLEDGE ENGINEERING, 31., 2019, Lisbon. Proceedings [...]. Lisbon: KSIResearch Inc, 
2019. p. 453–458, Disponível em: http://ksiresearchorg.ipage.com/seke/Proceedings/
seke/SEKE2019_Proceedings.pdf. Acesso em: 15 abr. 2020.
GUJ. Lógica na criação de tabelas no banco de dados. 2015. Disponível em: https://res-
postas.guj.com.br/43260-logica-na-criacao-de-tabelas-no-banco-de-dados. Acesso 
em 19 abr. 2020.
MAURO, A.; GRECO, M.; GRIMALDI, M. What is big data? A consensual definition and 
a review of key research topics. In: AIP CONFERENCE, 2015. Proceedings [...]. [S. l.]: AIP 
Publishing, 2015. p. 97–104. Disponível em: https://pdfs.semanticscholar.org/ce1b/05
53c09b725f6fd1fc0b39f2dc7c428d3088.pdf. Acesso em: 15 abr. 2020.
MOSLEY, M.; BRACKETT, M.; EARLEY, S. (ed.). The Dama guide to the data management 
body of knowledge. [S. l.]: Technics Publications, 2010.
TALEB, I.; SERHANI, M. A.; DSSOULI, R. Big data quality: a data quality profiling model. In: 
2019. Disponível em: https://www.researchgate.net/publication/333831302_Big_Data_
Quality_A_Data_Quality_Profiling_Model. Acesso em: 15 abr. 2020.
9Introdução a big data
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a 
rede é extremamente dinâmica; suas páginas estão constantemente mudando de 
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade 
sobre qualidade, precisão ou integralidade das informações referidas em tais links.
Leituras recomendadas
AMARAL, F. Introdução à ciência de dados: mineração de dados e big data. Rio de 
Janeiro: Alta Books, 2016.
KLEIN, G. H.; GUIDI NETO, P.; TEZZA, R. Big Data e mídias sociais: monitoramento das 
redes como ferramenta de gestão. Saúde e Sociedade, São Paulo, v. 26, n. 1, p. 208–217, 
2017. Disponível em: https://www.scielosp.org/article/sausoc/2017.v26n1/208-217/. 
Acesso em: 15 abr. 2020.
MENDONÇA, C. M. C.; ANDRADE, A. M. V.; SOUSA NETO, M. V. Uso da IoT, big data 
e inteligência artificial nas capacidades dinâmicas. Revista Pensamento Contempo-
râneo em Administração, Rio de Janeiro, v. 12, n. 1, p. 131–151, 2018. Disponível em: 
http://200.135.161.12/~edsonh/Repositorio/bigdata_iot.pdf. Acesso em: 15 abr. 2020.
SHARDA, R.; DELEN, D.; TURBAN, E. Business Intelligence e análise de dados para gestão 
do negócio. 4. ed. Porto Alegre: Bookman, 2019.
Introdução a big data10
Dica do professor
O big data e os seus 5 Vs têm impacto na indústria, no comércio, na saúde, no transporte, na 
educação e em diversos outros contextos. O mundo percebeu o valor que é ter dados respectivos 
ao contexto de negócio e, assim, conhecer melhor o cliente, o paciente ou o aluno. A partir do 
armazenamento e da análise desses dados, torna-se possível observar diversos insights e gerar valor 
agregado.
A fim de que se possa ter uma solução para a grande velocidade e o volume de dados produzidos, é 
preciso armazená-los em grandes estruturas computacionais. No entanto, sem a veracidade, perde-
se o nível de confiança em um conjunto de dados. Para auxiliar nesse contexto, existe o framework 
DAMA DMBoK.
Assista à Dica do Professor para entender como o DMBoK auxilia na veracidade dos dados no 
contexto de big data.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/e8d1311f3d8bab0590aba4d5c0228c4d
Exercícios
1) A definição de big data parte de cinco características, conhecidas como 5 Vs do big data, a 
saber: volume, velocidade, variedade, valor e veracidade.
Das alternativas a seguir, aponte aquela que apresenta circunstâncias em que a velocidade é 
o motor principal e, assim, é preciso tomar decisões rápidas:
A) Empresa com sistema de vendas semestrais; galinheiro com monitoramento de temperatura 
ininterrupto; e dados oriundos de um ERP.
B) Aplicativo da Bolsa de valores; monitor de dados vitais dentro de uma UTI; e sistema de 
matrículas de uma escola.
C) Caldeira com monitoramento de temperatura; dados de um vírus altamente contagioso; e 
monitoramento de hashtags na ocorrência de desastre natural.
D) Sistema de provas on-line de um curso EaD; sistema de empréstimo do banco; e umidade 
relativa do ar em tempos de seca severa.
E) Sistema de telemedicina de pacientes idosos; sistema de pesagem de gados; e sistema de 
cursos sob demanda.
2) Uma parte muito importante do contexto big data é a ingestão dos dados. A partir disso, 
analise o seguinte cenário:
Uma empresa tem dados oriundos do sensor RFID do sistema de ponto eletrônico e também 
diversas planilhas eletrônicas em cinco diferentes departamentos, totalizando mais de 15 
milhões de registros feitos nos últimos 20 anos. É necessário unificar esses dados em um 
repositório único, a fim de que a análise e o processamento fiquem mais fáceis.
Diante do exposto, qual é a solução possível no contexto de big data?
A) Por ter diferentes tipos de arquivos, não é possível uni-los em um único repositório. No 
entanto, é possívelobter os dados de cada um e armazená-los em um banco de dados 
relacional, em um sistema de arquivos NTFS.
B) É possível unir os arquivos em um banco de dados relacional, inclusive extraindo os dados das 
planilhas e fazendo um espelho de seus campos em tabelas. No entanto, os dados RFID 
ficarão isolados.
C) É possível unir todos os arquivos em um repositório comum, em um sistema HDFS, inclusive, 
em estrutura de cluster, a fim de compor a segurança, a replicação e a confiabilidade.
D) É possível unir os arquivos em um sistema de arquivos como o FAT32, a fim de garantir a 
confiabilidade. Caso seja necessário, pode-se colocar os dados do RFID dentro de uma nova 
estrutura, sem a necessidade de um cluster.
E) O cenário apresentado não é um problema que envolve big data, mas sim a produção de um 
software que possa consumir as diferentes API's que há dentro da empresa.
3) O conjunto big data & analytics é uma denominação da IBM para a correlação entre big data, 
mineração de dados e inteligência do negócio. No entanto, para que se tenha uma mineração 
com êxito, precisa-se do conceito de veracidade no contexto do big data. 
Considerando um cenário em que não há o controle de qualidade dos dados, o que pode ser 
feito para garantir a veracidade?
A) Utilizar os dados, sem realizar nenhum processamento ou análise inicial, pois o importante é 
armazená-los em local seguro e confiável. Assim, pode-se fazer a ingestão no cluster e 
organizá-los no HDFS.
B) Utilizar os padrões de projetos Gang of Four de engenharia de software, que darão ao sistema 
da empresa a confiabilidade necessária para que os dados tenham a devida veracidade.
C) Utilizar um padrão organizado de governança de dados, por meio do DAMA DMBok 
framework, e realizar análises exploratórias para verificação dos dados e acompanhamento 
contínuo de qualidade.
D) O problema relatado da veracidade é intimamente ligado ao da velocidade. Assim, se os 
dados fossem ingeridos por meio da arquitetura Lambda, eles teriam mais êxito.
E) O valor dos dados não está ligado diretamente ao que a empresa gera interiormente, mas sim 
aos dados gerados exteriormente e que serão consumidos. Logo, a verificação de veracidade 
não é tão necessária.
Analise o seguinte cenário:
Uma empresa fintech realiza empréstimo, prospecção de clientes, análise de fotos de perfis e 
verificação de análise de sentimento em comentários do aplicativo; faz uso de bloco de 
notas (arquivo CSV) para anotar registros em formato tabular dentro de departamentos; e 
envia e-mails automáticos de marketing para bons perfis, de acordo com um sistema de 
machine learning de análise de crédito.
4) 
Para iniciar o processo de organização dos dados dessa empresa, o que se pode afirmar 
sobre os dados estruturados e não estruturados citados?
A) Os dados estruturados não podem ser espelhados em bancos relacionais, pois, mesmo que 
tivessem alguma relação com as tabelas do banco, a remodelagem não seria possível.
B) Os dados estruturados, como as fotos oriundas dos perfis, não podem ser mapeados em um 
banco relacional por meio da transformação para base64, pois ainda não podem se relacionar 
com suas respectivas tabelas de clientes.
C) Os dados não estruturados são diferentes dos estruturados. Um exemplo de um contexto não 
estruturado seria a ingestão de textos dos comentários em uma estrutura Hbase, dentro do 
Hadoop, e a posterior análise de sentimento.
D) Os dados não estruturados, como os registros de clientes dentro do arquivo CSV, poderiam 
ser mapeados para uma estrutura relacional já existente na empresa, assim como os textos 
dos comentários.
E) O conceito de dados estruturados ou não estruturados não é tão importante no momento da 
ingestão dos dados. O ideal é realizar a ingestão dos dados no HDFS, sem a necessidade de 
mapeamento ou conhecimento prévio.
5) A mineração de dados é um processo de aquisição de conhecimento por meio do que o big 
data entrega como informação, ou seja, é a descoberta da informação por meio dos dados.
Considere uma empresa que precisa ter mais conhecimento para a melhoria de suas vendas. 
Essa empresa tem vendas mensais de 50 peças, visitação de 10 clientes diários, em média, e 
dispõe de dados pessoais do cliente, incluindo sexo, idade e frequência de compra; dados 
completos do fornecedor; links das redes sociais de cada cliente, por meio de um cadastro 
voluntário após a compra; e dados oriundos de um sensor que realiza a contagem de quantas 
vezes o cliente passa por cada corredor. No entanto, não há nada formal cadastrado em 
bancos de dados ou qualquer outra estrutura, além de planilhas e anotações digitais.
Diante desse cenário, pode-se concluir que:
A) pela complexidade do ambiente, faz-se necessária a aquisição de um cluster com software big 
data, a fim de compor a infraestrutura e a gestão do armazenamento, respectivamente. Pelas 
baixas vendas, não é necessário realizar a mineração de dados.
B) pelo relato, a empresa não tem um ambiente big data, e, portanto, é possível simplesmente 
organizar dados estruturados em bancos relacionais e dados não estruturados em bancos 
NoSQL, a fim de que, posteriormente, seja realizada alguma mineração.
C) o conhecimento de dados, quando em pequena escala, não faz sentido algum para o negócio, 
pois é muito limitado. Assim, pode-se realizar a ingestão em uma estrutura big data, mas sem 
a necessidade de controle de qualidade e análise exploratória.
D) ao se perceber que o ambiente não comporta uma estrutura big data, pode-se manter os 
dados em pequenas estruturas dentro de arquivos, não necessitando de uma maior 
complexidade em bancos relacionais. Isso facilitaria a mineração dos dados.
E) a aquisição de um banco relacional é verificada pelas ligações entre as entidades envolvidas 
na venda da empresa, assim, será necessária uma estrutura de big data com o sistema HDFS, a 
fim de compor a melhoria tecnológica para a extração de conhecimento.
Na prática
A aquisição de dados e o armazenamento em uma grande estrutura são passos necessários para 
uma posterior análise e geração de insights. Uma empresa pode ter dados armazenados em sua 
estrutura ou, ainda, precisar consumir dados oriundos de alguma API (Interface de Programação de 
Aplicativos).
Nesse cenário, os dados oriundos de redes sociais têm se tornado importantíssimos para o 
conhecimento de possíveis clientes de um negócio. As redes sociais têm ajudado políticos, 
empresas e pessoas, de forma geral, a compreenderem melhor os rumos do consumo.
Na Prática, por meio de um estudo de caso, compreenda essa relação entre big data e redes sociais.
Aponte a câmera para o 
código e acesse o link do 
conteúdo ou clique no 
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/bef1fe8b-52e2-4f96-9d90-db07f91d7e11/2d667ced-55cb-494e-b377-cbd4cc1bc942.png
Saiba +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:
Internet das coisas na fazenda: tecnologia e produtividade
Leia aqui sobre Internet das coisas na fazenda: tecnologia e produtividade
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
A política de segurança cibernética norte-americana: estado e 
empresas de tecnologia na sociedade do big data
Ao realizar a análise de dados de forma massiva e perceber padrões, o contexto do big data também 
auxilia na segurança. O seguinte estudo mostra a relação de interesse do setor público norte-
americano com atores privados na promoção da vigilância da sociedade por meio dos dados.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Publicidade inteligente: convergências entre os chatbots e as 
marcas
O big data envolve o pensar em publicidade inteligente. O contexto do analytics e a publicidade, em 
que são observadas as pessoas e as suas ações para uma tomada de decisão, é, de fato, promissor. 
É possível mudar a relação da publicidade, por exemplo, direcionandodiversos produtos por sexo 
ou faixa etária. Esta é a temática deste artigo.
https://digital.futurecom.com.br/transformacao-digital/internet-das-coisas-na-fazenda-tecnologia-e-produtividade
https://repositorio.unesp.br/bitstream/handle/11449/191784/assis_cg_me_mar.pdf?sequence=6?v=1048487052
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
http://www.revistas.usp.br/signosdoconsumo/article/view/163788/159683/