Big data

Colégio Objetivo

SAM Artes Marciais

em 07/08/2021

Conteúdos escolhidos para você

10 pág.

Big Data - Conceitos e Aplicações

Anhanguera

63 pág.

Perguntas dessa disciplina

Os avanços tecnológicos dos últimos tempos criaram um conjunto de novos conceitos. O Big Data, um exemplo desses novos conceitos, diz respeito ao c...

FMU

Marcar para revisão 6 Em um mundo cada vez mais conectado, o Big Data é um dos temas mais relevantes do mercado de TI. O seu conceito é composto pe...

ESTÁCIO EAD

Uma empresa de marketing digital decidiu analisar os dados de interação dos usuários em suas campanhas publicitárias. Para isso, a equipe de análise d

UNIVESP

Nos últimos anos, a análise de dados dos usuários da rede tem sido o aporte para tomada de decisões mercadológicas de grandes empresas, conforme demon

UAM

Big Data representa ativos de informação caracterizados por alto volume, velocidade e variedade, que requerem tecnologias e métodos de análise espe...

Material

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

10 pág.

Big Data - Conceitos e Aplicações

Anhanguera

63 pág.

Perguntas dessa disciplina

Os avanços tecnológicos dos últimos tempos criaram um conjunto de novos conceitos. O Big Data, um exemplo desses novos conceitos, diz respeito ao c...

FMU

Marcar para revisão 6 Em um mundo cada vez mais conectado, o Big Data é um dos temas mais relevantes do mercado de TI. O seu conceito é composto pe...

ESTÁCIO EAD

Uma empresa de marketing digital decidiu analisar os dados de interação dos usuários em suas campanhas publicitárias. Para isso, a equipe de análise d

UNIVESP

Nos últimos anos, a análise de dados dos usuários da rede tem sido o aporte para tomada de decisões mercadológicas de grandes empresas, conforme demon

UAM

Big Data representa ativos de informação caracterizados por alto volume, velocidade e variedade, que requerem tecnologias e métodos de análise espe...

Prévia do material em texto

Aula Bônus
Informática para PF – Pós edital
Prof. Victor Dalton
2021

Prof. Victor Dalton
Aula Bônus

2 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

Sumário
BIG DATA ..................................................................................................................................................... 3
CONTEXTO ................................................................................................................................................................. 3
CONCEITO .................................................................................................................................................................. 4
OS 5VS DO BIG DATA .................................................................................................................................................. 6
TECNOLOGIAS ............................................................................................................................................................ 7
NoSQL (ou Not Only SQL) ..................................................................................................................................... 8
Hadoop .............................................................................................................................................................. 11
QUESTÕES DE PROVA COMENTADAS ........................................................................................................ 15
Big Data ............................................................................................................................................................. 15
LISTA DE QUESTÕES ................................................................................................................................. 21
Big Data ............................................................................................................................................................. 21
GABARITO ................................................................................................................................................. 24
RESUMO DIRECIONADO ............................................................................................................................ 25
BIG DATA ................................................................................................................................................................ 25

Prof. Victor Dalton
Aula Bônus

3 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

Big Data
Big Data é um tema que, embora não seja tecnicamente trivial, creio ser bastante interessante. Porém, antes de
“mergulharmos” neste tema, é necessário contextualizar para uma melhor compreensão.
Contexto
No mundo atual, TUDO está gerando informação. Nós estamos, a todo momento, criando informações para as
grandes empresas.
Os GPS dos celulares informam nossa localização. Com isso, grandes empresas sabem por onde andamos, onde
moramos, onde trabalhamos, aonde vamos em momentos de lazer etc.
As bandeiras dos cartões de crédito, e também os bancos, registram nossos hábitos de consumo, até mesmo
classificando-os por categorias. Relacionando a entrada e saída de capital da sua conta corrente, conseguem saber
também o quão propenso alguém é a se endividar e os tipo de dívidas que tal pessoa contrai.
As redes sociais refletem diretamente o comportamento das pessoas, sem muito esforço, pois, hoje em dia, elas
compartilham, voluntariamente, seus sentimentos, opiniões, vontades e muito mais. Para exemplificar isso, leia o
seguinte trecho de um artigo:
Em 2012, com base em uma média de 68 likes do Facebook por usuário, era possível prever sua cor da pele
(95% de precisão), sua orientação sexual (88%) e sua filiação aos partidos Democrata ou Republicano (85%).
Inteligência, afiliação religiosa, bem como uso de álcool, cigarro e drogas, tudo poderia ser determinado. Com
esses dados era até possível deduzir se os pais de alguém eram divorciados.
70 curtidas eram suficientes para saber mais até do que os amigos de alguém, 150 mais do que os pais. Para
conhecer uma pessoa mais do que o seu parceiro, bastavam 300 curtidas. Com mais likes do que isso, era
possível conhecer mais até do que a própria pessoa sabia sobre si.
Já em 2012, veja o quão forte era isso. Tamanha é a exposição dos traços de personalidade, por parte das pessoas,
que essas empresas sabem mais sobre você do que você mesmo, por mais engraçado que isso possa parecer. Com
o crescimento exponencial de dados gerados, possivelmente, nos dias de hoje, isso está tremendamente maior e
mais acentuado. Em 2017, cerca de 3.8 bilhões de pessoas estavam conectadas à Internet. Nessa época, você tinha
algo em torno de 473 mil tweets, 50 mil postagens no Instagram e 4 milhões de vídeos visualizados POR MINUTO.
Portanto, é possível concluir, sem muita dificuldade, que as redes sociais detêm muita informação sobre bilhões
de pessoas ao redor mundo.
Em suma, a sociedade atual produz uma quantidade absurda de informação – isto é, dados. Contudo, 80% a 95%
são dados não estruturados.
Em linhas gerais, um dado estruturado é aquele que está “encaixado certinho” em uma estrutura, recheado de
metadados (informações sobre estes dados). Em um sistema de banco de dados relacional tradicional, como um
cadastro de funcionários de uma empresa – temos os códigos, nome, telefone, departamento dos funcionários,
tudo “bonitinho” – muito bem estruturado, organizado e preenchido em uma planilha.
Os dados não estruturados, por sua vez, são aqueles que carecem de informações para categorizá-los, classificá-
los e organizá-los. Exemplificando em uma situação hipotética:
Prof. Victor Dalton
Aula Bônus

4 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

No grupo de WhatsApp da família, seu tio envia um áudio de 7 minutos e uma mensagem dizendo “Escutem, é muito bom

"#$%&
'()*+,
-./0123
456”. Apenas com isso, você não faz ideia de qual informação está sendo passada. Não há como saber o que aquele
áudio “solto” aborda – não existe um rótulo no áudio como “piada” para classificá-lo. Trata-se, portanto, de um dado não
estruturado.
Multimídia – como vídeos e áudios – são exemplos clássicos de dados não estruturados, porque muitas vezes
carecem de informações para categorizá-los e classificá-los. As hashtags, por exemplo, como #concursoPRF, são
uma forma de tentar classificar e organizar dados não estruturados.
Portanto, haja vista que temos uma quantidade absurda de informação sendo produzida e a maior parte são dados
não estruturados, é preciso ter uma forma de cuidar disso – e tem: o Big Data.

Conceito
“O que é Big Data?”
São tecnologias para a análise de grandes volumes de dados estruturados e não estruturados. Isto é feito por meio
do uso de algoritmos estatísticos avançados que fazem, entre outros, análises preditivas e análises de tendências.
Na rede social Twitter, por exemplo, temos uma aba que apresenta as tendências (assuntos mais comentados) do
momento. Os assuntos são separados em ordem hierárquica, do mais comentando ao menos comentado. Muitos
tem dúvidas do porquê que um assunto com muitas menções, às vezes, fica abaixo de outro com bem menos
menções.

No exemplo hipotético da imagem acima, meramente ilustrativo, os assuntos “E a PCDF?” e “Direção Concursos”
tem bem menos Tweets do que “PRF”, mas estão acima deste. Isto não é um bug. O que ocorre, na verdade, é que
o Twitter consegue entender, por meio da velocidade de produção de Tweets mencionando tal assunto, se este
assunto está crescendo ou declinando – um assunto novo, por exemplo, tem poucos Tweets ainda porque acabou
de entrar em tendência e só tende a crescer, enquanto um assunto “antigo” já tem muitos comentários, mas está
sendo cada vez menos comentado. O Big Data, portanto, tem essa capacidade de entendero que está em
tendência.

Prof. Victor Dalton
Aula Bônus

5 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

“O que não é Big Data?”
Tão importante quanto saber o que é Big Data é saber distingui-lo do que não é.
è Grandes volumes de dados, apenas.
Um grande volume de dados, por si só, não caracteriza um Big Data. A velocidade que os dados são produzidos
também é uma característica a ser observada. Exemplo hipotético:
Na PRF, eles têm um banco de dados com todos os motoristas do Brasil e as infrações cometidas por eles. Este banco de
dados, por si só, não necessariamente é suficiente para que seja um Big Data, pois isto é somente um grande volume de dados.
è Dados estruturados, apenas.
Se você tem um sistema “redondinho”, com dados bem organizados e estruturados, isto não necessariamente é
um Big Data, pois este está relacionado também com ter tecnologias capazes de lidar com dados não estruturados.

Veja como é cobrado em prova:
(CESPE/CEBRASPE – Polícia Federal – Agente – 2018)
Big data refere-se a uma nova geração de tecnologias e arquiteturas projetadas para processar volumes muito
grandes e com grande variedade de dados, permitindo alta velocidade de captura, descoberta e análise.
◯ Certo ◯ Errado
RESOLUÇÃO:
Uma definição geral, simples e “bonita”.
Resposta: Certo

(CESPE/CEBRASPE – Polícia Federal – Escrivão – 2018)
Dados coletados de redes sociais podem ser armazenados, correlacionados e expostos com o uso de análises
preditivas.
◯ Certo ◯ Errado
RESOLUÇÃO:
Novamente, uma sentença genérica e correta. As redes sociais são o melhor exemplo de Big Data.
Resposta: Certo

(CESPE/CEBRASPE – Polícia Federal – Escrivão – 2018)
O big data consiste de um grande depósito de dados estruturados, ao passo que os dados não estruturados são
considerados data files.
◯ Certo ◯ Errado
RESOLUÇÃO:
Prof. Victor Dalton
Aula Bônus

6 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

A definição de big data não é “um grande depósito de dados estruturados” (isto é, na verdade, um data warehouse).
Big Data trata-se de tecnologias, e não depósitos de dados.
Ademais, os data files não estão relacionados diretamente ao escopo do nosso estudo de Big Data.
Resposta: Errado

Os 5Vs do Big Data
O Big Data possui cinco características intrínsecas: volume, velocidade, variedade, veracidade e valor – os
chamados 5Vs do Big Data.

Necessariamente, é preciso ter um grande volume de dados. Além disso, é fundamental que a geração, entrada e
acumulação de dados aconteça de forma veloz – como nas redes sociais, em que os dados são gerados muito
rapidamente.
No Big Data, os dados devem possuir a característica da variedade, isto é, a capacidade de suportar e processar
diversos formatos diferentes de dados – como vídeos, fotos, texto, stories, tweets, posts, publicações etc.
Além dessas três características (volume, velocidade e variedade), que são consideradas as três principais e mais
marcantes, temos também duas outras características, que surgiram posteriormente, relacionadas ao lado mais
“burocrático”: veracidade e valor.
A veracidade está ligada à informação ser verdadeira e íntegra. Além disso, as informações têm que ter valor, de
forma que agreguem ao sistema.
Atenção!!
Não é incomum que os examinadores tragam, nas questões, apenas as
características mais marcantes. Isso, por si só, não torna a questão
errada, exceto se for feita uma exclusão das demais características.
BIG
DATA
VOLUME
VELOCIDADE
VARIEDADEVERACIDADE
VALOR
Prof. Victor Dalton
Aula Bônus

7 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

Vamos praticar?
"#$%&'(
(CESPE/CEBRASPE – Polícia Federal – Perito – 2018)
A mineração de dados se caracteriza especialmente pela busca de informações em grandes volumes de dados,
tanto estruturados quanto não estruturados, alicerçados no conceito dos 4V’s: volume de mineração, variedade
de algoritmos, velocidade de aprendizado e veracidade dos padrões.
◯ Certo ◯ Errado
RESOLUÇÃO:
Primeiramente, a questão já inicia falando em “mineração de dados” quando, na verdade, o assunto abordado em
seguida é o Big Data. Além disso, ela cita 4Vs e os relaciona a complementos que não estão correlacionados. Essas
quatro características são referentes aos DADOS, e não à mineração, algoritmos, aprendizado e padrões. Os
complementos são, então, incoerentes.
Os 5Vs do Big Data estão sempre ligados aos dados. Logo, quando, na resolução de questões, for abordado o
significado e/ou conceito destas características, basta que você “pegue” quaisquer das características e
complemente-as com “dos dados”. Exemplificando:
• Volume dos dados;
• Velocidade dos dados;
• Variedade dos dados;
• Veracidade dos dados;
• Valor dos dados.
Resposta: Errado

(CESPE/CEBRASPE – Polícia Federal – Papiloscopista – 2018)
De maneira geral, big data não se refere apenas aos dados, mas também às soluções tecnológicas criadas para
lidar com dados em volume, variedade e velocidade significativos.
◯ Certo ◯ Errado
RESOLUÇÃO:
Exatamente! Além disso, embora a questão tenha citado somente os 3Vs mais marcantes, não houve exclusão dos
demais.
Resposta: Certo

Tecnologias
As tecnologias de Big Data já foram cobradas em provas de forma introdutória. Diante disso, há a possibilidade
dos examinadores quererem se aprofundar um pouco mais. Portanto, preste bastante atenção a partir de agora,
pois abordaremos o NoSQL e o Hadoop, duas das principais tecnologias de Big Data atualmente.
Prof. Victor Dalton
Aula Bônus

8 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

NoSQL (ou Not Only SQL)
Em linhas gerais, SQL é uma linguagem na qual se dá comandos para criar, gerenciar ou manipular banco de dados
relacionais. O NoSQL, por sua vez, (também chamado de Not Only SQL) é um termo que designa tecnologias
diferentes de natureza não relacional – isto é, bancos de dados não relacionais.
Um banco de dados relacional contém um esquema de dados em que é possível estabelecer relações entre eles.
Tabelas de uma empresa, por exemplo, nas quais é possível estabelecer relacionamentos (como, por exemplo,
tabelas contendo informações sobre funcionários, departamentos, projetos etc.). Diferentemente deste modelo
relacional, no NoSQL, não há esquema definido.
O NoSQL viola as propriedades ACID
As chamadas propriedades ACID (atomicidade, consistência, isolamento e durabilidade) são pertinentes aos
bancos de dados tradicionais – relacionais. Porém, no NoSQL, não há “tanta” preocupação com essas regras.
Contextualizando de forma hipotética:
Acaba de ser lançado o videogame Playstation 5 e você pretende o adquirir. Ao acessar o site de uma grande varejista, você
se depara com o alerta “última unidade disponível”. Logo, rapidamente, você, que está situado em São Paulo, clica no botão
para comprar e finaliza o seu pedido com sucesso.
Porém, concomitantemente, um outro consumidor, que está situado em Rio Branco (Acre), clica no botão para comprar
exatamente no mesmo segundo que você e também realiza a compra com sucesso.
Três dias depois, você recebe um e-mail informando que o produto que adquiriu estava esgotado e que receberá um estorno
do pagamento.
O site da grande varejista possui servidores espalhados por todo o Brasil, num banco de dados distribuído, visando oferecer
uma melhor experiência ao usuário. Você, ao acessar o site, está conectado a um banco de dados de São Paulo e o outro
consumidor está conectado a um banco de dados de Manaus. Porém, como os bancos de dados da varejista violam as
propriedades ACID, as bases não se comunicaram, o que permitiu que duas pessoas realizassem a compra de um produto que
só tinha uma unidade disponível.
Em um sistema que respeita às propriedades ACID, os bancos de dados seriamcapazes de se comunicarem e verificariam, no
milésimo de segundo, quem comprou primeiro e informaria ao outro consumidor, antes mesmo dele finalizar a compra, que
o produto esgotou.
Teorema CAP
O NoSQL segue o chamado Teorema CAP (Consistency, Availability e Partition tolerance).
è Consistency (Consistência)
A consistência determina que deve haver cópias de um mesmo dado em todos os nós do banco de dados.
è Availability (Disponibilidade)
A disponibilidade diz respeito ao sistema estar sempre disponível para a realização de transações.
è Partition Tolerance (Tolerância a Partições)
A tolerância a partições é a possibilidade de o sistema continuar operando mesmo em caso de falha. Para tanto,
ele deve ser partido em subredes de modo que, se uma delas falhar, as outras continuem funcionando.
Prof. Victor Dalton
Aula Bônus

9 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

No Teorema CAP, a regra é que duas dessas propriedades sempre devem estar funcionando, porém nunca as três
ao mesmo tempo. Inclusive, se analisarmos, as três propriedades funcionando ao mesmo tempo conflitam entre
si.
Por exemplo, em um sistema em que as cópias estão em todos os lugares (consistency) e ele está sempre disponível
(availability), não há como ser tolerante a partições, pois se uma das partições para de funcionar, automaticamente
esta não está mais disponível e as cópias não estão mais em todos os nós.
Exemplo hipotético:
O Instagram é uma rede social que possui bancos de dados distribuídos por todo o mundo. O jogador Cristiano Ronaldo, com
um dos perfis mais seguidos, quando está na Itália, resolve publicar uma foto. Se esta publicação ficasse somente na Itália
para ser entregue para o mundo inteiro, isto poderia acarretar um sobrecarregamento e até mesmo queda do servidor, haja
vista as centenas de milhões de pessoas a quem a foto deve ser entregue.
Diante disso, quando o Cristiano Ronaldo faz uma publicação, isto é replicado para vários servidores localizados em vários
lugares diferentes do mundo. Portanto, a consistência (propriedade que diz que as cópias devem estar em todos os nós) não
acontece de imediato – alguns recebem a foto primeiro do que outros.
Portanto, em suma, no NoSQL, conforme o Teorema CAP, conclui-se que os bancos de dados devem ser flexíveis.
Propriedades BASE
As propriedades BASE (Basically Available, Soft-state and Eventually consistent), que norteiam o NoSQL, dizem
que um sistema deve estar basicamente disponível, em um estado leve e com consistência eventual.
Logo, há tolerância a falhas de consistência em um banco, que deve funcionar basicamente todo o tempo em um
estado leve, estando consistente nos momentos devidos.
Características dos sistemas distribuídos
Os sistemas NoSQL distribuídos pelo mundo inteiro devem ter:
è Escalabilidade (horizontal e vertical)
A escalabilidade, em linhas gerais, é a capacidade de estar preparado para crescer e suportar uma demanda maior.
Isto é, quando necessário, melhorar o processamento e/ou a quantidade de servidores. Exemplificando:
O portal de notícias do Direção Concursos possui um número consistente de acessos. Porém, quando sai, de repente, um
edital novo, o site recebe muitos acessos simultaneamente. Se o site do Direção não tivesse escalabilidade, iria sair do ar
nessas ocasiões.
A escalabilidade horizontal é a capacidade de alocar mais máquinas. (para memorizar, pense em uma máquina
uma do lado da outra, organizadas horizontalmente ⇾). A escalabilidade vertical, por sua vez, é a capacidade de
transportar um sistema de uma máquina para outra máquina com melhor processamento. (para memorizar, pense
em uma máquina acima da outra, em um nível “verticalmente superior” ↑).
è Disponibilidade
Os sistemas precisam estar disponíveis.
è Replicação
É a capacidade de replicar o que está numa máquina para as demais máquinas.
Prof. Victor Dalton
Aula Bônus

10 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

è Consistência eventual
Há flexibilidade quanto à consistência, com tolerância a falhas.
Implementação
Para implementar o NoSQL, existem algumas tecnologias, como:
è Chave-valor
Em uma tabela relacional, tudo é bem separado e organizado, não havendo tolerância quanto às informações a
serem preenchidas. Por exemplo, em uma tabela de projetos, na coluna “códigos”, só se aceitam os códigos; na
coluna “setor”, só se aceitam os nomes dos setores e, na coluna “responsável”, só se aceita o nome do responsável.
Exemplo:
CÓDIGOS SETOR RESPONSÁVEL
0001 Marketing Ronaldo
0002 Comercial Victor
0003 Financeiro Erick
Já no NoSQL, em um modelo baseado na técnica chave-valor, há maior flexibilidade. Logo, as colunas “chave” e
“valor” permitem várias entradas diferentes. Exemplo:
CHAVE VALOR
16 nome = NoSQL Essencial, ano - 2014
Arthur idade = 35, interesse = engenharia
2 nome = True Blood, gênero = fantasia, classificação = 16 anos
Mário ocupação = prático
Embora seja uma bagunça, esta flexibilidade é necessária para o pleno funcionamento do Big Data, pois você
nunca sabe qual será a próxima ação de um usuário. Se for um sistema muito “travadinho”, a coisa não anda.
è Documentos
Os documentos são uma forma de armazenamento no NoSQL. Aqui, segue o mesmo espírito da técnica anterior,
havendo flexibilidade para a entrada de dados. Cada novo registro aceita campos diferentes.

è Família de colunas
Em um banco de dados, há vários registros e dados atribuídos às colunas. Nas famílias de colunas, é permitido ter
colunas principais e colunas adicionais, voltadas ao funcionamento do sistema. Exemplo:
Prof. Victor Dalton
Aula Bônus

11 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

Além disso, existem sistemas que permitem também puxar dados de várias colunas de uma vez.
è Grafos
Os grafos são uma estrutura de armazenagem de dados. O exemplo mais clássico, das redes sociais, são as
relações feitas entre as pessoas – fulano segue beltrano, que segue ciclano etc.
Para armazenamentos como os do exemplo acima, geralmente utilizam-se os grafos.

Hadoop
O Hadoop é uma plataforma para desenvolvimento de soluções voltadas para Big Data. Nesta plataforma, é
possível criar uma estrutura para armazenamento e processamento de sistemas com Big Data.

Para desenvolver tais soluções, é preciso ter:
Prof. Victor Dalton
Aula Bônus

12 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

• Escalabilidade (horizontal)
• Processamento paralelo (possibilidade de espalhar o poder de processamento)
• Confiabilidade
• Flexibilidade (um sistema flexível)
• Baixo custo (se custar uma fortuna, pode ser inviável economicamente).
No Hadoop, utilizam-se vários módulos, mas os principais são o HDFS (Hadoop File System) e o MapReduce.
HDFS (Hadoop File System)
O HDFS é um sistema de armazenamento de arquivos voltado para os sistemas distribuídos por todo o mundo.
(sim, é um sistema de armazenamento tipo NTFS, FAT32). Ele foi originado no Google File System e tem como
principal premissa atender aos 3Vs principais do Big Data (volume, velocidade e variedade).
O principal foco do HDFS reside no armazenamento distribuído de arquivos muito grandes. Por exemplo:
Um vídeo de 1h, filmado em resolução de 4k, possui um tamanho gigantesco. Logo, é desejável que o armazenamento seja
feito de forma distribuída, espalhando pedaços de arquivos para vários servidores, pois, assim, o processamento ocorre de
forma mais célere.
O HDFS possui escalabilidade e tolerância a falhas. Diante disso, é preciso ter redundância de arquivos para, caso
um servidor venha falhar, seja possível fazer a reconstituição.
Ele tem como parâmetro a regra WORM (Write Once / Read Many), que dita que um dado deve ser escrito uma
única vez (write once) – sem poder ser modificado – e lido várias vezes (read many). Por exemplo:
Quando o CristianoRonaldo posta uma foto, ele não consegue modificar ela (write once), porém ela é visualizada por milhões
de pessoas (read many).
Para elucidar, vamos responder uma questão:
(CESPE/CEBRASPE – TCE PB – Auditor – 2018 - Adaptada)
Em big data, o sistema de arquivos HDFS é usado para armazenar arquivos muito grandes de forma distribuída,
tendo como princípio o write-many, read-once.
◯ Certo ◯ Errado
RESOLUÇÃO:
A questão fez uma inversão: o correto seria write once (o dado é escrito uma só vez) e read many (o dado será lido
muitas vezes) – e não o contrário.
Resposta: Errado
MapReduce
O MapReduce é uma aplicação que trabalha em cima do HDFS para conseguir oferecer um processamento
paralelo em um ambiente distribuído. Parte da premissa que, se os dados estão distribuídos em vários lugares
pelo mundo, é preciso ter uma forma de organizá-los posteriormente. Portanto, é preciso um sistema lógico,
organizado e estruturado para que a coisa funcione.
Prof. Victor Dalton
Aula Bônus

13 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

Para tanto, o MapReduce trabalha com agrupamento por chave-valor e transformação de dados maiores em
dados menores, fazendo um mapeamento das informações de forma descentralizada e espalhada. Exemplo:
Em uma rede social, desejam descobrir a quantidade de vezes que as palavras dog, cat, mouse e duck foram mencionadas.
Primeiramente, as palavras são separadas por região de onde vieram (como América, África e Ásia) e realiza-se uma contagem
separadamente em cada região.
Em seguida, após a contagem regionalizada, as palavras são ordenadas por grupo (junta todas as palavras “cat” em um grupo,
todas as palavras “dog” em outro etc.) e depois são reduzidas (ao invés de “dog, dog, dog”, reduz-se para “Dog, 3”).
Por fim, organiza-se todas as palavras e a incidência delas a nível mundial.

Perceba como, ao invés de ir direto contando a recorrência das palavras, ocorreu um processo espalhado e descentralizado.

Hora de praticar!
(CESPE/CEBRASPE – Polícia Federal – Papiloscopista – 2018)
MapReduce oferece um modelo de programação com processamento por meio de uma combinação entre chaves
e valores.
◯ Certo ◯ Errado
RESOLUÇÃO:
Isso mesmo. O MapReduce trabalha com agrupamento por chave-valor.
Resposta: Certo

(CESPE/CEBRASPE – Polícia Federal – Papiloscopista – 2018)
MapReduce permite o processamento de dados massivos usando um algoritmo paralelo mas não distribuído.
◯ Certo ◯ Errado
RESOLUÇÃO:
No Big Data, no geral, tudo ocorre de forma distribuída. O MapReduce, por sua vez, tem como premissa oferecer
processamento paralelo em ambiente distribuído.
Resposta: Errado

Prof. Victor Dalton
Aula Bônus

14 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

(CESPE/CEBRASPE – EBSERH – Analista – 2018)
As soluções de big data focalizam dados que já existem, descartam dados não estruturados e disponibilizam os
dados estruturados.
◯ Certo ◯ Errado
RESOLUÇÃO:
O Big Data trabalha com dados estruturados e principalmente dados não estruturados. Além disso,
diferentemente do que diz a questão, o foco não está nos dados que já existem somente, pois o sistema é
programado e ordenado para a chegada de novos dados.
Resposta: Errado

Prof. Victor Dalton
Aula Bônus

15 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

Questões de prova comentadas
Big Data
1. Instituto AOCP – MJSP – Analista – 2020
O Big Data é definido como coleções de dados cuja sua quantidade é tão grande que é difícil armazenar, gerenciar,
processar e analisar esses dados por meio de bancos de dados tradicionais. Nos últimos anos, houve um
crescimento exponencial nos dados estruturados e não estruturados gerados pela tecnologia da informação da
indústria e saúde por meio da internet das coisas (IoT), por exemplo. Sabendo disso, assinale a alternativa que
apresenta corretamente as cinco características, também conhecidas como os cinco “vês”, de um big data.
a) Valor, viabilidade, visiblidade, velocidade, volume.
b) Volume, vertente, valor, virtualidade, vitabilidade.
c) Viabilidade, vitalício, virtual, velocidade, valor.
d) Velocidade, volume, veracidade, variedade, valor.
e) Veracidade, viabilidade, volume, virtualidade, variedade
RESOLUÇÃO:
As cinco características intrínsecas (5Vs) do Big Data são: volume, velocidade, variedade, veracidade e valor.

Resposta: D

2. CESPE/CEBRASPE – TCE RO – Analista de TI – 2019
Com relação a fundamentos e conceitos de Big Data, julgue os itens a seguir.
I O volume de dados é uma característica importante de Big Data.
II Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não impacta os
negócios.
III A característica de velocidade de entrada dos dados impacta o modelo de processamento e armazenamento.
IV A variedade dos dados não é característica intrínseca nos fundamentos de Big Data.
Prof. Victor Dalton
Aula Bônus

16 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

Estão certos apenas os itens
a) I e II.
b) I e III.
c) II e IV.
d) I, III e IV.
e) II, III e IV.
RESOLUÇÃO:
Vejamos:
I – Certo. O volume é uma das principais características do Big Data.
II – Errado. Duas características intrínsecas do Big Data são a veracidade (dados verdadeiros e íntegros) e valor dos
dados (dados que agreguem ao sistema).
III – Certo. É muito importante, para o Big Data, ter escalabilidade – isto é, estar preparado para crescer e suportar
uma demanda maior, como a entrada de mais dados, que exige um melhor processamento e armazenamento.
IV – Errado. A variedade dos dados é um dos 5Vs do Big Data. Relembre:

Resposta: B

3. CESGRANRIO – PETROBRAS – Analista – 2018
A principal definição de Big Data parte de três características, conhecidas como 3 V do Big Data, a saber:
velocidade, variedade e volume.
O termo velocidade refere-se, principalmente, à
a) necessidade das aplicações de gerar respostas rapidamente, a partir de grandes massas de dados.
b) existência de um alto fluxo de dados na entrada.
c) necessidade de gerar aplicações rapidamente, em função da demanda do negócio.
d) importância da facilidade de manipular cubos de visualização de dados, rapidamente.
e) rapidez com que os dados se tornam inválidos com o tempo.
Prof. Victor Dalton
Aula Bônus

17 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

RESOLUÇÃO:
Os 5Vs do Big Data estão sempre ligados aos dados. Logo, quando, na resolução de questões, for abordado o
significado e/ou conceito destas características, basta que você “pegue” quaisquer das características e
complemente-as com “dos dados”. Exemplificando:
• Volume dos dados;
• Velocidade dos dados;
• Variedade dos dados;
• Veracidade dos dados;
• Valor dos dados.
A velocidade, uma das principais características do Big Data, está ligada à geração, entrada e acumulação veloz de
dados, como ocorre, por exemplo, nas redes sociais.
Portanto, a alternativa que melhor se encaixa é a B – alto fluxo de entrada de dados.
Resposta: B

4. FCC – TCE RS – Auditor Público Externo – 2018
Um sistema de Big Data costuma ser caracterizado pelos chamados 3 Vs, ou seja, volume, variedade e velocidade.
Por variedade entende-se que
a) há um grande número de tipos de dados suportados pelo sistema.
b) há um grande número de usuários distintos acessando o sistema.
c) os tempos de acesso ao sistema apresentam grande variação.
d) há um grande número de tipos de máquinas acessando o sistema.
e) os tamanhos das tabelas que compõem o sistema são muito variáveis.
RESOLUÇÃO:
Os 5Vs do Big Data estão sempre ligados aos dados. Logo, quando, na resolução de questões, for abordado o
significado e/ou conceito destas características, basta que você “pegue” quaisquer das característicase
complemente-as com “dos dados”. Exemplificando:
• Volume dos dados;
• Velocidade dos dados;
• Variedade dos dados;
• Veracidade dos dados;
• Valor dos dados.
Portanto, a variedade dos dados diz respeito à entrada de formatos diferentes (variáveis) de dados – como vídeos,
fotos, texto, stories, tweets, posts, publicações etc.
Prof. Victor Dalton
Aula Bônus

18 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

Resposta: A

5. FCC – SEF SC – Auditor Fiscal da Receita Estadual – 2018
No âmbito da ciência de dados na definição de Big Data, utilizam-se características ou atributos que alguns
pesquisadores adotam como sendo os cinco Vs. Porém, a base necessária para o reconhecimento de Big Data é
formada por três propriedades:
a) valor, velocidade e volume.
b) valor, veracidade e volume.
c) variedade, velocidade e volume.
d) variedade, valor e volume.
e) velocidade, veracidade e volume
RESOLUÇÃO:
O Big Data possui cinco características intrínsecas (os chamados 5Vs), porém, entre esses, há três características
consideradas as mais marcantes: volume, velocidade e variedade – alternativa C.
As características da veracidade e do valor surgiram posteriormente, relacionados ao lado mais “burocrático”.
Resposta: C

6. Instituto AOCP – PRODEB – Especialista de TIC – 2018
Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e
formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a
a) um sistema de armazenamento e processamento de dados massivamente escalável – não é um banco de dados.
b) uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos
clientes, parceiros e sobre o negócio.
c) um banco de dados com capacidade melhorada.
d) um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento.
e) um banco de dados com tecnologia de virtualização.
RESOLUÇÃO:
O Hadoop é uma plataforma para desenvolvimento de soluções voltadas para Big Data. Entre os módulos
utilizados, destacam-se o HDFS (sistema de armazenamento distribuído de arquivos muito grandes) e o
MapReduce (aplicação para o fornecimento de processamento paralelo em um ambiente distribuído).
Portanto, a alternativa que melhor se encaixa é a A.
Resposta: A
Prof. Victor Dalton
Aula Bônus

19 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

7. FCC – CLDF – Consultor Técnico Legislativo – 2018
A proposta de uma solução de Big Data, oferecendo uma abordagem consistente no tratamento do constante
crescimento e da complexidade dos dados, deve considerar os 5 V’s do Big Data que envolvem APENAS os
conceitos de
a) volume, versionamento, variedade, velocidade e visibilidade.
b) velocidade, visibilidade, volume, veracidade e vencimento do dado.
c) volume, velocidade, variedade, veracidade e valor.
d) variedade, vencimento do dado, veracidade, valor e volume.
e) vulnerabilidade, velocidade, visibilidade, valor e veracidade.
RESOLUÇÃO:
As cinco características intrínsecas (5Vs) do Big Data são: volume, velocidade, variedade, veracidade e valor.

Resposta: C

8. CESPE/CEBRASPE – TCE PE – Auditoria de Contas Públicas – 2017
Além de estar relacionado à grande quantidade de informações a serem analisadas, o Big Data considera o volume,
a velocidade e a variedade dos dados estruturados — dos quais se conhece a estrutura de armazenamento — bem
como dos não estruturados, como imagens, vídeos, áudios e documentos.
◯ Certo ◯ Errado
RESOLUÇÃO:
Perfeitamente!
Resposta: Certo

9. FCC – DPE RS – Analista de TI – 2017
Prof. Victor Dalton
Aula Bônus

20 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

Os sistemas de Big Data costumam ser caracterizados pelos chamados 3 Vs, sendo que o V de
a) Veracidade corresponde à rapidez na geração e obtenção de dados.
b) Valor corresponde à grande quantidade de dados acumulada.
c) Volume corresponde à rapidez na geração e obtenção de dados.
d) Velocidade corresponde à confiança na geração e obtenção dos dados.
e) Variedade corresponde ao grande número de tipos ou formas de dados.
RESOLUÇÃO:
Vejamos as alternativas:
a) Errado. A veracidade corresponde à integridade da informação.
b) Errado. O valor diz respeito a dados que agreguem ao sistema.
c) Errado. Volume não é a rapidez, e sim a quantidade de dados acumulados.
d) Errado. Velocidade corresponde à geração, entrada e acumulação veloz de dados.
e) Certo. A variedade está ligada à entrada e processamento de dados variáveis.
Resposta: E

10. CESPE/CEBRASPE – TRE GO – Técnico Judiciário – 2015
A Big Data pode ser utilizada na EAD para se entender as preferências e necessidades de aprendizagem dos alunos
e, assim, contribuir para soluções mais eficientes de educação mediada por tecnologia.
◯ Certo ◯ Errado
RESOLUÇÃO:
São diversos os contextos em que se pode aplicar Big Data, haja vista que são tecnologias para a análise de grandes
volumes de dados, por meio de, entre outros, análises preditivas e análises de tendências.
Resposta: Certo

Prof. Victor Dalton
Aula Bônus

21 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

Lista de questões
Big Data
1. Instituto AOCP – MJSP – Analista – 2020
O Big Data é definido como coleções de dados cuja sua quantidade é tão grande que é difícil armazenar, gerenciar,
processar e analisar esses dados por meio de bancos de dados tradicionais. Nos últimos anos, houve um
crescimento exponencial nos dados estruturados e não estruturados gerados pela tecnologia da informação da
indústria e saúde por meio da internet das coisas (IoT), por exemplo. Sabendo disso, assinale a alternativa que
apresenta corretamente as cinco características, também conhecidas como os cinco “vês”, de um big data.
a) Valor, viabilidade, visiblidade, velocidade, volume.
b) Volume, vertente, valor, virtualidade, vitabilidade.
c) Viabilidade, vitalício, virtual, velocidade, valor.
d) Velocidade, volume, veracidade, variedade, valor.
e) Veracidade, viabilidade, volume, virtualidade, variedade

22 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

O termo velocidade refere-se, principalmente, à
a) necessidade das aplicações de gerar respostas rapidamente, a partir de grandes massas de dados.
b) existência de um alto fluxo de dados na entrada.
c) necessidade de gerar aplicações rapidamente, em função da demanda do negócio.
d) importância da facilidade de manipular cubos de visualização de dados, rapidamente.
e) rapidez com que os dados se tornam inválidos com o tempo.

23 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

c) um banco de dados com capacidade melhorada.
d) um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento.
e) um banco de dados com tecnologia de virtualização.

9. FCC – DPE RS – Analista de TI – 2017
Os sistemas de Big Data costumam ser caracterizados pelos chamados 3 Vs, sendo que o V de
a) Veracidade corresponde à rapidez na geração e obtenção de dados.
b) Valor corresponde à grande quantidade de dados acumulada.
c) Volume corresponde à rapidez na geração e obtenção de dados.
d) Velocidade corresponde à confiança na geração e obtenção dos dados.
e) Variedade corresponde ao grande número de tipos ou formas de dados.

24 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

◯ Certo ◯ Errado

Gabarito

Big Data
1. D
2. B
3. B
4. A
5. C
6. A
7. C
8. Certo
9. E
10. Certo
Prof. Victor Dalton
Aula Bônus

25 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

Resumo direcionado
Big Data
São tecnologias para a análise de grandes volumes de dados estruturados e não estruturados. Para tanto, utilizam-
se algoritmos estatísticos avançados que fazem, entre outros, análises preditivas e análises de tendências.
O Big Data possui cinco características intrínsecas (chamadas de 5Vs do Big Data):

• Volume: É preciso ter um grande volume de dados.
• Velocidade: A geração, entrada e acumulação de dados deve acontecer de forma veloz.
• Variedade: O sistema precisa ser capaz de suportar e processar diversos formatos diferentes de dados.
• Veracidade: A informação deve ser verdadeira e íntegra.
• Valor: Os dados devem agregar ao sistema.
Técnicas de Big Data
NoSQL (ou Not Only SQL)
NoSQL é um termo que designa tecnologias de bancos de dados não relacionais – que não seguem um esquema
definido. Logo, não respeita às chamadas propriedades ACID (atomicidade, consistência, isolamento e
durabilidade), ao passo que segue as propriedades BASE, que dizem que um sistema deve estar basicamente
disponível, em um estado leve e com consistência eventual.
Além disso, o NoSQL respeita também o Teorema CAP, que traz as regras de consistência, disponibilidade e
tolerância a partições. Contudo, a regra é que duas dessas propriedades devem estar funcionando, porém nunca
as três ao mesmo tempo, pois conflitam entre si.
Os sistemas de NoSQL distribuídos devem ter: escalabilidade horizontal e vertical (possibilidade de crescimento
quando necessário, seja em quantidade de máquinas – horizontal – ou processamento – vertical), disponibilidade,
replicação (capacidade de replicar algo para outras máquinas) e consistência eventual, havendo tolerância a falhas.
Para a sua implementação, existem algumas tecnologias, como:
Prof. Victor Dalton
Aula Bônus

26 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

è Chave-valor: neste modelo, há uma maior flexibilidade nos dados de entrada. Isto é, as colunas “chave” e
“valor” aceitam tipos variados de dados. Exemplo:
CHAVE VALOR
16 nome = NoSQL Essencial, ano - 2014
Arthur idade = 35, interesse = engenharia
2 nome = True Blood, gênero = fantasia, classificação = 16 anos
Mário ocupação = prático
è Documentos: é uma das formas de armazenamento de dados, que também tem maior flexibilidade quanto à
entrada de dados. Cada novo registro aceita campos diferentes.

è Família de colunas: permite ter colunas principais e colunas adicionais, voltadas ao funcionamento do sistema.

è Grafos: é uma estrutura de armazenagem de dados. O exemplo mais clássico, das redes sociais, são as relações
feitas entre as pessoas.

Hadoop
É uma plataforma para desenvolvimento de soluções voltadas para Big Data. Nesta plataforma, é possível criar
uma estrutura para armazenamento e processamento de sistemas. Para tanto, é preciso ter:
Prof. Victor Dalton
Aula Bônus

27 de 27| www.direcaoconcursos.com.br
Informática para PF – Pós edital

Big data

Colégio Objetivo

Ferramentas de estudo

Conteúdos escolhidos para você

Avaliação da Disciplina

Big Data e o apoio à decisão

Big Data - Conceitos e Aplicações

Big Data e o apoio à decisão

Big_Data

Perguntas dessa disciplina

Os avanços tecnológicos dos últimos tempos criaram um conjunto de novos conceitos. O Big Data, um exemplo desses novos conceitos, diz respeito ao c...

Marcar para revisão 6 Em um mundo cada vez mais conectado, o Big Data é um dos temas mais relevantes do mercado de TI. O seu conceito é composto pe...

Uma empresa de marketing digital decidiu analisar os dados de interação dos usuários em suas campanhas publicitárias. Para isso, a equipe de análise d

Nos últimos anos, a análise de dados dos usuários da rede tem sido o aporte para tomada de decisões mercadológicas de grandes empresas, conforme demon

Big Data representa ativos de informação caracterizados por alto volume, velocidade e variedade, que requerem tecnologias e métodos de análise espe...

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Conteúdos escolhidos para você

Avaliação da Disciplina

Big Data e o apoio à decisão

Big Data - Conceitos e Aplicações

Big Data e o apoio à decisão

Big_Data

Perguntas dessa disciplina

Os avanços tecnológicos dos últimos tempos criaram um conjunto de novos conceitos. O Big Data, um exemplo desses novos conceitos, diz respeito ao c...

Marcar para revisão 6 Em um mundo cada vez mais conectado, o Big Data é um dos temas mais relevantes do mercado de TI. O seu conceito é composto pe...

Uma empresa de marketing digital decidiu analisar os dados de interação dos usuários em suas campanhas publicitárias. Para isso, a equipe de análise d

Nos últimos anos, a análise de dados dos usuários da rede tem sido o aporte para tomada de decisões mercadológicas de grandes empresas, conforme demon

Big Data representa ativos de informação caracterizados por alto volume, velocidade e variedade, que requerem tecnologias e métodos de análise espe...

Mais conteúdos dessa disciplina