Logo Passei Direto
Buscar
Material

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Aula Bônus 
Informática para PF – Pós edital 
Prof. Victor Dalton 
2021 
 
Prof. Victor Dalton 
Aula Bônus 
 
2 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
Sumário 
BIG DATA ..................................................................................................................................................... 3 
CONTEXTO ................................................................................................................................................................. 3 
CONCEITO .................................................................................................................................................................. 4 
OS 5VS DO BIG DATA .................................................................................................................................................. 6 
TECNOLOGIAS ............................................................................................................................................................ 7 
NoSQL (ou Not Only SQL) ..................................................................................................................................... 8 
Hadoop .............................................................................................................................................................. 11 
QUESTÕES DE PROVA COMENTADAS ........................................................................................................ 15 
Big Data ............................................................................................................................................................. 15 
LISTA DE QUESTÕES ................................................................................................................................. 21 
Big Data ............................................................................................................................................................. 21 
GABARITO ................................................................................................................................................. 24 
RESUMO DIRECIONADO ............................................................................................................................ 25 
BIG DATA ................................................................................................................................................................ 25 
 
 
 
Prof. Victor Dalton 
Aula Bônus 
 
3 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
Big Data 
Big Data é um tema que, embora não seja tecnicamente trivial, creio ser bastante interessante. Porém, antes de 
“mergulharmos” neste tema, é necessário contextualizar para uma melhor compreensão. 
Contexto 
No mundo atual, TUDO está gerando informação. Nós estamos, a todo momento, criando informações para as 
grandes empresas. 
Os GPS dos celulares informam nossa localização. Com isso, grandes empresas sabem por onde andamos, onde 
moramos, onde trabalhamos, aonde vamos em momentos de lazer etc. 
As bandeiras dos cartões de crédito, e também os bancos, registram nossos hábitos de consumo, até mesmo 
classificando-os por categorias. Relacionando a entrada e saída de capital da sua conta corrente, conseguem saber 
também o quão propenso alguém é a se endividar e os tipo de dívidas que tal pessoa contrai. 
As redes sociais refletem diretamente o comportamento das pessoas, sem muito esforço, pois, hoje em dia, elas 
compartilham, voluntariamente, seus sentimentos, opiniões, vontades e muito mais. Para exemplificar isso, leia o 
seguinte trecho de um artigo: 
Em 2012, com base em uma média de 68 likes do Facebook por usuário, era possível prever sua cor da pele 
(95% de precisão), sua orientação sexual (88%) e sua filiação aos partidos Democrata ou Republicano (85%). 
Inteligência, afiliação religiosa, bem como uso de álcool, cigarro e drogas, tudo poderia ser determinado. Com 
esses dados era até possível deduzir se os pais de alguém eram divorciados. 
70 curtidas eram suficientes para saber mais até do que os amigos de alguém, 150 mais do que os pais. Para 
conhecer uma pessoa mais do que o seu parceiro, bastavam 300 curtidas. Com mais likes do que isso, era 
possível conhecer mais até do que a própria pessoa sabia sobre si. 
Já em 2012, veja o quão forte era isso. Tamanha é a exposição dos traços de personalidade, por parte das pessoas, 
que essas empresas sabem mais sobre você do que você mesmo, por mais engraçado que isso possa parecer. Com 
o crescimento exponencial de dados gerados, possivelmente, nos dias de hoje, isso está tremendamente maior e 
mais acentuado. Em 2017, cerca de 3.8 bilhões de pessoas estavam conectadas à Internet. Nessa época, você tinha 
algo em torno de 473 mil tweets, 50 mil postagens no Instagram e 4 milhões de vídeos visualizados POR MINUTO. 
Portanto, é possível concluir, sem muita dificuldade, que as redes sociais detêm muita informação sobre bilhões 
de pessoas ao redor mundo. 
Em suma, a sociedade atual produz uma quantidade absurda de informação – isto é, dados. Contudo, 80% a 95% 
são dados não estruturados. 
Em linhas gerais, um dado estruturado é aquele que está “encaixado certinho” em uma estrutura, recheado de 
metadados (informações sobre estes dados). Em um sistema de banco de dados relacional tradicional, como um 
cadastro de funcionários de uma empresa – temos os códigos, nome, telefone, departamento dos funcionários, 
tudo “bonitinho” – muito bem estruturado, organizado e preenchido em uma planilha. 
Os dados não estruturados, por sua vez, são aqueles que carecem de informações para categorizá-los, classificá-
los e organizá-los. Exemplificando em uma situação hipotética: 
Prof. Victor Dalton 
Aula Bônus 
 
4 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
No grupo de WhatsApp da família, seu tio envia um áudio de 7 minutos e uma mensagem dizendo “Escutem, é muito bom 

"#$%&
'()*+,
-./0123
456”. Apenas com isso, você não faz ideia de qual informação está sendo passada. Não há como saber o que aquele 
áudio “solto” aborda – não existe um rótulo no áudio como “piada” para classificá-lo. Trata-se, portanto, de um dado não 
estruturado. 
Multimídia – como vídeos e áudios – são exemplos clássicos de dados não estruturados, porque muitas vezes 
carecem de informações para categorizá-los e classificá-los. As hashtags, por exemplo, como #concursoPRF, são 
uma forma de tentar classificar e organizar dados não estruturados. 
Portanto, haja vista que temos uma quantidade absurda de informação sendo produzida e a maior parte são dados 
não estruturados, é preciso ter uma forma de cuidar disso – e tem: o Big Data. 
 
Conceito 
“O que é Big Data?” 
São tecnologias para a análise de grandes volumes de dados estruturados e não estruturados. Isto é feito por meio 
do uso de algoritmos estatísticos avançados que fazem, entre outros, análises preditivas e análises de tendências. 
Na rede social Twitter, por exemplo, temos uma aba que apresenta as tendências (assuntos mais comentados) do 
momento. Os assuntos são separados em ordem hierárquica, do mais comentando ao menos comentado. Muitos 
tem dúvidas do porquê que um assunto com muitas menções, às vezes, fica abaixo de outro com bem menos 
menções. 
 
No exemplo hipotético da imagem acima, meramente ilustrativo, os assuntos “E a PCDF?” e “Direção Concursos” 
tem bem menos Tweets do que “PRF”, mas estão acima deste. Isto não é um bug. O que ocorre, na verdade, é que 
o Twitter consegue entender, por meio da velocidade de produção de Tweets mencionando tal assunto, se este 
assunto está crescendo ou declinando – um assunto novo, por exemplo, tem poucos Tweets ainda porque acabou 
de entrar em tendência e só tende a crescer, enquanto um assunto “antigo” já tem muitos comentários, mas está 
sendo cada vez menos comentado. O Big Data, portanto, tem essa capacidade de entendero que está em 
tendência. 
 
Prof. Victor Dalton 
Aula Bônus 
 
5 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
“O que não é Big Data?” 
Tão importante quanto saber o que é Big Data é saber distingui-lo do que não é. 
è Grandes volumes de dados, apenas. 
Um grande volume de dados, por si só, não caracteriza um Big Data. A velocidade que os dados são produzidos 
também é uma característica a ser observada. Exemplo hipotético: 
Na PRF, eles têm um banco de dados com todos os motoristas do Brasil e as infrações cometidas por eles. Este banco de 
dados, por si só, não necessariamente é suficiente para que seja um Big Data, pois isto é somente um grande volume de dados. 
è Dados estruturados, apenas. 
Se você tem um sistema “redondinho”, com dados bem organizados e estruturados, isto não necessariamente é 
um Big Data, pois este está relacionado também com ter tecnologias capazes de lidar com dados não estruturados. 
 
Veja como é cobrado em prova: 
(CESPE/CEBRASPE – Polícia Federal – Agente – 2018) 
Big data refere-se a uma nova geração de tecnologias e arquiteturas projetadas para processar volumes muito 
grandes e com grande variedade de dados, permitindo alta velocidade de captura, descoberta e análise. 
◯ Certo ◯ Errado 
RESOLUÇÃO: 
Uma definição geral, simples e “bonita”. 
Resposta: Certo 
 
(CESPE/CEBRASPE – Polícia Federal – Escrivão – 2018) 
Dados coletados de redes sociais podem ser armazenados, correlacionados e expostos com o uso de análises 
preditivas. 
◯ Certo ◯ Errado 
RESOLUÇÃO: 
Novamente, uma sentença genérica e correta. As redes sociais são o melhor exemplo de Big Data. 
Resposta: Certo 
 
(CESPE/CEBRASPE – Polícia Federal – Escrivão – 2018) 
O big data consiste de um grande depósito de dados estruturados, ao passo que os dados não estruturados são 
considerados data files. 
◯ Certo ◯ Errado 
RESOLUÇÃO: 
Prof. Victor Dalton 
Aula Bônus 
 
6 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
A definição de big data não é “um grande depósito de dados estruturados” (isto é, na verdade, um data warehouse). 
Big Data trata-se de tecnologias, e não depósitos de dados. 
Ademais, os data files não estão relacionados diretamente ao escopo do nosso estudo de Big Data. 
Resposta: Errado 
 
Os 5Vs do Big Data 
O Big Data possui cinco características intrínsecas: volume, velocidade, variedade, veracidade e valor – os 
chamados 5Vs do Big Data. 
 
Necessariamente, é preciso ter um grande volume de dados. Além disso, é fundamental que a geração, entrada e 
acumulação de dados aconteça de forma veloz – como nas redes sociais, em que os dados são gerados muito 
rapidamente. 
No Big Data, os dados devem possuir a característica da variedade, isto é, a capacidade de suportar e processar 
diversos formatos diferentes de dados – como vídeos, fotos, texto, stories, tweets, posts, publicações etc. 
Além dessas três características (volume, velocidade e variedade), que são consideradas as três principais e mais 
marcantes, temos também duas outras características, que surgiram posteriormente, relacionadas ao lado mais 
“burocrático”: veracidade e valor. 
A veracidade está ligada à informação ser verdadeira e íntegra. Além disso, as informações têm que ter valor, de 
forma que agreguem ao sistema. 
Atenção!! 
Não é incomum que os examinadores tragam, nas questões, apenas as 
características mais marcantes. Isso, por si só, não torna a questão 
errada, exceto se for feita uma exclusão das demais características. 
BIG 
DATA
VOLUME
VELOCIDADE
VARIEDADEVERACIDADE
VALOR
Prof. Victor Dalton 
Aula Bônus 
 
7 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
Vamos praticar? 
"#$%&'( 
(CESPE/CEBRASPE – Polícia Federal – Perito – 2018) 
A mineração de dados se caracteriza especialmente pela busca de informações em grandes volumes de dados, 
tanto estruturados quanto não estruturados, alicerçados no conceito dos 4V’s: volume de mineração, variedade 
de algoritmos, velocidade de aprendizado e veracidade dos padrões. 
◯ Certo ◯ Errado 
RESOLUÇÃO: 
Primeiramente, a questão já inicia falando em “mineração de dados” quando, na verdade, o assunto abordado em 
seguida é o Big Data. Além disso, ela cita 4Vs e os relaciona a complementos que não estão correlacionados. Essas 
quatro características são referentes aos DADOS, e não à mineração, algoritmos, aprendizado e padrões. Os 
complementos são, então, incoerentes. 
Os 5Vs do Big Data estão sempre ligados aos dados. Logo, quando, na resolução de questões, for abordado o 
significado e/ou conceito destas características, basta que você “pegue” quaisquer das características e 
complemente-as com “dos dados”. Exemplificando: 
 • Volume dos dados; 
 • Velocidade dos dados; 
 • Variedade dos dados; 
 • Veracidade dos dados; 
 • Valor dos dados. 
Resposta: Errado 
 
(CESPE/CEBRASPE – Polícia Federal – Papiloscopista – 2018) 
De maneira geral, big data não se refere apenas aos dados, mas também às soluções tecnológicas criadas para 
lidar com dados em volume, variedade e velocidade significativos. 
◯ Certo ◯ Errado 
RESOLUÇÃO: 
Exatamente! Além disso, embora a questão tenha citado somente os 3Vs mais marcantes, não houve exclusão dos 
demais. 
Resposta: Certo 
 
Tecnologias 
As tecnologias de Big Data já foram cobradas em provas de forma introdutória. Diante disso, há a possibilidade 
dos examinadores quererem se aprofundar um pouco mais. Portanto, preste bastante atenção a partir de agora, 
pois abordaremos o NoSQL e o Hadoop, duas das principais tecnologias de Big Data atualmente. 
Prof. Victor Dalton 
Aula Bônus 
 
8 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
NoSQL (ou Not Only SQL) 
Em linhas gerais, SQL é uma linguagem na qual se dá comandos para criar, gerenciar ou manipular banco de dados 
relacionais.	O NoSQL, por sua vez, (também chamado de Not Only SQL) é um termo que designa tecnologias 
diferentes de natureza não relacional – isto é, bancos de dados não relacionais. 	
Um banco de dados relacional contém um esquema de dados em que é possível estabelecer relações entre eles. 
Tabelas de uma empresa, por exemplo, nas quais é possível estabelecer relacionamentos (como, por exemplo, 
tabelas contendo informações sobre funcionários, departamentos, projetos etc.). Diferentemente deste modelo 
relacional, no NoSQL, não há esquema definido. 
O NoSQL viola as propriedades ACID 
As chamadas propriedades ACID (atomicidade, consistência, isolamento e durabilidade) são pertinentes aos 
bancos de dados tradicionais – relacionais. Porém, no NoSQL, não há “tanta” preocupação com essas regras. 
Contextualizando de forma hipotética: 
Acaba de ser lançado o videogame Playstation 5 e você pretende o adquirir. Ao acessar o site de uma grande varejista, você 
se depara com o alerta “última unidade disponível”. Logo, rapidamente, você, que está situado em São Paulo, clica no botão 
para comprar e finaliza o seu pedido com sucesso. 
Porém, concomitantemente, um outro consumidor, que está situado em Rio Branco (Acre), clica no botão para comprar 
exatamente no mesmo segundo que você e também realiza a compra com sucesso. 
Três dias depois, você recebe um e-mail informando que o produto que adquiriu estava esgotado e que receberá um estorno 
do pagamento. 
O site da grande varejista possui servidores espalhados por todo o Brasil, num banco de dados distribuído, visando oferecer 
uma melhor experiência ao usuário. Você, ao acessar o site, está conectado a um banco de dados de São Paulo e o outro 
consumidor está conectado a um banco de dados de Manaus. Porém, como os bancos de dados da varejista violam as 
propriedades ACID, as bases não se comunicaram, o que permitiu que duas pessoas realizassem a compra de um produto que 
só tinha uma unidade disponível. 
Em um sistema que respeita às propriedades ACID, os bancos de dados seriamcapazes de se comunicarem e verificariam, no 
milésimo de segundo, quem comprou primeiro e informaria ao outro consumidor, antes mesmo dele finalizar a compra, que 
o produto esgotou. 
Teorema CAP 
O NoSQL segue o chamado Teorema CAP (Consistency, Availability e Partition tolerance). 
è Consistency (Consistência) 
A consistência determina que deve haver cópias de um mesmo dado em todos os nós do banco de dados. 
è Availability (Disponibilidade) 
A disponibilidade diz respeito ao sistema estar sempre disponível para a realização de transações. 
è Partition Tolerance (Tolerância a Partições) 
A tolerância a partições é a possibilidade de o sistema continuar operando mesmo em caso de falha. Para tanto, 
ele deve ser partido em subredes de modo que, se uma delas falhar, as outras continuem funcionando. 
Prof. Victor Dalton 
Aula Bônus 
 
9 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
No Teorema CAP, a regra é que duas dessas propriedades sempre devem estar funcionando, porém nunca as três 
ao mesmo tempo. Inclusive, se analisarmos, as três propriedades funcionando ao mesmo tempo conflitam entre 
si. 
Por exemplo, em um sistema em que as cópias estão em todos os lugares (consistency) e ele está sempre disponível 
(availability), não há como ser tolerante a partições, pois se uma das partições para de funcionar, automaticamente 
esta não está mais disponível e as cópias não estão mais em todos os nós. 
Exemplo hipotético: 
O Instagram é uma rede social que possui bancos de dados distribuídos por todo o mundo. O jogador Cristiano Ronaldo, com 
um dos perfis mais seguidos, quando está na Itália, resolve publicar uma foto. Se esta publicação ficasse somente na Itália 
para ser entregue para o mundo inteiro, isto poderia acarretar um sobrecarregamento e até mesmo queda do servidor, haja 
vista as centenas de milhões de pessoas a quem a foto deve ser entregue. 
Diante disso, quando o Cristiano Ronaldo faz uma publicação, isto é replicado para vários servidores localizados em vários 
lugares diferentes do mundo. Portanto, a consistência (propriedade que diz que as cópias devem estar em todos os nós) não 
acontece de imediato – alguns recebem a foto primeiro do que outros. 
Portanto, em suma, no NoSQL, conforme o Teorema CAP, conclui-se que os bancos de dados devem ser flexíveis. 
Propriedades BASE 
As propriedades BASE (Basically Available, Soft-state and Eventually consistent), que norteiam o NoSQL, dizem 
que um sistema deve estar basicamente disponível, em um estado leve e com consistência eventual. 
Logo, há tolerância a falhas de consistência em um banco, que deve funcionar basicamente todo o tempo em um 
estado leve, estando consistente nos momentos devidos. 
Características dos sistemas distribuídos 
Os sistemas NoSQL distribuídos pelo mundo inteiro devem ter: 
è Escalabilidade (horizontal e vertical) 
A escalabilidade, em linhas gerais, é a capacidade de estar preparado para crescer e suportar uma demanda maior. 
Isto é, quando necessário, melhorar o processamento e/ou a quantidade de servidores. Exemplificando: 
O portal de notícias do Direção Concursos possui um número consistente de acessos. Porém, quando sai, de repente, um 
edital novo, o site recebe muitos acessos simultaneamente. Se o site do Direção não tivesse escalabilidade, iria sair do ar 
nessas ocasiões. 
A escalabilidade horizontal é a capacidade de alocar mais máquinas. (para memorizar, pense em uma máquina 
uma do lado da outra, organizadas horizontalmente ⇾). A escalabilidade vertical, por sua vez, é a capacidade de 
transportar um sistema de uma máquina para outra máquina com melhor processamento. (para memorizar, pense 
em uma máquina acima da outra, em um nível “verticalmente superior” ↑). 
è Disponibilidade 
Os sistemas precisam estar disponíveis. 
è Replicação 
É a capacidade de replicar o que está numa máquina para as demais máquinas. 
Prof. Victor Dalton 
Aula Bônus 
 
10 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
è Consistência eventual 
Há flexibilidade quanto à consistência, com tolerância a falhas. 
Implementação 
Para implementar o NoSQL, existem algumas tecnologias, como: 
è Chave-valor 
Em uma tabela relacional, tudo é bem separado e organizado, não havendo tolerância quanto às informações a 
serem preenchidas. Por exemplo, em uma tabela de projetos, na coluna “códigos”, só se aceitam os códigos; na 
coluna “setor”, só se aceitam os nomes dos setores e, na coluna “responsável”, só se aceita o nome do responsável. 
Exemplo: 
CÓDIGOS SETOR RESPONSÁVEL 
0001 Marketing Ronaldo 
0002 Comercial Victor 
0003 Financeiro Erick 
Já no NoSQL, em um modelo baseado na técnica chave-valor, há maior flexibilidade. Logo, as colunas “chave” e 
“valor” permitem várias entradas diferentes. Exemplo: 
CHAVE VALOR 
16 nome = NoSQL Essencial, ano - 2014 
Arthur idade = 35, interesse = engenharia 
2 nome = True Blood, gênero = fantasia, classificação = 16 anos 
Mário ocupação = prático 
Embora seja uma bagunça, esta flexibilidade é necessária para o pleno funcionamento do Big Data, pois você 
nunca sabe qual será a próxima ação de um usuário. Se for um sistema muito “travadinho”, a coisa não anda. 
è Documentos 
Os documentos são uma forma de armazenamento no NoSQL. Aqui, segue o mesmo espírito da técnica anterior, 
havendo flexibilidade para a entrada de dados. Cada novo registro aceita campos diferentes. 
 
è Família de colunas 
Em um banco de dados, há vários registros e dados atribuídos às colunas. Nas famílias de colunas, é permitido ter 
colunas principais e colunas adicionais, voltadas ao funcionamento do sistema. Exemplo: 
Prof. Victor Dalton 
Aula Bônus 
 
11 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
 
Além disso, existem sistemas que permitem também puxar dados de várias colunas de uma vez. 
è Grafos 
Os grafos são uma estrutura de armazenagem de dados. O exemplo mais clássico, das redes sociais, são as 
relações feitas entre as pessoas – fulano segue beltrano, que segue ciclano etc. 
Para armazenamentos como os do exemplo acima, geralmente utilizam-se os grafos. 
 
 
Hadoop 
O Hadoop é uma plataforma para desenvolvimento de soluções voltadas para Big Data. Nesta plataforma, é 
possível criar uma estrutura para armazenamento e processamento de sistemas com Big Data. 
 
Para desenvolver tais soluções, é preciso ter: 
Prof. Victor Dalton 
Aula Bônus 
 
12 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
• Escalabilidade (horizontal) 
• Processamento paralelo (possibilidade de espalhar o poder de processamento) 
• Confiabilidade 
• Flexibilidade (um sistema flexível) 
• Baixo custo (se custar uma fortuna, pode ser inviável economicamente). 
No Hadoop, utilizam-se vários módulos, mas os principais são o HDFS (Hadoop File System) e o MapReduce. 
HDFS (Hadoop File System) 
O HDFS é um sistema de armazenamento de arquivos voltado para os sistemas distribuídos por todo o mundo. 
(sim, é um sistema de armazenamento tipo NTFS, FAT32). Ele foi originado no Google File System e tem como 
principal premissa atender aos 3Vs principais do Big Data (volume, velocidade e variedade). 
O principal foco do HDFS reside no armazenamento distribuído de arquivos muito grandes. Por exemplo: 
Um vídeo de 1h, filmado em resolução de 4k, possui um tamanho gigantesco. Logo, é desejável que o armazenamento seja 
feito de forma distribuída, espalhando pedaços de arquivos para vários servidores, pois, assim, o processamento ocorre de 
forma mais célere. 
O HDFS possui escalabilidade e tolerância a falhas. Diante disso, é preciso ter redundância de arquivos para, caso 
um servidor venha falhar, seja possível fazer a reconstituição. 
Ele tem como parâmetro a regra WORM (Write Once / Read Many), que dita que um dado deve ser escrito uma 
única vez (write once) – sem poder ser modificado – e lido várias vezes (read many). Por exemplo: 
Quando o CristianoRonaldo posta uma foto, ele não consegue modificar ela (write once), porém ela é visualizada por milhões 
de pessoas (read many). 
Para elucidar, vamos responder uma questão: 
(CESPE/CEBRASPE – TCE PB – Auditor – 2018 - Adaptada) 
Em big data, o sistema de arquivos HDFS é usado para armazenar arquivos muito grandes de forma distribuída, 
tendo como princípio o write-many, read-once. 
◯ Certo ◯ Errado 
RESOLUÇÃO: 
A questão fez uma inversão: o correto seria write once (o dado é escrito uma só vez) e read many (o dado será lido 
muitas vezes) – e não o contrário. 
Resposta: Errado 
MapReduce 
O MapReduce é uma aplicação que trabalha em cima do HDFS para conseguir oferecer um processamento 
paralelo em um ambiente distribuído. Parte da premissa que, se os dados estão distribuídos em vários lugares 
pelo mundo, é preciso ter uma forma de organizá-los posteriormente. Portanto, é preciso um sistema lógico, 
organizado e estruturado para que a coisa funcione. 
Prof. Victor Dalton 
Aula Bônus 
 
13 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
Para tanto, o MapReduce trabalha com agrupamento por chave-valor e transformação de dados maiores em 
dados menores, fazendo um mapeamento das informações de forma descentralizada e espalhada. Exemplo: 
Em uma rede social, desejam descobrir a quantidade de vezes que as palavras dog, cat, mouse e duck foram mencionadas. 
Primeiramente, as palavras são separadas por região de onde vieram (como América, África e Ásia) e realiza-se uma contagem 
separadamente em cada região. 
Em seguida, após a contagem regionalizada, as palavras são ordenadas por grupo (junta todas as palavras “cat” em um grupo, 
todas as palavras “dog” em outro etc.) e depois são reduzidas (ao invés de “dog, dog, dog”, reduz-se para “Dog, 3”). 
Por fim, organiza-se todas as palavras e a incidência delas a nível mundial. 
 
Perceba como, ao invés de ir direto contando a recorrência das palavras, ocorreu um processo espalhado e descentralizado. 
 
Hora de praticar! 
(CESPE/CEBRASPE – Polícia Federal – Papiloscopista – 2018) 
MapReduce oferece um modelo de programação com processamento por meio de uma combinação entre chaves 
e valores. 
◯ Certo ◯ Errado 
RESOLUÇÃO: 
Isso mesmo. O MapReduce trabalha com agrupamento por chave-valor. 
Resposta: Certo 
 
(CESPE/CEBRASPE – Polícia Federal – Papiloscopista – 2018) 
MapReduce permite o processamento de dados massivos usando um algoritmo paralelo mas não distribuído. 
◯ Certo ◯ Errado 
RESOLUÇÃO: 
No Big Data, no geral, tudo ocorre de forma distribuída. O MapReduce, por sua vez, tem como premissa oferecer 
processamento paralelo em ambiente distribuído. 
Resposta: Errado 
 
Prof. Victor Dalton 
Aula Bônus 
 
14 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
(CESPE/CEBRASPE – EBSERH – Analista – 2018) 
As soluções de big data focalizam dados que já existem, descartam dados não estruturados e disponibilizam os 
dados estruturados. 
◯ Certo ◯ Errado 
RESOLUÇÃO: 
O Big Data trabalha com dados estruturados e principalmente dados não estruturados. Além disso, 
diferentemente do que diz a questão, o foco não está nos dados que já existem somente, pois o sistema é 
programado e ordenado para a chegada de novos dados. 
Resposta: Errado 
 
 
 
 
 
 
 
 
Prof. Victor Dalton 
Aula Bônus 
 
15 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
Questões de prova comentadas 
Big Data 
1. Instituto AOCP – MJSP – Analista – 2020 
O Big Data é definido como coleções de dados cuja sua quantidade é tão grande que é difícil armazenar, gerenciar, 
processar e analisar esses dados por meio de bancos de dados tradicionais. Nos últimos anos, houve um 
crescimento exponencial nos dados estruturados e não estruturados gerados pela tecnologia da informação da 
indústria e saúde por meio da internet das coisas (IoT), por exemplo. Sabendo disso, assinale a alternativa que 
apresenta corretamente as cinco características, também conhecidas como os cinco “vês”, de um big data. 
a) Valor, viabilidade, visiblidade, velocidade, volume. 
b) Volume, vertente, valor, virtualidade, vitabilidade. 
c) Viabilidade, vitalício, virtual, velocidade, valor. 
d) Velocidade, volume, veracidade, variedade, valor. 
e) Veracidade, viabilidade, volume, virtualidade, variedade 
RESOLUÇÃO: 
As cinco características intrínsecas (5Vs) do Big Data são: volume, velocidade, variedade, veracidade e valor. 
 
Resposta: D 
 
2. CESPE/CEBRASPE – TCE RO – Analista de TI – 2019 
Com relação a fundamentos e conceitos de Big Data, julgue os itens a seguir. 
I O volume de dados é uma característica importante de Big Data. 
II Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não impacta os 
negócios. 
III A característica de velocidade de entrada dos dados impacta o modelo de processamento e armazenamento. 
IV A variedade dos dados não é característica intrínseca nos fundamentos de Big Data. 
Prof. Victor Dalton 
Aula Bônus 
 
16 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
Estão certos apenas os itens 
a) I e II. 
b) I e III. 
c) II e IV. 
d) I, III e IV. 
e) II, III e IV. 
RESOLUÇÃO: 
Vejamos: 
I – Certo. O volume é uma das principais características do Big Data. 
II – Errado. Duas características intrínsecas do Big Data são a veracidade (dados verdadeiros e íntegros) e valor dos 
dados (dados que agreguem ao sistema). 
III – Certo. É muito importante, para o Big Data, ter escalabilidade – isto é, estar preparado para crescer e suportar 
uma demanda maior, como a entrada de mais dados, que exige um melhor processamento e armazenamento. 
IV – Errado. A variedade dos dados é um dos 5Vs do Big Data. Relembre: 
 
Resposta: B 
 
3. CESGRANRIO – PETROBRAS – Analista – 2018 
A principal definição de Big Data parte de três características, conhecidas como 3 V do Big Data, a saber: 
velocidade, variedade e volume. 
O termo velocidade refere-se, principalmente, à 
a) necessidade das aplicações de gerar respostas rapidamente, a partir de grandes massas de dados. 
b) existência de um alto fluxo de dados na entrada. 
c) necessidade de gerar aplicações rapidamente, em função da demanda do negócio. 
d) importância da facilidade de manipular cubos de visualização de dados, rapidamente. 
e) rapidez com que os dados se tornam inválidos com o tempo. 
Prof. Victor Dalton 
Aula Bônus 
 
17 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
RESOLUÇÃO: 
Os 5Vs do Big Data estão sempre ligados aos dados. Logo, quando, na resolução de questões, for abordado o 
significado e/ou conceito destas características, basta que você “pegue” quaisquer das características e 
complemente-as com “dos dados”. Exemplificando: 
• Volume dos dados; 
• Velocidade dos dados; 
• Variedade dos dados; 
• Veracidade dos dados; 
• Valor dos dados. 
A velocidade, uma das principais características do Big Data, está ligada à geração, entrada e acumulação veloz de 
dados, como ocorre, por exemplo, nas redes sociais. 
Portanto, a alternativa que melhor se encaixa é a B – alto fluxo de entrada de dados. 
Resposta: B 
 
4. FCC – TCE RS – Auditor Público Externo – 2018 
Um sistema de Big Data costuma ser caracterizado pelos chamados 3 Vs, ou seja, volume, variedade e velocidade. 
 Por variedade entende-se que 
a) há um grande número de tipos de dados suportados pelo sistema. 
b) há um grande número de usuários distintos acessando o sistema. 
c) os tempos de acesso ao sistema apresentam grande variação. 
d) há um grande número de tipos de máquinas acessando o sistema. 
e) os tamanhos das tabelas que compõem o sistema são muito variáveis. 
RESOLUÇÃO: 
Os 5Vs do Big Data estão sempre ligados aos dados. Logo, quando, na resolução de questões, for abordado o 
significado e/ou conceito destas características, basta que você “pegue” quaisquer das característicase 
complemente-as com “dos dados”. Exemplificando: 
• Volume dos dados; 
• Velocidade dos dados; 
• Variedade dos dados; 
• Veracidade dos dados; 
• Valor dos dados. 
Portanto, a variedade dos dados diz respeito à entrada de formatos diferentes (variáveis) de dados – como vídeos, 
fotos, texto, stories, tweets, posts, publicações etc. 
Prof. Victor Dalton 
Aula Bônus 
 
18 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
Resposta: A 
 
5. FCC – SEF SC – Auditor Fiscal da Receita Estadual – 2018 
No âmbito da ciência de dados na definição de Big Data, utilizam-se características ou atributos que alguns 
pesquisadores adotam como sendo os cinco Vs. Porém, a base necessária para o reconhecimento de Big Data é 
formada por três propriedades: 
a) valor, velocidade e volume. 
b) valor, veracidade e volume. 
c) variedade, velocidade e volume. 
d) variedade, valor e volume. 
e) velocidade, veracidade e volume 
RESOLUÇÃO: 
O Big Data possui cinco características intrínsecas (os chamados 5Vs), porém, entre esses, há três características 
consideradas as mais marcantes: volume, velocidade e variedade – alternativa C. 
As características da veracidade e do valor surgiram posteriormente, relacionados ao lado mais “burocrático”. 
Resposta: C 
 
6. Instituto AOCP – PRODEB – Especialista de TIC – 2018 
Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e 
formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a 
a) um sistema de armazenamento e processamento de dados massivamente escalável – não é um banco de dados. 
b) uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos 
clientes, parceiros e sobre o negócio. 
c) um banco de dados com capacidade melhorada. 
d) um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento. 
e) um banco de dados com tecnologia de virtualização. 
RESOLUÇÃO: 
O Hadoop é uma plataforma para desenvolvimento de soluções voltadas para Big Data. Entre os módulos 
utilizados, destacam-se o HDFS (sistema de armazenamento distribuído de arquivos muito grandes) e o 
MapReduce (aplicação para o fornecimento de processamento paralelo em um ambiente distribuído). 
Portanto, a alternativa que melhor se encaixa é a A. 
Resposta: A 
Prof. Victor Dalton 
Aula Bônus 
 
19 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
 
7. FCC – CLDF – Consultor Técnico Legislativo – 2018 
A proposta de uma solução de Big Data, oferecendo uma abordagem consistente no tratamento do constante 
crescimento e da complexidade dos dados, deve considerar os 5 V’s do Big Data que envolvem APENAS os 
conceitos de 
a) volume, versionamento, variedade, velocidade e visibilidade. 
b) velocidade, visibilidade, volume, veracidade e vencimento do dado. 
c) volume, velocidade, variedade, veracidade e valor. 
d) variedade, vencimento do dado, veracidade, valor e volume. 
e) vulnerabilidade, velocidade, visibilidade, valor e veracidade. 
RESOLUÇÃO: 
As cinco características intrínsecas (5Vs) do Big Data são: volume, velocidade, variedade, veracidade e valor. 
 
Resposta: C 
 
8. CESPE/CEBRASPE – TCE PE – Auditoria de Contas Públicas – 2017 
Além de estar relacionado à grande quantidade de informações a serem analisadas, o Big Data considera o volume, 
a velocidade e a variedade dos dados estruturados — dos quais se conhece a estrutura de armazenamento — bem 
como dos não estruturados, como imagens, vídeos, áudios e documentos. 
◯ Certo ◯ Errado 
RESOLUÇÃO: 
Perfeitamente! 
Resposta: Certo 
 
9. FCC – DPE RS – Analista de TI – 2017 
Prof. Victor Dalton 
Aula Bônus 
 
20 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
Os sistemas de Big Data costumam ser caracterizados pelos chamados 3 Vs, sendo que o V de 
a) Veracidade corresponde à rapidez na geração e obtenção de dados. 
b) Valor corresponde à grande quantidade de dados acumulada. 
c) Volume corresponde à rapidez na geração e obtenção de dados. 
d) Velocidade corresponde à confiança na geração e obtenção dos dados. 
e) Variedade corresponde ao grande número de tipos ou formas de dados. 
RESOLUÇÃO: 
Vejamos as alternativas: 
a) Errado. A veracidade corresponde à integridade da informação. 
b) Errado. O valor diz respeito a dados que agreguem ao sistema. 
c) Errado. Volume não é a rapidez, e sim a quantidade de dados acumulados. 
d) Errado. Velocidade corresponde à geração, entrada e acumulação veloz de dados. 
e) Certo. A variedade está ligada à entrada e processamento de dados variáveis. 
Resposta: E 
 
10. CESPE/CEBRASPE – TRE GO – Técnico Judiciário – 2015 
A Big Data pode ser utilizada na EAD para se entender as preferências e necessidades de aprendizagem dos alunos 
e, assim, contribuir para soluções mais eficientes de educação mediada por tecnologia. 
◯ Certo ◯ Errado 
RESOLUÇÃO: 
São diversos os contextos em que se pode aplicar Big Data, haja vista que são tecnologias para a análise de grandes 
volumes de dados, por meio de, entre outros, análises preditivas e análises de tendências. 
Resposta: Certo 
 
Prof. Victor Dalton 
Aula Bônus 
 
21 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
Lista de questões 
Big Data 
1. Instituto AOCP – MJSP – Analista – 2020 
O Big Data é definido como coleções de dados cuja sua quantidade é tão grande que é difícil armazenar, gerenciar, 
processar e analisar esses dados por meio de bancos de dados tradicionais. Nos últimos anos, houve um 
crescimento exponencial nos dados estruturados e não estruturados gerados pela tecnologia da informação da 
indústria e saúde por meio da internet das coisas (IoT), por exemplo. Sabendo disso, assinale a alternativa que 
apresenta corretamente as cinco características, também conhecidas como os cinco “vês”, de um big data. 
a) Valor, viabilidade, visiblidade, velocidade, volume. 
b) Volume, vertente, valor, virtualidade, vitabilidade. 
c) Viabilidade, vitalício, virtual, velocidade, valor. 
d) Velocidade, volume, veracidade, variedade, valor. 
e) Veracidade, viabilidade, volume, virtualidade, variedade 
 
2. CESPE/CEBRASPE – TCE RO – Analista de TI – 2019 
Com relação a fundamentos e conceitos de Big Data, julgue os itens a seguir. 
I O volume de dados é uma característica importante de Big Data. 
II Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não impacta os 
negócios. 
III A característica de velocidade de entrada dos dados impacta o modelo de processamento e armazenamento. 
IV A variedade dos dados não é característica intrínseca nos fundamentos de Big Data. 
Estão certos apenas os itens 
a) I e II. 
b) I e III. 
c) II e IV. 
d) I, III e IV. 
e) II, III e IV. 
 
3. CESGRANRIO – PETROBRAS – Analista – 2018 
A principal definição de Big Data parte de três características, conhecidas como 3 V do Big Data, a saber: 
velocidade, variedade e volume. 
Prof. Victor Dalton 
Aula Bônus 
 
22 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
O termo velocidade refere-se, principalmente, à 
a) necessidade das aplicações de gerar respostas rapidamente, a partir de grandes massas de dados. 
b) existência de um alto fluxo de dados na entrada. 
c) necessidade de gerar aplicações rapidamente, em função da demanda do negócio. 
d) importância da facilidade de manipular cubos de visualização de dados, rapidamente. 
e) rapidez com que os dados se tornam inválidos com o tempo. 
 
4. FCC – TCE RS – Auditor Público Externo – 2018 
Um sistema de Big Data costuma ser caracterizado pelos chamados 3 Vs, ou seja, volume, variedade e velocidade. 
 Por variedade entende-se que 
a) há um grande número de tipos de dados suportados pelo sistema. 
b) há um grande número de usuários distintos acessando o sistema. 
c) os tempos de acesso ao sistemaapresentam grande variação. 
d) há um grande número de tipos de máquinas acessando o sistema. 
e) os tamanhos das tabelas que compõem o sistema são muito variáveis. 
 
5. FCC – SEF SC – Auditor Fiscal da Receita Estadual – 2018 
No âmbito da ciência de dados na definição de Big Data, utilizam-se características ou atributos que alguns 
pesquisadores adotam como sendo os cinco Vs. Porém, a base necessária para o reconhecimento de Big Data é 
formada por três propriedades: 
a) valor, velocidade e volume. 
b) valor, veracidade e volume. 
c) variedade, velocidade e volume. 
d) variedade, valor e volume. 
e) velocidade, veracidade e volume 
 
6. Instituto AOCP – PRODEB – Especialista de TIC – 2018 
Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e 
formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a 
a) um sistema de armazenamento e processamento de dados massivamente escalável – não é um banco de dados. 
b) uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos 
clientes, parceiros e sobre o negócio. 
Prof. Victor Dalton 
Aula Bônus 
 
23 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
c) um banco de dados com capacidade melhorada. 
d) um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento. 
e) um banco de dados com tecnologia de virtualização. 
 
7. FCC – CLDF – Consultor Técnico Legislativo – 2018 
A proposta de uma solução de Big Data, oferecendo uma abordagem consistente no tratamento do constante 
crescimento e da complexidade dos dados, deve considerar os 5 V’s do Big Data que envolvem APENAS os 
conceitos de 
a) volume, versionamento, variedade, velocidade e visibilidade. 
b) velocidade, visibilidade, volume, veracidade e vencimento do dado. 
c) volume, velocidade, variedade, veracidade e valor. 
d) variedade, vencimento do dado, veracidade, valor e volume. 
e) vulnerabilidade, velocidade, visibilidade, valor e veracidade. 
 
8. CESPE/CEBRASPE – TCE PE – Auditoria de Contas Públicas – 2017 
Além de estar relacionado à grande quantidade de informações a serem analisadas, o Big Data considera o volume, 
a velocidade e a variedade dos dados estruturados — dos quais se conhece a estrutura de armazenamento — bem 
como dos não estruturados, como imagens, vídeos, áudios e documentos. 
◯ Certo ◯ Errado 
 
9. FCC – DPE RS – Analista de TI – 2017 
Os sistemas de Big Data costumam ser caracterizados pelos chamados 3 Vs, sendo que o V de 
a) Veracidade corresponde à rapidez na geração e obtenção de dados. 
b) Valor corresponde à grande quantidade de dados acumulada. 
c) Volume corresponde à rapidez na geração e obtenção de dados. 
d) Velocidade corresponde à confiança na geração e obtenção dos dados. 
e) Variedade corresponde ao grande número de tipos ou formas de dados. 
 
10. CESPE/CEBRASPE – TRE GO – Técnico Judiciário – 2015 
A Big Data pode ser utilizada na EAD para se entender as preferências e necessidades de aprendizagem dos alunos 
e, assim, contribuir para soluções mais eficientes de educação mediada por tecnologia. 
Prof. Victor Dalton 
Aula Bônus 
 
24 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
◯ Certo ◯ Errado 
 
Gabarito 
 
Big Data 
1. D 
2. B 
3. B 
4. A 
5. C 
6. A 
7. C 
8. Certo 
9. E 
10. Certo
Prof. Victor Dalton 
Aula Bônus 
 
25 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
Resumo direcionado 
Big Data 
São tecnologias para a análise de grandes volumes de dados estruturados e não estruturados. Para tanto, utilizam-
se algoritmos estatísticos avançados que fazem, entre outros, análises preditivas e análises de tendências. 
O Big Data possui cinco características intrínsecas (chamadas de 5Vs do Big Data): 
 
• Volume: É preciso ter um grande volume de dados. 
• Velocidade: A geração, entrada e acumulação de dados deve acontecer de forma veloz. 
• Variedade: O sistema precisa ser capaz de suportar e processar diversos formatos diferentes de dados. 
• Veracidade: A informação deve ser verdadeira e íntegra. 
• Valor: Os dados devem agregar ao sistema. 
Técnicas de Big Data 
NoSQL (ou Not Only SQL) 
NoSQL é um termo que designa tecnologias de bancos de dados não relacionais – que não seguem um esquema 
definido. Logo, não respeita às chamadas propriedades ACID (atomicidade, consistência, isolamento e 
durabilidade), ao passo que segue as propriedades BASE, que dizem que um sistema deve estar basicamente 
disponível, em um estado leve e com consistência eventual. 
Além disso, o NoSQL respeita também o Teorema CAP, que traz as regras de consistência, disponibilidade e 
tolerância a partições. Contudo, a regra é que duas dessas propriedades devem estar funcionando, porém nunca 
as três ao mesmo tempo, pois conflitam entre si. 
Os sistemas de NoSQL distribuídos devem ter: escalabilidade horizontal e vertical (possibilidade de crescimento 
quando necessário, seja em quantidade de máquinas – horizontal – ou processamento – vertical), disponibilidade, 
replicação (capacidade de replicar algo para outras máquinas) e consistência eventual, havendo tolerância a falhas. 
Para a sua implementação, existem algumas tecnologias, como: 
Prof. Victor Dalton 
Aula Bônus 
 
26 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
è Chave-valor: neste modelo, há uma maior flexibilidade nos dados de entrada. Isto é, as colunas “chave” e 
“valor” aceitam tipos variados de dados. Exemplo: 
CHAVE VALOR 
16 nome = NoSQL Essencial, ano - 2014 
Arthur idade = 35, interesse = engenharia 
2 nome = True Blood, gênero = fantasia, classificação = 16 anos 
Mário ocupação = prático 
è Documentos: é uma das formas de armazenamento de dados, que também tem maior flexibilidade quanto à 
entrada de dados. Cada novo registro aceita campos diferentes. 
 
è Família de colunas: permite ter colunas principais e colunas adicionais, voltadas ao funcionamento do sistema. 
 
è Grafos: é uma estrutura de armazenagem de dados. O exemplo mais clássico, das redes sociais, são as relações 
feitas entre as pessoas. 
 
Hadoop 
É uma plataforma para desenvolvimento de soluções voltadas para Big Data. Nesta plataforma, é possível criar 
uma estrutura para armazenamento e processamento de sistemas. Para tanto, é preciso ter: 
Prof. Victor Dalton 
Aula Bônus 
 
27 de 27| www.direcaoconcursos.com.br 
Informática para PF – Pós edital 
 
• Escalabilidade (horizontal) 
• Processamento paralelo (possibilidade de espalhar o poder de processamento) 
• Confiabilidade 
• Flexibilidade (um sistema flexível) 
• Baixo custo (se custar uma fortuna, pode ser inviável economicamente). 
Entre os módulos utilizados, destacam-se dois: HDFS (Hadoop File System) e MapReduce. 
O HDFS é um sistema de armazenamento distribuído de arquivos muito grandes. Sua principal premissa é atender 
aos 3Vs principais do Big Data. Nele, há escalabilidade e tolerância a falhas. Além disso, segue a regra WORM 
(Write Once / Read Many), que dita que um dado deve ser escrito uma única vez (write once) – sem poder ser 
modificado – e lido várias vezes (read many). 
O MapReduce, por sua vez, é uma aplicação que trabalha em cima do HDFS para conseguir oferecer um 
processamento paralelo em um ambiente distribuído. Para tanto, trabalha com agrupamento por chave-valor e 
transformação de dados maiores em dados menores, fazendo um mapeamento das informações de forma 
descentralizada e espalhada.

Mais conteúdos dessa disciplina