Prévia do material em texto
Aula Bônus Informática para PF – Pós edital Prof. Victor Dalton 2021 Prof. Victor Dalton Aula Bônus 2 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital Sumário BIG DATA ..................................................................................................................................................... 3 CONTEXTO ................................................................................................................................................................. 3 CONCEITO .................................................................................................................................................................. 4 OS 5VS DO BIG DATA .................................................................................................................................................. 6 TECNOLOGIAS ............................................................................................................................................................ 7 NoSQL (ou Not Only SQL) ..................................................................................................................................... 8 Hadoop .............................................................................................................................................................. 11 QUESTÕES DE PROVA COMENTADAS ........................................................................................................ 15 Big Data ............................................................................................................................................................. 15 LISTA DE QUESTÕES ................................................................................................................................. 21 Big Data ............................................................................................................................................................. 21 GABARITO ................................................................................................................................................. 24 RESUMO DIRECIONADO ............................................................................................................................ 25 BIG DATA ................................................................................................................................................................ 25 Prof. Victor Dalton Aula Bônus 3 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital Big Data Big Data é um tema que, embora não seja tecnicamente trivial, creio ser bastante interessante. Porém, antes de “mergulharmos” neste tema, é necessário contextualizar para uma melhor compreensão. Contexto No mundo atual, TUDO está gerando informação. Nós estamos, a todo momento, criando informações para as grandes empresas. Os GPS dos celulares informam nossa localização. Com isso, grandes empresas sabem por onde andamos, onde moramos, onde trabalhamos, aonde vamos em momentos de lazer etc. As bandeiras dos cartões de crédito, e também os bancos, registram nossos hábitos de consumo, até mesmo classificando-os por categorias. Relacionando a entrada e saída de capital da sua conta corrente, conseguem saber também o quão propenso alguém é a se endividar e os tipo de dívidas que tal pessoa contrai. As redes sociais refletem diretamente o comportamento das pessoas, sem muito esforço, pois, hoje em dia, elas compartilham, voluntariamente, seus sentimentos, opiniões, vontades e muito mais. Para exemplificar isso, leia o seguinte trecho de um artigo: Em 2012, com base em uma média de 68 likes do Facebook por usuário, era possível prever sua cor da pele (95% de precisão), sua orientação sexual (88%) e sua filiação aos partidos Democrata ou Republicano (85%). Inteligência, afiliação religiosa, bem como uso de álcool, cigarro e drogas, tudo poderia ser determinado. Com esses dados era até possível deduzir se os pais de alguém eram divorciados. 70 curtidas eram suficientes para saber mais até do que os amigos de alguém, 150 mais do que os pais. Para conhecer uma pessoa mais do que o seu parceiro, bastavam 300 curtidas. Com mais likes do que isso, era possível conhecer mais até do que a própria pessoa sabia sobre si. Já em 2012, veja o quão forte era isso. Tamanha é a exposição dos traços de personalidade, por parte das pessoas, que essas empresas sabem mais sobre você do que você mesmo, por mais engraçado que isso possa parecer. Com o crescimento exponencial de dados gerados, possivelmente, nos dias de hoje, isso está tremendamente maior e mais acentuado. Em 2017, cerca de 3.8 bilhões de pessoas estavam conectadas à Internet. Nessa época, você tinha algo em torno de 473 mil tweets, 50 mil postagens no Instagram e 4 milhões de vídeos visualizados POR MINUTO. Portanto, é possível concluir, sem muita dificuldade, que as redes sociais detêm muita informação sobre bilhões de pessoas ao redor mundo. Em suma, a sociedade atual produz uma quantidade absurda de informação – isto é, dados. Contudo, 80% a 95% são dados não estruturados. Em linhas gerais, um dado estruturado é aquele que está “encaixado certinho” em uma estrutura, recheado de metadados (informações sobre estes dados). Em um sistema de banco de dados relacional tradicional, como um cadastro de funcionários de uma empresa – temos os códigos, nome, telefone, departamento dos funcionários, tudo “bonitinho” – muito bem estruturado, organizado e preenchido em uma planilha. Os dados não estruturados, por sua vez, são aqueles que carecem de informações para categorizá-los, classificá- los e organizá-los. Exemplificando em uma situação hipotética: Prof. Victor Dalton Aula Bônus 4 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital No grupo de WhatsApp da família, seu tio envia um áudio de 7 minutos e uma mensagem dizendo “Escutem, é muito bom "#$%& '()*+, -./0123 456”. Apenas com isso, você não faz ideia de qual informação está sendo passada. Não há como saber o que aquele áudio “solto” aborda – não existe um rótulo no áudio como “piada” para classificá-lo. Trata-se, portanto, de um dado não estruturado. Multimídia – como vídeos e áudios – são exemplos clássicos de dados não estruturados, porque muitas vezes carecem de informações para categorizá-los e classificá-los. As hashtags, por exemplo, como #concursoPRF, são uma forma de tentar classificar e organizar dados não estruturados. Portanto, haja vista que temos uma quantidade absurda de informação sendo produzida e a maior parte são dados não estruturados, é preciso ter uma forma de cuidar disso – e tem: o Big Data. Conceito “O que é Big Data?” São tecnologias para a análise de grandes volumes de dados estruturados e não estruturados. Isto é feito por meio do uso de algoritmos estatísticos avançados que fazem, entre outros, análises preditivas e análises de tendências. Na rede social Twitter, por exemplo, temos uma aba que apresenta as tendências (assuntos mais comentados) do momento. Os assuntos são separados em ordem hierárquica, do mais comentando ao menos comentado. Muitos tem dúvidas do porquê que um assunto com muitas menções, às vezes, fica abaixo de outro com bem menos menções. No exemplo hipotético da imagem acima, meramente ilustrativo, os assuntos “E a PCDF?” e “Direção Concursos” tem bem menos Tweets do que “PRF”, mas estão acima deste. Isto não é um bug. O que ocorre, na verdade, é que o Twitter consegue entender, por meio da velocidade de produção de Tweets mencionando tal assunto, se este assunto está crescendo ou declinando – um assunto novo, por exemplo, tem poucos Tweets ainda porque acabou de entrar em tendência e só tende a crescer, enquanto um assunto “antigo” já tem muitos comentários, mas está sendo cada vez menos comentado. O Big Data, portanto, tem essa capacidade de entendero que está em tendência. Prof. Victor Dalton Aula Bônus 5 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital “O que não é Big Data?” Tão importante quanto saber o que é Big Data é saber distingui-lo do que não é. è Grandes volumes de dados, apenas. Um grande volume de dados, por si só, não caracteriza um Big Data. A velocidade que os dados são produzidos também é uma característica a ser observada. Exemplo hipotético: Na PRF, eles têm um banco de dados com todos os motoristas do Brasil e as infrações cometidas por eles. Este banco de dados, por si só, não necessariamente é suficiente para que seja um Big Data, pois isto é somente um grande volume de dados. è Dados estruturados, apenas. Se você tem um sistema “redondinho”, com dados bem organizados e estruturados, isto não necessariamente é um Big Data, pois este está relacionado também com ter tecnologias capazes de lidar com dados não estruturados. Veja como é cobrado em prova: (CESPE/CEBRASPE – Polícia Federal – Agente – 2018) Big data refere-se a uma nova geração de tecnologias e arquiteturas projetadas para processar volumes muito grandes e com grande variedade de dados, permitindo alta velocidade de captura, descoberta e análise. ◯ Certo ◯ Errado RESOLUÇÃO: Uma definição geral, simples e “bonita”. Resposta: Certo (CESPE/CEBRASPE – Polícia Federal – Escrivão – 2018) Dados coletados de redes sociais podem ser armazenados, correlacionados e expostos com o uso de análises preditivas. ◯ Certo ◯ Errado RESOLUÇÃO: Novamente, uma sentença genérica e correta. As redes sociais são o melhor exemplo de Big Data. Resposta: Certo (CESPE/CEBRASPE – Polícia Federal – Escrivão – 2018) O big data consiste de um grande depósito de dados estruturados, ao passo que os dados não estruturados são considerados data files. ◯ Certo ◯ Errado RESOLUÇÃO: Prof. Victor Dalton Aula Bônus 6 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital A definição de big data não é “um grande depósito de dados estruturados” (isto é, na verdade, um data warehouse). Big Data trata-se de tecnologias, e não depósitos de dados. Ademais, os data files não estão relacionados diretamente ao escopo do nosso estudo de Big Data. Resposta: Errado Os 5Vs do Big Data O Big Data possui cinco características intrínsecas: volume, velocidade, variedade, veracidade e valor – os chamados 5Vs do Big Data. Necessariamente, é preciso ter um grande volume de dados. Além disso, é fundamental que a geração, entrada e acumulação de dados aconteça de forma veloz – como nas redes sociais, em que os dados são gerados muito rapidamente. No Big Data, os dados devem possuir a característica da variedade, isto é, a capacidade de suportar e processar diversos formatos diferentes de dados – como vídeos, fotos, texto, stories, tweets, posts, publicações etc. Além dessas três características (volume, velocidade e variedade), que são consideradas as três principais e mais marcantes, temos também duas outras características, que surgiram posteriormente, relacionadas ao lado mais “burocrático”: veracidade e valor. A veracidade está ligada à informação ser verdadeira e íntegra. Além disso, as informações têm que ter valor, de forma que agreguem ao sistema. Atenção!! Não é incomum que os examinadores tragam, nas questões, apenas as características mais marcantes. Isso, por si só, não torna a questão errada, exceto se for feita uma exclusão das demais características. BIG DATA VOLUME VELOCIDADE VARIEDADEVERACIDADE VALOR Prof. Victor Dalton Aula Bônus 7 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital Vamos praticar? "#$%&'( (CESPE/CEBRASPE – Polícia Federal – Perito – 2018) A mineração de dados se caracteriza especialmente pela busca de informações em grandes volumes de dados, tanto estruturados quanto não estruturados, alicerçados no conceito dos 4V’s: volume de mineração, variedade de algoritmos, velocidade de aprendizado e veracidade dos padrões. ◯ Certo ◯ Errado RESOLUÇÃO: Primeiramente, a questão já inicia falando em “mineração de dados” quando, na verdade, o assunto abordado em seguida é o Big Data. Além disso, ela cita 4Vs e os relaciona a complementos que não estão correlacionados. Essas quatro características são referentes aos DADOS, e não à mineração, algoritmos, aprendizado e padrões. Os complementos são, então, incoerentes. Os 5Vs do Big Data estão sempre ligados aos dados. Logo, quando, na resolução de questões, for abordado o significado e/ou conceito destas características, basta que você “pegue” quaisquer das características e complemente-as com “dos dados”. Exemplificando: • Volume dos dados; • Velocidade dos dados; • Variedade dos dados; • Veracidade dos dados; • Valor dos dados. Resposta: Errado (CESPE/CEBRASPE – Polícia Federal – Papiloscopista – 2018) De maneira geral, big data não se refere apenas aos dados, mas também às soluções tecnológicas criadas para lidar com dados em volume, variedade e velocidade significativos. ◯ Certo ◯ Errado RESOLUÇÃO: Exatamente! Além disso, embora a questão tenha citado somente os 3Vs mais marcantes, não houve exclusão dos demais. Resposta: Certo Tecnologias As tecnologias de Big Data já foram cobradas em provas de forma introdutória. Diante disso, há a possibilidade dos examinadores quererem se aprofundar um pouco mais. Portanto, preste bastante atenção a partir de agora, pois abordaremos o NoSQL e o Hadoop, duas das principais tecnologias de Big Data atualmente. Prof. Victor Dalton Aula Bônus 8 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital NoSQL (ou Not Only SQL) Em linhas gerais, SQL é uma linguagem na qual se dá comandos para criar, gerenciar ou manipular banco de dados relacionais. O NoSQL, por sua vez, (também chamado de Not Only SQL) é um termo que designa tecnologias diferentes de natureza não relacional – isto é, bancos de dados não relacionais. Um banco de dados relacional contém um esquema de dados em que é possível estabelecer relações entre eles. Tabelas de uma empresa, por exemplo, nas quais é possível estabelecer relacionamentos (como, por exemplo, tabelas contendo informações sobre funcionários, departamentos, projetos etc.). Diferentemente deste modelo relacional, no NoSQL, não há esquema definido. O NoSQL viola as propriedades ACID As chamadas propriedades ACID (atomicidade, consistência, isolamento e durabilidade) são pertinentes aos bancos de dados tradicionais – relacionais. Porém, no NoSQL, não há “tanta” preocupação com essas regras. Contextualizando de forma hipotética: Acaba de ser lançado o videogame Playstation 5 e você pretende o adquirir. Ao acessar o site de uma grande varejista, você se depara com o alerta “última unidade disponível”. Logo, rapidamente, você, que está situado em São Paulo, clica no botão para comprar e finaliza o seu pedido com sucesso. Porém, concomitantemente, um outro consumidor, que está situado em Rio Branco (Acre), clica no botão para comprar exatamente no mesmo segundo que você e também realiza a compra com sucesso. Três dias depois, você recebe um e-mail informando que o produto que adquiriu estava esgotado e que receberá um estorno do pagamento. O site da grande varejista possui servidores espalhados por todo o Brasil, num banco de dados distribuído, visando oferecer uma melhor experiência ao usuário. Você, ao acessar o site, está conectado a um banco de dados de São Paulo e o outro consumidor está conectado a um banco de dados de Manaus. Porém, como os bancos de dados da varejista violam as propriedades ACID, as bases não se comunicaram, o que permitiu que duas pessoas realizassem a compra de um produto que só tinha uma unidade disponível. Em um sistema que respeita às propriedades ACID, os bancos de dados seriamcapazes de se comunicarem e verificariam, no milésimo de segundo, quem comprou primeiro e informaria ao outro consumidor, antes mesmo dele finalizar a compra, que o produto esgotou. Teorema CAP O NoSQL segue o chamado Teorema CAP (Consistency, Availability e Partition tolerance). è Consistency (Consistência) A consistência determina que deve haver cópias de um mesmo dado em todos os nós do banco de dados. è Availability (Disponibilidade) A disponibilidade diz respeito ao sistema estar sempre disponível para a realização de transações. è Partition Tolerance (Tolerância a Partições) A tolerância a partições é a possibilidade de o sistema continuar operando mesmo em caso de falha. Para tanto, ele deve ser partido em subredes de modo que, se uma delas falhar, as outras continuem funcionando. Prof. Victor Dalton Aula Bônus 9 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital No Teorema CAP, a regra é que duas dessas propriedades sempre devem estar funcionando, porém nunca as três ao mesmo tempo. Inclusive, se analisarmos, as três propriedades funcionando ao mesmo tempo conflitam entre si. Por exemplo, em um sistema em que as cópias estão em todos os lugares (consistency) e ele está sempre disponível (availability), não há como ser tolerante a partições, pois se uma das partições para de funcionar, automaticamente esta não está mais disponível e as cópias não estão mais em todos os nós. Exemplo hipotético: O Instagram é uma rede social que possui bancos de dados distribuídos por todo o mundo. O jogador Cristiano Ronaldo, com um dos perfis mais seguidos, quando está na Itália, resolve publicar uma foto. Se esta publicação ficasse somente na Itália para ser entregue para o mundo inteiro, isto poderia acarretar um sobrecarregamento e até mesmo queda do servidor, haja vista as centenas de milhões de pessoas a quem a foto deve ser entregue. Diante disso, quando o Cristiano Ronaldo faz uma publicação, isto é replicado para vários servidores localizados em vários lugares diferentes do mundo. Portanto, a consistência (propriedade que diz que as cópias devem estar em todos os nós) não acontece de imediato – alguns recebem a foto primeiro do que outros. Portanto, em suma, no NoSQL, conforme o Teorema CAP, conclui-se que os bancos de dados devem ser flexíveis. Propriedades BASE As propriedades BASE (Basically Available, Soft-state and Eventually consistent), que norteiam o NoSQL, dizem que um sistema deve estar basicamente disponível, em um estado leve e com consistência eventual. Logo, há tolerância a falhas de consistência em um banco, que deve funcionar basicamente todo o tempo em um estado leve, estando consistente nos momentos devidos. Características dos sistemas distribuídos Os sistemas NoSQL distribuídos pelo mundo inteiro devem ter: è Escalabilidade (horizontal e vertical) A escalabilidade, em linhas gerais, é a capacidade de estar preparado para crescer e suportar uma demanda maior. Isto é, quando necessário, melhorar o processamento e/ou a quantidade de servidores. Exemplificando: O portal de notícias do Direção Concursos possui um número consistente de acessos. Porém, quando sai, de repente, um edital novo, o site recebe muitos acessos simultaneamente. Se o site do Direção não tivesse escalabilidade, iria sair do ar nessas ocasiões. A escalabilidade horizontal é a capacidade de alocar mais máquinas. (para memorizar, pense em uma máquina uma do lado da outra, organizadas horizontalmente ⇾). A escalabilidade vertical, por sua vez, é a capacidade de transportar um sistema de uma máquina para outra máquina com melhor processamento. (para memorizar, pense em uma máquina acima da outra, em um nível “verticalmente superior” ↑). è Disponibilidade Os sistemas precisam estar disponíveis. è Replicação É a capacidade de replicar o que está numa máquina para as demais máquinas. Prof. Victor Dalton Aula Bônus 10 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital è Consistência eventual Há flexibilidade quanto à consistência, com tolerância a falhas. Implementação Para implementar o NoSQL, existem algumas tecnologias, como: è Chave-valor Em uma tabela relacional, tudo é bem separado e organizado, não havendo tolerância quanto às informações a serem preenchidas. Por exemplo, em uma tabela de projetos, na coluna “códigos”, só se aceitam os códigos; na coluna “setor”, só se aceitam os nomes dos setores e, na coluna “responsável”, só se aceita o nome do responsável. Exemplo: CÓDIGOS SETOR RESPONSÁVEL 0001 Marketing Ronaldo 0002 Comercial Victor 0003 Financeiro Erick Já no NoSQL, em um modelo baseado na técnica chave-valor, há maior flexibilidade. Logo, as colunas “chave” e “valor” permitem várias entradas diferentes. Exemplo: CHAVE VALOR 16 nome = NoSQL Essencial, ano - 2014 Arthur idade = 35, interesse = engenharia 2 nome = True Blood, gênero = fantasia, classificação = 16 anos Mário ocupação = prático Embora seja uma bagunça, esta flexibilidade é necessária para o pleno funcionamento do Big Data, pois você nunca sabe qual será a próxima ação de um usuário. Se for um sistema muito “travadinho”, a coisa não anda. è Documentos Os documentos são uma forma de armazenamento no NoSQL. Aqui, segue o mesmo espírito da técnica anterior, havendo flexibilidade para a entrada de dados. Cada novo registro aceita campos diferentes. è Família de colunas Em um banco de dados, há vários registros e dados atribuídos às colunas. Nas famílias de colunas, é permitido ter colunas principais e colunas adicionais, voltadas ao funcionamento do sistema. Exemplo: Prof. Victor Dalton Aula Bônus 11 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital Além disso, existem sistemas que permitem também puxar dados de várias colunas de uma vez. è Grafos Os grafos são uma estrutura de armazenagem de dados. O exemplo mais clássico, das redes sociais, são as relações feitas entre as pessoas – fulano segue beltrano, que segue ciclano etc. Para armazenamentos como os do exemplo acima, geralmente utilizam-se os grafos. Hadoop O Hadoop é uma plataforma para desenvolvimento de soluções voltadas para Big Data. Nesta plataforma, é possível criar uma estrutura para armazenamento e processamento de sistemas com Big Data. Para desenvolver tais soluções, é preciso ter: Prof. Victor Dalton Aula Bônus 12 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital • Escalabilidade (horizontal) • Processamento paralelo (possibilidade de espalhar o poder de processamento) • Confiabilidade • Flexibilidade (um sistema flexível) • Baixo custo (se custar uma fortuna, pode ser inviável economicamente). No Hadoop, utilizam-se vários módulos, mas os principais são o HDFS (Hadoop File System) e o MapReduce. HDFS (Hadoop File System) O HDFS é um sistema de armazenamento de arquivos voltado para os sistemas distribuídos por todo o mundo. (sim, é um sistema de armazenamento tipo NTFS, FAT32). Ele foi originado no Google File System e tem como principal premissa atender aos 3Vs principais do Big Data (volume, velocidade e variedade). O principal foco do HDFS reside no armazenamento distribuído de arquivos muito grandes. Por exemplo: Um vídeo de 1h, filmado em resolução de 4k, possui um tamanho gigantesco. Logo, é desejável que o armazenamento seja feito de forma distribuída, espalhando pedaços de arquivos para vários servidores, pois, assim, o processamento ocorre de forma mais célere. O HDFS possui escalabilidade e tolerância a falhas. Diante disso, é preciso ter redundância de arquivos para, caso um servidor venha falhar, seja possível fazer a reconstituição. Ele tem como parâmetro a regra WORM (Write Once / Read Many), que dita que um dado deve ser escrito uma única vez (write once) – sem poder ser modificado – e lido várias vezes (read many). Por exemplo: Quando o CristianoRonaldo posta uma foto, ele não consegue modificar ela (write once), porém ela é visualizada por milhões de pessoas (read many). Para elucidar, vamos responder uma questão: (CESPE/CEBRASPE – TCE PB – Auditor – 2018 - Adaptada) Em big data, o sistema de arquivos HDFS é usado para armazenar arquivos muito grandes de forma distribuída, tendo como princípio o write-many, read-once. ◯ Certo ◯ Errado RESOLUÇÃO: A questão fez uma inversão: o correto seria write once (o dado é escrito uma só vez) e read many (o dado será lido muitas vezes) – e não o contrário. Resposta: Errado MapReduce O MapReduce é uma aplicação que trabalha em cima do HDFS para conseguir oferecer um processamento paralelo em um ambiente distribuído. Parte da premissa que, se os dados estão distribuídos em vários lugares pelo mundo, é preciso ter uma forma de organizá-los posteriormente. Portanto, é preciso um sistema lógico, organizado e estruturado para que a coisa funcione. Prof. Victor Dalton Aula Bônus 13 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital Para tanto, o MapReduce trabalha com agrupamento por chave-valor e transformação de dados maiores em dados menores, fazendo um mapeamento das informações de forma descentralizada e espalhada. Exemplo: Em uma rede social, desejam descobrir a quantidade de vezes que as palavras dog, cat, mouse e duck foram mencionadas. Primeiramente, as palavras são separadas por região de onde vieram (como América, África e Ásia) e realiza-se uma contagem separadamente em cada região. Em seguida, após a contagem regionalizada, as palavras são ordenadas por grupo (junta todas as palavras “cat” em um grupo, todas as palavras “dog” em outro etc.) e depois são reduzidas (ao invés de “dog, dog, dog”, reduz-se para “Dog, 3”). Por fim, organiza-se todas as palavras e a incidência delas a nível mundial. Perceba como, ao invés de ir direto contando a recorrência das palavras, ocorreu um processo espalhado e descentralizado. Hora de praticar! (CESPE/CEBRASPE – Polícia Federal – Papiloscopista – 2018) MapReduce oferece um modelo de programação com processamento por meio de uma combinação entre chaves e valores. ◯ Certo ◯ Errado RESOLUÇÃO: Isso mesmo. O MapReduce trabalha com agrupamento por chave-valor. Resposta: Certo (CESPE/CEBRASPE – Polícia Federal – Papiloscopista – 2018) MapReduce permite o processamento de dados massivos usando um algoritmo paralelo mas não distribuído. ◯ Certo ◯ Errado RESOLUÇÃO: No Big Data, no geral, tudo ocorre de forma distribuída. O MapReduce, por sua vez, tem como premissa oferecer processamento paralelo em ambiente distribuído. Resposta: Errado Prof. Victor Dalton Aula Bônus 14 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital (CESPE/CEBRASPE – EBSERH – Analista – 2018) As soluções de big data focalizam dados que já existem, descartam dados não estruturados e disponibilizam os dados estruturados. ◯ Certo ◯ Errado RESOLUÇÃO: O Big Data trabalha com dados estruturados e principalmente dados não estruturados. Além disso, diferentemente do que diz a questão, o foco não está nos dados que já existem somente, pois o sistema é programado e ordenado para a chegada de novos dados. Resposta: Errado Prof. Victor Dalton Aula Bônus 15 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital Questões de prova comentadas Big Data 1. Instituto AOCP – MJSP – Analista – 2020 O Big Data é definido como coleções de dados cuja sua quantidade é tão grande que é difícil armazenar, gerenciar, processar e analisar esses dados por meio de bancos de dados tradicionais. Nos últimos anos, houve um crescimento exponencial nos dados estruturados e não estruturados gerados pela tecnologia da informação da indústria e saúde por meio da internet das coisas (IoT), por exemplo. Sabendo disso, assinale a alternativa que apresenta corretamente as cinco características, também conhecidas como os cinco “vês”, de um big data. a) Valor, viabilidade, visiblidade, velocidade, volume. b) Volume, vertente, valor, virtualidade, vitabilidade. c) Viabilidade, vitalício, virtual, velocidade, valor. d) Velocidade, volume, veracidade, variedade, valor. e) Veracidade, viabilidade, volume, virtualidade, variedade RESOLUÇÃO: As cinco características intrínsecas (5Vs) do Big Data são: volume, velocidade, variedade, veracidade e valor. Resposta: D 2. CESPE/CEBRASPE – TCE RO – Analista de TI – 2019 Com relação a fundamentos e conceitos de Big Data, julgue os itens a seguir. I O volume de dados é uma característica importante de Big Data. II Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não impacta os negócios. III A característica de velocidade de entrada dos dados impacta o modelo de processamento e armazenamento. IV A variedade dos dados não é característica intrínseca nos fundamentos de Big Data. Prof. Victor Dalton Aula Bônus 16 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital Estão certos apenas os itens a) I e II. b) I e III. c) II e IV. d) I, III e IV. e) II, III e IV. RESOLUÇÃO: Vejamos: I – Certo. O volume é uma das principais características do Big Data. II – Errado. Duas características intrínsecas do Big Data são a veracidade (dados verdadeiros e íntegros) e valor dos dados (dados que agreguem ao sistema). III – Certo. É muito importante, para o Big Data, ter escalabilidade – isto é, estar preparado para crescer e suportar uma demanda maior, como a entrada de mais dados, que exige um melhor processamento e armazenamento. IV – Errado. A variedade dos dados é um dos 5Vs do Big Data. Relembre: Resposta: B 3. CESGRANRIO – PETROBRAS – Analista – 2018 A principal definição de Big Data parte de três características, conhecidas como 3 V do Big Data, a saber: velocidade, variedade e volume. O termo velocidade refere-se, principalmente, à a) necessidade das aplicações de gerar respostas rapidamente, a partir de grandes massas de dados. b) existência de um alto fluxo de dados na entrada. c) necessidade de gerar aplicações rapidamente, em função da demanda do negócio. d) importância da facilidade de manipular cubos de visualização de dados, rapidamente. e) rapidez com que os dados se tornam inválidos com o tempo. Prof. Victor Dalton Aula Bônus 17 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital RESOLUÇÃO: Os 5Vs do Big Data estão sempre ligados aos dados. Logo, quando, na resolução de questões, for abordado o significado e/ou conceito destas características, basta que você “pegue” quaisquer das características e complemente-as com “dos dados”. Exemplificando: • Volume dos dados; • Velocidade dos dados; • Variedade dos dados; • Veracidade dos dados; • Valor dos dados. A velocidade, uma das principais características do Big Data, está ligada à geração, entrada e acumulação veloz de dados, como ocorre, por exemplo, nas redes sociais. Portanto, a alternativa que melhor se encaixa é a B – alto fluxo de entrada de dados. Resposta: B 4. FCC – TCE RS – Auditor Público Externo – 2018 Um sistema de Big Data costuma ser caracterizado pelos chamados 3 Vs, ou seja, volume, variedade e velocidade. Por variedade entende-se que a) há um grande número de tipos de dados suportados pelo sistema. b) há um grande número de usuários distintos acessando o sistema. c) os tempos de acesso ao sistema apresentam grande variação. d) há um grande número de tipos de máquinas acessando o sistema. e) os tamanhos das tabelas que compõem o sistema são muito variáveis. RESOLUÇÃO: Os 5Vs do Big Data estão sempre ligados aos dados. Logo, quando, na resolução de questões, for abordado o significado e/ou conceito destas características, basta que você “pegue” quaisquer das característicase complemente-as com “dos dados”. Exemplificando: • Volume dos dados; • Velocidade dos dados; • Variedade dos dados; • Veracidade dos dados; • Valor dos dados. Portanto, a variedade dos dados diz respeito à entrada de formatos diferentes (variáveis) de dados – como vídeos, fotos, texto, stories, tweets, posts, publicações etc. Prof. Victor Dalton Aula Bônus 18 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital Resposta: A 5. FCC – SEF SC – Auditor Fiscal da Receita Estadual – 2018 No âmbito da ciência de dados na definição de Big Data, utilizam-se características ou atributos que alguns pesquisadores adotam como sendo os cinco Vs. Porém, a base necessária para o reconhecimento de Big Data é formada por três propriedades: a) valor, velocidade e volume. b) valor, veracidade e volume. c) variedade, velocidade e volume. d) variedade, valor e volume. e) velocidade, veracidade e volume RESOLUÇÃO: O Big Data possui cinco características intrínsecas (os chamados 5Vs), porém, entre esses, há três características consideradas as mais marcantes: volume, velocidade e variedade – alternativa C. As características da veracidade e do valor surgiram posteriormente, relacionados ao lado mais “burocrático”. Resposta: C 6. Instituto AOCP – PRODEB – Especialista de TIC – 2018 Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a a) um sistema de armazenamento e processamento de dados massivamente escalável – não é um banco de dados. b) uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos clientes, parceiros e sobre o negócio. c) um banco de dados com capacidade melhorada. d) um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento. e) um banco de dados com tecnologia de virtualização. RESOLUÇÃO: O Hadoop é uma plataforma para desenvolvimento de soluções voltadas para Big Data. Entre os módulos utilizados, destacam-se o HDFS (sistema de armazenamento distribuído de arquivos muito grandes) e o MapReduce (aplicação para o fornecimento de processamento paralelo em um ambiente distribuído). Portanto, a alternativa que melhor se encaixa é a A. Resposta: A Prof. Victor Dalton Aula Bônus 19 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital 7. FCC – CLDF – Consultor Técnico Legislativo – 2018 A proposta de uma solução de Big Data, oferecendo uma abordagem consistente no tratamento do constante crescimento e da complexidade dos dados, deve considerar os 5 V’s do Big Data que envolvem APENAS os conceitos de a) volume, versionamento, variedade, velocidade e visibilidade. b) velocidade, visibilidade, volume, veracidade e vencimento do dado. c) volume, velocidade, variedade, veracidade e valor. d) variedade, vencimento do dado, veracidade, valor e volume. e) vulnerabilidade, velocidade, visibilidade, valor e veracidade. RESOLUÇÃO: As cinco características intrínsecas (5Vs) do Big Data são: volume, velocidade, variedade, veracidade e valor. Resposta: C 8. CESPE/CEBRASPE – TCE PE – Auditoria de Contas Públicas – 2017 Além de estar relacionado à grande quantidade de informações a serem analisadas, o Big Data considera o volume, a velocidade e a variedade dos dados estruturados — dos quais se conhece a estrutura de armazenamento — bem como dos não estruturados, como imagens, vídeos, áudios e documentos. ◯ Certo ◯ Errado RESOLUÇÃO: Perfeitamente! Resposta: Certo 9. FCC – DPE RS – Analista de TI – 2017 Prof. Victor Dalton Aula Bônus 20 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital Os sistemas de Big Data costumam ser caracterizados pelos chamados 3 Vs, sendo que o V de a) Veracidade corresponde à rapidez na geração e obtenção de dados. b) Valor corresponde à grande quantidade de dados acumulada. c) Volume corresponde à rapidez na geração e obtenção de dados. d) Velocidade corresponde à confiança na geração e obtenção dos dados. e) Variedade corresponde ao grande número de tipos ou formas de dados. RESOLUÇÃO: Vejamos as alternativas: a) Errado. A veracidade corresponde à integridade da informação. b) Errado. O valor diz respeito a dados que agreguem ao sistema. c) Errado. Volume não é a rapidez, e sim a quantidade de dados acumulados. d) Errado. Velocidade corresponde à geração, entrada e acumulação veloz de dados. e) Certo. A variedade está ligada à entrada e processamento de dados variáveis. Resposta: E 10. CESPE/CEBRASPE – TRE GO – Técnico Judiciário – 2015 A Big Data pode ser utilizada na EAD para se entender as preferências e necessidades de aprendizagem dos alunos e, assim, contribuir para soluções mais eficientes de educação mediada por tecnologia. ◯ Certo ◯ Errado RESOLUÇÃO: São diversos os contextos em que se pode aplicar Big Data, haja vista que são tecnologias para a análise de grandes volumes de dados, por meio de, entre outros, análises preditivas e análises de tendências. Resposta: Certo Prof. Victor Dalton Aula Bônus 21 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital Lista de questões Big Data 1. Instituto AOCP – MJSP – Analista – 2020 O Big Data é definido como coleções de dados cuja sua quantidade é tão grande que é difícil armazenar, gerenciar, processar e analisar esses dados por meio de bancos de dados tradicionais. Nos últimos anos, houve um crescimento exponencial nos dados estruturados e não estruturados gerados pela tecnologia da informação da indústria e saúde por meio da internet das coisas (IoT), por exemplo. Sabendo disso, assinale a alternativa que apresenta corretamente as cinco características, também conhecidas como os cinco “vês”, de um big data. a) Valor, viabilidade, visiblidade, velocidade, volume. b) Volume, vertente, valor, virtualidade, vitabilidade. c) Viabilidade, vitalício, virtual, velocidade, valor. d) Velocidade, volume, veracidade, variedade, valor. e) Veracidade, viabilidade, volume, virtualidade, variedade 2. CESPE/CEBRASPE – TCE RO – Analista de TI – 2019 Com relação a fundamentos e conceitos de Big Data, julgue os itens a seguir. I O volume de dados é uma característica importante de Big Data. II Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não impacta os negócios. III A característica de velocidade de entrada dos dados impacta o modelo de processamento e armazenamento. IV A variedade dos dados não é característica intrínseca nos fundamentos de Big Data. Estão certos apenas os itens a) I e II. b) I e III. c) II e IV. d) I, III e IV. e) II, III e IV. 3. CESGRANRIO – PETROBRAS – Analista – 2018 A principal definição de Big Data parte de três características, conhecidas como 3 V do Big Data, a saber: velocidade, variedade e volume. Prof. Victor Dalton Aula Bônus 22 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital O termo velocidade refere-se, principalmente, à a) necessidade das aplicações de gerar respostas rapidamente, a partir de grandes massas de dados. b) existência de um alto fluxo de dados na entrada. c) necessidade de gerar aplicações rapidamente, em função da demanda do negócio. d) importância da facilidade de manipular cubos de visualização de dados, rapidamente. e) rapidez com que os dados se tornam inválidos com o tempo. 4. FCC – TCE RS – Auditor Público Externo – 2018 Um sistema de Big Data costuma ser caracterizado pelos chamados 3 Vs, ou seja, volume, variedade e velocidade. Por variedade entende-se que a) há um grande número de tipos de dados suportados pelo sistema. b) há um grande número de usuários distintos acessando o sistema. c) os tempos de acesso ao sistemaapresentam grande variação. d) há um grande número de tipos de máquinas acessando o sistema. e) os tamanhos das tabelas que compõem o sistema são muito variáveis. 5. FCC – SEF SC – Auditor Fiscal da Receita Estadual – 2018 No âmbito da ciência de dados na definição de Big Data, utilizam-se características ou atributos que alguns pesquisadores adotam como sendo os cinco Vs. Porém, a base necessária para o reconhecimento de Big Data é formada por três propriedades: a) valor, velocidade e volume. b) valor, veracidade e volume. c) variedade, velocidade e volume. d) variedade, valor e volume. e) velocidade, veracidade e volume 6. Instituto AOCP – PRODEB – Especialista de TIC – 2018 Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a a) um sistema de armazenamento e processamento de dados massivamente escalável – não é um banco de dados. b) uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos clientes, parceiros e sobre o negócio. Prof. Victor Dalton Aula Bônus 23 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital c) um banco de dados com capacidade melhorada. d) um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento. e) um banco de dados com tecnologia de virtualização. 7. FCC – CLDF – Consultor Técnico Legislativo – 2018 A proposta de uma solução de Big Data, oferecendo uma abordagem consistente no tratamento do constante crescimento e da complexidade dos dados, deve considerar os 5 V’s do Big Data que envolvem APENAS os conceitos de a) volume, versionamento, variedade, velocidade e visibilidade. b) velocidade, visibilidade, volume, veracidade e vencimento do dado. c) volume, velocidade, variedade, veracidade e valor. d) variedade, vencimento do dado, veracidade, valor e volume. e) vulnerabilidade, velocidade, visibilidade, valor e veracidade. 8. CESPE/CEBRASPE – TCE PE – Auditoria de Contas Públicas – 2017 Além de estar relacionado à grande quantidade de informações a serem analisadas, o Big Data considera o volume, a velocidade e a variedade dos dados estruturados — dos quais se conhece a estrutura de armazenamento — bem como dos não estruturados, como imagens, vídeos, áudios e documentos. ◯ Certo ◯ Errado 9. FCC – DPE RS – Analista de TI – 2017 Os sistemas de Big Data costumam ser caracterizados pelos chamados 3 Vs, sendo que o V de a) Veracidade corresponde à rapidez na geração e obtenção de dados. b) Valor corresponde à grande quantidade de dados acumulada. c) Volume corresponde à rapidez na geração e obtenção de dados. d) Velocidade corresponde à confiança na geração e obtenção dos dados. e) Variedade corresponde ao grande número de tipos ou formas de dados. 10. CESPE/CEBRASPE – TRE GO – Técnico Judiciário – 2015 A Big Data pode ser utilizada na EAD para se entender as preferências e necessidades de aprendizagem dos alunos e, assim, contribuir para soluções mais eficientes de educação mediada por tecnologia. Prof. Victor Dalton Aula Bônus 24 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital ◯ Certo ◯ Errado Gabarito Big Data 1. D 2. B 3. B 4. A 5. C 6. A 7. C 8. Certo 9. E 10. Certo Prof. Victor Dalton Aula Bônus 25 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital Resumo direcionado Big Data São tecnologias para a análise de grandes volumes de dados estruturados e não estruturados. Para tanto, utilizam- se algoritmos estatísticos avançados que fazem, entre outros, análises preditivas e análises de tendências. O Big Data possui cinco características intrínsecas (chamadas de 5Vs do Big Data): • Volume: É preciso ter um grande volume de dados. • Velocidade: A geração, entrada e acumulação de dados deve acontecer de forma veloz. • Variedade: O sistema precisa ser capaz de suportar e processar diversos formatos diferentes de dados. • Veracidade: A informação deve ser verdadeira e íntegra. • Valor: Os dados devem agregar ao sistema. Técnicas de Big Data NoSQL (ou Not Only SQL) NoSQL é um termo que designa tecnologias de bancos de dados não relacionais – que não seguem um esquema definido. Logo, não respeita às chamadas propriedades ACID (atomicidade, consistência, isolamento e durabilidade), ao passo que segue as propriedades BASE, que dizem que um sistema deve estar basicamente disponível, em um estado leve e com consistência eventual. Além disso, o NoSQL respeita também o Teorema CAP, que traz as regras de consistência, disponibilidade e tolerância a partições. Contudo, a regra é que duas dessas propriedades devem estar funcionando, porém nunca as três ao mesmo tempo, pois conflitam entre si. Os sistemas de NoSQL distribuídos devem ter: escalabilidade horizontal e vertical (possibilidade de crescimento quando necessário, seja em quantidade de máquinas – horizontal – ou processamento – vertical), disponibilidade, replicação (capacidade de replicar algo para outras máquinas) e consistência eventual, havendo tolerância a falhas. Para a sua implementação, existem algumas tecnologias, como: Prof. Victor Dalton Aula Bônus 26 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital è Chave-valor: neste modelo, há uma maior flexibilidade nos dados de entrada. Isto é, as colunas “chave” e “valor” aceitam tipos variados de dados. Exemplo: CHAVE VALOR 16 nome = NoSQL Essencial, ano - 2014 Arthur idade = 35, interesse = engenharia 2 nome = True Blood, gênero = fantasia, classificação = 16 anos Mário ocupação = prático è Documentos: é uma das formas de armazenamento de dados, que também tem maior flexibilidade quanto à entrada de dados. Cada novo registro aceita campos diferentes. è Família de colunas: permite ter colunas principais e colunas adicionais, voltadas ao funcionamento do sistema. è Grafos: é uma estrutura de armazenagem de dados. O exemplo mais clássico, das redes sociais, são as relações feitas entre as pessoas. Hadoop É uma plataforma para desenvolvimento de soluções voltadas para Big Data. Nesta plataforma, é possível criar uma estrutura para armazenamento e processamento de sistemas. Para tanto, é preciso ter: Prof. Victor Dalton Aula Bônus 27 de 27| www.direcaoconcursos.com.br Informática para PF – Pós edital • Escalabilidade (horizontal) • Processamento paralelo (possibilidade de espalhar o poder de processamento) • Confiabilidade • Flexibilidade (um sistema flexível) • Baixo custo (se custar uma fortuna, pode ser inviável economicamente). Entre os módulos utilizados, destacam-se dois: HDFS (Hadoop File System) e MapReduce. O HDFS é um sistema de armazenamento distribuído de arquivos muito grandes. Sua principal premissa é atender aos 3Vs principais do Big Data. Nele, há escalabilidade e tolerância a falhas. Além disso, segue a regra WORM (Write Once / Read Many), que dita que um dado deve ser escrito uma única vez (write once) – sem poder ser modificado – e lido várias vezes (read many). O MapReduce, por sua vez, é uma aplicação que trabalha em cima do HDFS para conseguir oferecer um processamento paralelo em um ambiente distribuído. Para tanto, trabalha com agrupamento por chave-valor e transformação de dados maiores em dados menores, fazendo um mapeamento das informações de forma descentralizada e espalhada.