Apol 2 Big Data

Ciência de Dados

•

UNINTER

0

Tainá Bruna de Araújo

19/03/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 26 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 26 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 26 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Ciência de Dados

3.553 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Questão 1/10 - Big Data
Storm é um sistema de computação distribuída em tempo real com foco em processamento de fluxos de dados ilimitados.
Avalie as seguintes afirmações a respeito do Storm:
I – Implementa o comando “rebalance” para balancear o paralelismo das topologias. A sua execução exige que os serviços sejam pausados por um curto período de tempo.
II – Processos trabalhadores são reiniciados automaticamente em caso de falha.
III – Quando um nó onde um conjunto de processos trabalhadores operam fica indisponível, os processos são reiniciados automaticamente assim que o nó voltar a se tornar disponível novamente.
IV – Um spout pode ler um broker de fila de mensagens, como Kestrel, RabbitMQ ou Kafka; gerar seu próprio fluxo; ou ler outras APIs de fluxos.
V – A lógica computacional de um sistema Storm é toda realizada em bolts, spouts e topologias na forma de funções, filtros, uniões de fluxos, agregações de fluxos, comunicando com bancos de dados, entre outras formas.
Dentre essas afirmações estão CORRETAS:
Nota: 0.0Você não pontuou essa questão

A
I, II e V

B
II e IV
Justificativa: A afirmação I encontra-se INCORRETA, pois é possível utilizar a linha de comandos do Storm para executar o comando “rebalance” e ajustar o paralelismo das topologias que estiverem executando sem precisar parar a execução. Diferentemente do que alega INCORRETAMENTE a afirmação III, se um nó inteiro ficar indisponível os processos trabalhadores são reiniciados automaticamente em um outro nó. A afirmação V alega INCORRETAMENTE que a lógica computacional de um Sistema Storm é realizada em bolts spouts e topologias. A sua lógica é realizada apenas nos bolts. As únicas afirmações CORRETAS são a II e a IV.

C
Todas, exceto II

D
I, III e IV
Você assinalou essa alternativa (D)

E
Todas
Questão 2/10 - Big Data
Avalie as seguintes afirmações sobre os componentes do Hadoop: Impala e Accumulo:
I – Impala é um motor de consultas SQL capaz de realizar consultas de baixa latência em HDFS ou Hive.
II – O Impapa foi projetado para consultas analíticas em Haddop utilizando SQL ou ferramentas de business inteligence (BI).
III – Accumulo é um sistema de armazenamento distribuído baseado em chave-valor que implementa segurança e nível de célula.
IV – Todos os dados armazenados no Accumulo devem possuir os mesmos requisitos de segurança em uma mesma tabela.
V – O Accumulo permite realizar operações em pares de chave-valor assim que são inseridos.
Dentre essas afirmações estão CORRETAS:
Nota: 0.0Você não pontuou essa questão

A
I, II e III
Você assinalou essa alternativa (A)

B
Todas

C
I, II e IV

D
II, III e V
Justificativa: Entre as principais características do Impala destaca-se a possibilidade de realizar consultas SQL de baixa latência de dados armazenados em HDFS e HBase. Dessa forma a afirmação I encontra-se INCORRETA. Uma das principais características do Accumulo é a segurança em nível de célula, onde cada par chave-valor possui o seu próprio rótulo de segurança que tem a capacidade de limitar os resultados de uma consulta baseado nas autorizações de acesso do usuário. Portanto a afirmação IV está INCORRETA. As afirmações II, III e V estão CORRETAS.

E
Apenas III
Questão 3/10 - Big Data
Uma vez que a tecnologia de cloud computing se propõe a oferecer serviços para atender às demandas de computação de entidades externas, podemos classificar os serviços oferecidos em categorias.
Avalie as seguintes afirmações sobre as diferentes categorias de serviço de Cloud Computing:
I – Infraestrutura como um serviço (IaaS) é o modelo de Cloud Computing que oferece o acesso a equipamentos e recursos computacionais tais como armazenamento, servidores, dispositivos de rede e outros tipos de hardware.
II – O IaaS é muito utilizado para oferecer os serviços de recuperação de desastres, serviços de computação, serviços de armazenamento, serviços de data center, infraestrutura de desktop virtual, além de serviços de testes de aplicação, versionamento, integração e hospedagem.
III – Todos os fornecedores de serviços de cloud computing o fazem sobre uma nuvem de IaaS
IV – O modelo de Cloud Computing Plataforma como um serviço (PaaS) é capaz de reduzir os requisitos para o desenvolvimento de novos sistemas, além de permitir uma redução de custos e riscos, uma vez que oferece plataformas de desenvolvimento e uso de aplicações.
V – O modelo de Software como um serviço (SaaS) oferece soluções de software customizadas. Dessa forma é capaz de atender a necessidades específicas.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
Todas, exceto III

B
I, II e IV

C
I, III e IV
Você assinalou essa alternativa (C)
Você acertou!
Justificativa: Serviços de testes de aplicação, versionamento, integração e hospedagem são oferecidos por sistemas PaaS. Desta forma, a afirmação em II está INCORRETA. Diferentemente do modelo PaaS, o modelo SaaS não oferece soluções customizadas de software. Portanto a afirmação V está INCORRETA. As afirmações I, III e IV estão CORRETAS.

D
Todas

E
II, IV e V
Questão 4/10 - Big Data
O Spark Streaming oferece uma abstração de alto nível conhecida como DStreams (ou Discretized Streams) que representa um fluxo contínuo de dados.
Avalie as seguintes afirmações sobre os DStreams:
I – DStreams são representados em Spark como uma sequência de RDD.
II – Toda operação aplicada a um DStream é traduzida em operações em seus respectivos RDDs.
III – DStreams podem possuir como fontes de dados tanto arquivos e conexões de socket quanto fontes externas como Kafka, Kinesis, Flume e outros.
IV – Operações de saída permitem que os dados de um DStream sejam direcionados a sistemas externos como um banco de dados ou um sistema de arquivos.
V – DStreams não armazenam estados. Dessa forma não é possível armazenar informações entre o processamento de cada RDD.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
Todas

B
I, II e V

C
I, IV e V

D
Todas, exceto V
Você assinalou essa alternativa (D)
Você acertou!
Justificativa: Diferentemente do que diz INCORRETAMENTE afirmação V, é possível manter o estado dos dados em um DStream. Isso é muito útil para realizar operações que dependem de informações entre um RDDs. Todas as outras afirmações (I, II, III e IV) estão corretas.

E
Apenas IV
Questão 5/10 - Big Data
Recomendações se baseiam nas previsões de preenchimento das avaliações desconhecidas. Existem duas principais abordagens para isso: recomendações baseadas em conteúdo (content-based recommendations) e filtragem colaborativa (collaborative filtering).
Avalie as seguintes avaliações sobre as duas principais abordagens de recomendações:
I – O sistema de recomendações baseadas em conteúdo possuem como estratégia a recomendação de itens mais parecidos aos que o usuário avaliou.
II – Antes de recomendar um novo item, o sistema de recomendações baseadas em conteúdo precisa que algum usuário avalie o novo item.
III – O cálculo de similaridade entre os usuários é utilizado por sistemas de filtragem colaborativa para medir a chance de um par de usuários avaliar determinado item de forma parecida.
IV – Métodos de filtragem colaborativa pode ser aplicado apenas para medir a semelhança entre usuários.
V – É possível utilizar métodos de diferentes abordagens de recomendação de uma forma híbrida para tentar melhorar a qualidade das predições.
Dentre essas afirmações estão INCORRETAS:
Nota: 10.0

A
Todas, exceto V

B
I e III

C
Nenhuma

D
II e IV
Você assinalou essa alternativa (D)
Você acertou!
Justificativa: Na afirmação II, é incorreto dizer que o sistema de recomendações baseadas em conteúdo precisa que algum usuário avalie o novo item, pois este sistema se baseia nas características do item e não nas avaliações de usuários. A afirmação IV diz que os métodos de filtragem colaborativa podem ser aplicados apenas para medir a semelhança entre usuários, porém podemos aplicar o mesmo princípio para as avaliações entre itens (ou Item-Item CollaborativeFiltering). Portanto tal afirmação está INCORRETA. As demais afirmações (I, III e V) estão corretas.

E
II e V
Questão 6/10 - Big Data
O Kafka consiste e um uma plataforma distribuída e, dessa forma, é executado através de um cluster. Um Cluster Kafka armazena fluxos de eventos que são divididos em categorias denominadas tópicos.
A respeito dos conceitos de eventos e tópicos em Kafka avalie as seguintes afirmações:
I – Cada evento é constituído de um par chave-valor.
II – Os servidores Kafka são capazes de armazenar a indicação de qual a última mensagem que cada cliente inscrito em um tópico recebeu.
III – As aplicações cliente podem se inscrever em um ou mais tópicos.
IV – O Kafka é capaz de implementar sistemas de mensagens baseados em publicação-inscrição, mas não é capaz de entregar a implementação de uma fila de mensagens, uma vez que os dados dos eventos são armazenados de forma permanente e permanecem disponíveis.
V – O Kafka permite a implementação de um sistema de armazenamento a partir do armazenamento dos dados em disco. Outra característica é que os dados armazenados no Kafka são replicados para garantir o princípio da tolerância a falhas.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
II, III e V
Você assinalou essa alternativa (A)
Você acertou!
Justificativa: Ao contrário do que afirma INCORRETAMENTE a afirmação I, cada evento consiste em uma chave, um valor e um timestamp. A afirmação IV está INCORRETA, pois o Kafka é capaz de implementar sistemas de mensagens que utilizam tanto o modelo de fila de mensagens quanto o modelo de publicação-inscrição. Além disso, os dados enviados para o Kafka são armazenados em disco e replicados para garantir o princípio da tolerância a falhas. Todas as outras afirmações (II, III e V) estão CORRETAS.

B
I, II e III

C
Todas

D
I, III e IV

E
Todas, exceto IV
Questão 7/10 - Big Data
Para que o valor dos dados contidos em um Data Lake não seja perdido, se faz necessário criar uma solução de Data Lake que inclua as noções de gerenciamento, acessibilidade e governança.
Avalie as seguintes afirmações a respeito do gerenciamento de Data Lake:
I – Um Data Lake oferece o mesmo nível de complexidade que outras estratégias de armazenamento como Data Mart e Data Warehouse.
II – Uma das características que podem ser agregadas aos dados armazenados em uma estratégia de Data Lake utilizando bons esquemas de governança é a transparência no uso dos dados.
III – Entre as informações que se podem obter dos dados em um Data Lake podemos destacar os metadados técnicos que fornecem informações sobre a qualidade, perfil, origem, e a sua linhagem.
IV – Os metadados técnicos de um Data Lake podem fornecer informações a respeito da forma ou estrutura dos dados tais como tamanho, tipo de dado ou esquema.
V – Os metadados de um Data Lake permitem buscar, localizar e aprender sobre os dados armazenados.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
II, IV e V
Você assinalou essa alternativa (A)
Você acertou!
Justificativa: A estratégia de armazenamento de dados Data Lake pode oferecer uma redução de complexidade, que as estratégias Data Warehouse e Data Mart não são capazes de oferecer. Dessa forma entendemos que a afirmação I está INCORRETA. Metadados técnicos são os metadados que fornecem informações a respeito da forma ou estrutura dos dados tais como: tamanho, tipo de dado, esquema. Portanto a afirmação III está INCORRETA. As demais afirmações (II, IV e V) estão CORRETAS.

B
Todas, exceto IV

C
I, II e V

D
III, IV e V

E
Todas
Questão 8/10 - Big Data
Avalie as seguintes afirmações sobre os componentes do Hadoop: Redis, Ignite e NiFi:
I – Redis é um sistema de armazenamento baseado em chave-valor e uma de suas características é que os seus dados podem ser configurados para possuir um tempo de vida (TTL). Dessa forma os dados podem ser removidos automaticamente depois de um tempo determinado.
II – No Redis os dados são replicados de forma assíncrona por diversos servidores através de uma arquitetura de replicação circular.
III – Ignite é um sistema de computação em memória distribuído, escalável e tolerante a falhas com a capacidade de armazenar dados. Uma de suas características é a garantia das propriedades ACID.
IV – NiFi é um sistema de processamento e distribuição de dados que oferece uma interface para projetar, controlar e monitorar fluxos de dados. Uma de suas características é utilizar grafos dirigidos acíclicos.
V – FlowFile Processor é um dos componentes do Nifi que atua como um scheduler para facilitar a troca de FlowFiles entre os processadores de fluxos de dados.
Dentre essas afirmações estão INCORRETAS:
Nota: 10.0

A
I e III

B
I, II e III

C
II e V
Você assinalou essa alternativa (C)
Você acertou!
Justificativa: Uma das principais características do Accumulo é a segurança em nível de célula, onde cada par chave-valor possui o seu próprio rótulo de segurança que tem a capacidade de limitar os resultados de uma consulta baseado nas autorizações de acesso do usuário. Ou seja, a afirmação II encontra-se INCORRETA. Flow File Processors são os elementos processadores de fluxos de dados que realizam operações como roteamento de dados, transformação ou mediação entre sistemas. O elemento que atua como um scheduler é o Flow Controller. Dessa forma a afirmação V está INCORRETA. As outras afirmações (I, III e IV) estão CORRETAS.

D
II, III e IV

E
Nenhuma
Questão 9/10 - Big Data
Uma vez que conhecemos os conceitos que envolvem a arquitetura big data assim como as aplicações que implementam suas características, podemos pensar em como combinar todas essas tecnologias e ideias para o desenvolvimento de um produto visando atender a alguma necessidade existente.
Avalie as seguintes afirmações a respeito do desenvolvimento e design de soluções Big Data:
I – O desenvolvimento de aplicações Big Data possui grandes desafios em como combinar todas as suas tecnologias e ideias para desenvolver novos produtos. Porém a integração com tecnologias tradicionais é uma questão trivial atualmente.
II – Em muitos casos as soluções de Big Data têm como objetivo otimizar processos de negócios, adquirir vantagens competitivas ou otimizar operações. Dessa forma podem representar muitas vantagens para uma empresa.
III – O entendimento das necessidades que nossa aplicação busca atender é uma das maneiras mais importantes de se obter as informações necessárias para guiar o desenvolvimento
IV – A documentação de requisitos é capaz de evitar desperdícios e garantir que a implementação está alinhada com as necessidades do usuário.
V – Working Backwards é uma abordagem de desenvolvimento de produtos que prioriza o entendimento dos requisitos e o feedback do usuário antes mesmo do início do desenvolvimento.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
II, III e IV

B
I, IV e V

C
I, II e IV

D
Todas, exceto I
Você assinalou essa alternativa (D)
Você acertou!
Todas exceto I
Justificativa: Existem desafios no que se trata da complexidade em integrar sistemas de big data com os sistemas tradicionais existentes. Ao contrário do que alega a afirmação I que está INCORRETA. Todas as outras afirmações (II, III, IV e V) estão CORRETAS.

E
Todas
Questão 10/10 - Big Data
Uma topologia é uma rede de spouts e bolts, onde cada aresta na rede representa um bolt ligado a um fluxo de saída de um spout ou outro bolt.
Sobre as topologias e arquitetura Storm avalie as seguintes afirmações:
I – O agrupamento de fluxos é parte da definição da topologia de forma a especificar quais fluxos de tuplas devem ser recebidas para cada bolt. Cada agrupamento de fluxo define como o fluxo deve ser particionado entre as tarefas de cada bolt.
II – No agrupamento conhecido por Shuffle grouping tuplas são distribuídas aleatoriamente às tarefas dos bolts de forma que as tuplas sejam distribuídas de maneira igualitária.
III – Atualmente no agrupamento conhecido por None grouping tuplas são distribuídas aleatoriamenteàs tarefas dos bolts de forma que as tuplas sejam distribuídas de maneira igualitária.
IV – No Direct grouping o fluxo é alocado diretamente a uma tarefa especificada pelo consumidor.
V – No Global grouping o fluxo é replicado para todas as tarefas dos bolts.
Dentre essas afirmações estão INCORRETAS:
Nota: 10.0

A
IV e V
Você assinalou essa alternativa (A)
Você acertou!
Justificativa: “Agrupamento direto”. É um tipo especial de agrupamento onde o produtor do fluxo decide qual tarefa do consumidor deve receber cada tupla. Dessa forma a afirmação IV encontra-se INCORRETA. “Agrupamento global”. O fluxo inteiro é direcionado a uma única tarefa do bolt. A tarefa de menor identificador é especificamente selecionada. Com isso a afirmação V encontra-se INCORRETA. As afirmações I, II e III estão CORRETAS.

B
Nenhuma

C
Apenas III

D
I, II e III

E
Todas, exceto III
Questão 1/10 - Big Data
Para que o valor dos dados contidos em um Data Lake não seja perdido, se faz necessário criar uma solução de Data Lake que inclua as noções de gerenciamento, acessibilidade e governança.
Avalie as seguintes afirmações a respeito do gerenciamento de Data Lake:
I – Um Data Lake oferece o mesmo nível de complexidade que outras estratégias de armazenamento como Data Mart e Data Warehouse.
II – Uma das características que podem ser agregadas aos dados armazenados em uma estratégia de Data Lake utilizando bons esquemas de governança é a transparência no uso dos dados.
III – Entre as informações que se podem obter dos dados em um Data Lake podemos destacar os metadados técnicos que fornecem informações sobre a qualidade, perfil, origem, e a sua linhagem.
IV – Os metadados técnicos de um Data Lake podem fornecer informações a respeito da forma ou estrutura dos dados tais como tamanho, tipo de dado ou esquema.
V – Os metadados de um Data Lake permitem buscar, localizar e aprender sobre os dados armazenados.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
II, IV e V
Você assinalou essa alternativa (A)
Você acertou!
Justificativa: A estratégia de armazenamento de dados Data Lake pode oferecer uma redução de complexidade, que as estratégias Data Warehouse e Data Mart não são capazes de oferecer. Dessa forma entendemos que a afirmação I está INCORRETA. Metadados técnicos são os metadados que fornecem informações a respeito da forma ou estrutura dos dados tais como: tamanho, tipo de dado, esquema. Portanto a afirmação III está INCORRETA. As demais afirmações (II, IV e V) estão CORRETAS.

B
Todas, exceto IV

C
I, II e V

D
III, IV e V

E
Todas
Questão 2/10 - Big Data
Recomendações se baseiam nas previsões de preenchimento das avaliações desconhecidas. Existem duas principais abordagens para isso: recomendações baseadas em conteúdo (content-based recommendations) e filtragem colaborativa (collaborative filtering).
Avalie as seguintes avaliações sobre as duas principais abordagens de recomendações:
I – O sistema de recomendações baseadas em conteúdo possuem como estratégia a recomendação de itens mais parecidos aos que o usuário avaliou.
II – Antes de recomendar um novo item, o sistema de recomendações baseadas em conteúdo precisa que algum usuário avalie o novo item.
III – O cálculo de similaridade entre os usuários é utilizado por sistemas de filtragem colaborativa para medir a chance de um par de usuários avaliar determinado item de forma parecida.
IV – Métodos de filtragem colaborativa pode ser aplicado apenas para medir a semelhança entre usuários.
V – É possível utilizar métodos de diferentes abordagens de recomendação de uma forma híbrida para tentar melhorar a qualidade das predições.
Dentre essas afirmações estão INCORRETAS:
Nota: 10.0

A
Todas, exceto V

B
I e III

C
Nenhuma

D
II e IV
Você assinalou essa alternativa (D)
Você acertou!
Justificativa: Na afirmação II, é incorreto dizer que o sistema de recomendações baseadas em conteúdo precisa que algum usuário avalie o novo item, pois este sistema se baseia nas características do item e não nas avaliações de usuários. A afirmação IV diz que os métodos de filtragem colaborativa podem ser aplicados apenas para medir a semelhança entre usuários, porém podemos aplicar o mesmo princípio para as avaliações entre itens (ou Item-Item Collaborative Filtering). Portanto tal afirmação está INCORRETA. As demais afirmações (I, III e V) estão corretas.

E
II e V
Questão 3/10 - Big Data
Avalie as seguintes afirmações sobre os componentes do Hadoop: Impala e Accumulo:
I – Impala é um motor de consultas SQL capaz de realizar consultas de baixa latência em HDFS ou Hive.
II – O Impapa foi projetado para consultas analíticas em Haddop utilizando SQL ou ferramentas de business inteligence (BI).
III – Accumulo é um sistema de armazenamento distribuído baseado em chave-valor que implementa segurança e nível de célula.
IV – Todos os dados armazenados no Accumulo devem possuir os mesmos requisitos de segurança em uma mesma tabela.
V – O Accumulo permite realizar operações em pares de chave-valor assim que são inseridos.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
I, II e III

B
Todas

C
I, II e IV

D
II, III e V
Você assinalou essa alternativa (D)
Você acertou!
Justificativa: Entre as principais características do Impala destaca-se a possibilidade de realizar consultas SQL de baixa latência de dados armazenados em HDFS e HBase. Dessa forma a afirmação I encontra-se INCORRETA. Uma das principais características do Accumulo é a segurança em nível de célula, onde cada par chave-valor possui o seu próprio rótulo de segurança que tem a capacidade de limitar os resultados de uma consulta baseado nas autorizações de acesso do usuário. Portanto a afirmação IV está INCORRETA. As afirmações II, III e V estão CORRETAS.

E
Apenas III
Questão 4/10 - Big Data
Uma das características implementada pela Speed Layer em sistemas de Big Data é a atualização de views com baixa latência.
A respeito da Speed Layer avalie as seguintes afirmações:
I – Na Speed layer os dados devem ser processados de forma incremental, escalável e tolerante a falhas tão logo são recebidos.
II – O processamento de fluxo de dados realizado pela Speed layer é importante em situações onde os dados são constantemente gerados e o valor da informação contida nos dados cresce rapidamente com o tempo.
III – A Speed layer é capaz de atualizar as Batch views em tempo real.
IV – A Speed layer faz a computação incremental dos dados ao invés da computação de todo o conjunto de dados.
V – As views da Speed layer podem ser descartados em caso de falha, uma vez que rapidamente novas views são geradas pela camada e o funcionamento normal é restaurado.
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0Você não pontuou essa questão

A
IV e V

B
Nenhuma

C
Apenas III
Você assinalou essa alternativa (C)

D
I, III e V

E
II e III
Justificativa: A afirmação II possui um engano e afirma INCORRETAMENTE que “o valor da informação contida nos dados cresce rapidamente”. Na verdade, o valor da informação normalmente decresce com o tempo. A afirmação III confunde as views dizendo ERRONEAMENTE que a Speed Layer atualiza as Batch views ao invés de dizer que ela atualiza as Realtime views. As demais afirmações (I, IV e V) estão CORRETAS.
Questão 5/10 - Big Data
RDDs suportam basicamente dois tipos de operações: transformações e ações.
Avalie as seguintes afirmações a respeito das operações suportadas pelo Spark:
I – map é uma ação que passa cada elemento de um conjunto de dados por uma função e retorna um novo RDD representando os resultados.
II – reduce é uma ação que agrega todos os elementos de um RDD utilizando alguma função e retorna o resultado final ao DriverProgram.
III – Todas as transformações em Spark são preguiçosas, ou seja, são computadas apenas quando uma ação requisita um resultado para ser retornado para o Driver Program.
IV – É possível garantir a ordenação entre as execuções de cada tarefa utilizando a ação sort.
V – O métodopersist é utilizado para tornar-se um RDD persistente, esse método é importante para otimizar acessos futuros.
Dentre essas afirmações estão INCORRETAS:
Nota: 10.0

A
II e IV

B
Nenhuma

C
Todas, exceto II

D
I, III e V

E
I e IV
Você assinalou essa alternativa (E)
Você acertou!
Justificativa: Diferentemente do que alega ERRONEAMENTE a afirmação I, a operação map não é uma ação, mas uma transformação, pois retorna um novo RDD com os resultados. Sort não é uma ação. Porém certas operações no Spark desencadeiam um evento conhecido como shuffe (ou embaralhamento). O shuffle é um mecanismo em Spark utilizado para redistribuir os dados de forma a serem agrupados de uma forma diferente pelas partições. Com isso entendemos que a afirmação IV está INCORRETA. As demais afirmações (II, III e V) estão CORRETAS.
Questão 6/10 - Big Data
O Spark é projetado ao redor de um conceito central: o Resilient Distributed Dataset (RDD). RDDs são conjuntos de dados distribuídos e resilientes, ou seja, consistem em uma coleção de elementos particionados pelo cluster que podem ser operados em paralelos.
Sobre os RDDs e o SparkContext avalie as seguintes afirmações:
I – Todo RDD é criado a partir da paralelização de uma coleção de dados existente no DriverProgram.
II – RDDs de nós falhos podem ser recuperados automaticamente.
III – RDDs podem ser criados por um SparkContext no Driver Program através da aplicação do método paralelize sobre um conjunto de dados.
IV – RDDs podem ser executados em paralelo. A quantidade de partições de um RDD que serão criadas pode ser configurada automaticamente pelo Spark ou através da configuração do usuário.
V – A variável de broadcast é utilizada para armazenar um valor em memória por todos os nós do cluster e é o único tipo de variável compartilhada do Spark.
Dentre essas afirmações estão CORRETAS:
Nota: 0.0Você não pontuou essa questão

A
Todas

B
II, III e IV
Justificativa: Existem duas formas de criar um RDD: paralelizando uma coleção de dados existente no DriverProgram, ou referenciando um conjunto de dados em um sistema de armazenamento externo. Portanto a afirmação I encontra-se INCORRETA. O Spark suporta dois tipos de variáveis compartilhadas: variáveis de broadcast, que podem ser utilizadas como cache para armazenar um valor em memória em todos os nós; e os acumuladores que são variáveis que apenas acrescentam valores, como contadores ou somadores. Dessa forma verificamos que a afirmação V está incorreta. As afirmações II, III e IV estão CORRETAS.

C
Todas, exceto III

D
I, IV e V
Você assinalou essa alternativa (D)

E
I, II e III
Questão 7/10 - Big Data
Spark SQL é o módulo do Spark utilizado o processamento de dados estruturados. Diferentemente da API básica de RDDs do Spark, a interface fornecida pelo Spark SQL oferece mais informações sobre a estrutura tanto dos dados quanto da computação a ser realizada. Internamente essa informação extra é utilizada para otimizações adicionais.
Sobre os diferentes formatos de dados suportados pelo Spark SQL avalie as seguintes afirmações:
I – O formato de dados padrão suportado pelo Spark SQL é o CSV, um formato de arquivos que armazena texto em formato tabular que utiliza vírgulas para separar valores.
II – O ORC é um formato de arquivos que busca otimizar o tempo de processamento e reduzir o tamanho dos arquivos. É um formato de dados utilizado também pelo Hive e é considerado uma forma altamente eficiente de armazenamento.
III – O Parquet é um formato de armazenamento baseado em chave-valor amplamente utilizado por diversos sistemas. É um formato otimizado para suportar sistemas de compressão muito eficientes.
IV – LibSVM é um formato de dados que implementa Support-Vector Machines e é muito utilizado em modelos de aprendizagem.
V – O Spark SQL permite o uso de conectores JDBC e ODBC para atuar como um motor de consultas distribuídas a tabelas de dados externas.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
II, IV e V
Você assinalou essa alternativa (A)
Você acertou!
Justificativa: A fonte de dados padrão utilizada pelo Spark para todas as operações são arquivos parquet, a não ser que sejam configurados de outra forma. Diferentemente do que INCORRETAMENTE diz a afirmação I. O Parquet é um formato de armazenamento colunar, não é baseado em chave-valor como diz ERRONEAMENTE a afirmação III. As afirmações II, IV e V estão CORRETAS.

B
I, II e IV

C
Todas, exceto I

D
II, III e IV

E
Todas
Questão 8/10 - Big Data
Storm é um sistema de computação distribuída em tempo real com foco em processamento de fluxos de dados ilimitados.
Avalie as seguintes afirmações a respeito do Storm:
I – Implementa o comando “rebalance” para balancear o paralelismo das topologias. A sua execução exige que os serviços sejam pausados por um curto período de tempo.
II – Processos trabalhadores são reiniciados automaticamente em caso de falha.
III – Quando um nó onde um conjunto de processos trabalhadores operam fica indisponível, os processos são reiniciados automaticamente assim que o nó voltar a se tornar disponível novamente.
IV – Um spout pode ler um broker de fila de mensagens, como Kestrel, RabbitMQ ou Kafka; gerar seu próprio fluxo; ou ler outras APIs de fluxos.
V – A lógica computacional de um sistema Storm é toda realizada em bolts, spouts e topologias na forma de funções, filtros, uniões de fluxos, agregações de fluxos, comunicando com bancos de dados, entre outras formas.
Dentre essas afirmações estão CORRETAS:
Nota: 0.0Você não pontuou essa questão

A
I, II e V
Você assinalou essa alternativa (A)

B
II e IV
Justificativa: A afirmação I encontra-se INCORRETA, pois é possível utilizar a linha de comandos do Storm para executar o comando “rebalance” e ajustar o paralelismo das topologias que estiverem executando sem precisar parar a execução. Diferentemente do que alega INCORRETAMENTE a afirmação III, se um nó inteiro ficar indisponível os processos trabalhadores são reiniciados automaticamente em um outro nó. A afirmação V alega INCORRETAMENTE que a lógica computacional de um Sistema Storm é realizada em bolts spouts e topologias. A sua lógica é realizada apenas nos bolts. As únicas afirmações CORRETAS são a II e a IV.

C
Todas, exceto II

D
I, III e IV

E
Todas
Questão 9/10 - Big Data
O Flink é projetado para executar aplicações de fluxos de eventos com estados em qualquer escala, uma vez que é capaz de escalar horizontalmente de forma ilimitada.
A respeito da arquitetura do Flink avalie as seguintes afirmações:
I – O Flink utiliza um algoritmo síncrono e incremental de checkpoints garante que o impacto da latência computacional seja mínimo e ainda capaz de garantir a entrega de mensagens.
II – Os fluxos podem ser processados em tempo real, assim que são gerados, ou de forma gravada, ou seja, os dados são recebidos integralmente para então serem processados.
III – Cada aplicação de fluxo trivial possui estados, dessa forma as aplicações que aplicam transformações em eventos individuais possuem estados.
IV – Flink oferece diversos processos de estados que armazenam estados em memória, no RockDB, uma forma de armazenamento em disco incorporado nativamente, ou outro processo customizado de armazenamento.
V – Fluxos de eventos podem possuir uma semântica temporal inerente uma vez que cada evento é criado em um ponto específico no tempo. Isso quer dizer várias operações de fluxo são dependentes de tempo, como por exemplo: agregações de janelas, sessões, detecção de padrões, e JOINS.
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0Você não pontuou essa questão

A
Nenhuma

B
I e II

C
III, IV e V

D
I e III
Justificativa: O Flink utiliza um algoritmo assíncrono e incremental de checkpoints garante que o impacto da latência computacional seja mínimo e ainda capaz de garantir a entrega de mensagens. Portanto percebemos que a afirmação I está INCORRETA. Diferentemente do que diz INCORRETAMENTE a afirmação III, cada aplicação de fluxo não-trivialpossui estados, ou seja, apenas aplicações que aplicam transformações em eventos individuais não possuem estados. As afirmações II, IV e V estão CORRETAS.

E
II e IV
Você assinalou essa alternativa (E)
Questão 10/10 - Big Data
Uma vez que conhecemos os conceitos que envolvem a arquitetura big data assim como as aplicações que implementam suas características, podemos pensar em como combinar todas essas tecnologias e ideias para o desenvolvimento de um produto visando atender a alguma necessidade existente.
Avalie as seguintes afirmações a respeito do desenvolvimento e design de soluções Big Data:
I – O desenvolvimento de aplicações Big Data possui grandes desafios em como combinar todas as suas tecnologias e ideias para desenvolver novos produtos. Porém a integração com tecnologias tradicionais é uma questão trivial atualmente.
II – Em muitos casos as soluções de Big Data têm como objetivo otimizar processos de negócios, adquirir vantagens competitivas ou otimizar operações. Dessa forma podem representar muitas vantagens para uma empresa.
III – O entendimento das necessidades que nossa aplicação busca atender é uma das maneiras mais importantes de se obter as informações necessárias para guiar o desenvolvimento
IV – A documentação de requisitos é capaz de evitar desperdícios e garantir que a implementação está alinhada com as necessidades do usuário.
V – Working Backwards é uma abordagem de desenvolvimento de produtos que prioriza o entendimento dos requisitos e o feedback do usuário antes mesmo do início do desenvolvimento.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
II, III e IV

B
I, IV e V

C
I, II e IV

D
Todas, exceto I
Você assinalou essa alternativa (D)
Você acertou!
Todas exceto I
Justificativa: Existem desafios no que se trata da complexidade em integrar sistemas de big data com os sistemas tradicionais existentes. Ao contrário do que alega a afirmação I que está INCORRETA. Todas as outras afirmações (II, III, IV e V) estão CORRETAS.

E
Todas
Questão 1/10 - Big Data
Uma das características implementada pela Speed Layer em sistemas de Big Data é a atualização de views com baixa latência.
A respeito da Speed Layer avalie as seguintes afirmações:
I – Na Speed layer os dados devem ser processados de forma incremental, escalável e tolerante a falhas tão logo são recebidos.
II – O processamento de fluxo de dados realizado pela Speed layer é importante em situações onde os dados são constantemente gerados e o valor da informação contida nos dados cresce rapidamente com o tempo.
III – A Speed layer é capaz de atualizar as Batch views em tempo real.
IV – A Speed layer faz a computação incremental dos dados ao invés da computação de todo o conjunto de dados.
V – As views da Speed layer podem ser descartados em caso de falha, uma vez que rapidamente novas views são geradas pela camada e o funcionamento normal é restaurado.
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0Você não pontuou essa questão

A
IV e V

B
Nenhuma

C
Apenas III
Você assinalou essa alternativa (C)

D
I, III e V

E
II e III
Justificativa: A afirmação II possui um engano e afirma INCORRETAMENTE que “o valor da informação contida nos dados cresce rapidamente”. Na verdade, o valor da informação normalmente decresce com o tempo. A afirmação III confunde as views dizendo ERRONEAMENTE que a Speed Layer atualiza as Batch views ao invés de dizer que ela atualiza as Realtime views. As demais afirmações (I, IV e V) estão CORRETAS.
Questão 2/10 - Big Data
O Spark SQL traz novos tipos de coleções de dados que implementam melhorias para substituir o uso dos RDDs.
Avalie as seguintes afirmações sobre os Datasets e DataFrames:
I – Algumas das características dos Datasets incluem tipagem forte e a implementação de funções lambda.
II – Datasets podem ser manipulados através de transformações funcionais como map, flatmap, filter, entre outros.
III – A API Dataset está disponível nas linguagens Java, Scala, Python e R.
IV – Um DataFrame é um Dataset estruturado em uma família de colunas.
V – DataFrame podem ser considerados uma extensão dos conceitos RDD e Dataset a partir da aplicação de uma estrutura de dados.
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0Você não pontuou essa questão

A
Nenhuma

B
Apenas V
Você assinalou essa alternativa (B)

C
III e IV
Justificativa: A API Dataset está disponível em Java ou Scala. Porém não há uma API Dataset implementada em Python ou R. No entanto, devido à natureza dinâmica de tais linguagens, muitos dos benefícios da API Dataset já estão disponíveis. Diferentemente do que diz INCORRETAMENTE a afirmação III. Um DataFrame é um Dataset estruturado em colunas nomeadas. Conceitualmente é equivalente a uma tabela de um banco de dados relacional ou um dataframe em Python ou R, porém com melhores otimizações. Portanto, ao contrário do que diz ERRONEAMENTE a afirmação IV, DataFrame não é um Dataset estruturado em uma família de colunas. As afirmações I, II e V estão CORRETAS.

D
I, III e V

E
I e II
Questão 3/10 - Big Data
RDDs suportam basicamente dois tipos de operações: transformações e ações.
Avalie as seguintes afirmações a respeito das operações suportadas pelo Spark:
I – map é uma ação que passa cada elemento de um conjunto de dados por uma função e retorna um novo RDD representando os resultados.
II – reduce é uma ação que agrega todos os elementos de um RDD utilizando alguma função e retorna o resultado final ao DriverProgram.
III – Todas as transformações em Spark são preguiçosas, ou seja, são computadas apenas quando uma ação requisita um resultado para ser retornado para o Driver Program.
IV – É possível garantir a ordenação entre as execuções de cada tarefa utilizando a ação sort.
V – O método persist é utilizado para tornar-se um RDD persistente, esse método é importante para otimizar acessos futuros.
Dentre essas afirmações estão INCORRETAS:
Nota: 10.0

A
II e IV

B
Nenhuma

C
Todas, exceto II

D
I, III e V

E
I e IV
Você assinalou essa alternativa (E)
Você acertou!
Justificativa: Diferentemente do que alega ERRONEAMENTE a afirmação I, a operação map não é uma ação, mas uma transformação, pois retorna um novo RDD com os resultados. Sort não é uma ação. Porém certas operações no Spark desencadeiam um evento conhecido como shuffe (ou embaralhamento). O shuffle é um mecanismo em Spark utilizado para redistribuir os dados de forma a serem agrupados de uma forma diferente pelas partições. Com isso entendemos que a afirmação IV está INCORRETA. As demais afirmações (II, III e V) estão CORRETAS.
Questão 4/10 - Big Data
Para que o valor dos dados contidos em um Data Lake não seja perdido, se faz necessário criar uma solução de Data Lake que inclua as noções de gerenciamento, acessibilidade e governança.
Avalie as seguintes afirmações a respeito do gerenciamento de Data Lake:
I – Um Data Lake oferece o mesmo nível de complexidade que outras estratégias de armazenamento como Data Mart e Data Warehouse.
II – Uma das características que podem ser agregadas aos dados armazenados em uma estratégia de Data Lake utilizando bons esquemas de governança é a transparência no uso dos dados.
III – Entre as informações que se podem obter dos dados em um Data Lake podemos destacar os metadados técnicos que fornecem informações sobre a qualidade, perfil, origem, e a sua linhagem.
IV – Os metadados técnicos de um Data Lake podem fornecer informações a respeito da forma ou estrutura dos dados tais como tamanho, tipo de dado ou esquema.
V – Os metadados de um Data Lake permitem buscar, localizar e aprender sobre os dados armazenados.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
II, IV e V
Você assinalou essa alternativa (A)
Você acertou!
Justificativa: A estratégia de armazenamento de dados Data Lake pode oferecer uma redução de complexidade, que as estratégias Data Warehouse e Data Mart não são capazes de oferecer. Dessa forma entendemos que a afirmação I está INCORRETA. Metadados técnicos sãoos metadados que fornecem informações a respeito da forma ou estrutura dos dados tais como: tamanho, tipo de dado, esquema. Portanto a afirmação III está INCORRETA. As demais afirmações (II, IV e V) estão CORRETAS.

B
Todas, exceto IV

C
I, II e V

D
III, IV e V

E
Todas
Questão 5/10 - Big Data
O Spark Streaming oferece uma abstração de alto nível conhecida como DStreams (ou Discretized Streams) que representa um fluxo contínuo de dados.
Avalie as seguintes afirmações sobre os DStreams:
I – DStreams são representados em Spark como uma sequência de RDD.
II – Toda operação aplicada a um DStream é traduzida em operações em seus respectivos RDDs.
III – DStreams podem possuir como fontes de dados tanto arquivos e conexões de socket quanto fontes externas como Kafka, Kinesis, Flume e outros.
IV – Operações de saída permitem que os dados de um DStream sejam direcionados a sistemas externos como um banco de dados ou um sistema de arquivos.
V – DStreams não armazenam estados. Dessa forma não é possível armazenar informações entre o processamento de cada RDD.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
Todas

B
I, II e V

C
I, IV e V

D
Todas, exceto V
Você assinalou essa alternativa (D)
Você acertou!
Justificativa: Diferentemente do que diz INCORRETAMENTE afirmação V, é possível manter o estado dos dados em um DStream. Isso é muito útil para realizar operações que dependem de informações entre um RDDs. Todas as outras afirmações (I, II, III e IV) estão corretas.

E
Apenas IV
Questão 6/10 - Big Data
O Flink é projetado para executar aplicações de fluxos de eventos com estados em qualquer escala, uma vez que é capaz de escalar horizontalmente de forma ilimitada.
A respeito da arquitetura do Flink avalie as seguintes afirmações:
I – O Flink utiliza um algoritmo síncrono e incremental de checkpoints garante que o impacto da latência computacional seja mínimo e ainda capaz de garantir a entrega de mensagens.
II – Os fluxos podem ser processados em tempo real, assim que são gerados, ou de forma gravada, ou seja, os dados são recebidos integralmente para então serem processados.
III – Cada aplicação de fluxo trivial possui estados, dessa forma as aplicações que aplicam transformações em eventos individuais possuem estados.
IV – Flink oferece diversos processos de estados que armazenam estados em memória, no RockDB, uma forma de armazenamento em disco incorporado nativamente, ou outro processo customizado de armazenamento.
V – Fluxos de eventos podem possuir uma semântica temporal inerente uma vez que cada evento é criado em um ponto específico no tempo. Isso quer dizer várias operações de fluxo são dependentes de tempo, como por exemplo: agregações de janelas, sessões, detecção de padrões, e JOINS.
Dentre essas afirmações estão INCORRETAS:
Nota: 10.0

A
Nenhuma

B
I e II

C
III, IV e V

D
I e III
Você assinalou essa alternativa (D)
Você acertou!
Justificativa: O Flink utiliza um algoritmo assíncrono e incremental de checkpoints garante que o impacto da latência computacional seja mínimo e ainda capaz de garantir a entrega de mensagens. Portanto percebemos que a afirmação I está INCORRETA. Diferentemente do que diz INCORRETAMENTE a afirmação III, cada aplicação de fluxo não-trivial possui estados, ou seja, apenas aplicações que aplicam transformações em eventos individuais não possuem estados. As afirmações II, IV e V estão CORRETAS.

E
II e IV
Questão 7/10 - Big Data
Uma vez que conhecemos os conceitos que envolvem a arquitetura big data assim como as aplicações que implementam suas características, podemos pensar em como combinar todas essas tecnologias e ideias para o desenvolvimento de um produto visando atender a alguma necessidade existente.
Avalie as seguintes afirmações a respeito do desenvolvimento e design de soluções Big Data:
I – O desenvolvimento de aplicações Big Data possui grandes desafios em como combinar todas as suas tecnologias e ideias para desenvolver novos produtos. Porém a integração com tecnologias tradicionais é uma questão trivial atualmente.
II – Em muitos casos as soluções de Big Data têm como objetivo otimizar processos de negócios, adquirir vantagens competitivas ou otimizar operações. Dessa forma podem representar muitas vantagens para uma empresa.
III – O entendimento das necessidades que nossa aplicação busca atender é uma das maneiras mais importantes de se obter as informações necessárias para guiar o desenvolvimento
IV – A documentação de requisitos é capaz de evitar desperdícios e garantir que a implementação está alinhada com as necessidades do usuário.
V – Working Backwards é uma abordagem de desenvolvimento de produtos que prioriza o entendimento dos requisitos e o feedback do usuário antes mesmo do início do desenvolvimento.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
II, III e IV

B
I, IV e V

C
I, II e IV

D
Todas, exceto I
Você assinalou essa alternativa (D)
Você acertou!
Todas exceto I
Justificativa: Existem desafios no que se trata da complexidade em integrar sistemas de big data com os sistemas tradicionais existentes. Ao contrário do que alega a afirmação I que está INCORRETA. Todas as outras afirmações (II, III, IV e V) estão CORRETAS.

E
Todas
Questão 8/10 - Big Data
Recomendações se baseiam nas previsões de preenchimento das avaliações desconhecidas. Existem duas principais abordagens para isso: recomendações baseadas em conteúdo (content-based recommendations) e filtragem colaborativa (collaborative filtering).
Avalie as seguintes avaliações sobre as duas principais abordagens de recomendações:
I – O sistema de recomendações baseadas em conteúdo possuem como estratégia a recomendação de itens mais parecidos aos que o usuário avaliou.
II – Antes de recomendar um novo item, o sistema de recomendações baseadas em conteúdo precisa que algum usuário avalie o novo item.
III – O cálculo de similaridade entre os usuários é utilizado por sistemas de filtragem colaborativa para medir a chance de um par de usuários avaliar determinado item de forma parecida.
IV – Métodos de filtragem colaborativa pode ser aplicado apenas para medir a semelhança entre usuários.
V – É possível utilizar métodos de diferentes abordagens de recomendação de uma forma híbrida para tentar melhorar a qualidade das predições.
Dentre essas afirmações estão INCORRETAS:
Nota: 10.0

A
Todas, exceto V

B
I e III

C
Nenhuma

D
II e IV
Você assinalou essa alternativa (D)
Você acertou!
Justificativa: Na afirmação II, é incorreto dizer que o sistema de recomendações baseadas em conteúdo precisa que algum usuário avalie o novo item, pois este sistema se baseia nas características do item e não nas avaliações de usuários. A afirmação IV diz que os métodos de filtragem colaborativa podem ser aplicados apenas para medir a semelhança entre usuários, porém podemos aplicar o mesmo princípio para as avaliações entre itens (ou Item-Item Collaborative Filtering). Portanto tal afirmação está INCORRETA. As demais afirmações (I, III e V) estão corretas.

E
II e V
Questão 9/10 - Big Data
Storm é um sistema de computação distribuída em tempo real com foco em processamento de fluxos de dados ilimitados.
Avalie as seguintes afirmações a respeito do Storm:
I – Implementa o comando “rebalance” para balancear o paralelismo das topologias. A sua execução exige que os serviços sejam pausados por um curto período de tempo.
II – Processos trabalhadores são reiniciados automaticamente em caso de falha.
III – Quando um nó onde um conjunto de processos trabalhadores operam fica indisponível, os processos são reiniciados automaticamente assim que o nó voltar a se tornar disponível novamente.
IV – Um spout pode ler um broker de fila de mensagens, como Kestrel, RabbitMQ ou Kafka; gerar seu próprio fluxo; ou ler outras APIs de fluxos.
V – A lógica computacional de um sistema Storm é toda realizada em bolts, spouts e topologias na forma de funções, filtros, uniões de fluxos, agregações de fluxos, comunicandocom bancos de dados, entre outras formas.
Dentre essas afirmações estão CORRETAS:
Nota: 0.0Você não pontuou essa questão

A
I, II e V

B
II e IV
Justificativa: A afirmação I encontra-se INCORRETA, pois é possível utilizar a linha de comandos do Storm para executar o comando “rebalance” e ajustar o paralelismo das topologias que estiverem executando sem precisar parar a execução. Diferentemente do que alega INCORRETAMENTE a afirmação III, se um nó inteiro ficar indisponível os processos trabalhadores são reiniciados automaticamente em um outro nó. A afirmação V alega INCORRETAMENTE que a lógica computacional de um Sistema Storm é realizada em bolts spouts e topologias. A sua lógica é realizada apenas nos bolts. As únicas afirmações CORRETAS são a II e a IV.

C
Todas, exceto II

D
I, III e IV

E
Todas
Você assinalou essa alternativa (E)
Questão 10/10 - Big Data
O Spark é projetado ao redor de um conceito central: o Resilient Distributed Dataset (RDD). RDDs são conjuntos de dados distribuídos e resilientes, ou seja, consistem em uma coleção de elementos particionados pelo cluster que podem ser operados em paralelos.
Sobre os RDDs e o SparkContext avalie as seguintes afirmações:
I – Todo RDD é criado a partir da paralelização de uma coleção de dados existente no DriverProgram.
II – RDDs de nós falhos podem ser recuperados automaticamente.
III – RDDs podem ser criados por um SparkContext no Driver Program através da aplicação do método paralelize sobre um conjunto de dados.
IV – RDDs podem ser executados em paralelo. A quantidade de partições de um RDD que serão criadas pode ser configurada automaticamente pelo Spark ou através da configuração do usuário.
V – A variável de broadcast é utilizada para armazenar um valor em memória por todos os nós do cluster e é o único tipo de variável compartilhada do Spark.
Dentre essas afirmações estão CORRETAS:
Nota: 0.0Você não pontuou essa questão

A
Todas
Você assinalou essa alternativa (A)

B
II, III e IV
Justificativa: Existem duas formas de criar um RDD: paralelizando uma coleção de dados existente no DriverProgram, ou referenciando um conjunto de dados em um sistema de armazenamento externo. Portanto a afirmação I encontra-se INCORRETA. O Spark suporta dois tipos de variáveis compartilhadas: variáveis de broadcast, que podem ser utilizadas como cache para armazenar um valor em memória em todos os nós; e os acumuladores que são variáveis que apenas acrescentam valores, como contadores ou somadores. Dessa forma verificamos que a afirmação V está incorreta. As afirmações II, III e IV estão CORRETAS.

C
Todas, exceto III

D
I, IV e V

E
I, II e III
·