AE1 - Framaworks de Big Data

•

PUC-PR

1

0

1

0

Lucas Wenceslau

06/11/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 3 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

6.084 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Pergunta 1
O apache spark normalmente é executado em um clusters de servidores, interligados por meio de redes de comunicação de alta velocidade.
Neste contexto, sempre existe a possibilidade de um destes servidores apresentar problema de hardware ou simplesmente perder a comunicação. Entretanto, o apache spark é um framework de alta disponibilidade e implementa este recurso por meio do quê?

A.
Rollback.

B.
Sharding.

C.
Directed Acyclic Graph (DAG).

D.
UDP.

E.
TCP/IP.
Pergunta 2
O processamento de dados de big data é um grande desafio técnico e é bem definido nas características dos 5Vs do big data.
Considerando o contexto apresentado, identifique porque o particionamento de dados e a distribuição são fundamentais para o processamento de dados de big data.

A.
Porque os 5Vs não podem ser aplicados a situações em que o particionamento é inerente às características intrínsecas das instâncias.

B.
Porque a velocidade do big data não é aplicada à capacidade de processamento e dispersão da distribuição.

C.
Porque eles permitem que clusters constituídos de servidores baseados em componentes padrão (processador/memória/rede/disco) possam processar dos dados de big data.

D.
Porque a não exposição dos dados a ambientes distribuídos possibilita a segregação das chaves de particionamento.

E.
Porque não é possível construir soluções complexas baseadas em servidores simples e baratos.
Pergunta 3
O apache spark é um dos muitos frameworks de processamento de dados de big data hospedados na Fundação Apache. O que o difere do apache hadoop é o fato de ele manter os dados armazenados em memória e então processá-los com alto desempenho e baixa latência.
Assinale a alternativa que indica quais palavras são o acrônimo para a abstração de dados, chamada de RDD, e qual sua principal característica.

A.
Reducted dataframe – o seu conteúdo é uma lista de datas.

B.
Recollect distributed discovery – o seu conteúdo é obtido pelo serviço de descobertas.

C.
Resilient distributed datasets – o seu conteúdo não pode ser alterado após a sua criação.

D.
Residente data distributed – o seu conteúdo é residente em disco após a distribuição.

E.
Resilient distributed dataframe – o seu conteúdo se modifica automaticamente com a alteração dos dados de origem.
Pergunta 4
O apache spark streaming é construído utilizando o framework apache spark com base, adicionando o processamento de stream de dados.
Neste contexto, o apache spark streaming implementa um novo tipo de abstração para o suporte de stream de dados. Qual?

A.
Receiver stream.

B.
Stream RDD.

C.
RDD.

D.
Stream DAG.

E.
Discretized stream (DStream).
Pergunta 5
A Fundação Apache possui muitos frameworks de big data diferentes, cada um com seu nicho de aplicação diferente, pois possuem características de desempenho, distribuição e comportamento bem distintos.
Neste contexto, o framework apache flink é um deles e suporta tanto processamento em batch como em streaming. Sua arquitetura é composta por dois componentes. Quais são?

A.
BigStreamManager e SmallStreamManager.

B.
StreamManager e BatchManager.

C.
DistribuitedManager e LocalManager.

D.
CentralManager e FullManager.

E.
JobManager e TaskManager.