PROVA_FRAMEWORKS PARA BIG DATA

•

UAM

Kelly Campos

28/06/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 9 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Frameworks

244 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Pergunta 1
1 em 1 pontos

O Hadoop possui características como escalabilidade, consistência, tolerância a falhas e
capacidade de recuperação. Essas características quando bem implementadas garantem uma
boa arquitetura. A arquitetura do Hadoop é composta por elementos como: MapReduce,
Spark, Streaming, Cluster e outros.
A respeito das características do Hadoop Streaming, analise as afirmativas a seguir e assinale V
para a(s) verdadeira(s) e F para a(s) falsa(s).

( ) O modelo chave-valor é bastante empregado em bancos de dados não relacionais ou
NoSQL.
( ) Quando um executável é especificado para reducers (redutores), as tarefas iniciam
como um processo separado.
( ) Quando um executável é especificado para mapeadores, cada tarefa deve iniciar o
redutor repetidamente.
( ) Na sequência lógica do Hadoop Streaming, a tarefa do mapeador é pegar a entrada
linha por linha.

Assinale a alternativa que apresenta a sequência correta.
Resposta Selecionada:
Correta V, V, F, V.
Resposta Correta:
Correta V, V, F, V.
Feedback da resposta: Resposta correta. A sequência está correta. A afirmativa I é
verdadeira, pois o modelo chave-valor é bastante empregado em bancos de dados não
relacionais ou NoSQL. Assim, um banco de dados de chave-valor é considerado um tipo de
banco de dados com característica não relacional e que usa um método de chave-valor simples
para armazenar dados. A afirmativa II é verdadeira, pois quando um executável é especificado
para reducers (redutores), cada tarefa reduce
inicia seu programa como um processo separado e o redutor é inicializado. A afirmativa IV é
verdadeira, pois na sequência lógica do Hadoop Streaming, para cada dado de entrada, a
tarefa do mapeador pega a entrada linha por linha e alimenta as linhas para o stdin do
executável do mapeador.
Pergunta 2
0 em 1 pontos

O projeto Spark é utilizado em diversas aplicações, mas tem sido muito utilizado em Data
Science. Ele contém diversos componentes integrados que agenda, distribuem e monitoram
aplicações. O projeto Spark é composto por diversas ferramentas, como o Spark Framework,
Spark Core, e outros.

A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

I. O Spark oferece consegue integrar ferramentas como Hadoop MapReduce e Streaming.

Pois:

II. É uma solução perfeita para a computação de dados no mundo do Big Data.

A seguir, assinale a alternativa correta:
Resposta Selecionada:
Incorreta As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa
correta da I.
Resposta Correta:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Feedback da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois as duas
proposições apresentadas são verdadeiras e a asserção II justifica a I, pois o Spark consegue
realizar a integração de outras ferramentas, sendo uma implantação unificada, tornando
perfeita para computação Big Data.
Pergunta 3
1 em 1 pontos

O Spark é um framework destinado ao processamento de Big Data que visa, dentre muitas
coisas, a velocidade no processamento de dados. Ele oferece APIs e um conjunto de
bibliotecas que trabalham de forma integrada para lidar com uma grande variedade de dados
e grande quantidade de dados.

Dentre as APIs de alto nível que oferece, podemos destacar de alto nível em Java e Python.
Considerando as informações as expostas, análise a coluna de serviços/componentes Spark e
relacione com as suas respectivas características.

I. SparQL
II. GraphX
III. MLlib
IV. Spark Streaming

( ) É uma ferramenta responsável pela execução em tempo real.
( ) É uma API de gráficos em computação paralela.
( ) Biblioteca de aprendizagem de máquina.
( ) Responsável por consultas de dados estruturados e bancos relacionais.

A partir das relações feitas anteriormente, assinale a alternativa que apresenta
a sequência correta:
Resposta Selecionada:
Correta IV, II, III, I.
Resposta Correta:
Correta IV, II, III, I.
Feedback da resposta: Resposta correta. A alternativa está correta. O SparQL (1) é
responsável pela realização de consultas SQL para dados estruturados e bancos de dados
relacionais dentro do Spark. O GraphX (2) é responsável pela API do Apache Spark para
gráficos em computação paralela. O MLlib (3) é uma biblioteca de aprendizagem de máquina
(Machine Learning) que possui vários algoritmos para diversos fins. O Spark Streaming (4) é
uma ferramenta que destinada a realizar a execução de serviços em tempo real.
Pergunta 4
1 em 1 pontos

O Hadoop é um framework que processa e armazena grandes volumes de dados, onde possui
um modelo de processamento, conhecido como MapReduce, que é a ferramenta de análise
dos dados. O MapReduce é uma ferramenta dividida em duas tarefas, Map e Reduce.

A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

I. A tarefa de Map executa uma filtragem e classificação dos dados, produzindo resultados
intermediários.
Pois:
II. Com as operações sendo independentes, a tarefa de mapeamento é processada em
paralelo.

A seguir, assinale a alternativa correta.
Resposta Selecionada:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Resposta Correta:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma
proposição correta: a tarefa Map basicamente executa filtragem e classificação dos dados.
Essa etapa tem a responsabilidade de realizar o processo de um ou mais blocos de dados,
produzindo resultados comumente chamados de resultados intermediários. A asserção II é
uma proposição correta e justifica (complementa) a I, pois, em geral, a tarefa de mapeamento
é processada em paralelo, desde que as operações de mapeamento sejam independentes
entre si.
Pergunta 5
1 em 1 pontos

O Hadoop, da Apache Foundation, é um Framework destinado ao processamento e
armazenamento de grandes dados, que possui um modelo de processamento conhecido como
MapReduce. Por ter a característica de manipular grandes volumes de dados, é muito utilizado
no Big Data.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

No MapReduce, dados são transmitidos utilizando o stdin e stdout.

Pois:
Caso não haja erros no trabalho, será apresentado um log do console.

A seguir, assinale a alternativa correta.

Resposta Selecionada:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Resposta Correta:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma
proposição verdadeira, uma vez que para executar o job
no Hadoop Cluster, podemos usar a API de Streaming para que os dados possam ser
transmitidos entre o Mapper e o Reducer usando stdin
e stdout. A asserção II também é verdadeira e justifica/complementa a I, pois depois que o
trabalho for concluído, caso não apresente lançamento de exceções ou erros, será visto um log
do console com a última linha mencionando o caminho em que a saída do job
está armazenada.
Pergunta 6
1 em 1 pontos

O Spark permite a execução de aplicações em clusters e que executam em velocidade 100
vezes maior em memória. Possui operações Map/Reduce, suporta consultas sql,
processamento de grafos e diversos outros. Desenvolvedores utilizam muito os recursos
destes framework.

A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.I. O Spark auxilia no processo de visualização de dados através da linguagem Python.

Pois:

II. Por meio de Dataframes, os dados são segmentados e uma tabela é apresentada.

A seguir, assinale a alternativa correta:
Resposta Selecionada:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Resposta Correta:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Feedback da resposta: Resposta correta. A alternativa está correta, pois
a asserção I é uma proposição verdadeira, pois o Apache Spark pode auxiliar no processo de
visualização de dados através do uso da linguagem Python. A asserção II é verdadeira, pois
através do uso de Dataframes do Spark, onde os dados são segmentados de acordo com seu
tipo, uma tabela é apresentada sendo o resultado do uso de uma função simples da biblioteca
PySpark, que obterá como retorno uma consulta de dados em um dado CSV
Pergunta 7
1 em 1 pontos

Este sistema de arquivo faz parte do projeto da Apache Foundation e seu sistema de arquivos
de dados é distribuído; além do mais, os serviços de cache são projetados em três camadas de
acesso. Possui diversas características (dentre elas, ser tolerante a falhas).

Acerca do exposto acima, é correto afirmar que o sistema de arquivos mencionado é o:
Resposta Selecionada:
Correta Hadoop Distributed File System, ou HDFS.
Resposta Correta:
Correta Hadoop Distributed File System, ou HDFS.
Feedback da resposta: Resposta correta. A alternativa está correta, pois HDFS é a sigla para
Hadoop Distributed File System: trata-se do sistema de arquivos distribuídos com Hadoop. O
Hadoop HDFS consiste no uso de caches numa biblioteca cliente e em vários serviços de cache.
E os serviços de cache são projetados com três camadas de acesso: um cache na memória;
uma captura instantânea do disco local; e a exibição real do disco, fornecido pelo HDFS.
Pergunta 8
1 em 1 pontos

O Spark é um framework destinado ao processamento de Big Data e possui diversas vantagens
se for comparado com outras tecnologias de Big Data, como o Hadoop. Inicialmente, o Spark é
de fácil compreensão com uma variedade de conjuntos de dados .

Considerando o excerto apresentado, sobre a análise de dados distribuídos, analise as
afirmativas a seguir:

I. É possível representar dados graficamente a partir de bibliotecas.
II. O Spark é um framework que trabalha com grandes dados.
III. No Spark não é utilizado tabelas, somente gráficos para representar dados.
IV. Visualizar dados são irrelevantes para a tomada de decisão.

Está correto o que se afirma em:
Resposta Selecionada:
Correta I e II, apenas.
Resposta Correta:
Correta I e II, apenas.
Feedback da resposta: Resposta correta. A alternativa está correta. A afirmativa I está correta,
pois com a utilização de bibliotecas e do framework Spark, obter retorno em formato gráfico
não é tão complicado; o uso das tarefas do framework Spark tem auxílio preciso nesta
obtenção de resultados. A afirmativa II está correta, pois sendo um framework para lidar com
enormes conjuntos de dados, um arquivo ou conjunto de arquivos com mais de dez ou cem mil
linhas, mesmo tendo muitas linhas, pode dar um retorno resumido através do uso de
bibliotecas que gerem gráficos.
Pergunta 9
1 em 1 pontos

O Hive trabalha tanto com dado estruturados como não estruturados. Assim, é possível utilizar
recursos como DDL (Linguagem de Definição de Dados) e DML (Linguagem de Manipulação de
dados) da linguagem SQL, por meio através de scripts criar estruturas de tabelas ou manipular
dados.
Nesse sentido, analise o trecho abaixo.

CREATE EXTERNAL TABLE logs ( s1 string, s2 string, s3 string, s4 string, s5 string, s6 string, s7
string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS TEXTFILE LOCATION
'/example/data/';

elaborada pelo autor

A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
I. O trecho possui código em hiveQL e irá criar uma tabela com nome logs.
Pois:
II. O código possui delimitador de espaço vazio, o que indica que não possui um local de
armazenamento.

A seguir, assinale a alternativa correta:

Resposta Selecionada:
Correta A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
Resposta Correta:
Correta A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
Feedback da resposta: Resposta correta. A alternativa está correta, pois somente a asserção I
é uma proposição verdadeira, pois apresenta um exemplo de instrução HiveQL na criação de
uma tabela com dados separados por espaços em branco, sendo utilizado o comando CREATE
EXTERNAL TABLE para criar uma tabela chamada “logs”.
Pergunta 10
1 em 1 pontos

Uma tarefa MapReduce, no Hadoop, divide o conjunto de dados de entrada em partes
independentes que são processadas pelas tarefas de mapa de uma maneira completamente
paralela. A estrutura classifica as sápidas dos mapas, que são inseridas nas tarefas de redução.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

A entrada e saída do trabalho são armazenados em um sistema de arquivos.

Pois:
A estrutura MapReduce e o Hadoop Distributed File System estão em execução no mesmo
conjunto de nós.

A seguir, assinale a alternativa correta.

Resposta Selecionada:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Resposta Correta:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma
proposição verdadeira, visto que normalmente a entrada e a saída do trabalho são
armazenadas em um sistema de arquivos. A estrutura cuida de agendar tarefas, monitorando-
as e executando novamente as tarefas com falha. A asserção II também é verdadeira e
justifica/complementa a I, pois normalmente os nós de computação e os de armazenamento
são os mesmos, ou seja, a estrutura MapReduce e o Hadoop Distributed File System estão em
execução no mesmo conjunto de nós. Isso permite que a estrutura agende tarefas nos nós em
que os dados já estão presentes.