Buscar

PROVA_FRAMEWORKS PARA BIG DATA

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

Pergunta 1 
1 em 1 pontos 
 
O Hadoop possui características como escalabilidade, consistência, tolerância a falhas e 
capacidade de recuperação. Essas características quando bem implementadas garantem uma 
boa arquitetura. A arquitetura do Hadoop é composta por elementos como: MapReduce, 
Spark, Streaming, Cluster e outros. 
A respeito das características do Hadoop Streaming, analise as afirmativas a seguir e assinale V 
para a(s) verdadeira(s) e F para a(s) falsa(s). 
 
( ) O modelo chave-valor é bastante empregado em bancos de dados não relacionais ou 
NoSQL. 
( ) Quando um executável é especificado para reducers (redutores), as tarefas iniciam 
como um processo separado. 
( ) Quando um executável é especificado para mapeadores, cada tarefa deve iniciar o 
redutor repetidamente. 
( ) Na sequência lógica do Hadoop Streaming, a tarefa do mapeador é pegar a entrada 
linha por linha. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
Resposta Selecionada: 
Correta V, V, F, V. 
Resposta Correta: 
Correta V, V, F, V. 
Feedback da resposta: Resposta correta. A sequência está correta. A afirmativa I é 
verdadeira, pois o modelo chave-valor é bastante empregado em bancos de dados não 
relacionais ou NoSQL. Assim, um banco de dados de chave-valor é considerado um tipo de 
banco de dados com característica não relacional e que usa um método de chave-valor simples 
para armazenar dados. A afirmativa II é verdadeira, pois quando um executável é especificado 
para reducers (redutores), cada tarefa reduce 
inicia seu programa como um processo separado e o redutor é inicializado. A afirmativa IV é 
verdadeira, pois na sequência lógica do Hadoop Streaming, para cada dado de entrada, a 
tarefa do mapeador pega a entrada linha por linha e alimenta as linhas para o stdin do 
executável do mapeador. 
Pergunta 2 
0 em 1 pontos 
 
O projeto Spark é utilizado em diversas aplicações, mas tem sido muito utilizado em Data 
Science. Ele contém diversos componentes integrados que agenda, distribuem e monitoram 
aplicações. O projeto Spark é composto por diversas ferramentas, como o Spark Framework, 
Spark Core, e outros. 
 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. O Spark oferece consegue integrar ferramentas como Hadoop MapReduce e Streaming. 
 
Pois: 
 
II. É uma solução perfeita para a computação de dados no mundo do Big Data. 
 
A seguir, assinale a alternativa correta: 
Resposta Selecionada: 
Incorreta As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa 
correta da I. 
Resposta Correta: 
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. 
Feedback da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois as duas 
proposições apresentadas são verdadeiras e a asserção II justifica a I, pois o Spark consegue 
realizar a integração de outras ferramentas, sendo uma implantação unificada, tornando 
perfeita para computação Big Data. 
Pergunta 3 
1 em 1 pontos 
 
O Spark é um framework destinado ao processamento de Big Data que visa, dentre muitas 
coisas, a velocidade no processamento de dados. Ele oferece APIs e um conjunto de 
bibliotecas que trabalham de forma integrada para lidar com uma grande variedade de dados 
e grande quantidade de dados. 
 
Dentre as APIs de alto nível que oferece, podemos destacar de alto nível em Java e Python. 
Considerando as informações as expostas, análise a coluna de serviços/componentes Spark e 
relacione com as suas respectivas características. 
 
I. SparQL 
II. GraphX 
III. MLlib 
IV. Spark Streaming 
 
( ) É uma ferramenta responsável pela execução em tempo real. 
( ) É uma API de gráficos em computação paralela. 
( ) Biblioteca de aprendizagem de máquina. 
( ) Responsável por consultas de dados estruturados e bancos relacionais. 
 
A partir das relações feitas anteriormente, assinale a alternativa que apresenta 
a sequência correta: 
Resposta Selecionada: 
Correta IV, II, III, I. 
Resposta Correta: 
Correta IV, II, III, I. 
Feedback da resposta: Resposta correta. A alternativa está correta. O SparQL (1) é 
responsável pela realização de consultas SQL para dados estruturados e bancos de dados 
relacionais dentro do Spark. O GraphX (2) é responsável pela API do Apache Spark para 
gráficos em computação paralela. O MLlib (3) é uma biblioteca de aprendizagem de máquina 
(Machine Learning) que possui vários algoritmos para diversos fins. O Spark Streaming (4) é 
uma ferramenta que destinada a realizar a execução de serviços em tempo real. 
Pergunta 4 
1 em 1 pontos 
 
O Hadoop é um framework que processa e armazena grandes volumes de dados, onde possui 
um modelo de processamento, conhecido como MapReduce, que é a ferramenta de análise 
dos dados. O MapReduce é uma ferramenta dividida em duas tarefas, Map e Reduce. 
 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. A tarefa de Map executa uma filtragem e classificação dos dados, produzindo resultados 
intermediários. 
Pois: 
II. Com as operações sendo independentes, a tarefa de mapeamento é processada em 
paralelo. 
 
A seguir, assinale a alternativa correta. 
Resposta Selecionada: 
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. 
Resposta Correta: 
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. 
Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma 
proposição correta: a tarefa Map basicamente executa filtragem e classificação dos dados. 
Essa etapa tem a responsabilidade de realizar o processo de um ou mais blocos de dados, 
produzindo resultados comumente chamados de resultados intermediários. A asserção II é 
uma proposição correta e justifica (complementa) a I, pois, em geral, a tarefa de mapeamento 
é processada em paralelo, desde que as operações de mapeamento sejam independentes 
entre si. 
Pergunta 5 
1 em 1 pontos 
 
O Hadoop, da Apache Foundation, é um Framework destinado ao processamento e 
armazenamento de grandes dados, que possui um modelo de processamento conhecido como 
MapReduce. Por ter a característica de manipular grandes volumes de dados, é muito utilizado 
no Big Data. 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
No MapReduce, dados são transmitidos utilizando o stdin e stdout. 
 
 Pois: 
Caso não haja erros no trabalho, será apresentado um log do console. 
 
 
A seguir, assinale a alternativa correta. 
 
Resposta Selecionada: 
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. 
Resposta Correta: 
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. 
Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma 
proposição verdadeira, uma vez que para executar o job 
no Hadoop Cluster, podemos usar a API de Streaming para que os dados possam ser 
transmitidos entre o Mapper e o Reducer usando stdin 
e stdout. A asserção II também é verdadeira e justifica/complementa a I, pois depois que o 
trabalho for concluído, caso não apresente lançamento de exceções ou erros, será visto um log 
do console com a última linha mencionando o caminho em que a saída do job 
está armazenada. 
Pergunta 6 
1 em 1 pontos 
 
O Spark permite a execução de aplicações em clusters e que executam em velocidade 100 
vezes maior em memória. Possui operações Map/Reduce, suporta consultas sql, 
processamento de grafos e diversos outros. Desenvolvedores utilizam muito os recursos 
destes framework. 
 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.I. O Spark auxilia no processo de visualização de dados através da linguagem Python. 
 
Pois: 
 
II. Por meio de Dataframes, os dados são segmentados e uma tabela é apresentada. 
 
A seguir, assinale a alternativa correta: 
Resposta Selecionada: 
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. 
Resposta Correta: 
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. 
Feedback da resposta: Resposta correta. A alternativa está correta, pois 
a asserção I é uma proposição verdadeira, pois o Apache Spark pode auxiliar no processo de 
visualização de dados através do uso da linguagem Python. A asserção II é verdadeira, pois 
através do uso de Dataframes do Spark, onde os dados são segmentados de acordo com seu 
tipo, uma tabela é apresentada sendo o resultado do uso de uma função simples da biblioteca 
PySpark, que obterá como retorno uma consulta de dados em um dado CSV 
Pergunta 7 
1 em 1 pontos 
 
Este sistema de arquivo faz parte do projeto da Apache Foundation e seu sistema de arquivos 
de dados é distribuído; além do mais, os serviços de cache são projetados em três camadas de 
acesso. Possui diversas características (dentre elas, ser tolerante a falhas). 
 
Acerca do exposto acima, é correto afirmar que o sistema de arquivos mencionado é o: 
Resposta Selecionada: 
Correta Hadoop Distributed File System, ou HDFS. 
Resposta Correta: 
Correta Hadoop Distributed File System, ou HDFS. 
Feedback da resposta: Resposta correta. A alternativa está correta, pois HDFS é a sigla para 
Hadoop Distributed File System: trata-se do sistema de arquivos distribuídos com Hadoop. O 
Hadoop HDFS consiste no uso de caches numa biblioteca cliente e em vários serviços de cache. 
E os serviços de cache são projetados com três camadas de acesso: um cache na memória; 
uma captura instantânea do disco local; e a exibição real do disco, fornecido pelo HDFS. 
Pergunta 8 
1 em 1 pontos 
 
O Spark é um framework destinado ao processamento de Big Data e possui diversas vantagens 
se for comparado com outras tecnologias de Big Data, como o Hadoop. Inicialmente, o Spark é 
de fácil compreensão com uma variedade de conjuntos de dados . 
 
Considerando o excerto apresentado, sobre a análise de dados distribuídos, analise as 
afirmativas a seguir: 
 
I. É possível representar dados graficamente a partir de bibliotecas. 
II. O Spark é um framework que trabalha com grandes dados. 
III. No Spark não é utilizado tabelas, somente gráficos para representar dados. 
IV. Visualizar dados são irrelevantes para a tomada de decisão. 
 
Está correto o que se afirma em: 
Resposta Selecionada: 
Correta I e II, apenas. 
Resposta Correta: 
Correta I e II, apenas. 
Feedback da resposta: Resposta correta. A alternativa está correta. A afirmativa I está correta, 
pois com a utilização de bibliotecas e do framework Spark, obter retorno em formato gráfico 
não é tão complicado; o uso das tarefas do framework Spark tem auxílio preciso nesta 
obtenção de resultados. A afirmativa II está correta, pois sendo um framework para lidar com 
enormes conjuntos de dados, um arquivo ou conjunto de arquivos com mais de dez ou cem mil 
linhas, mesmo tendo muitas linhas, pode dar um retorno resumido através do uso de 
bibliotecas que gerem gráficos. 
Pergunta 9 
1 em 1 pontos 
 
O Hive trabalha tanto com dado estruturados como não estruturados. Assim, é possível utilizar 
recursos como DDL (Linguagem de Definição de Dados) e DML (Linguagem de Manipulação de 
dados) da linguagem SQL, por meio através de scripts criar estruturas de tabelas ou manipular 
dados. 
Nesse sentido, analise o trecho abaixo. 
 
CREATE EXTERNAL TABLE logs ( s1 string, s2 string, s3 string, s4 string, s5 string, s6 string, s7 
string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS TEXTFILE LOCATION 
'/example/data/'; 
 
 elaborada pelo autor 
 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
I. O trecho possui código em hiveQL e irá criar uma tabela com nome logs. 
Pois: 
II. O código possui delimitador de espaço vazio, o que indica que não possui um local de 
armazenamento. 
 
A seguir, assinale a alternativa correta: 
 
Resposta Selecionada: 
Correta A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. 
Resposta Correta: 
Correta A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. 
Feedback da resposta: Resposta correta. A alternativa está correta, pois somente a asserção I 
é uma proposição verdadeira, pois apresenta um exemplo de instrução HiveQL na criação de 
uma tabela com dados separados por espaços em branco, sendo utilizado o comando CREATE 
EXTERNAL TABLE para criar uma tabela chamada “logs”. 
Pergunta 10 
1 em 1 pontos 
 
 Uma tarefa MapReduce, no Hadoop, divide o conjunto de dados de entrada em partes 
independentes que são processadas pelas tarefas de mapa de uma maneira completamente 
paralela. A estrutura classifica as sápidas dos mapas, que são inseridas nas tarefas de redução. 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
A entrada e saída do trabalho são armazenados em um sistema de arquivos. 
 
Pois: 
A estrutura MapReduce e o Hadoop Distributed File System estão em execução no mesmo 
conjunto de nós. 
 
 
A seguir, assinale a alternativa correta. 
 
Resposta Selecionada: 
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. 
Resposta Correta: 
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. 
Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma 
proposição verdadeira, visto que normalmente a entrada e a saída do trabalho são 
armazenadas em um sistema de arquivos. A estrutura cuida de agendar tarefas, monitorando-
as e executando novamente as tarefas com falha. A asserção II também é verdadeira e 
justifica/complementa a I, pois normalmente os nós de computação e os de armazenamento 
são os mesmos, ou seja, a estrutura MapReduce e o Hadoop Distributed File System estão em 
execução no mesmo conjunto de nós. Isso permite que a estrutura agende tarefas nos nós em 
que os dados já estão presentes.

Continue navegando