Baixe o app para aproveitar ainda mais
Prévia do material em texto
Pergunta 1 1 em 1 pontos O Hadoop possui características como escalabilidade, consistência, tolerância a falhas e capacidade de recuperação. Essas características quando bem implementadas garantem uma boa arquitetura. A arquitetura do Hadoop é composta por elementos como: MapReduce, Spark, Streaming, Cluster e outros. A respeito das características do Hadoop Streaming, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). ( ) O modelo chave-valor é bastante empregado em bancos de dados não relacionais ou NoSQL. ( ) Quando um executável é especificado para reducers (redutores), as tarefas iniciam como um processo separado. ( ) Quando um executável é especificado para mapeadores, cada tarefa deve iniciar o redutor repetidamente. ( ) Na sequência lógica do Hadoop Streaming, a tarefa do mapeador é pegar a entrada linha por linha. Assinale a alternativa que apresenta a sequência correta. Resposta Selecionada: Correta V, V, F, V. Resposta Correta: Correta V, V, F, V. Feedback da resposta: Resposta correta. A sequência está correta. A afirmativa I é verdadeira, pois o modelo chave-valor é bastante empregado em bancos de dados não relacionais ou NoSQL. Assim, um banco de dados de chave-valor é considerado um tipo de banco de dados com característica não relacional e que usa um método de chave-valor simples para armazenar dados. A afirmativa II é verdadeira, pois quando um executável é especificado para reducers (redutores), cada tarefa reduce inicia seu programa como um processo separado e o redutor é inicializado. A afirmativa IV é verdadeira, pois na sequência lógica do Hadoop Streaming, para cada dado de entrada, a tarefa do mapeador pega a entrada linha por linha e alimenta as linhas para o stdin do executável do mapeador. Pergunta 2 0 em 1 pontos O projeto Spark é utilizado em diversas aplicações, mas tem sido muito utilizado em Data Science. Ele contém diversos componentes integrados que agenda, distribuem e monitoram aplicações. O projeto Spark é composto por diversas ferramentas, como o Spark Framework, Spark Core, e outros. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. O Spark oferece consegue integrar ferramentas como Hadoop MapReduce e Streaming. Pois: II. É uma solução perfeita para a computação de dados no mundo do Big Data. A seguir, assinale a alternativa correta: Resposta Selecionada: Incorreta As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. Resposta Correta: Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Feedback da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois as duas proposições apresentadas são verdadeiras e a asserção II justifica a I, pois o Spark consegue realizar a integração de outras ferramentas, sendo uma implantação unificada, tornando perfeita para computação Big Data. Pergunta 3 1 em 1 pontos O Spark é um framework destinado ao processamento de Big Data que visa, dentre muitas coisas, a velocidade no processamento de dados. Ele oferece APIs e um conjunto de bibliotecas que trabalham de forma integrada para lidar com uma grande variedade de dados e grande quantidade de dados. Dentre as APIs de alto nível que oferece, podemos destacar de alto nível em Java e Python. Considerando as informações as expostas, análise a coluna de serviços/componentes Spark e relacione com as suas respectivas características. I. SparQL II. GraphX III. MLlib IV. Spark Streaming ( ) É uma ferramenta responsável pela execução em tempo real. ( ) É uma API de gráficos em computação paralela. ( ) Biblioteca de aprendizagem de máquina. ( ) Responsável por consultas de dados estruturados e bancos relacionais. A partir das relações feitas anteriormente, assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: Correta IV, II, III, I. Resposta Correta: Correta IV, II, III, I. Feedback da resposta: Resposta correta. A alternativa está correta. O SparQL (1) é responsável pela realização de consultas SQL para dados estruturados e bancos de dados relacionais dentro do Spark. O GraphX (2) é responsável pela API do Apache Spark para gráficos em computação paralela. O MLlib (3) é uma biblioteca de aprendizagem de máquina (Machine Learning) que possui vários algoritmos para diversos fins. O Spark Streaming (4) é uma ferramenta que destinada a realizar a execução de serviços em tempo real. Pergunta 4 1 em 1 pontos O Hadoop é um framework que processa e armazena grandes volumes de dados, onde possui um modelo de processamento, conhecido como MapReduce, que é a ferramenta de análise dos dados. O MapReduce é uma ferramenta dividida em duas tarefas, Map e Reduce. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. A tarefa de Map executa uma filtragem e classificação dos dados, produzindo resultados intermediários. Pois: II. Com as operações sendo independentes, a tarefa de mapeamento é processada em paralelo. A seguir, assinale a alternativa correta. Resposta Selecionada: Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Resposta Correta: Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma proposição correta: a tarefa Map basicamente executa filtragem e classificação dos dados. Essa etapa tem a responsabilidade de realizar o processo de um ou mais blocos de dados, produzindo resultados comumente chamados de resultados intermediários. A asserção II é uma proposição correta e justifica (complementa) a I, pois, em geral, a tarefa de mapeamento é processada em paralelo, desde que as operações de mapeamento sejam independentes entre si. Pergunta 5 1 em 1 pontos O Hadoop, da Apache Foundation, é um Framework destinado ao processamento e armazenamento de grandes dados, que possui um modelo de processamento conhecido como MapReduce. Por ter a característica de manipular grandes volumes de dados, é muito utilizado no Big Data. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. No MapReduce, dados são transmitidos utilizando o stdin e stdout. Pois: Caso não haja erros no trabalho, será apresentado um log do console. A seguir, assinale a alternativa correta. Resposta Selecionada: Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Resposta Correta: Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma proposição verdadeira, uma vez que para executar o job no Hadoop Cluster, podemos usar a API de Streaming para que os dados possam ser transmitidos entre o Mapper e o Reducer usando stdin e stdout. A asserção II também é verdadeira e justifica/complementa a I, pois depois que o trabalho for concluído, caso não apresente lançamento de exceções ou erros, será visto um log do console com a última linha mencionando o caminho em que a saída do job está armazenada. Pergunta 6 1 em 1 pontos O Spark permite a execução de aplicações em clusters e que executam em velocidade 100 vezes maior em memória. Possui operações Map/Reduce, suporta consultas sql, processamento de grafos e diversos outros. Desenvolvedores utilizam muito os recursos destes framework. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.I. O Spark auxilia no processo de visualização de dados através da linguagem Python. Pois: II. Por meio de Dataframes, os dados são segmentados e uma tabela é apresentada. A seguir, assinale a alternativa correta: Resposta Selecionada: Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Resposta Correta: Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma proposição verdadeira, pois o Apache Spark pode auxiliar no processo de visualização de dados através do uso da linguagem Python. A asserção II é verdadeira, pois através do uso de Dataframes do Spark, onde os dados são segmentados de acordo com seu tipo, uma tabela é apresentada sendo o resultado do uso de uma função simples da biblioteca PySpark, que obterá como retorno uma consulta de dados em um dado CSV Pergunta 7 1 em 1 pontos Este sistema de arquivo faz parte do projeto da Apache Foundation e seu sistema de arquivos de dados é distribuído; além do mais, os serviços de cache são projetados em três camadas de acesso. Possui diversas características (dentre elas, ser tolerante a falhas). Acerca do exposto acima, é correto afirmar que o sistema de arquivos mencionado é o: Resposta Selecionada: Correta Hadoop Distributed File System, ou HDFS. Resposta Correta: Correta Hadoop Distributed File System, ou HDFS. Feedback da resposta: Resposta correta. A alternativa está correta, pois HDFS é a sigla para Hadoop Distributed File System: trata-se do sistema de arquivos distribuídos com Hadoop. O Hadoop HDFS consiste no uso de caches numa biblioteca cliente e em vários serviços de cache. E os serviços de cache são projetados com três camadas de acesso: um cache na memória; uma captura instantânea do disco local; e a exibição real do disco, fornecido pelo HDFS. Pergunta 8 1 em 1 pontos O Spark é um framework destinado ao processamento de Big Data e possui diversas vantagens se for comparado com outras tecnologias de Big Data, como o Hadoop. Inicialmente, o Spark é de fácil compreensão com uma variedade de conjuntos de dados . Considerando o excerto apresentado, sobre a análise de dados distribuídos, analise as afirmativas a seguir: I. É possível representar dados graficamente a partir de bibliotecas. II. O Spark é um framework que trabalha com grandes dados. III. No Spark não é utilizado tabelas, somente gráficos para representar dados. IV. Visualizar dados são irrelevantes para a tomada de decisão. Está correto o que se afirma em: Resposta Selecionada: Correta I e II, apenas. Resposta Correta: Correta I e II, apenas. Feedback da resposta: Resposta correta. A alternativa está correta. A afirmativa I está correta, pois com a utilização de bibliotecas e do framework Spark, obter retorno em formato gráfico não é tão complicado; o uso das tarefas do framework Spark tem auxílio preciso nesta obtenção de resultados. A afirmativa II está correta, pois sendo um framework para lidar com enormes conjuntos de dados, um arquivo ou conjunto de arquivos com mais de dez ou cem mil linhas, mesmo tendo muitas linhas, pode dar um retorno resumido através do uso de bibliotecas que gerem gráficos. Pergunta 9 1 em 1 pontos O Hive trabalha tanto com dado estruturados como não estruturados. Assim, é possível utilizar recursos como DDL (Linguagem de Definição de Dados) e DML (Linguagem de Manipulação de dados) da linguagem SQL, por meio através de scripts criar estruturas de tabelas ou manipular dados. Nesse sentido, analise o trecho abaixo. CREATE EXTERNAL TABLE logs ( s1 string, s2 string, s3 string, s4 string, s5 string, s6 string, s7 string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS TEXTFILE LOCATION '/example/data/'; elaborada pelo autor A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. O trecho possui código em hiveQL e irá criar uma tabela com nome logs. Pois: II. O código possui delimitador de espaço vazio, o que indica que não possui um local de armazenamento. A seguir, assinale a alternativa correta: Resposta Selecionada: Correta A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. Resposta Correta: Correta A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. Feedback da resposta: Resposta correta. A alternativa está correta, pois somente a asserção I é uma proposição verdadeira, pois apresenta um exemplo de instrução HiveQL na criação de uma tabela com dados separados por espaços em branco, sendo utilizado o comando CREATE EXTERNAL TABLE para criar uma tabela chamada “logs”. Pergunta 10 1 em 1 pontos Uma tarefa MapReduce, no Hadoop, divide o conjunto de dados de entrada em partes independentes que são processadas pelas tarefas de mapa de uma maneira completamente paralela. A estrutura classifica as sápidas dos mapas, que são inseridas nas tarefas de redução. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. A entrada e saída do trabalho são armazenados em um sistema de arquivos. Pois: A estrutura MapReduce e o Hadoop Distributed File System estão em execução no mesmo conjunto de nós. A seguir, assinale a alternativa correta. Resposta Selecionada: Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Resposta Correta: Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma proposição verdadeira, visto que normalmente a entrada e a saída do trabalho são armazenadas em um sistema de arquivos. A estrutura cuida de agendar tarefas, monitorando- as e executando novamente as tarefas com falha. A asserção II também é verdadeira e justifica/complementa a I, pois normalmente os nós de computação e os de armazenamento são os mesmos, ou seja, a estrutura MapReduce e o Hadoop Distributed File System estão em execução no mesmo conjunto de nós. Isso permite que a estrutura agende tarefas nos nós em que os dados já estão presentes.
Compartilhar