Baixe o app para aproveitar ainda mais
Prévia do material em texto
GRA0749 FRAMEWORKS PARA BIG DATA GR1170-212-9 - 202120.ead-17482.01 20212 - PROVA SUBSTITUTIVA (A6) · Pergunta 1 1 em 1 pontos Os sistemas distribuídos são importantes e estão presentes em todo lugar – e, ainda, acessíveis a partir de qualquer lugar. Podemos exemplificar sistemas distribuídos, na atual tecnologia, com: sistemas de pesquisas, sistemas financeiros, jogos on-line e diversos outros. Acerca do exposto acima, é correto afirmar que sistema distribuído é: Resposta Selecionada: Um conjunto de computadores independentes, ligados através de uma rede de dados, que se apresentam aos usuários como um sistema único. Resposta Correta: Um conjunto de computadores independentes, ligados através de uma rede de dados, que se apresentam aos usuários como um sistema único. Comentário da resposta: Resposta correta. A alternativa está correta, pois sistema distribuído é um conjunto de diferentes computadores que, interligados através de uma rede, se apresentam ao usuário como um sistema único e com coerência; ou, ainda, é uma coleção de computadores e softwares interconectados por uma rede, projetados para resultar numa aplicação integrada. · Pergunta 2 1 em 1 pontos O Hadoop Streaming faz parte dos componentes da ferramenta Hadoop, do projeto Apache Hadoop. É um utilitário que permite ao MapReduce, e às suas funções map() e reduce(), realizar a codificação em qualquer linguagem de programação, como por exemplo, a C, C++, Python e outros. Sobre o Hadoop Streaming, assinale a alternativa que representa a sua principal função. Resposta Selecionada: Desenvolver executáveis. Resposta Correta: Desenvolver executáveis. Comentário da resposta: Resposta correta. A alternativa está correta, pois o Hadoop é uma das ferramentas do framework da Apache, denominada Hadoop Streaming. De maneira simples, o Hadoop Streaming é um utilitário que acompanha o Hadoop e permite que você desenvolva executáveis do MapReduce em linguagens diferentes de Java. · Pergunta 3 1 em 1 pontos O Apache Hive é um software de código aberto destinado ao conceito de data warehouse que foi desenvolvido a partir do Apache Hadoop. Ele oferece uma interface muito parecida com o SQL em diferentes bancos de dados, auxilia na leitura, escrita e gerenciamento de grandes volumes, e também, em sistemas de arquivos integrados ao Hadoop. A respeito de características do apache hive, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). ( ) O hive é um sistema de armazenamento que facilita a junção de dados para análise. ( ) Por trabalhar com grandes dados, o hive ocasiona muitas falhas, mesmo sendo distribuído. ( ) O hive consegue se conectar a ferramentas de análise de dados, devido a sua conexão via bibliotecas. ( ) O hive possui somente uma linguagem query para consultas em SQL. Assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: V, F, V, F. Resposta Correta: V, F, V, F. Comentário da resposta: Resposta correta. A sequência está correta. A afirmativa I está correta, pois o Hive é um sistema de armazenamento ou depósito de dados, pertencente ao ecossistema Hadoop, que busca facilitar a junção de dados para geração de análises de grandes conjuntos de dados, que chamamos comumente de Big Data. A afirmativa III está correta, pois o hive possibilita a conexão de dados via bibliotecas como JDBC e ODBC, consegue se conectar a ferramentas de análise de dados amplamente utilizadas no mercado como o Tableau, o Power BI (da Microsoft), entre outras. · Pergunta 4 1 em 1 pontos O framework Spark permite o desenvolvimento de pipelines se utilizando de grafos. Ele suporta ainda o compartilhamento de dados para que os jobs possam trabalhar com os mesmos dados. Nesse sentido, analise o trecho a seguir: from pyspark.sql.functions import avg removeNegativedf = spark.read.csv("http://meudrive/pasta/dataset.csv", header="true", inferSchema="true") display(removeNegativedf.select("ClienteID","price").groupBy("color").agg(avg("price"))) A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. O exemplo realiza uma consulta de média de preços de um arquivo do tipo csv. Pois: II. O resultado da execução é um data frame com todos os dados listados. A seguir, assinale a alternativa correta: Resposta Selecionada: As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Resposta Correta: As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Comentário da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma proposição verdadeira, pois com o script, é possível realizar uma consulta com a média de preços (price) de valores do nosso conjunto de dados no arquivo “dataset.csv”. A asserção II é verdadeira, pois o resultado é um data frame que apresenta os atributos selecionados no código da Listagem anterior, com ClienteID e Price (preço). · Pergunta 5 1 em 1 pontos Todo um projeto de Big Data é feito de etapas. Cada etapa precisa passar por fases que definem bem o problema. A visualização de dados é, geralmente, a última etapa de um processo. Mas vale lembrar que a visualização é uma etapa importante, assim como todas as etapas que compõem o Big Data. Considerando o excerto apresentado, e das características de visualização de dados, analise as afirmativas a seguir: I. Dentro do Hadoop, existem diferentes tecnologias para cada necessidade. II. Dados em tempo real não extintos nesta ferramenta, para eliminar processamento indevido. III. O banco HBase necessita de ferramentas visuais de interface para gerenciar serviços. IV. A etapa de visualização exige o uso de novas soluções, que simplifiquem processos. Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): Resposta Selecionada: I e IV apenas. Resposta Correta: I e IV apenas. Comentário da resposta: Resposta correta. A afirmativa I está correta. A afirmativa I está correta, pois dentro do ecossistema Hadoop, como você já pôde perceber, existem diferentes tecnologias para cada necessidade. O pacote inteiro não foi lançado todo de uma só vez, mas foram surgindo necessidades nos trabalhos. A afirmativa IV está correta, pois quando falamos de visualização de dados, é exigido soluções que oferecem recursos com a finalidade de simplificar processos, bem como têm a presença de características que enriquecem a experiência com usuários ao visualizarem dos dados. · Pergunta 6 1 em 1 pontos Dentro do contexto de Big Data, é comum que os dados surjam a partir de diferentes origens e que sejam de diferentes formatos. Claro, lidar com grandes conjuntos de dados dentro da estrutura de bancos de dados relacionais não é a melhor opção. Nesse sentido, surgiram diversos bancos de dados chamados de não relacionais. Considerando o exposto acima, assinale a alternativa que indica corretamente um exemplo de banco de dados não relacional. Resposta Selecionada: HBase Resposta Correta: HBase Comentário da resposta: Resposta correta. A alternativa está correta, pois o HBase surge para atender a demanda de bancos de dados não relacionais orientado a coluna ou família de colunas dentro do ecossistema Hadoop. Diferente do Hive, que não é considerado um banco de dados, mas um repositório de dados, HBase é um banco de dados sim, mas fora do padrão tradicional relacional. · Pergunta 7 0 em 1 pontos O Hadoop, da Apache Foundation, é um Framework destinado ao processamento e armazenamento de grandes dados, que possui um modelo de processamento conhecido como MapReduce. Por ter a característica de manipular grandes volumes de dados, é muito utilizado no Big Data. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 1.No MapReduce, dados são transmitidos utilizando o stdin e stdout. Pois: 7. Caso não haja erros no trabalho, será apresentado um log do console. A seguir, assinale a alternativa correta. Resposta Selecionada: As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. Resposta Correta: As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Comentário da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois as duas proposições apresentadas são verdadeiras e a asserção II justifica a I, pois no MapReduce dados são transmitidos utilizando comandos de entrada e saída, sendo o stdin e o stdout, e ao final da realização da atividade, caso não haja problemas, será apresentado um log do console. 1. Pergunta 8 1 em 1 pontos Realizar uma boa análise de dados é sempre muito importante, seja em qualquer área. Uma das áreas que vem se utilizando muito disso é a Business Intelligence, ou ainda, inteligência de negócios. Este é um setor que tem crescido muito para atender cada vez mais empresas de diversos ramos. Considerando o excerto apresentado, a respeito da análise de grandes dados, analise as afirmativas a seguir: I. O MapReduce, do Hadoop , é muito utilizado porque desenvolvedores escrevem programas de fácil manutenção. II. O Hive suporta consultas de maneira expressa, por meio de sua linguagem conhecida como HiveQL. III. A linguagem Hive suporta tabelas contendo tipos primitivos, matrizes e agrupamento de tipos. IV. O Hive possui um problema, um catálogo do sistema, que o deixa lento ao retornar dados. Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): Resposta Selecionada: II e III apenas. Resposta Correta: II e III apenas. Comentário da resposta: Resposta correta. A afirmativa I está correta. A afirmativa II está correta, pois o Hive se apresenta como uma solução de data warehousing de código aberto com suporte a consultas de maneira mais expressa, por meio através de uma linguagem declarativa do tipo SQL - o HiveQL. A afirmativa III está correta, pois a linguagem hive inclui um sistema com suporte para tabelas contendo tipos primitivos, coleções como matrizes e composições agrupadas de diferentes tipos. 1. Pergunta 9 1 em 1 pontos O Hadoop, ao contrário do que as pessoas acham, não é um tipo de banco de dados. Ele é formado por diversos softwares com um sistema de arquivos conhecido como Hadoop Distributed Files System. Como características podemos destacar que é tolerante a falhas e possui escalabilidade. Dentre as ferramentas existentes, podemos destacar a Hadoop Streaming. Considerando o trecho apresentado e as características da ferramenta Hadoop Streaming, analise as afirmativas a seguir: 9. O Hadoop Streaming é um utilitário que dá aos usuários a possibilidade de escrever tarefas MapReduce. 9. Conforme a tarefa do Reduce é executada, ela converte suas entradas em linhas e alimenta a entrada do processo em stdout. 9. No MapReduce o texto nas linhas até a primeira guia é considerado a chave e o restante da linha o valor. 9. Depois de executado, as linhas do stdin são obtidas pelo mapeador e convertidas em um outro tipo de linhas maiores. Está correto o que se afirma em: Resposta Selecionada: I e III, apenas. Resposta Correta: I e III, apenas. Comentário da resposta: Resposta correta. A alternativa está correta, pois a afirmativa I é verdadeira, sendo que o Hadoop Streaming é apenas um utilitário fornecido pela distribuição Hadoop MapReduce que dá aos usuários a possibilidade de escrever tarefas MapReduce em outras linguagens de programação além do Java, como Python, por exemplo. A afirmativa III está correta, pois no MapReduce, por padrão, o texto nas linhas até a primeira guia será considerado a chave e o restante da linha como valor. Caso não exista caractere de tabulação presente na linha, a linha inteira será usada como a chave e o valor será nulo. 1. Pergunta 10 0 em 1 pontos O Hadoop Streaming, do projeto Apache Hadoop, é um utilitário que permite ao usuário criar e executar trabalhos a partir de um arquivo executável, ou, ainda, por meio de um script, conforme o mapa ou redutor, pois são essas as duas fases/funções existentes na ferramenta. Sobre o redutor em Python, é correto afirmar que: Resposta Selecionada: lerá a linha de stdin, dividirá a linha nas palavras individuais e produzirá a palavra como par chave-valor. Resposta Correta: somará a ocorrência de cada palavra e saída do arquivo saída, reduzindo na forma de par de chave-valor. Comentário da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois características como: ler a linha de stdin; levar a entrada do arquivo reduce.py através do stdout; dispensar tratamento de dados por manipular grandes dados de forma mais simples; e ignorar a soma de palavras de um arquivo, são inexistentes em relação às funções chamadas de mapeador e redutor da ferramenta.
Compartilhar