GRA0749 FRAMEWORKS PARA BIG DATA GR1172

•

UAM

1

0

1

0

Plinio Camilo

12/10/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.753 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

GRA0749 FRAMEWORKS PARA BIG DATA GR1170-212-9 - 202120.ead-17482.01

20212 - PROVA SUBSTITUTIVA (A6)
· Pergunta 1
1 em 1 pontos

Os sistemas distribuídos são importantes e estão presentes em todo lugar – e, ainda, acessíveis a partir de qualquer lugar. Podemos exemplificar sistemas distribuídos, na atual tecnologia, com: sistemas de pesquisas, sistemas financeiros, jogos on-line e diversos outros.
Acerca do exposto acima, é correto afirmar que sistema distribuído é:

Resposta Selecionada:
Um conjunto de computadores independentes, ligados através de uma rede de dados, que se apresentam aos usuários como um sistema único.
Resposta Correta:
Um conjunto de computadores independentes, ligados através de uma rede de dados, que se apresentam aos usuários como um sistema único.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois sistema distribuído é um conjunto de diferentes computadores que, interligados através de uma rede, se apresentam ao usuário como um sistema único e com coerência; ou, ainda, é uma coleção de computadores e softwares interconectados por uma rede, projetados para resultar numa aplicação integrada.

· Pergunta 2
1 em 1 pontos

O Hadoop Streaming faz parte dos componentes da ferramenta Hadoop, do projeto Apache Hadoop. É um utilitário que permite ao MapReduce, e às suas funções map() e reduce(), realizar a codificação em qualquer linguagem de programação, como por exemplo, a C, C++, Python e outros.
Sobre o Hadoop Streaming, assinale a alternativa que representa a sua principal função.

Resposta Selecionada:
Desenvolver executáveis.
Resposta Correta:
Desenvolver executáveis.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois o Hadoop é uma das ferramentas do framework
da Apache, denominada Hadoop Streaming. De maneira simples, o Hadoop Streaming é um utilitário que acompanha o Hadoop e permite que você desenvolva executáveis do MapReduce em linguagens diferentes de Java.

· Pergunta 3
1 em 1 pontos

O Apache Hive é um software de código aberto destinado ao conceito de data warehouse que foi desenvolvido a partir do Apache Hadoop. Ele oferece uma interface muito parecida com o SQL em diferentes bancos de dados, auxilia na leitura, escrita e gerenciamento de grandes volumes, e também, em sistemas de arquivos integrados ao Hadoop.
A respeito de características do apache hive, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
( ) O hive é um sistema de armazenamento que facilita a junção de dados para análise.
( ) Por trabalhar com grandes dados, o hive ocasiona muitas falhas, mesmo sendo distribuído.
( ) O hive consegue se conectar a ferramentas de análise de dados, devido a sua conexão via bibliotecas.
( ) O hive possui somente uma linguagem query para consultas em SQL.
Assinale a alternativa que apresenta a sequência correta:

Resposta Selecionada:
V, F, V, F.
Resposta Correta:
V, F, V, F.
Comentário da resposta:
Resposta correta. A sequência está correta. A afirmativa I está correta, pois o Hive é um sistema de armazenamento ou depósito de dados, pertencente ao ecossistema Hadoop, que busca facilitar a junção de dados para geração de análises de grandes conjuntos de dados, que chamamos comumente de Big Data. A afirmativa III está correta, pois o hive possibilita a conexão de dados via bibliotecas como JDBC e ODBC, consegue se conectar a ferramentas de análise de dados amplamente utilizadas no mercado como o Tableau, o Power BI (da Microsoft), entre outras.

· Pergunta 4
1 em 1 pontos

O framework Spark permite o desenvolvimento de pipelines se utilizando de grafos. Ele suporta ainda o compartilhamento de dados para que os jobs possam trabalhar com os mesmos dados. Nesse sentido, analise o trecho a seguir:
from pyspark.sql.functions import avg removeNegativedf = spark.read.csv("http://meudrive/pasta/dataset.csv", header="true", inferSchema="true") display(removeNegativedf.select("ClienteID","price").groupBy("color").agg(avg("price")))
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
I. O exemplo realiza uma consulta de média de preços de um arquivo do tipo csv.
Pois:
II. O resultado da execução é um data frame com todos os dados listados.
A seguir, assinale a alternativa correta:

Resposta Selecionada:
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Resposta Correta:
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois
a asserção I é uma proposição verdadeira, pois com o script, é possível realizar uma consulta com a média de preços (price) de valores do nosso conjunto de dados no arquivo “dataset.csv”. A asserção II é verdadeira, pois o resultado é um data frame que apresenta os atributos selecionados no código da Listagem anterior, com ClienteID e Price (preço).

· Pergunta 5
1 em 1 pontos

Todo um projeto de Big Data é feito de etapas. Cada etapa precisa passar por fases que definem bem o problema. A visualização de dados é, geralmente, a última etapa de um processo. Mas vale lembrar que a visualização é uma etapa importante, assim como todas as etapas que compõem o Big Data.
Considerando o excerto apresentado, e das características de visualização de dados, analise as afirmativas a seguir:
I. Dentro do Hadoop, existem diferentes tecnologias para cada necessidade.
II. Dados em tempo real não extintos nesta ferramenta, para eliminar processamento indevido.
III. O banco HBase necessita de ferramentas visuais de interface para gerenciar serviços.
IV. A etapa de visualização exige o uso de novas soluções, que simplifiquem processos.
Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s):

Resposta Selecionada:
I e IV apenas.
Resposta Correta:
I e IV apenas.
Comentário da resposta:
Resposta correta. A afirmativa I está correta. A afirmativa I está correta, pois dentro do ecossistema Hadoop, como você já pôde perceber, existem diferentes tecnologias para cada necessidade. O pacote inteiro não foi lançado todo de uma só vez, mas foram surgindo necessidades nos trabalhos. A afirmativa IV está correta, pois quando falamos de visualização de dados, é exigido soluções que oferecem recursos com a finalidade de simplificar processos, bem como têm a presença de características que enriquecem a experiência com usuários ao visualizarem dos dados.

· Pergunta 6
1 em 1 pontos

Dentro do contexto de Big Data, é comum que os dados surjam a partir de diferentes origens e que sejam de diferentes formatos. Claro, lidar com grandes conjuntos de dados dentro da estrutura de bancos de dados relacionais não é a melhor opção.
Nesse sentido, surgiram diversos bancos de dados chamados de não relacionais.
Considerando o exposto acima, assinale a alternativa que indica corretamente um exemplo de banco de dados não relacional.

Resposta Selecionada:
HBase
Resposta Correta:
HBase
Comentário da resposta:
Resposta correta. A alternativa está correta, pois o HBase surge para atender a demanda de bancos de dados não relacionais orientado a coluna ou família de colunas dentro do ecossistema Hadoop. Diferente do Hive, que não é considerado um banco de dados, mas um repositório de dados, HBase é um banco de dados sim, mas fora do padrão tradicional relacional.

· Pergunta 7
0 em 1 pontos

O Hadoop, da Apache Foundation, é um Framework destinado ao processamento e armazenamento de grandes dados, que possui um modelo de processamento conhecido como MapReduce. Por ter a característica de manipular grandes volumes de dados, é muito utilizado no Big Data.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
1.No MapReduce, dados são transmitidos utilizando o stdin e stdout.
Pois:
7. Caso não haja erros no trabalho, será apresentado um log do console.
A seguir, assinale a alternativa correta.

Resposta Selecionada:
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.
Resposta Correta:
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois as duas proposições apresentadas são verdadeiras e a asserção II justifica a I, pois no MapReduce dados são transmitidos utilizando comandos de entrada e saída, sendo o stdin e o stdout, e ao final da realização da atividade, caso não haja problemas, será apresentado um log do console.

1. Pergunta 8
1 em 1 pontos

Realizar uma boa análise de dados é sempre muito importante, seja em qualquer área. Uma das áreas que vem se utilizando muito disso é a Business Intelligence, ou ainda, inteligência de negócios. Este é um setor que tem crescido muito para atender cada vez mais empresas de diversos ramos.
Considerando o excerto apresentado, a respeito da análise de grandes dados, analise as afirmativas a seguir:
I. O MapReduce, do Hadoop , é muito utilizado porque desenvolvedores escrevem programas de fácil manutenção.
II. O Hive suporta consultas de maneira expressa, por meio de sua linguagem conhecida como HiveQL.
III. A linguagem Hive suporta tabelas contendo tipos primitivos, matrizes e agrupamento de tipos.
IV. O Hive possui um problema, um catálogo do sistema, que o deixa lento ao retornar dados.
Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s):

Resposta Selecionada:
II e III apenas.
Resposta Correta:
II e III apenas.
Comentário da resposta:
Resposta correta. A afirmativa I está correta. A afirmativa II está correta, pois o Hive se apresenta como uma solução de data warehousing de código aberto com suporte a consultas de maneira mais expressa, por meio através de uma linguagem declarativa do tipo SQL - o HiveQL. A afirmativa III está correta, pois a linguagem hive inclui um sistema com suporte para tabelas contendo tipos primitivos, coleções como matrizes e composições agrupadas de diferentes tipos.

1. Pergunta 9
1 em 1 pontos

O Hadoop, ao contrário do que as pessoas acham, não é um tipo de banco de dados. Ele é formado por diversos softwares com um sistema de arquivos conhecido como Hadoop Distributed Files System. Como características podemos destacar que é tolerante a falhas e possui escalabilidade. Dentre as ferramentas existentes, podemos destacar a Hadoop Streaming.
Considerando o trecho apresentado e as características da ferramenta Hadoop Streaming, analise as afirmativas a seguir:
9. O Hadoop Streaming é um utilitário que dá aos usuários a possibilidade de escrever tarefas MapReduce.
9. Conforme a tarefa do Reduce é executada, ela converte suas entradas em linhas e alimenta a entrada do processo em stdout.
9. No MapReduce o texto nas linhas até a primeira guia é considerado a chave e o restante da linha o valor.
9. Depois de executado, as linhas do stdin são obtidas pelo mapeador e convertidas em um outro tipo de linhas maiores.
Está correto o que se afirma em:

Resposta Selecionada:
I e III, apenas.
Resposta Correta:
I e III, apenas.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois a afirmativa I é verdadeira, sendo que o Hadoop Streaming é apenas um utilitário fornecido pela distribuição Hadoop MapReduce que dá aos usuários a possibilidade de escrever tarefas MapReduce em outras linguagens de programação além do Java, como Python,
por exemplo. A afirmativa III está correta, pois no MapReduce, por padrão, o texto nas linhas até a primeira guia será considerado a chave e o restante da linha como valor. Caso não exista caractere de tabulação presente na linha, a linha inteira será usada como a chave e o valor será nulo.

1. Pergunta 10
0 em 1 pontos

O Hadoop Streaming, do projeto Apache Hadoop, é um utilitário que permite ao usuário criar e executar trabalhos a partir de um arquivo executável, ou, ainda, por meio de um script, conforme o mapa ou redutor, pois são essas as duas fases/funções existentes na ferramenta.
Sobre o redutor em Python, é correto afirmar que:

Resposta Selecionada:
lerá a linha de stdin, dividirá a linha nas palavras individuais e produzirá a palavra como par chave-valor.
Resposta Correta:
somará a ocorrência de cada palavra e saída do arquivo saída, reduzindo na forma de par de chave-valor.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois características como: ler a linha de stdin; levar a entrada do arquivo reduce.py através do stdout; dispensar tratamento de dados por manipular grandes dados de forma mais simples; e ignorar a soma de palavras de um arquivo, são inexistentes em relação às funções chamadas de mapeador e redutor da ferramenta.