FRAMEWORKS PARA BIG DATA - Atividade 2 (1)

•

FMU

2

0

2

0

Arnon Vieira

01/12/2020

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

PERGUNTA 1
O Hadoop é um framework que pode ser utilizado em diversas linguagens, como, por exemplo, Java e Python. No framework há ferramentas importantes, podemos citar o MapReduce, que contém um mapeador e uma redutor. Um exemplo muito utilizado para expor o funcionamento do MapReduce é por meio de um contador de palavras.

A respeito deste exemplo do contador de palavras, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).

( V ) É utilizado o stdin e stdout para ler e gravar dados.
( V ) O redutor gera palavra como chave e número de contagens como valor.
( F ) A função Mapper divide chave-valores em palavras complexas.
( F ) O redutor recebe linhas de entrada e conta o número de instâncias.

Assinale a alternativa que apresenta a sequência correta.
V, V, F, V.
V, V, V, V.
F, V, F, V.
(x) V, V, F, F.
F, F, F, F.
1 pontos
PERGUNTA 2
O Hadoop Streaming possui duas fases, o mapeador e o redutor. Uma tarefa importante realizada é o teste do código para confirmação de funcionamento do mesmo. Esta é uma tarefa que não é muito complicada, mas exige que seja feita conforme a determinação de algumas etapas.
Sobre o MapReduce, podemos afirmar corretamente que as etapas são:

(x) Código do Mapeador e Código do Redutor.
Job Stdin e Job Stdout.
Cluster Hadoop e Script Hadoop.
API Streaming Map e API Streaming Std.
Função Stdin e Função Stdout.
1 pontos
PERGUNTA 3
O Hadoop Streaming é utilizado para o consumo de dados em tempo real, sendo utilizando em diferentes aplicativos executados em tempo real. Existem diversos aplicativos que utilizam o streaming do Hadoop, como, por exemplo, boletins meteorológicos. Alguns destes aplicativos utilizam a linguagem Python.
Sobre o mapeador em Python, é correto afirmar que:

dispensa tratamento de dados porque manipula grandes dados de forma mais simples.
somará a ocorrência de cada palavra e saída do arquivo saída, reduzindo na forma de par de chave-valor.
ignora a soma de palavras de um arquivo, pois irá produzir uma nova palavra chave-valor.
(x) lerá a linha de stdin, dividirá a linha nas palavras individuais e produzirá a palavra como par chave-valor.
levará a entrada do mapper.py através do stdin. Esta é extensa e requer tratamento de dados.
1 pontos
PERGUNTA 4
O Hadoop é um projeto da Apache Foundation que possibilita que sejam processados grandes volumes de forma distribuída e tem distribuições que possuem um módulo de segurança maduro. Podemos destacar entre os módulos o de processamento e análise de dados.
Considerando o trecho apresentado e conceitos relacionados ao Hadoop MapReduce, analise as afirmativas a seguir:

No MapReduce, as estruturas de dados utilizadas são linhas e colunas.
É um modelo de programação para processamento paralelo.
No MapReduce, a entrada da aplicação é uma lista de linhas paralelas.
É uma solução para problemas com análise de dados em larga escala.

Está correto o que se afirma em:

I, II e IV, apenas.
(x) II e IV, apenas.
I, II e III, apenas.
III e IV, apenas.
II e III, apenas.
1 pontos
PERGUNTA 5
O Hadoop, da Apache Foundation, é um Framework destinado ao processamento e armazenamento de grandes dados, que possui um modelo de processamento conhecido como MapReduce. Por ter a característica de manipular grandes volumes de dados, é muito utilizado no Big Data.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

No MapReduce, dados são transmitidos utilizando o stdin e stdout.
Pois:
Caso não haja erros no trabalho, será apresentado um log do console.

A seguir, assinale a alternativa correta.

(x) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
A asserção I é uma proposição falsa e a II é uma proposição verdadeira.
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.
As asserções I e II são proposições falsas.
A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
1 pontos
PERGUNTA 6
O Big Data está ligado ao volume de dados a ser processado e analisado. Este possui um projeto, chamado de Hadoop, que possibilita a realização do processamento de grandes volumes. Dentro do Hadoop temos o MapReduce, uma importante ferramenta no processamento paralelo.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

Uma etapa importante é a realização de teste do código.
Pois:
Temos que garantir que o código funcione bem.

A seguir, assinale a alternativa correta.

A asserção I é uma proposição falsa e a II é uma proposição verdadeira.
A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.
As asserções I e II são proposições falsas.
(x) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
1 pontos
PERGUNTA 7
O Hadoop Streaming é uma API genérica e permite escrever mapeadores e redutores. Em qualquer trabalho do MapReduce, temos entrada e saída como pares de chave/valor. O mesmo conceito é verdadeiro para a API Streaming, onde entrada e saída são sempre representadas como texto.
Considerando o exposto, para executar o job no Hadoop Cluster , podemos usar a API de Streaming,
que possui as funções:

(x) Stdin e Stdout.
Cluster e Script.
Undo e Redo.
Streaming e Cluster.
Job e API.
1 pontos
PERGUNTA 8
O MapReduce é uma ferramenta do framework Hadoop e possui as funções mapeador (Mapper) e redutor (Reduce). Na linguagem Python, por exemplo, estas funções utilizam stdin e stdout para realizar tarefas relacionadas a entrada e saída de dados.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

O redutor lerá linhas e produzirá uma palavra chave-valor.
Pois:
O redutor utiliza o stdin e soma a ocorrência de cada palavra.

A seguir, assinale a alternativa correta.

A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
As asserções I e II são proposições falsas.
(x) A asserção I é uma proposição falsa e a II é uma proposição verdadeira.
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.
1 pontos
PERGUNTA 9
O Hadoop possui características como escalabilidade, consistência, tolerância a falhas e capacidade de recuperação. Essas características quando bem implementadas garantem uma boa arquitetura. A arquitetura do Hadoop é composta por elementos como: MapReduce, Spark, Streaming, Cluster e outros.
A respeito das características do Hadoop Streaming, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).

( V ) O modelo chave-valor é bastante empregado em bancos de dados não relacionais ou NoSQL.
( V ) Quando um executável é especificado para reducers (redutores), as tarefas iniciam como um processo separado.
( F ) Quando um executável é especificado para mapeadores, cada tarefa deve iniciar o redutor repetidamente.
( V ) Na sequência lógica do Hadoop Streaming, a tarefa do mapeador é pegar a entrada linha por linha.

Assinale a alternativa que apresenta a sequência correta.
V, V, V, V.
V, V, F, F.
F, F, F, F.
F, V, F, V.
(x) V, V, F, V.
1 pontos
PERGUNTA 10
Hadoop Streaming
é uma das ferramentas do Hadoop. Por mais que tenha esse nome, o streaming
não tem características de fluxos de dados contínuos. Ele é um utilitário que permite o desenvolvimento de executáveis do MapReduce em linguagens diferentes de Java.
A partir do apresentado, analise as asserções
a seguir e a relação proposta entre elas.

Quando falamos sobre o uso de outras linguagens de programação, não queremos dizer que o código escrito nessas linguagens precise ser convertido.
Pois:
Os códigos podem ser executados direto no ecossistema Hadoop usando o Hadoop Streaming.

A seguir, assinale a alternativa correta.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.
A asserção I é uma proposição falsa e a II é uma proposição verdadeira.
A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
As asserções I e II são proposições falsas.
(x) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
1 pontos
Pergunta 1
1 em 1 pontos
Uma tarefa MapReduce, no Hadoop, divide o conjunto de dados de entrada em partes independentes que são processadas pelas tarefas de mapa de uma maneira completamente paralela. A estrutura classifica as sápidas dos mapas, que são inseridas nas tarefas de redução.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

A entrada e saída do trabalho são armazenados em um sistema de arquivos.
Pois:
A estrutura MapReduce e o Hadoop Distributed File System estão em execução no mesmo conjunto de nós.

A seguir, assinale a alternativa correta.

Resposta Selecionada:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Resposta Correta:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma proposição verdadeira, visto que normalmente a entrada e a saída do trabalho são armazenadas em um sistema de arquivos. A estrutura cuida de agendar tarefas, monitorando-as e executando novamente as tarefas com falha. A asserção II também é verdadeira e justifica/complementa a I, pois normalmente os nós de computação e os de armazenamento são os mesmos, ou seja, a estrutura MapReduce e o Hadoop Distributed File System estão em execução no mesmo conjunto de nós. Isso permite que a estrutura agende tarefas nos nós em que os dados já estão presentes.
Pergunta 2
1 em 1 pontos
O Hadoop pertence ao Apache e possibilita realizar o processamento de grandes volumes de dados se utilizando de uma característica importante, a programação simples. No processamento e análise dos dados, temos ferramentas como o MapReduce, que pode ser aplicado em diversas linguagens, como o Python.
Considerando o trecho apresentado e conceitos relacionados à linguagem Python, analise as afirmativas a seguir:

Python é uma linguagem de programação orientada a objetos, open-source, e, atualmente, bastante popular.
A linguagem foi lançada em 1994, no entanto, ela se tornou popular somente a partir de 2016.
É uma linguagem closed source, ou seja, código fechado, não podendo ser alterada.
É muito utilizada na linguagem de programação web para a análise de ciência de dados.

Está correto o que se afirma em:

Resposta Selecionada:
Correta I e IV, apenas.
Resposta Correta:
Correta I e IV, apenas.
Feedback da resposta: Resposta correta. A afirmativa I está correta, pois Python é uma linguagem de programação orientada a objetos e bastante dinâmica. Por ser open-source, a linguagem começou a se tornar bastante popular como linguagem de programação para web. A afirmativa IV está correta, pois a linguagem começou a se tornar bastante popular tanto como linguagem de programação para web como para análise de dados, estatística e ciências de dados.
Pergunta 3
1 em 1 pontos
O Hadoop Streaming possui duas fases, o mapeador e o redutor. Uma tarefa importante realizada é o teste do código para confirmação de funcionamento do mesmo. Esta é uma tarefa que não é muito complicada, mas exige que seja feita conforme a determinação de algumas etapas.
Sobre o MapReduce, podemos afirmar corretamente que as etapas são:

Resposta Selecionada:
Correta Código do Mapeador e Código do Redutor.
Resposta Correta:
Correta Código do Mapeador e Código do Redutor.
Feedback da resposta: Resposta correta. A alternativa está correta, pois uma etapa importante, antes de enviar o código Python como tarefa MapReduce para um cluster Hadoop, é o teste do código para confirmar se ele funciona como deveria. Podemos realizar os dois testes seguindo as seguintes etapas: Código do mapeador e Código do redutor.
Pergunta 4
1 em 1 pontos
O Hadoop Streaming é uma API genérica e permite escrever mapeadores e redutores. Em qualquer trabalho do MapReduce, temos entrada e saída como pares de chave/valor. O mesmo conceito é verdadeiro para a API Streaming, onde entrada e saída são sempre representadas como texto.
Considerando o exposto, para executar o job no Hadoop Cluster , podemos usar a API de Streaming,
que possui as funções:

Resposta Selecionada:
Correta Stdin e Stdout.
Resposta Correta:
Correta Stdin e Stdout.
Feedback da resposta: Resposta correta. A alternativa está correta, pois para executar o job no Hadoop Cluster, podemos usar a API de Streaming para que os dados possam ser transmitidos entre o Mapper e o Reducer usando stdin e stdout. Depois que o trabalho for concluído, caso não apresente lançamento de exceções ou erros, será visto um log do console com a última linha mencionando o caminho em que a saída do job está armazenada.
Pergunta 5
1 em 1 pontos
O Hadoop Streaming, do projeto Apache Hadoop, é um utilitário que permite ao usuário criar e executar trabalhos a partir de um arquivo executável, ou, ainda, por meio de um script, conforme o mapa ou redutor, pois são essas as duas fases/funções existentes na ferramenta.
Sobre o redutor em Python, é correto afirmar que:

Resposta Selecionada:
Correta somará a ocorrência de cada palavra e saída do arquivo saída, reduzindo na forma de par de chave-valor.
Resposta Correta:
Correta somará a ocorrência de cada palavra e saída do arquivo saída, reduzindo na forma de par de chave-valor.
Feedback da resposta: Resposta correta. A alternativa está correta, pois o Redutor levará a entrada do mapper.py através do stdin. O Redutor então soma a ocorrência de cada palavra e saída do arquivo saída, reduzida na forma de par de chave-valor, tendo a palavra específica como chave e o total de ocorrências da palavra como o valor. Por exemplo, <palavra, 5>. A tarefa Reduce é um pouco mais extensa, pois requer tratamento de dados que estão sendo recebidos.
Pergunta 6
1 em 1 pontos
O Hadoop Streaming possui algumas características ao ser executado, como, por exemplo, funções chamadas mapeador (map()) e o redutor (reduce()), que precisam ser executáveis e devem poder ler as entradas chamadas stdin , linha por linha, e emitir a saída chamada stdout .
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

O Hadoop Streaming armazena os dados gerando um conjunto de pares chave-valor.
Pois:
Uma chave representa unicamente cada valor associado.

A seguir, assinale a alternativa correta.
Resposta Selecionada:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da asserção I.
Resposta Correta:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da asserção I.
Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma proposição verdadeira, visto que esse modelo armazena os dados gerando um conjunto de pares chave-valor, onde cada chave funciona como identificador exclusivo. A asserção II também é verdadeira e justifica a I, pois uma chave representa unicamente cada valor associado, algo semelhante ao conceito de chave primária em bancos de dados no modelo Relacional.
Pergunta 7
1 em 1 pontos
O framework Hadoop, da Apache Foundation, pode ser utilizado em diversas linguagens,
incluindo o Python. Dentro do Hadoop, temos a ferramenta MapReduce, composta por duas funções, sendo um mapeador, chamado de Mapper, e um redutor, chamado de Reduce.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

No Python, a função Mapper lerá linhas a partir de uma função chamada stdin.
Pois:
A função Mapper produzirá uma palavra chave-valor a partir da divisão das linhas lidas.

A seguir, assinale a alternativa correta.

Resposta Selecionada:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Resposta Correta:
Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção I é uma proposição verdadeira, uma vez que a linguagem Python, utilizando o Hadoop, possui a função Mapper que lerá a linha de stdin. A asserção II também é verdadeira e justifica/complementa a I, pois após a leitura da linha, a função dividirá a linha nas palavras individuais e produzirá a palavra como par chave-valor, com valor 1 e palavra sendo a chave, por exemplo: <palavra, 1>
Pergunta 8
1 em 1 pontos
O Hadoop possui características como escalabilidade, consistência, tolerância a falhas e capacidade de recuperação. Essas características quando bem implementadas garantem uma boa arquitetura. A arquitetura do Hadoop é composta por elementos como: MapReduce, Spark, Streaming, Cluster e outros.
A respeito das características do Hadoop Streaming, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).

( ) O modelo chave-valor é bastante empregado em bancos de dados não relacionais ou NoSQL.
( ) Quando um executável é especificado para reducers (redutores), as tarefas iniciam como um processo separado.
( ) Quando um executável é especificado para mapeadores, cada tarefa deve iniciar o redutor repetidamente.
( ) Na sequência lógica do Hadoop Streaming, a tarefa do mapeador é pegar a entrada linha por linha.

Assinale a alternativa que apresenta a sequência correta.
Resposta Selecionada:
Correta V, V, F, V.
Resposta Correta:
Correta V, V, F, V.
Feedback da resposta: Resposta correta. A sequência está correta. A afirmativa I é verdadeira, pois o modelo chave-valor é bastante empregado em bancos de dados não relacionais ou NoSQL. Assim, um banco de dados de chave-valor é considerado um tipo de banco de dados com característica não relacional e que usa um método de chave-valor simples para armazenar dados. A afirmativa II é verdadeira, pois quando um executável é especificado para reducers (redutores), cada tarefa reduce
inicia seu programa como um processo separado e o redutor é inicializado. A afirmativa IV é verdadeira, pois na sequência lógica do Hadoop Streaming, para cada dado de entrada, a tarefa do mapeador pega a entrada linha por linha e alimenta as linhas para o stdin do executável do mapeador.
Pergunta 9
0 em 1 pontos
O Hadoop é um projeto da Apache Foundation que possibilita que sejam processados grandes volumes de forma distribuída e tem distribuições que possuem um módulo de segurança maduro. Podemos destacar entre os módulos o de processamento e análise de dados.
Considerando o trecho apresentado e conceitos relacionados ao Hadoop MapReduce, analise as afirmativas a seguir:

No MapReduce, as estruturas de dados utilizadas são linhas e colunas.
É um modelo de programação para processamento paralelo.
No MapReduce, a entrada da aplicação é uma lista de linhas paralelas.
É uma solução para problemas com análise de dados em larga escala.

Está correto o que se afirma em:

Resposta Selecionada:
Incorreta II e III, apenas.
Resposta Correta:
Correta II e IV, apenas.
Feedback da resposta: Sua resposta está incorreta. A alternativa está incorreta. A afirmativa I está incorreta, pois no caso do MapReduce as estruturas utilizadas são listas e pares chave/valor. A alternativa III está incorreta, pois no MapReduce a entrada da aplicação é uma lista de pares chave/valor.
Pergunta 10
1 em 1 pontos
A respeito do Hadoop Streaming , da Apache Foundation, independente da linguagem a ser utilizada, alguns pré-requisitos precisam ser respeitados como forma de organizar o ambiente antes da execução dos scripts iniciais. Esses pré-requisitos, aplicados de forma correta, facilitam a utilização da ferramenta.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

A tarefa redutora converte pares de linhas alimentando a entrada do processo reduce.
Pois:
O redutor coleta as saídas orientadas linha a linha a partir da saída padrão do processo stdout.

A seguir, assinale a alternativa correta.

Resposta Selecionada:
Correta A asserção I é uma proposição falsa e a II é uma proposição verdadeira.
Resposta Correta:
Correta A asserção I é uma proposição falsa e a II é uma proposição verdadeira.
Feedback da resposta: Resposta correta. A alternativa está correta, pois a asserção II é uma proposição verdadeira, uma vez que o redutor coleta as saídas orientadas linha a linha a partir da saída padrão do processo stdout, convertendo cada linha em um par de chave-valor, que é coletado como a saída do redutor.