FRAMEWORKS PARA BIG DATA - Atividade 2

•

UNIRITTER

Nathalia Chaves

16/06/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Frameworks

244 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Curso
	GRA0749 FRAMEWORKS PARA BIG DATA GR1170211 - 202110.ead-7447.05
	Teste
	ATIVIDADE 2 (A2)
	Status
	Completada
	Resultado da tentativa
	10 em 10 pontos  
	Tempo decorrido
	23 horas, 54 minutos
	Resultados exibidos
	Respostas enviadas, Respostas corretas, Comentários
· Pergunta 1
1 em 1 pontos
	
	
	
	O Hadoop é um framework que pode ser utilizado em diversas linguagens, como, por exemplo, Java e Python. No framework há ferramentas importantes, podemos citar o MapReduce, que contém um mapeador e uma redutor. Um exemplo muito utilizado para expor o funcionamento do MapReduce é por meio de um contador de palavras.
 
A respeito deste exemplo do contador de palavras, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).
 
1. (           ) É utilizado o stdin e stdout para ler e gravar dados.
2. (           )  O redutor gera palavra como chave e número de contagens como valor.
3. (           ) A função Mapper divide chave-valores em palavras complexas.
4. (           ) O redutor recebe linhas de entrada e conta o número de instâncias.
 
Assinale a alternativa que apresenta a sequência correta.
	
	
	
	
		Resposta Selecionada:
	 
V, V, F, F.
	Resposta Correta:
	 
V, V, F, F.
	Comentário da resposta:
	Resposta correta.  A sequência está correta. A afirmativa I é verdadeira, pois no exemplo é utilizado o sys.stdin e sys.stdout em Python para ler os dados e gravar os dados de saída, o restante será tratado pelo Streaming API em si. A afirmativa II é verdadeira, pois o redutor recebeu a entrada como o par chave-valor e conta o número de instâncias de uma palavra específica no texto de entrada fornecido, gerando os pares de chave-valores com a palavra como chave e o número de contagens como o valor.
	
	
	
· Pergunta 2
1 em 1 pontos
	
	
	
	O MapReduce é uma ferramenta do framework Hadoop e possui as funções mapeador (Mapper) e redutor (Reduce). Na linguagem Python, por exemplo, estas funções utilizam stdin e stdout para realizar tarefas relacionadas a entrada e saída de dados.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
 
1. O redutor lerá linhas e produzirá uma palavra chave-valor.
            Pois:
2. O redutor utiliza o stdin e soma a ocorrência de cada palavra.
 
A seguir, assinale a alternativa correta.
 
	
	
	
	
		Resposta Selecionada:
	 
A asserção I é uma proposição falsa e a II é uma proposição verdadeira.
	Resposta Correta:
	 
A asserção I é uma proposição falsa e a II é uma proposição verdadeira.
	Comentário da resposta:
	Resposta correta. A alternativa está correta, pois a asserção II é uma proposição incorreta, uma vez que o redutor levará a entrada do mapper.py através do stdin. O redutor então soma a ocorrência de cada palavra e saída do arquivo saída, reduzida na forma de par de chave-valor, tendo a palavra específica como chave e o total de ocorrências da palavra como o valor. Por exemplo, <palavra, 5>. A tarefa Reduce é um pouco mais extensa, pois requer tratamento de dados que estão sendo recebidos.
	
	
	
1. Pergunta 3
1 em 1 pontos
	
	
	
	O Hadoop Streaming possui duas fases, o mapeador e o redutor. Uma tarefa importante realizada é o teste do código para confirmação de funcionamento do mesmo. Esta é uma tarefa que não é muito complicada, mas exige que seja feita conforme a determinação de algumas etapas.
Sobre o MapReduce, podemos afirmar corretamente que as etapas são:
 
	
	
	
	
		Resposta Selecionada:
	 
Código do Mapeador e Código do Redutor.
	Resposta Correta:
	 
Código do Mapeador e Código do Redutor.
	Comentário da resposta:
	Resposta correta. A alternativa está correta, pois uma etapa importante, antes de enviar o código Python como tarefa MapReduce para um cluster Hadoop, é o teste do código para confirmar se ele funciona como deveria. Podemos realizar os dois testes seguindo as seguintes etapas: Código do mapeador e Código do redutor.
	
	
	
1. Pergunta 4
1 em 1 pontos
	
	
	
	O Hadoop possui ferramentas que auxiliam nas mais diversas atividades, como serviços de integração, serviços de armazenamento e de processamento e análise de dados.  Dentro deste, temos a ferramenta MapReduce, que tem a característica de realizar o processamento paralelo.
A respeito de programas MapReduce, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e
F para a(s) falsa(s).
 
4. (           ) O núcleo da classe do job é o método run().
4. (           )  O centro das ações são suas funções map() e reduce().
4. (           ) O método run() não permite alteração de parâmetros.
4. (           ) Raramente escreve-se um programa MapReduce do zero.
 
Assinale a alternativa que apresenta a sequência correta.
	
	
	
	
		Resposta Selecionada:
	 
V, V, F, V.
	Resposta Correta:
	 
V, V, F, V.
	Comentário da resposta:
	Resposta correta. A sequência está correta. A afirmativa I é verdadeira, pois o núcleo da classe do job é o método run(), que é o responsável por  executar um job do Hadoop MapReduce. A afirmativa II está correta, pois o centro das ações em ambas as classes são suas funções map() e reduce(). A afirmativa IV é verdadeira, pois raramente escreve-se um programa MapReduce do zero, existe um template principal que é modificado para que atenda as especificações do novo programa.
	
	
	
1. Pergunta 5
1 em 1 pontos
	
	
	
	O Hadoop Streaming é uma API genérica e permite escrever mapeadores e redutores. Em qualquer trabalho do MapReduce, temos entrada e saída como pares de chave/valor. O mesmo conceito é verdadeiro para a API Streaming, onde entrada e saída são sempre representadas como texto.
Considerando o exposto, para executar o job no Hadoop Cluster , podemos usar a API de Streaming,
que possui as funções:
 
	
	
	
	
		Resposta Selecionada:
	 
Stdin e Stdout.
	Resposta Correta:
	 
Stdin e Stdout.
	Comentário da resposta:
	Resposta correta. A alternativa está correta, pois para executar o job no Hadoop Cluster, podemos usar a API de Streaming para que os dados possam ser transmitidos entre o Mapper e o Reducer usando stdin e stdout. Depois que o trabalho for concluído, caso não apresente lançamento de exceções ou erros, será visto um log do console com a última linha mencionando o caminho em que a saída do job está armazenada.
	
	
	
1. Pergunta 6
1 em 1 pontos
	
	
	
	O Hadoop, da Apache Foundation, é um Framework destinado ao processamento e armazenamento de grandes dados, que possui um modelo de processamento conhecido como MapReduce. Por ter a característica de manipular grandes volumes de dados, é muito utilizado no Big Data.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
 
6. No MapReduce, dados são transmitidos utilizando o stdin e stdout.
            Pois:
6. Caso não haja erros no trabalho, será apresentado um log do console.
 
A seguir, assinale a alternativa correta.
 
	
	
	
	
		Resposta Selecionada:
	 
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
	Resposta Correta:
	 
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
	Comentário da resposta:
	Resposta correta. A alternativa está correta, pois a asserção I é uma proposição verdadeira, uma vez que para executar o job
no Hadoop Cluster, podemos usar a API de Streaming para que os dados possam ser transmitidos entre o Mapper e o Reducer usando stdin
e stdout.  A asserção II também é verdadeira e justifica/complementa a I, pois depois que o trabalho for concluído, caso não apresente lançamento de exceções ou erros, será visto um log do console com a última linha mencionando o caminho em que a saída do job
está armazenada.
	
	
	
1. Pergunta 7
1 em 1 pontos
	
	
	
	O Big Data está ligado ao volume de dados a ser processado e analisado. Este possui um projeto, chamado de Hadoop, que possibilita a realização do processamento de grandes volumes. Dentro do Hadoop temos o MapReduce, uma importante ferramenta no processamento paralelo.
A partir do apresentado,analise as asserções a seguir e a relação proposta entre elas.
 
7. Uma etapa importante é a realização de teste do código.
            Pois:
7. Temos que garantir que o código funcione bem.
 
A seguir, assinale a alternativa correta.
 
	
	
	
	
		Resposta Selecionada:
	 
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
	Resposta Correta:
	 
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
	Comentário da resposta:
	Resposta correta. A alternativa está correta, pois a asserção I é uma proposição verdadeira, visto que antes de enviar um código Python como tarefa MapReduce para um cluster Hadoop, é importante realizar o texto do código para confirmar se ele funciona como deveria.  A asserção II também é verdadeira e justifica/complementa a I, pois é fácil garantir que o código funcione bem com um pequeno texto de entrada antes de enviar para o clister analisar grande quantidade de dados.
	
	
	
1. Pergunta 8
1 em 1 pontos
	
	
	
	O framework Hadoop, da Apache Foundation, pode ser utilizado em diversas linguagens, incluindo o Python. Dentro do Hadoop, temos a ferramenta MapReduce, composta por duas funções, sendo um mapeador, chamado de Mapper, e um redutor, chamado de Reduce.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
 
8. No Python, a função Mapper lerá linhas a partir de uma função chamada stdin.
            Pois:
8. A função Mapper produzirá uma palavra chave-valor a partir da divisão das linhas lidas.
 
A seguir, assinale a alternativa correta.
 
	
	
	
	
		Resposta Selecionada:
	 
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
	Resposta Correta:
	 
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
	Comentário da resposta:
	Resposta correta. A alternativa está correta, pois a asserção I é uma proposição verdadeira, uma vez que a linguagem Python, utilizando o Hadoop, possui a função Mapper que lerá a linha de stdin. A asserção II também é verdadeira e justifica/complementa a I, pois após a leitura da linha, a função dividirá a linha nas palavras individuais e produzirá a palavra como par chave-valor, com valor 1 e palavra sendo a chave, por exemplo: <palavra, 1>
	
	
	
1. Pergunta 9
1 em 1 pontos
	
	
	
	A respeito do Hadoop Streaming , da Apache Foundation, independente da linguagem a ser utilizada, alguns pré-requisitos precisam ser respeitados como forma de organizar o ambiente antes da execução dos scripts iniciais. Esses pré-requisitos, aplicados de forma correta, facilitam a utilização da ferramenta.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
 
9. A tarefa redutora converte pares de linhas alimentando a entrada do processo reduce.
Pois:
9. O redutor coleta as saídas orientadas linha a linha a partir da saída padrão do processo stdout.
 
A seguir, assinale a alternativa correta.
 
	
	
	
	
		Resposta Selecionada:
	 
A asserção I é uma proposição falsa e a II é uma proposição verdadeira.
	Resposta Correta:
	 
A asserção I é uma proposição falsa e a II é uma proposição verdadeira.
	Comentário da resposta:
	Resposta correta. A alternativa está correta, pois a asserção II é uma proposição verdadeira, uma vez que o redutor coleta as saídas orientadas linha a linha a partir da saída padrão do processo stdout, convertendo cada linha em um par de chave-valor, que é coletado como a saída do redutor.
	
	
	
1. Pergunta 10
1 em 1 pontos
	
	
	
	O Hadoop Streaming, do projeto Apache Hadoop, é um utilitário que permite ao usuário criar e executar trabalhos a partir de um arquivo executável, ou, ainda, por meio de um script, conforme o mapa ou redutor, pois são essas as duas fases/funções existentes na ferramenta.
Sobre o redutor em Python, é correto afirmar que:
 
	
	
	
	
		Resposta Selecionada:
	 
somará a ocorrência de cada palavra e saída do arquivo saída, reduzindo na forma de par de chave-valor.
	Resposta Correta:
	 
somará a ocorrência de cada palavra e saída do arquivo saída, reduzindo na forma de par de chave-valor.
	Comentário da resposta:
	Resposta correta. A alternativa está correta, pois o Redutor levará a entrada do mapper.py através do stdin. O Redutor então soma a ocorrência de cada palavra e saída do arquivo saída, reduzida na forma de par de chave-valor, tendo a palavra específica como chave e o total de ocorrências da palavra como o valor. Por exemplo, <palavra, 5>. A tarefa Reduce é um pouco mais extensa, pois requer tratamento de dados que estão sendo recebidos.