Buscar

Atividade 2 - Frameworks para Big Data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

• Pergunta 1 
1 em 1 pontos 
 
O Hadoop Streaming possui duas fases, o mapeador e o redutor. Uma tarefa importante 
realizada é o teste do código para confirmação de funcionamento do mesmo. Esta é uma 
tarefa que não é muito complicada, mas exige que seja feita conforme a determinação de 
algumas etapas. 
Sobre o MapReduce, podemos afirmar corretamente que as etapas são: 
 
 
Resposta Selecionada: 
Código do Mapeador e Código do Redutor. 
Resposta Correta: 
Código do Mapeador e Código do Redutor. 
Feedback 
da 
resposta: 
Resposta correta. A alternativa está correta, pois uma etapa 
importante, antes de enviar o código Python como 
tarefa MapReduce para um cluster Hadoop, é o teste do 
código para confirmar se ele funciona como deveria. Podemos 
realizar os dois testes seguindo as seguintes etapas: Código 
do mapeador e Código do redutor. 
 
 
• Pergunta 2 
1 em 1 pontos 
 
O Hadoop, ao contrário do que as pessoas acham, não é um tipo de banco de dados. Ele é 
formado por diversos softwares com um sistema de arquivos conhecido como Hadoop 
Distributed Files System. Como características podemos destacar que é tolerante a falhas e 
possui escalabilidade. Dentre as ferramentas existentes, podemos destacar a Hadoop 
Streaming. 
Considerando o trecho apresentado e as características da ferramenta Hadoop Streaming, 
analise as afirmativas a seguir: 
 
1. O Hadoop Streaming é um utilitário que dá aos usuários a possibilidade de escrever 
tarefas MapReduce. 
2. Conforme a tarefa do Reduce é executada, ela converte suas entradas em linhas e alimenta 
a entrada do processo em stdout. 
3. No MapReduce o texto nas linhas até a primeira guia é considerado a chave e o restante da 
linha o valor. 
4. Depois de executado, as linhas do stdin são obtidas pelo mapeador e convertidas em um 
outro tipo de linhas maiores. 
 
 
Está correto o que se afirma em: 
 
Resposta Selecionada: 
I e III, apenas. 
Resposta Correta: 
I e III, apenas. 
Feedback 
da 
resposta: 
Resposta correta. A alternativa está correta, pois a afirmativa I 
é verdadeira, sendo que o Hadoop Streaming é apenas um 
utilitário fornecido pela distribuição Hadoop MapReduce que 
dá aos usuários a possibilidade de escrever 
 
tarefas MapReduce em outras linguagens de programação 
além do Java, como Python, 
por exemplo. A afirmativa III está correta, pois no MapReduce, 
por padrão, o texto nas linhas até a primeira guia será 
considerado a chave e o restante da linha como valor. Caso 
não exista caractere de tabulação presente na linha, a linha 
inteira será usada como a chave e o valor será nulo. 
 
• Pergunta 3 
1 em 1 pontos 
 
O framework Hadoop, da Apache Foundation, pode ser utilizado em diversas linguagens, 
incluindo o Python. Dentro do Hadoop, temos a ferramenta MapReduce, composta por duas 
funções, sendo um mapeador, chamado de Mapper, e um redutor, chamado de Reduce. 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
1. No Python, a função Mapper lerá linhas a partir de uma função chamada stdin. 
 
 Pois: 
2. A função Mapper produzirá uma palavra chave-valor a partir da divisão das linhas lidas. 
 
 
A seguir, assinale a alternativa correta. 
 
 
Resposta 
Selecionada: 
 
As asserções I e II são proposições verdadeiras, e a II é 
uma justificativa correta da I. 
Resposta Correta: 
As asserções I e II são proposições verdadeiras, e a II é 
uma justificativa correta da I. 
Feedback 
da 
resposta: 
Resposta correta. A alternativa está correta, pois a asserção I é 
uma proposição verdadeira, uma vez que a linguagem Python, 
utilizando o Hadoop, possui a função Mapper que lerá a linha 
de stdin. A asserção II também é verdadeira e 
justifica/complementa a I, pois após a leitura da linha, a função 
dividirá a linha nas palavras individuais e produzirá a palavra 
como par chave-valor, com valor 1 e palavra sendo a chave, 
por exemplo: <palavra, 1> 
 
 
• Pergunta 4 
1 em 1 pontos 
 
 Uma tarefa MapReduce, no Hadoop, divide o conjunto de dados de entrada em partes 
independentes que são processadas pelas tarefas de mapa de uma maneira completamente 
paralela. A estrutura classifica as sápidas dos mapas, que são inseridas nas tarefas de 
redução. 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
2. A entrada e saída do trabalho são armazenados em um sistema de arquivos. 
 
Pois: 
 
2. A estrutura MapReduce e o Hadoop Distributed File System estão em execução no mesmo 
conjunto de nós. 
 
 
A seguir, assinale a alternativa correta. 
 
Resposta 
Selecionada: 
 
As asserções I e II são proposições verdadeiras, e a II é 
uma justificativa correta da I. 
Resposta Correta: 
As asserções I e II são proposições verdadeiras, e a II é 
uma justificativa correta da I. 
Feedback 
da 
resposta: 
Resposta correta. A alternativa está correta, pois a asserção I é 
uma proposição verdadeira, visto que normalmente a entrada 
e a saída do trabalho são armazenadas em um sistema de 
arquivos. A estrutura cuida de agendar tarefas, monitorando-
as e executando novamente as tarefas com falha. A asserção II 
também é verdadeira e justifica/complementa a I, pois 
normalmente os nós de computação e os de armazenamento 
são os mesmos, ou seja, a estrutura MapReduce e o Hadoop 
Distributed File System estão em execução no mesmo 
conjunto de nós. Isso permite que a estrutura agende tarefas 
nos nós em que os dados já estão presentes. 
 
 
• Pergunta 5 
1 em 1 pontos 
 
O Hadoop pertence ao Apache e possibilita realizar o processamento de grandes volumes 
de dados se utilizando de uma característica importante, a programação simples. No 
processamento e análise dos dados, temos ferramentas como o MapReduce, que pode ser 
aplicado em diversas linguagens, como o Python. 
 Considerando o trecho apresentado e conceitos relacionados à linguagem Python, analise 
as afirmativas a seguir: 
 
2. Python é uma linguagem de programação orientada a objetos, open-source, e, atualmente, 
bastante popular. 
3. A linguagem foi lançada em 1994, no entanto, ela se tornou popular somente a partir de 
2016. 
4. É uma linguagem closed source, ou seja, código fechado, não podendo ser alterada. 
5. É muito utilizada na linguagem de programação web para a análise de ciência de dados. 
 
 
Está correto o que se afirma em: 
 
 
Resposta Selecionada: 
I e IV, apenas. 
Resposta Correta: 
I e IV, apenas. 
 
Feedback 
da 
resposta: 
Resposta correta. A afirmativa I está correta, pois Python é 
uma linguagem de programação orientada a objetos e 
bastante dinâmica. Por ser open-source, a linguagem 
começou a se tornar bastante popular como linguagem de 
programação para web. A afirmativa IV está correta, pois a 
linguagem começou a se tornar bastante popular tanto como 
linguagem de programação para web como para análise de 
dados, estatística e ciências de dados. 
 
• Pergunta 6 
1 em 1 pontos 
 
O Hadoop Streaming possui algumas características ao ser executado, como, por exemplo, 
funções chamadas mapeador (map()) e o redutor (reduce()), que precisam ser executáveis e 
devem poder ler as entradas chamadas stdin , linha por linha, e emitir a saída 
chamada stdout . 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
0. O Hadoop Streaming armazena os dados gerando um conjunto de pares chave-valor. 
 
 Pois: 
2. Uma chave representa unicamente cada valor associado. 
 
 
A seguir, assinale a alternativa correta. 
 
Resposta 
Selecionada: 
 
As asserções I e II são proposições verdadeiras, e a II é 
uma justificativa correta da asserção I. 
Resposta Correta: 
As asserções I e II são proposições verdadeiras, e a II é 
uma justificativa correta da asserção I. 
Feedback 
da 
resposta: 
Resposta correta. A alternativa está correta, pois a asserção I é 
uma proposição verdadeira,visto que esse modelo armazena 
os dados gerando um conjunto de pares chave-valor, onde 
cada chave funciona como identificador exclusivo. A asserção 
II também é verdadeira e justifica a I, pois uma chave 
representa unicamente cada valor associado, algo semelhante 
ao conceito de chave primária em bancos de dados no modelo 
Relacional. 
 
 
• Pergunta 7 
1 em 1 pontos 
 
O Hadoop é um framework que pode ser utilizado em diversas linguagens, como, por 
exemplo, Java e Python. No framework há ferramentas importantes, podemos citar o 
MapReduce, que contém um mapeador e uma redutor. Um exemplo muito utilizado para 
expor o funcionamento do MapReduce é por meio de um contador de palavras. 
 
A respeito deste exemplo do contador de palavras, analise as afirmativas a seguir e 
 
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
 
2. ( ) É utilizado o stdin e stdout para ler e gravar dados. 
3. ( ) O redutor gera palavra como chave e número de contagens como valor. 
4. ( ) A função Mapper divide chave-valores em palavras complexas. 
5. ( ) O redutor recebe linhas de entrada e conta o número de instâncias. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
Resposta Selecionada: 
V, V, F, F. 
Resposta Correta: 
V, V, F, F. 
Feedback 
da 
resposta: 
Resposta correta. A sequência está correta. A afirmativa I é 
verdadeira, pois no exemplo é utilizado o sys.stdin e sys.stdout 
em Python para ler os dados e gravar os dados de saída, o 
restante será tratado pelo Streaming API em si. A afirmativa II 
é verdadeira, pois o redutor recebeu a entrada como o par 
chave-valor e conta o número de instâncias de uma palavra 
específica no texto de entrada fornecido, gerando os pares de 
chave-valores com a palavra como chave e o número de 
contagens como o valor. 
 
 
• Pergunta 8 
1 em 1 pontos 
 
O Hadoop Streaming, do projeto Apache Hadoop, é um utilitário que permite ao usuário criar 
e executar trabalhos a partir de um arquivo executável, ou, ainda, por meio de um script, 
conforme o mapa ou redutor, pois são essas as duas fases/funções existentes na 
ferramenta. 
Sobre o redutor em Python, é correto afirmar que: 
 
 
Resposta 
Selecionada: 
 
somará a ocorrência de cada palavra e saída do arquivo 
saída, reduzindo na forma de par de chave-valor. 
Resposta 
Correta: 
 
somará a ocorrência de cada palavra e saída do arquivo 
saída, reduzindo na forma de par de chave-valor. 
Feedback 
da 
resposta: 
Resposta correta. A alternativa está correta, pois o Redutor 
levará a entrada do mapper.py através do stdin. O Redutor 
então soma a ocorrência de cada palavra e saída do arquivo 
saída, reduzida na forma de par de chave-valor, tendo a 
palavra específica como chave e o total de ocorrências da 
palavra como o valor. Por exemplo, <palavra, 5>. A 
tarefa Reduce é um pouco mais extensa, pois requer 
tratamento de dados que estão sendo recebidos. 
 
 
• Pergunta 9 
1 em 1 pontos 
 
O Hadoop Streaming faz parte dos componentes da ferramenta Hadoop, do projeto Apache 
Hadoop. É um utilitário que permite ao MapReduce, e às suas funções map() e reduce(), 
realizar a codificação em qualquer linguagem de programação, como por exemplo, a C, C++, 
Python e outros. 
Sobre o Hadoop Streaming, assinale a alternativa que representa a sua principal função. 
 
 
Resposta Selecionada: 
Desenvolver executáveis. 
Resposta Correta: 
Desenvolver executáveis. 
Feedback 
da 
resposta: 
Resposta correta. A alternativa está correta, pois o Hadoop é 
uma das ferramentas do framework 
da Apache, denominada Hadoop Streaming. De maneira 
simples, o Hadoop Streaming é um utilitário que acompanha 
o Hadoop e permite que você desenvolva executáveis 
do MapReduce em linguagens diferentes de Java. 
 
 
• Pergunta 10 
1 em 1 pontos 
 
O MapReduce é uma ferramenta do framework Hadoop e possui as funções mapeador 
(Mapper) e redutor (Reduce). Na linguagem Python, por exemplo, estas funções utilizam 
stdin e stdout para realizar tarefas relacionadas a entrada e saída de dados. 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
0. O redutor lerá linhas e produzirá uma palavra chave-valor. 
 
 Pois: 
2. O redutor utiliza o stdin e soma a ocorrência de cada palavra. 
 
 
A seguir, assinale a alternativa correta. 
 
 
Resposta 
Selecionada: 
 
A asserção I é uma proposição falsa e a II é uma 
proposição verdadeira. 
Resposta Correta: 
A asserção I é uma proposição falsa e a II é uma 
proposição verdadeira. 
Feedback 
da 
resposta: 
Resposta correta. A alternativa está correta, pois a asserção II 
é uma proposição incorreta, uma vez que o redutor levará a 
entrada do mapper.py através do stdin. O redutor então soma 
a ocorrência de cada palavra e saída do arquivo saída, 
reduzida na forma de par de chave-valor, tendo a palavra 
específica como chave e o total de ocorrências da palavra 
como o valor. Por exemplo, <palavra, 5>. A tarefa Reduce é um 
 
pouco mais extensa, pois requer tratamento de dados que 
estão sendo recebidos.

Continue navegando