13 - Prova - Processamento Paralelo e Distribuído de Dados (2021)

•

PUC-MINAS

3

0

3

0

Andreia

14/09/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

6.098 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Pontuação desta tentativa: 48 de 60
Enviado 6 set em 19:34
Esta tentativa levou 20 minutos.
6 / 6 ptsPergunta 1
Existem vários exemplos de problemas em que podemos aplicar Map
Reduce
Marque a opção inválida que não é um exemplo de uso do Map
Reduce:
 
Calcular palavras chaves(mais frequentes) em um conjunto de
documentos
 
 
Sistema para gestão de compras de uma companhia(ordens de
compra, notas fiscais e etc...)
 
Correto!Correto!
 
SQL com 'filtro' entre duas tabelas e agrupamentos realizando uma
estatística descritiva básica
 
 Operações de matrizes em algoritmos de 'Machine Learning' 
O número de tarefas MAP pode variar de acordo com o número
de blocos existentes. Outra atividade do MAP é transformar os
dados em chave valor
6 / 6 ptsPergunta 2
Considerando o algoritmo map reduce e suas características:
Selecione a opção que não representa uma das características do
algoritmo
 
É indicado para processamentos que envolvem cálculos de matrizes
e/ou SQL;
 
 
Similar independente da linguagem. É necessário apenas preparar os
dados, escrever a função map e função reduce, para cada caso
tratado;
 
 É nativo no Hadoop; 
 Excelente para processamento em tempo real; Correto!Correto!
Map reduce é um algoritmo para processamento em Batch, não
em tempo real;
6 / 6 ptsPergunta 3
O Big Data traz a necessidade de novas abordagens para
processamento dos dados.
Escolha a alternativa que não representa um problema que precisaria
ser resolvido por tecnologias de Big Data:
 
Sistema de cálculo estrutural de uma casa de classe média brasileira 
Correto!Correto!
 
Armazenamento de dados de sensores de uma planta produtiva fabril 
 Internet das coisas e tipos de dados de vídeos 
 Extração de conhecimento a partir de dados oriundos da web 
Via de regra o cálculo estrutural de casas no Brasil, faz uso
de softwares e o processo de cálculo é bem definido na
engenharia e não se caracteriza pelo uso de dados
massivos.
6 / 6 ptsPergunta 4
São funcionalidades do Spark Core, exceto:
Escolha a opção incorreta
 gerenciamento de memória 
 agendamento de tarefas 
 controle de recursos e máquinas no cluster Correto!Correto!
 recuperação de falhas 
Controle de recursos e máquina cluster é feito por um gestor de
recursos como,por exemplo, MESOS ou o YARN
6 / 6 ptsPergunta 5
Considerando os sistemas de arquivos distribuídos (DFS).Mais
especificamente o HDFS.
Escolha a opção correta
 
Possuem controle de registros e linhas, permitindo ao usuário, trabalhar
com dados detalhados com se fosse uma tabela
 
 
Cada arquivo armazena os seus metadados, sendo necessário apenas
localizar o primeiro bloco do arquivo
 
 
Armazenam parte dos dados na mesma máquina (ou rack) do bloco e
outras réplicas em outras máquinas (ou rack)
 
Correto!Correto!
 
Os arquivos são armazenados sem nenhum tipo de modificação em
seu tamanho ou estrutura (reestruturado)
 
As outras opções não refletem a realidade de funcionamento e
características do HDFS. Por padrão pelo menos 3 replicas são
realizada para cada bloco de cada arquivo, 1 réplica no rack e
outras 2 fora do rack (regra válida para o HDFS)
6 / 6 ptsPergunta 6
O Hadoop é uma plataforma para processamento paralelo e distribuído
e trabalha com vários tipos de dados. Ele possui um nó central que é
o controlador do cluster
Sob a hipótese de aumentarmos substancialmente o número de
arquivos existentes no HDFS. O que irá acontecer com a memória
requerida pelo name node
 Não altera em nada 
 Aumenta Correto!Correto!
 Diminui levemente(uma pequena queda) 
 Pode aumentar ou diminuir 
O name node terá que gerenciar mais metadados dos novos
arquivos. Esta estrutura fica em memória, então seu requisito
de memória, naturalmente aumenta.
0 / 6 ptsPergunta 7
Para paradigmas de computação distribuída, considere os sistemas de
arquivos distribuídos. Existem várias afirmações sobre este tipo de
sistema.
Escolha a afirmação FALSA
 
No Hadoop o Name node gerencia o sistema de arquivos (réplicas,
blocos, nós e racks): abrir, fechar, renomear arquivos;
 
 
O 'Google File System' (GFS) é uma das implementações do DFS,
assim como o HDFS;
 
ocê respondeuocê respondeu
 
Arquivos são raramente atualizados (write-once read-many).
Adicionalmente dados são adicionados para os arquivos;
 
 
O DFS possui um protocolo de transações distribuídas e pode e é
gerenciado pelos data nodes ;
 
esposta corretaesposta correta
O DFS não possui mecanismos de controle de transação.
Mesmo se tivesse, todo o gerenciamento é feito pelo name
node (versão hadoop 1.0, por exemplo)
0 / 6 ptsPergunta 8
Considerando o Hadoop e suas diferentes configurações. O Name
Node possui seu papel e o Data Node também
Selecione a opção que representa o papel desempenhado pelo Name
Node em um cluster Hadoop
 Armazenar e fornecer blocos quando for solicitado pelos clientes 
 Nenhuma opção esta correta ocê respondeuocê respondeu
 Manter e gerenciar os data nodes esposta corretaesposta correta
 
Manter o sistema de arquivo com principalmente dados e, também,
metadados
 
O Name Node é quem e gerencia os data nomes no cluster
6 / 6 ptsPergunta 9
São funções e características do YARN, exceto:
 
Node Manager - é executado em cada nó do cluster e é responsável
por lançar e monitorar contêineres e reportar o status de volta ao
Resource Manager
 
 Executar processos/operações em pequenos conjuntos de dados. Correto!Correto!
 
Gerenciar recursos computacionais do cluster utilizando, indiretamente,
conceito de gestores de aplicações para alocar recursos
 
 
Resource Manager – É um componente do YARN ou daemon global,
um por cluster, que gerencia as solicitações e os recursos nos nós do
cluster.
 
O YARN não executa processo manipulação em dados
6 / 6 ptsPergunta 10
Qual é a diferença entre operações de transformação e ação no
Apache Spark?:
 
A diferença entre ação e transformação é só quanto ao tipo de
persistência selecionado. Na criação da aplicação há diretrizes para
especificar a persistência
 
 
Transformações criam novos dados (listas, tuplas, string, inteiros, RDD
´s ) a partir de RDD existente. Uma ação retornará um tipo não RDD
(normalmente, seus tipos de valor armazenados).
 
 
Não há diferença o Spark gerencia a execução e decide quando
colocar na memória – transformação ou não colocar na memória -
ação.
 
 
Transformações criam novos RDD´s a partir de RDD existente. Uma
ação retornará um tipo não RDD (ponto flutuante, string, inteiros e
outros tipos simples).
 
Correto!Correto!
As transformações sempre retornan RDD´s e as ações
retornam tipos simples de dados
Pontuação do teste: 48 de 60