Buscar

Avaliação Final (Objetiva) - Individual

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

21/03/2024, 10:41 Avaliação Final (Objetiva) - Individual
about:blank 1/5
Prova Impressa
GABARITO | Avaliação Final (Objetiva) - Individual
(Cod.:886679)
Peso da Avaliação 3,00
Prova 74268426
Qtd. de Questões 10
Acertos/Erros 6/4
Nota 6,00
Cloudera é um dos players mais conhecidos no que envolve o Hadoop. Com um número de clientes 
considerável e com uma contribuição ativa para o desenvolvimento do Hadoop, o Cloudera está no top 3 da 
lista quando se trata de construir ferramentas inovadoras. O Cloudera Manager é fácil de usar e implementar, 
com uma interface para o utilizador bastante acessível, apresentando todas as informações de forma 
organizada e limpa. O Cloudera automatiza o processo de instalação e também presta outros serviços 
avançados para os utilizadores. Sobre o Hue, associe os itens, utilizando o código a seguir:
I- Editor.
II- Navegadores.
III- Painel.
IV- Agendador.
( ) O objetivo do editor do Hue é tornar a consulta de dados mais fácil e produtiva. Concentra-se no SQL, 
mas, também, oferece suporte a envios de tarefas. Vem com um autocomplete inteligente, pesquisa e 
marcação de dados e consulta de assistência.
( ) O aplicativo permite criar fluxos de trabalho e, em seguida, agendá-los para serem executados 
regularmente, de forma automática. Uma interface de monitoramento mostra o progresso, registra e permite 
ações, como pausar ou interromper tarefas.
( ) Os painéis são uma maneira interativa de explorar os dados com rapidez e facilidade. Nenhuma 
programação é necessária e a análise é feita por arrastar e soltar e clicar.
( ) Os navegadores do Hue permitem que você pesquise, observe e realize ações em dados, ou tarefas em 
nuvem ou em clusters locais.
Assinale a alternativa que apresenta a sequência CORRETA:
A I - IV - III - II.
B II - IV - III - I.
C I - II - III - IV.
D IV - III - II - I.
As RDDs abstraem um conjunto de objetos distribuídos no cluster, geralmente executados na memória 
principal. Estes podem estar armazenados em sistemas de arquivo tradicional, no HDFS (Hadoop Distributed 
File System) e em alguns Banco de Dados NoSQL, como Cassandra e HBase. Ele é o objeto principal do 
modelo de programação do Spark, pois são nesses objetos que serão executados os processamentos dos 
dados. Sobre RDDs, classifique V para as sentenças verdadeiras e F para as falsas:
( ) É uma sequência de operações. Ao contrário de uma transformação, que opera sobre as linhas de dados 
em paralelo, um RDD realiza operações completas, uma por uma.
( ) Resiliente, isto é, tolerante a falhas com a ajuda do gráfico de linhagem RDD e, portanto, capaz de 
recuperar partições ausentes ou danificadas devido a falhas de nó.
( ) Distribuído com dados que residem em vários nós em um cluster.
 VOLTAR
A+
Alterar modo de visualização
1
2
21/03/2024, 10:41 Avaliação Final (Objetiva) - Individual
about:blank 2/5
( ) O conjunto de dados (dataset) é uma coleção de dados particionados com valores primitivos ou valores 
de valores, por exemplo, tuplas ou outros objetos (que representam registros dos dados com os quais você 
trabalha).
Assinale a alternativa que apresenta a sequência CORRETA:
FONTE: https://www.devmedia.com.br/introducao-ao-apache-spark/34178. Acesso em: 27 maio 2021.
A F - F - V - V.
B F - V - V - V.
C V - V - F - F.
D V - F - V - V.
Apache Spark é um DISC que provê execução paralela e escalável de scripts com uso intensivo de 
dados. O Spark é baseado no processamento distribuído de dados em memória, por meio de uma abstração 
chamada RDD (do inglês Resilient Distributed Dataset). Sobre RDD, associe os itens, utilizando o código a 
seguir:
I- In-Memory.
II- Imutável. 
III- Preguiçoso.
IV- Cacheable.
( ) Você pode armazenar todos os dados em um "armazenamento" persistente como a memória (padrão e o 
mais preferido) ou o disco (o menos preferido, devido à velocidade de acesso).
( ) Dentro do RDD não estão disponíveis ou transformados até que uma ação seja executada para acionar a 
execução.
( ) Não muda depois de criado, e só pode ser transformado usando transformações para novos RDDs.
( ) São armazenados na memória tanto quanto possível (tamanho) e longos (tempo).
Assinale a alternativa que apresenta a sequência CORRETA:
FONTE: GUEDES, Thaylon et al. Análise On-line de Dados de Proveniência e de Domínio de Aplicações 
Spark com SAMbA. In: SBBD Companion. 2018. p. 17-22.
A I - II - III - IV.
B IV - III - II - I.
C I - IV - II - IV.
D I - IV - III - II.
A panóplia de frameworks de Big Data existentes e a complexidade, tanto da escolha das ferramentas 
adequadas como da sua implementação, requer um processo de investigação exigente, de forma a 
proporcionar uma solução exequível e o mais próximo possível da resolução do problema. Sobre a definição 
de framework, assinale a alternativa CORRETA:
A Um framework é um conjunto de códigos SQL.
B Um framework é um conjunto de problemas.
3
4
21/03/2024, 10:41 Avaliação Final (Objetiva) - Individual
about:blank 3/5
C Um framework é um conjunto de códigos python.
D Um framework é um conjunto de soluções para um conjunto de problemas.
O Apache Spark é uma plataforma voltada ao processamento distribuído de dados em memória. O 
Apache Spark é um framework open source que oferece uma plataforma voltada para a computação 
distribuída e paralela, com ênfase em Big Data Streaming. Sobre os componentes do framework Apache 
Spark, classifique V para as sentenças verdadeiras e F para as falsas:
( ) MLib é uma extensão que faz parte do núcleo da API Spark. O Spark Streaming facilita a criação de 
fluxos de processamento tolerante a falhas sobre dados em streaming e em tempo real.
( ) GraphX é a API do Apache Spark para gráficos (por exemplo, Web-Graphs e Redes Sociais) e 
computação em paralelo gráfico (por exemplo, PageRank e Collaborative Filtering). Inclui uma biblioteca 
embutida de algoritmos de gráficos e construtores.
( ) SPARQL é uma recomendação do W3C a partir de janeiro de 2008. Seu propósito é permitir que 
arquivos RDF sejam consultados através de uma linguagem. O Spark é uma linguagem de consumo de 
dados, assim como a SQL.
( ) Spark Streaming permite utilizar recursos de aprendizado de máquina. A diferença desta biblioteca para 
as convencionais utilizadas pelas linguagens de programação é que foi desenvolvida para uso paralelo e 
distribuído. 
Assinale a alternativa que apresenta a sequência CORRETA: 
FONTE: CARDOSO, Paulo Vinicus; FAZUL, Rhauani Weber Aita; BARCELOS, Patrícia Pitthan. Validação 
de Políticas para o Estabelecimento Dinâmico de Checkpoints no Apache Spark. In: Anais do XXXVIII 
Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos - SBC, 2020. p. 29-42.
A V - F - V - V.
B F - V - V - F.
C F - V - F - V.
D F - V - F - F.
No meio da análise de dados, um conceito que ganha força e no qual grande parte do MapReduce está 
baseado é o Big Data. Trata-se de um termo empregado para descrever o crescimento, o uso e a 
disponibilidade das informações, sejam elas estruturadas ou não. Para o Big Data, o importante não é a 
coleta de grandes quantidades de dados, mas sim como eles são processados. O potencial que ele traz para as 
empresas é imenso e para utilizá-lo, elas precisam ser capazes de aproveitar as informações contidas em suas 
gigantescas bases de dados para tomar as melhores decisões. Sobre o MapReduce, assinale a alternativa 
CORRETA:
A MapReduce é um componente do Hadoop, não sendo necessário para sua execução.
B MapReduce é a linguagem de programação nativa do Hadoop, que permite com que sejam
armazenados dados distribuídos.
C
MapReduce é um modelo de programação, no qual o modelo usa chaves e valores para vincular dados de
entrada à função Map, responsável por reconhecer as entradas e a função Reduce para agrupar e diminuir
a saída.
D MapReduce é o banco de dados nativo do Hadoop, que permite com que sejam armazenados dados
distribuídos.
5
6
21/03/2024, 10:41 Avaliação Final (Objetiva) - Individualabout:blank 4/5
O Apache Hadoop também é usado amplamente como motor de muitos sistemas de processamento de 
consultas básicas, bem como para processamento de grandes volumes de dados. Sobre os componentes do 
framework Apache Hadoop, classifique V para as sentenças verdadeiras e F para as falsas:
( ) Hbase é o banco NOSQL (Not Only SQL) que é nativo dentro do apache Hadoop.
( ) Sqoop é um framework que implementa o modelo de programação MapReduce, o qual visa dividir a 
informação para processar em blocos separados e concorrentes.
( ) Hadoop MapReduce é uma ferramenta que cria uma interface do Apache Hadoop com bancos de dados 
relacionais e ferramentas de data warehouse.
( ) Zookeeper é um serviço de distribuição de coordenadas do Apache Hadoop, desenvolvido para trabalhar 
em clusters do qual existem diversos outros componentes.
Assinale a alternativa que apresenta a sequência CORRETA:
A F - V - V - V.
B V - F - V - V.
C V - F - V - F.
D V - F - F - V.
O Apache Spark é implementado em conjunto, com um cluster do Hadoop, e o Spark pode se 
beneficiar de vários recursos, como resultado. Por si só, o Spark é uma ferramenta poderosa para processar 
grandes volumes de dados, mas ainda não é adequado para cargas de trabalho de produção na empresa. 
Acerca da relação entre Spark e Hadoop, classifique V para as sentenças verdadeiras e F para as falsas:
( ) Fazem as mesmas coisas.
( ) Você pode usar um sem o outro.
( ) O Spark é uma linguagem de programador.
( ) O Hadoop é um banco de dados.
Assinale a alternativa que apresenta a sequência CORRETA:
A F - V - V - F.
B V - V - F - F.
C F - V - F - V.
D F - V - F - F.
Inicialmente, as máquinas virtuais permitem a criação de um ambiente de execução, possivelmente 
com um conjunto de bibliotecas e sistemas operacionais próprios, onde uma aplicação pode executar sobre 
uma plataforma de hardware comum junto a outras máquinas. Sobre os nomes de distribuidores de máquinas 
virtuais com Apache Hadoop, assinale a alternativa CORRETA:
A Coursera, Hortonworks, MapReduce e Bitnami.
B Cloudera, Hortonworks, MapR e Bitnami.
C Google, Amazon AWS, IBM.
7
8
9
21/03/2024, 10:41 Avaliação Final (Objetiva) - Individual
about:blank 5/5
D NoSQL, Oracle e Microsoft.
O Spark é um framework que possibilita a execução das tarefas paralelizáveis de forma distribuída em 
máquinas multi-core ou clusters YARN/Mesos, com ênfase no processamento em pipeline de atividades, 
com alocação de arquivos intermediários primordialmente em servidores distribuídos. Sobre as 
características das RDDs, classifique V para as sentenças verdadeiras e F para as falsas:
( ) A RDD pode ser executada paralela, ou seja, processar os dados em paralelo.
( ) A RDD pode ser digitada, pois os registros RDD possuem tipos, por exemplo, Long em RDD[Long] ou 
(Int, String) em RDD [(Int, String)].
( ) A RDD pode ser particionada, com os registros particionados (divididos em partições lógicas) e 
distribuídos entre nós em um cluster.
( ) A RDD pode ter localização, sendo que o RDD pode definir as preferências de posicionamento para 
calcular as partições (haver proximidade com os registros).
Assinale a alternativa que apresenta a sequência CORRETA:
A V - F - V - V.
B V - V - V - V.
C F - F - V - V.
D V - V - F - F.
10
Imprimir

Outros materiais