Logo Passei Direto

A maior rede de estudos do Brasil

Grátis
9 pág.
Arquitetura de Coleta e Armazenamento de Dados_Hadoop e Spark_17323

Pré-visualização | Página 1 de 3

31/01/2022 11:34 Avaliação da Disciplina
1/9
Prova Impressa
GABARITO | Avaliação da Disciplina (Cod.:645443)
Peso da Avaliação 10,00
Prova 31283276
Qtd. de Questões 20
Nota 9,50
O Hadoop é um framework Open-source desenvolvido pela Apache e baseado na linguagem Java que
tem como principal objetivo processar uma grande quantidade de dados de forma mais eficiente
possível. Esse aplicativo funciona em ambientes de computação distribuída, nos quais são utilizados
clusters. Ele foi projetado para realizar a expansão de um servidor único para milhares de outras
máquinas, cada uma disponibilizando computação local e armazenamento.
 
Dentro do Hadoop, existe o Hue e o Impala. Selecione a alternativa CORRETA sobre esses
componentes.
A
 Impala e Hive como parte do projeto Stinger estão competindo pela liderança na corrida pelo
SQL interativo para implementações Big Data. Recentemente a Cloudera anunciou que o Impala
é de 6 a 69 vezes mais rápido do que a versão 0.12 do Hive e superou em média 2 vezes um não
informado DBMS.
B Impala e Hive são linguagens de programação do Apache Hadoop, ambos brigam pelo mercado
diretamente com Python e Scala. 
C Impala e Hive são bases de dados nativas, utilizadas para realização de experimentos.
D Impala e Hive são SGBDs do Apache Hadoop, ambos brigam pelo mercado. 
A proposta de uma solução de Big Data é oferecer uma abordagem consistente no tratamento do
constante crescimento e da complexidade dos dados. Para tanto, o conceito considera os 5 Vs do Big
Data: o Volume, a Velocidade, a Variedade, a Veracidade e o Valor.
 
Selecione a alternativa CORRETA sobre volume em cenário de Big Data.
A O Volume trata de diversas formas de armazenamento, rotuladas como armazenamento
estruturado, semiestruturado e não estruturado. 
B O volume trata de toda a massa de dados existente na organização, são milhões de Gigabytes
gerados todos os dias, distribuídos em datacenters por todo o mundo. 
C
 O Volume pode ser definido pelas fontes de coleta de dados, desde sistemas de informações
gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e qualquer dispositivo que
armazene dados. 
 VOLTAR
A+ Alterar modo de visualização
1
2
31/01/2022 11:34 Avaliação da Disciplina
2/9
D
 O Volume tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido
aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade
de dados produzidos.
O termo Big Data começa a despertar muita atenção, mas ainda é um conceito mal definido e menos
compreendido. Com uma rápida pesquisa no Google, é possível identificar pelo menos uma dúzia de
definições. Sem entrar em definições, mas nos atendo apenas a conceitos, podemos resumir com uma
fórmula simples, Big Data = volume + variedade + velocidade de dados.
 
Selecione a alternativa CORRETA sobre velocidade em cenário de Big Data.
A A velocidade trata de diversas formas de armazenamento, rotuladas como armazenamento
estruturado, semiestruturado e não estruturado.
B
 A velocidade pode ser definida pelas fontes de coleta de dados, desde sistemas de informações
gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e qualquer dispositivo que
armazene dados. 
C A velocidade trata de toda a massa de dados existente na organização, são milhões de Gigabytes
gerados todos os dias, distribuídos em datacenters por todo o mundo. 
D
 Velocidade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido
aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade
de dados produzidos. 
O dado tem sido considerado o petróleo da nova era. A tecnologia existente hoje é completamente
confiável, mas os softwares e plataformas apenas ajudam a organizar. Tornar o projeto viável depende
de conhecer conceitos e a própria cultura do ambiente corporativo. De acordo com estudos, 80% do
conteúdo produzido em uma empresa normal é em formato não estruturado, mas o que isso significa
e qual a diferença para um estruturado?
 
Selecione a alternativa CORRETA sobre Big Data.
A
 Big Data, tem como tradução literal “pequenos dados”, termo inicialmente instituído para
determinar o grande volume de dados gerados pelos sistemas de informação. Podendo ser
representado sobre a soma de volume, variedade e velocidade. 
B Big data são os dados semiestruturados.
C Big Data é um tipo de banco de dados relacional.
D
 Big Data, tem como tradução literal “grandes dados”, termo inicialmente instituído para
determinar o grande volume de dados gerados pelos sistemas de informação. Podendo ser
representado sobre a soma de volume, variedade e velocidade. 
3
4
31/01/2022 11:34 Avaliação da Disciplina
3/9
Em um cenário de grandes volumes de dados a primeira etapa é a coleta, a segunda a preparação e
por último o armazenamento, que permite futuras análises. Para isso, comumente utilizamos os ditos
frameworks de Big Data.
 
Selecione a alternativa CORRETA com a definição de framework. 
A Um framework é um conjunto de códigos python. 
B Um framework é um conjunto de códigos SQL. 
C Um framework é um conjunto de soluções para um conjunto de problemas. 
D Um framework é um conjunto de problemas.
Existem empresas de Big Data que disponibilizam máquinas virtuais com o Hadoop instalado e
executando. Essas máquinas virtuais contêm as próprias distribuições dessas empresas, que no geral
guardam a documentação em site oficial e todos os recursos do projeto original complementado de
particularidades de cada uma. As máquinas virtuais são disponibilizadas de maneira gratuita, basta
realizar o download e utilizá-las.
 
Selecione a alternativa CORRETA que traz o nome de distribuidores de máquinas virtuais com
Apache Hadoop.
A Cloudera, Hortonworks, MapR e Bitnami. 
B NoSQL, Oracle e Microsoft. 
C Coursera, Hortonworks, MapReduce e Bitnami. 
D Google, Amazon AWS, IBM.
O Apache Hadoop é denominado como um Framework de Big Data, de acordo com a definição é um
conjunto de soluções voltado para um conjunto de problemas. Em seu desenvolvimento inicial tinha
como objetivo o particionamento e distribuição dos dados em um cluster, bem como a recuperação
dos mesmos. No entanto, com os diversos desafios na era do Big Data, desde a pluralidade de bancos
de dados, fontes de dados, bem como técnicas de mineração de dados, o framework se adapta para
resolver os problemas através de seus subprojetos.
5
6
7
31/01/2022 11:34 Avaliação da Disciplina
4/9
 
Selecione a alternativa CORRETA sobre a linguagem em que o Apache Hadoop foi desenvolvido: 
A C 
B Java 
C Python 
D C++
Dentre os diversos desafios de um cenário de Big Data, o que se destaca é a fragmentação,
distribuição e armazenamento das bases de dados, ou seja, mesmo que seja utilizado um cluster que
empregue o conceito de computação paralela e distribuída é necessário um modelo computacional
para fragmentar, distribuir e respectivamente e recuperar estes dados.
 
Selecione a alternativa CORRETA com o nome do modelo de programação para Big Data. 
A NoSQL.
B Map Reduce. 
C SQL. 
D Shuffle. 
O Hadoop é um projeto que oferece uma solução para problemas relacionados à Big Data, tendo em
seu núcleo duas partes essenciais: o Hadoop Distributed Filesystem (HDFS), que é um sistema de
arquivos distribuído e confiável, responsável pelo armazenamento dos dados, e o próprio Hadoop
MapReduce, responsável pela análise e processamento dos dados. Ambos possuem a confiabilidade
como uma marca, o que torna o sistema muito robusto para aplicações que envolvem dados massivos
e importantes para as organizações que o utilizam.
 
Selecione a alternativa correta sobre o HDFS:
A
 O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuído projetado para
ser executado em hardware comum. Tem muitas semelhanças com sistemas de arquivos
distribuídos existentes. No entanto, as diferenças de outros sistemas de arquivos distribuídos são
significativas. 
B
 O Hadoop Distributed
Página123