Arquitetura de Coleta e Armazenamento de Dados_Hadoop e Spark_17323

•

UNIASSELVI

Camila Inhaquites

01.02.2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 9 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Armazenamento de Dados

55 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

31/01/2022 11:34 Avaliação da Disciplina
1/9
Prova Impressa
GABARITO | Avaliação da Disciplina (Cod.:645443)
Peso da Avaliação 10,00
Prova 31283276
Qtd. de Questões 20
Nota 9,50
O Hadoop é um framework Open-source desenvolvido pela Apache e baseado na linguagem Java que
tem como principal objetivo processar uma grande quantidade de dados de forma mais eficiente
possível. Esse aplicativo funciona em ambientes de computação distribuída, nos quais são utilizados
clusters. Ele foi projetado para realizar a expansão de um servidor único para milhares de outras
máquinas, cada uma disponibilizando computação local e armazenamento.

Dentro do Hadoop, existe o Hue e o Impala. Selecione a alternativa CORRETA sobre esses
componentes.
A
Impala e Hive como parte do projeto Stinger estão competindo pela liderança na corrida pelo
SQL interativo para implementações Big Data. Recentemente a Cloudera anunciou que o Impala
é de 6 a 69 vezes mais rápido do que a versão 0.12 do Hive e superou em média 2 vezes um não
informado DBMS.
B Impala e Hive são linguagens de programação do Apache Hadoop, ambos brigam pelo mercado
diretamente com Python e Scala.
C Impala e Hive são bases de dados nativas, utilizadas para realização de experimentos.
D Impala e Hive são SGBDs do Apache Hadoop, ambos brigam pelo mercado.
A proposta de uma solução de Big Data é oferecer uma abordagem consistente no tratamento do
constante crescimento e da complexidade dos dados. Para tanto, o conceito considera os 5 Vs do Big
Data: o Volume, a Velocidade, a Variedade, a Veracidade e o Valor.

Selecione a alternativa CORRETA sobre volume em cenário de Big Data.
A O Volume trata de diversas formas de armazenamento, rotuladas como armazenamento
estruturado, semiestruturado e não estruturado.
B O volume trata de toda a massa de dados existente na organização, são milhões de Gigabytes
gerados todos os dias, distribuídos em datacenters por todo o mundo.
C
O Volume pode ser definido pelas fontes de coleta de dados, desde sistemas de informações
gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e qualquer dispositivo que
armazene dados.
VOLTAR
A+ Alterar modo de visualização
1
2
31/01/2022 11:34 Avaliação da Disciplina
2/9
D
O Volume tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido
aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade
de dados produzidos.
O termo Big Data começa a despertar muita atenção, mas ainda é um conceito mal definido e menos
compreendido. Com uma rápida pesquisa no Google, é possível identificar pelo menos uma dúzia de
definições. Sem entrar em definições, mas nos atendo apenas a conceitos, podemos resumir com uma
fórmula simples, Big Data = volume + variedade + velocidade de dados.

Selecione a alternativa CORRETA sobre velocidade em cenário de Big Data.
A A velocidade trata de diversas formas de armazenamento, rotuladas como armazenamento
estruturado, semiestruturado e não estruturado.
B
A velocidade pode ser definida pelas fontes de coleta de dados, desde sistemas de informações
gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e qualquer dispositivo que
armazene dados.
C A velocidade trata de toda a massa de dados existente na organização, são milhões de Gigabytes
gerados todos os dias, distribuídos em datacenters por todo o mundo.
D
Velocidade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido
aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade
de dados produzidos.
O dado tem sido considerado o petróleo da nova era. A tecnologia existente hoje é completamente
confiável, mas os softwares e plataformas apenas ajudam a organizar. Tornar o projeto viável depende
de conhecer conceitos e a própria cultura do ambiente corporativo. De acordo com estudos, 80% do
conteúdo produzido em uma empresa normal é em formato não estruturado, mas o que isso significa
e qual a diferença para um estruturado?

Selecione a alternativa CORRETA sobre Big Data.
A
Big Data, tem como tradução literal “pequenos dados”, termo inicialmente instituído para
determinar o grande volume de dados gerados pelos sistemas de informação. Podendo ser
representado sobre a soma de volume, variedade e velocidade.
B Big data são os dados semiestruturados.
C Big Data é um tipo de banco de dados relacional.
D
Big Data, tem como tradução literal “grandes dados”, termo inicialmente instituído para
determinar o grande volume de dados gerados pelos sistemas de informação. Podendo ser
representado sobre a soma de volume, variedade e velocidade.
3
4
31/01/2022 11:34 Avaliação da Disciplina
3/9
Em um cenário de grandes volumes de dados a primeira etapa é a coleta, a segunda a preparação e
por último o armazenamento, que permite futuras análises. Para isso, comumente utilizamos os ditos
frameworks de Big Data.

Selecione a alternativa CORRETA com a definição de framework.
A Um framework é um conjunto de códigos python.
B Um framework é um conjunto de códigos SQL.
C Um framework é um conjunto de soluções para um conjunto de problemas.
D Um framework é um conjunto de problemas.
Existem empresas de Big Data que disponibilizam máquinas virtuais com o Hadoop instalado e
executando. Essas máquinas virtuais contêm as próprias distribuições dessas empresas, que no geral
guardam a documentação em site oficial e todos os recursos do projeto original complementado de
particularidades de cada uma. As máquinas virtuais são disponibilizadas de maneira gratuita, basta
realizar o download e utilizá-las.

Selecione a alternativa CORRETA que traz o nome de distribuidores de máquinas virtuais com
Apache Hadoop.
A Cloudera, Hortonworks, MapR e Bitnami.
B NoSQL, Oracle e Microsoft.
C Coursera, Hortonworks, MapReduce e Bitnami.
D Google, Amazon AWS, IBM.
O Apache Hadoop é denominado como um Framework de Big Data, de acordo com a definição é um
conjunto de soluções voltado para um conjunto de problemas. Em seu desenvolvimento inicial tinha
como objetivo o particionamento e distribuição dos dados em um cluster, bem como a recuperação
dos mesmos. No entanto, com os diversos desafios na era do Big Data, desde a pluralidade de bancos
de dados, fontes de dados, bem como técnicas de mineração de dados, o framework se adapta para
resolver os problemas através de seus subprojetos.
5
6
7
31/01/2022 11:34 Avaliação da Disciplina
4/9

Selecione a alternativa CORRETA sobre a linguagem em que o Apache Hadoop foi desenvolvido:
A C
B Java
C Python
D C++
Dentre os diversos desafios de um cenário de Big Data, o que se destaca é a fragmentação,
distribuição e armazenamento das bases de dados, ou seja, mesmo que seja utilizado um cluster que
empregue o conceito de computação paralela e distribuída é necessário um modelo computacional
para fragmentar, distribuir e respectivamente e recuperar estes dados.

Selecione a alternativa CORRETA com o nome do modelo de programação para Big Data.
A NoSQL.
B Map Reduce.
C SQL.
D Shuffle.
O Hadoop é um projeto que oferece uma solução para problemas relacionados à Big Data, tendo em
seu núcleo duas partes essenciais: o Hadoop Distributed Filesystem (HDFS), que é um sistema de
arquivos distribuído e confiável, responsável pelo armazenamento dos dados, e o próprio Hadoop
MapReduce, responsável pela análise e processamento dos dados. Ambos possuem a confiabilidade
como uma marca, o que torna o sistema muito robusto para aplicações que envolvem dados massivos
e importantes para as organizações que o utilizam.

Selecione a alternativa correta sobre o HDFS:
A
O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuído projetado para
ser executado em hardware comum. Tem muitas semelhanças com sistemas de arquivos
distribuídos existentes. No entanto, as diferenças de outros sistemas de arquivos distribuídos são
significativas.
B
O Hadoop DistributedFile System (HDFS) é o sistema de arquivos distribuídos para que
8
9
31/01/2022 11:34 Avaliação da Disciplina
5/9
B
ambientes Windows possam executar o Hadoop.
C O Hadoop Distributed File System (HDFS) é o banco de dados do Hadoop que permite com que
se execute consultas complexas.
D O Hadoop Distributed File System (HDFS) é sistema de arquivos distribuídos que faz com que
o Hadoop funcione sem a necessidade do MapReduce.
Analise o Texto a seguir: “Imagine que você possui um grande galpão para pintar. Você pode fazer
essa tarefa sozinho, o que pode demorar bastante, ou contratar vários pintores para acelerar o
processo. Quanto mais pintores (ainda que até um certo limite, neste exemplo), menos tempo será
necessário para finalizar a pintura. Ou seja, a tarefa é feita por vários agentes, cada um deles
responsável por uma parte da pintura. Uma botnet é basicamente isso, só que com computadores”.

Assinale a alternativa CORRETA sobre a tecnologia que o texto acima trata.
A Computação Distribuída.
B Dados estruturados.
C Computação Paralela.
D Bancos de Dados Relacionais.
As soluções do Cloudera para clusters oferecem escalabilidade, flexibilidade, integração da
plataforma que torna fácil o gerenciamento de grandes volumes e variedades de dados na maioria dos
empreendimentos. Essa ferramenta permite a implantação e gerenciamento do Apache Hadoop e de
projetos relacionados para manipular e analisar os dados, bem como mantê-los.

Selecione a alternativa correta que traz os itens do ambiente cloudera.
A CDH, Cloudera Databases, Cloudera Manager,Cloudera Chrome.
B HDFS, Cloudera DB, Cloudera Manager, Cloudera System.
C HDFS, Cloudera Impala, Cloudera Manager,NoSQL.
D CDH, Cloudera Impala, Cloudera Manager,Cloudera Navigator.
10
11
12
31/01/2022 11:34 Avaliação da Disciplina
6/9
No que se refere à análise de informações, um fator primordial é o dado. Sem ele nada seria possível
em um cenário de conceitos, é a matéria-prima para todo o processo de geração de informação e
conhecimento. Os dados podem ser compreendidos como: estruturados, não estruturados e
semiestruturado.

Selecione a alternativa CORRETA sobre os dados estruturados.
A São aqueles que necessitam de algum processamento para descobrir uma estrutura.
B Tal estrutura é incremental e vai se alterando no passar do tempo. São exemplos de dados
semiestruturados: planilhas excel, arquivos CSV, documentos XML, documentos JSON.
C São dados que tem estrutura.
D
São dados que estão armazenados em uma estrutura previamente definida, tradicionalmente, os
softwares os utilizam na forma de SGBDR (Sistemas Gerenciadores de Bancos de Dados
Relacionais) ou BDR (Bancos de Dados Relacionais).
Hadoop e Spark são matrizes de Big Data, mas não têm as mesmas finalidades. A primeira é,
essencialmente, uma infraestrutura de dados distribuída de software. Distribui conjuntos de dados em
massa por vários nós em agrupamentos de servidores básicos, prescindindo da compra e manutenção
de hardware específico e caro. Também faz índices e mantém o controle sobre localização dos dados,
permitindo um processamento mais eficaz de grandes volumes de dados e processos de analítica. A
Spark é uma ferramenta de processamento de dados que atua sobre esses conjuntos de dados
distribuídos. E não faz armazenamento distribuído.

Assinale a alternativa CORRETA sobre o Apache Spark:
A O Apache Spark é um framework de código-fonte aberto, distribuído pela Microsoft.
B O Apache Spark é um sistema gerenciador de banco de dados acoplado aos sistemas
operacionais de origem UNIX.
C O Apache Spark é um framework de código-fonte aberto para computação de bancos NoSQL
distribuído pela oracle.
D
SO Apache Spark é um framework de código-fonte aberto para computação distribuída. Foi
desenvolvido no AMPLab da Universidade da Califórnia e posteriormente repassado para a
Apache Software Foundation, que o mantém desde então.
O Spark é um framework para processamento de Big Data construído com foco em velocidade,
facilidade de uso e análises sofisticadas. Oferece APIs de alto nível em Java, Scala e Python, bem
como um conjunto de bibliotecas que o tornam capaz de trabalhar de forma integrada, em uma
mesma aplicação, com SQL, streaming e análises complexas, para lidar com uma grande variedade
de situações de processamento de dados.
13
14
31/01/2022 11:34 Avaliação da Disciplina
7/9

Selecione a alternativa CORRETA que traz os principais componentes do SPARK.
A Spark SQL, Spark File System , Spark Scala,GraphX.
B Sparql, Spark File System, Spark Base,GraphX.
C Spark Base, Spark Streamming, Spark MLib,GraphX.
D Spark SQL, Spark Streamming, Spark MLib,GraphX.
JSON (JavaScript object Notation) é uma forma de armazenamento e transmissão de dados em
formato de texto. Sua forma simples e compacta de estruturar informações tem ganhado espaço em
aplicações em que o formato XML reinava até então como em aplicações Web, por exemplo. A
Google é uma das empresas que se destaca na utilização de JSON, tendo inclusive desenvolvido a
biblioteca Gson inicialmente para fins internos, que tem como finalidade a conversão de objetos Java
em JSON.

No que se refere aos tipos de dados, um documento JSON contém:
A Dados do tipo NoSQL.
B Dados não estruturados.
C Dados estruturados.
D Dados semiestruturados.
A explosão exponencial de dados digitais forçou pesquisadores a encontrarem novas formas de ver e
analisar o mundo. Trata-se de descobrir novas ordens de grandeza para capturar, pesquisar,
compartilhar, armazenar, analisar e apresentar dados. É assim que o "big data" nasceu, um conceito
para armazenar uma quantidade enorme de informações em uma base digital.

Selecione a alternativa CORRETA com a linguagem de programação considerada a linguagem
tendência para Big Data.
A Python.
B C++.
15
16
31/01/2022 11:34 Avaliação da Disciplina
8/9
C Delphi.
D Visual Basic.
O Big Data é, simplesmente, uma das grandes revoluções dos últimos anos e veio para ficar no
mercado mundial. Pode ser que os termos se modifiquem com o passar do tempo, mas o grande
conceito que precisa ser compreendido é a possibilidade existente no mundo atual de se ter uma
quantidade imensa de dados armazenados, com uma variedade infinitamente superior à do passado e
podendo ser trabalhados, analisados, cruzados e interpretados com muito mais velocidade e eficácia.
A busca por informação sempre foi primordial em qualquer mercado e é extremamente importante
coletar e organizar os dados disponíveis, seja nos processos que movimentam o negócio ou mesmo no
meio externo à organização.

Selecione a alternativa CORRETA sobre variedade em cenário de Big Data.
A
A Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido
aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade
de dados produzidos.
B
Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido
aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade
de dados produzidos.
C A Variedade se remete aos diversos dispositivos de coleta, bem como aos tipos de dados que
podem ser estruturados, semiestruturados e não estruturados.
D A variedade pode ser compreendida como um banco de dados com ênfase em transação,
alimentado por diversas fontes.
O projeto Apache Hadoop foi criado no ano de 2005 por Doug Cutting, que colocou o nome de
Hadoop em homenagem ao seu filho, pois este era o nome do elefante de pelúcia de seu filho. Doug
Cutting desenvolveu uma estrutura de arquivos distribuídos baseados em dois artigos
disponibilizados sobre tecnologias desenvolvidas pelo Google.

Selecione a alternativa CORRETA que traz o nome de tecnologias desenvolvidas pelo Google que
serviram de base para a criação do Hadoop.
A Google Drive e Google Reduce.
B Google Earth e Google Mail.
C Google Earth e Google File System.
D Google MapReduce e Google File System (GFS)
17
18
31/01/2022 11:34 Avaliação da Disciplina
9/9
Google Map Reduce e Google File System (GFS).
Foi Einstein, homem com uma das cabeças mais geniais que já pisou neste mundo, que disse que
“Deus não joga dados”. Referia-se aos pequenos cubos numerados usados em jogos e apostas nas
quais estatística e sorte andam sempre de mãos dadas.

Ao mensurar o volume de dados no mundo o IDC (International Data Corporation) estimou que
haverá, até 2020, um valor sobre os dados. Selecione a alternativa CORRETA do valor estimado pelo
IDC.
A 44 megaabytes
B 44 kilobytes
C 44 zettabytes
D 44 bytes
A gênese do Hadoop veio do papel Google File System, que foi publicado em Outubro de 2003. Este
trabalho deu origem a outro trabalho de pesquisa do Google – MapReduce: simplificado
Processamento de Dados em grandes aglomerados. Desenvolvimento começou no projeto Apache
Nutch, mas foi transferido para o novo subprojeto Hadoop em janeiro de 2006. O primeiro committer
adicionado ao projeto Hadoop foi Owen O’Malley em março de 2006. Hadoop 0.1.0 foi lançado em
abril de 2006 e continua a evoluir por muitos contribuintes para o projeto Apache Hadoop.

Dentre seus componentes, o Hadoop contém o Hue. Sobre o Apache Hue, selecione a alternativa
CORRETA.
A
O Hue (Hadoop User Experience) é uma interface gráfica do usuário com base na Web e de
código-fonte aberto do Apache Hadoop. O Hue agrupa vários projetos de ecossistemas Hadoop
diferentes em uma interface configurável.
B O Hue (Hadoop User Experience Database) é o banco de dados do Apache Hadoop, utilizado
como SGBD.
C O Hue (Hadoop User Experience), também conhecido como HUX, é a abordagem do Hadoop
para melhorar a experiência do usuário.
D O Hue (Hadoop User Experience) é uma interface gráfica do usuário, ou seja, será com ele que
serão desenvolvidas aplicações Web.
19
20
Imprimir