AVA - Arquitetura de Coleta e Armazenamento de Dados Hadoop e Spark

•

Uniasselvi

André Souza

13/08/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Armazenamento de Dados

55 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

13/06/2022 19:34 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645443 1/6
Avaliação
Acadêmico / Notas e Avaliações / Gabarito
Avaliação da Disciplina
Disciplina: Arquitetura de Coleta e Armazenamento de Dados: Hadoop e Spark (17323)
Prova: 43716291
Nos dias de hoje geramos muito mais dados com dispositivos como celular e TVs. Além disso, temos as mídias sociais que geram a todo tempo informações
majoritariamente públicas. Hoje já é realidade a existência de carros, geladeiras e dispositivos vestíveis (wearable devices) conectados entre si e gerando
ainda mais dados para serem processados e transformados em informações úteis.
Um mecanismo utilizado em problemas de grandes volumes de dados é a computação paralela. Selecione a alternativa CORRETA sobre computação paralela.
A)
Na arquitetura paralela o objetivo é “uni�car” os processos, ou seja, uni�car entre os núcleos.
B)
Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, pegar os processos de vários núcleos e executar em apenas um.
C)
Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, distribuir entre vários computadores.

D)
Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, dividir entre os núcleos.
A explosão exponencial de dados digitais forçou pesquisadores a encontrarem novas formas de ver e analisar o mundo. Trata-se de descobrir novas ordens de
grandeza para capturar, pesquisar, compartilhar, armazenar, analisar e apresentar dados. É assim que o "big data" nasceu, um conceito para armazenar uma
quantidade enorme de informações em uma base digital.
Selecione a alternativa CORRETA com a linguagem de programação considerada a linguagem tendência para Big Data.
A)
Delphi.
B)
Visual Basic.

C)
Python.
D)
C++.
A proposta de uma solução de Big Data é oferecer uma abordagem consistente no tratamento do constante crescimento e da complexidade dos dados. Para
tanto, o conceito considera os 5 Vs do Big Data: o Volume, a Velocidade, a Variedade, a Veracidade e o Valor.
Selecione a alternativa CORRETA sobre volume em cenário de Big Data.
A)
O Volume pode ser de�nido pelas fontes de coleta de dados, desde sistemas de informações gerenciais, sensores, GPS, celular, câmeras de vídeos, entre
todo e qualquer dispositivo que armazene dados.

B)
O volume trata de toda a massa de dados existente na organização, são milhões de Gigabytes gerados todos os dias, distribuídos em datacenters por todo
o mundo.
C)
O Volume tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos problemas de desempenho dos bancos de dados
relacionais em gerenciar a imensa quantidade de dados produzidos.
D)
O Volume trata de diversas formas de armazenamento, rotuladas como armazenamento estruturado, semiestruturado e não estruturado.
Alterar modo de visualização
1
2
3
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes
13/06/2022 19:34 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645443 2/6
O o u e t ata de d e sas o as de a a e a e to, otu adas co o a a e a e to est utu ado, se est utu ado e ão est utu ado.
Em um cenário de grandes volumes de dados a primeira etapa é a coleta, a segunda a preparação e por último o armazenamento, que permite futuras análises.
Para isso, comumente utilizamos os ditos frameworks de Big Data.
Selecione a alternativa CORRETA com a de�nição de framework.
A)
Um framework é um conjunto de códigos python.

B)
Um framework é um conjunto de soluções para um conjunto de problemas.
C)
Um framework é um conjunto de problemas.
D)
Um framework é um conjunto de códigos SQL.
No que se refere à análise de informações, um fator primordial é o dado. Sem ele nada seria possível em um cenário de conceitos, é a matéria-prima para todo
o processo de geração de informação e conhecimento. Os dados podem ser compreendidos como: estruturados, não estruturados e semiestruturado.
Selecione a alternativa CORRETA sobre os dados estruturados.
A)
São dados que tem estrutura.

B)
São dados que estão armazenados em uma estrutura previamente de�nida, tradicionalmente, os softwares os utilizam na forma de SGBDR (Sistemas
Gerenciadores de Bancos de Dados Relacionais) ou BDR (Bancos de Dados Relacionais).
C)
Tal estrutura é incremental e vai se alterando no passar do tempo. São exemplos de dados semiestruturados: planilhas excel, arquivos CSV, documentos
XML, documentos JSON.
D)
São aqueles que necessitam de algum processamento para descobrir uma estrutura.
O termo Big Data começa a despertar muita atenção, mas ainda é um conceito mal de�nido e menos compreendido. Com uma rápida pesquisa no Google, é
possível identi�car pelo menos uma dúzia de de�nições. Sem entrar em de�nições, mas nos atendo apenas a conceitos, podemos resumir com uma fórmula
simples, Big Data = volume + variedade + velocidade de dados.
Selecione a alternativa CORRETA sobre velocidade em cenário de Big Data.

A)
Velocidade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos problemas de desempenho dos bancos de dados
relacionais em gerenciar a imensa quantidade de dados produzidos.
B)
A velocidade trata de diversas formas de armazenamento, rotuladas como armazenamento estruturado, semiestruturado e não estruturado.
C)
A velocidade pode ser de�nida pelas fontes de coleta de dados, desde sistemas de informações gerenciais, sensores, GPS, celular, câmeras de vídeos, entre
todo e qualquer dispositivo que armazene dados.
D)
A velocidade trata de toda a massa de dados existente na organização, são milhões de Gigabytes gerados todos os dias, distribuídos em datacenters por
todo o mundo.
O Spark é um framework para processamento de Big Data construído com foco em velocidade, facilidade de uso e análises so�sticadas. Oferece APIs de alto
nível em Java, Scala e Python, bem como um conjunto de bibliotecas que o tornam capaz de trabalhar de forma integrada, em uma mesma aplicação, com
SQL streaming e análises complexas para lidar com uma grande variedade de situações de processamento de dados
4
5
6
7
13/06/2022 19:34 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645443 3/6
SQL, streaming e análises complexas, para lidar com uma grande variedade de situações de processamento de dados.
Selecione a alternativa CORRETA que traz os principais componentes do SPARK.
A)
Spark Base, Spark Streamming, Spark MLib,GraphX.

B)
Spark SQL, Spark Streamming, Spark MLib,GraphX.
C)
Sparql, Spark File System, Spark Base,GraphX.
D)
Spark SQL, Spark File System , Spark Scala,GraphX.
Tanto as empresas como as famílias podem elaborar um planejamento para que as metas estabelecidas sejam alcançadas. No planejamento, são
estabelecidas ações baseadas em estudos dos ambientes interno e externo. Sobre o planejamento e suas características, analise as sentenças que seguem:
I – O planejamento deve ser um processo rígido, no qual as ações não podem ser alteradas.
II – O planejamento é um processo dinâmico, pois novos objetivos podem ser inseridos.
III – O planejamento deve ser fundamentado em aspectos emocionais e informações concretas.
IV – O planejamento tem como objetivo melhorar o desempenho e antecipar situações.
Assinale a alternativa que apresenta a resposta correta:
A) As sentenças II e IV, estão corretas.
B) As sentenças I e III, estão corretas.
C) As sentenças II e III, estão corretas.
D) As sentenças I e IV, estão corretas.
O projeto Apache Hadoop foi criado no ano de 2005 por Doug Cutting, que colocou o nome de Hadoop em homenagem ao seu �lho, pois este era o nome do
elefante de pelúcia de seu �lho. Doug Cutting desenvolveu uma estrutura de arquivos distribuídos baseados em dois artigos disponibilizados sobre tecnologias
desenvolvidas pelo Google.
Selecione a alternativa CORRETA que traz o nome de tecnologias desenvolvidas pelo Google que serviram de base para acriação do Hadoop.
A)
Google Earth e Google Mail.
B)
Google Earth e Google File System.

C)
Google Map Reduce e Google File System (GFS).
D)
Google Drive e Google Reduce.
Para garantir o sucesso de um planejamento, ele deve seguir uma sequência de ações que são ordenadas de modo a analisar o presente e o futuro, sempre
tendo como ponto �nal nossos objetivos.
Sobre o planejamento, assinale a alternativa correta:
A) O plano de ação deve considerar apenas o cenário futuro, realizando previsões baseadas na emoção e na razão.
B) Não podemos de�nir um plano de ação como o mais adequado, pois os cenários estão em constante mudança.
C) Uma vez de�nido, o plano de ação deve ser implantado e, caso julgado incoerente, deve ser refeito.
D) Depois de elaborado, o plano de ação deve ser implantado, avaliado e adotadas medidas de correção sempre que necessário.
8
9
10
13/06/2022 19:34 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645443 4/6
O planejamento deve ser realizado seguindo uma sequência de passos. O primeiro passo é a de�nição dos objetivos, ou seja, onde se deseja chegar. Em
paralelo, deve-se analisar a situação atual, veri�cando onde se está e o que precisa ser feito para atingir o objetivo. A etapa que ocorre paralelamente à
de�nição dos objetivos, chama-se...
Assinale a alternativa que completa corretamente a frase:
A) Oportunidades.
B) Ameaças.
C) Estratégia.
D) Diagnóstico.
Analise o Texto a seguir: “Imagine que você possui um grande galpão para pintar. Você pode fazer essa tarefa sozinho, o que pode demorar bastante, ou
contratar vários pintores para acelerar o processo. Quanto mais pintores (ainda que até um certo limite, neste exemplo), menos tempo será necessário para
�nalizar a pintura. Ou seja, a tarefa é feita por vários agentes, cada um deles responsável por uma parte da pintura. Uma botnet é basicamente isso, só que
com computadores”.
Assinale a alternativa CORRETA sobre a tecnologia que o texto acima trata.

A)
Computação Paralela.
B)
Dados estruturados.
C)
Bancos de Dados Relacionais.

D)
Computação Distribuída.
A gênese do Hadoop veio do papel Google File System, que foi publicado em Outubro de 2003. Este trabalho deu origem a outro trabalho de pesquisa do
Google – MapReduce: simpli�cado Processamento de Dados em grandes aglomerados. Desenvolvimento começou no projeto Apache Nutch, mas foi
transferido para o novo subprojeto Hadoop em janeiro de 2006. O primeiro committer adicionado ao projeto Hadoop foi Owen O’Malley em março de 2006.
Hadoop 0.1.0 foi lançado em abril de 2006 e continua a evoluir por muitos contribuintes para o projeto Apache Hadoop.
Dentre seus componentes, o Hadoop contém o Hue. Sobre o Apache Hue, selecione a alternativa CORRETA.
A)
O Hue (Hadoop User Experience), também conhecido como HUX, é a abordagem do Hadoop para melhorar a experiência do usuário.
B)
O Hue (Hadoop User Experience Database) é o banco de dados do Apache Hadoop, utilizado como SGBD.

C)
O Hue (Hadoop User Experience) é uma interface grá�ca do usuário com base na Web e de código-fonte aberto do Apache Hadoop. O Hue agrupa vários
projetos de ecossistemas Hadoop diferentes em uma interface con�gurável.
D)
O Hue (Hadoop User Experience) é uma interface grá�ca do usuário, ou seja, será com ele que serão desenvolvidas aplicações Web.
JSON (JavaScript object Notation) é uma forma de armazenamento e transmissão de dados em formato de texto. Sua forma simples e compacta de estruturar
informações tem ganhado espaço em aplicações em que o formato XML reinava até então como em aplicações Web, por exemplo. A Google é uma das
empresas que se destaca na utilização de JSON, tendo inclusive desenvolvido a biblioteca Gson inicialmente para �ns internos, que tem como �nalidade a
conversão de objetos Java em JSON.
No que se refere aos tipos de dados, um documento JSON contém:

A)
Dados semiestruturados.
B)
Dados não estruturados.
11
12
13
14
13/06/2022 19:34 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645443 5/6
C)
Dados do tipo NoSQL.

D)
Dados estruturados.
O planejamento é uma das funções básicas da administração de qualquer organização e pessoa, seja no ramo empresarial, educacional ou pessoal, sendo
uma ferramenta que possibilita prever problemas e reduzir os impactos que eles trarão. Nesse sentido, podemos a�rmar que o planejamento permite que...
Assinale a alternativa que completa corretamente a frase:
A) Sejam corrigidas imperfeições nos processos de trabalho, adequando o ambiente interno.
B) Sejam de�nidas as ações a serem seguidas, analisando o que é mais adequado de acordo com os objetivos.
 C) Sejam organizados os recursos que serão utilizados, identi�cando pessoas para atribuir tarefas e funções.
D) Sejam analisados os caminhos e suas chances de sucesso, rumo ao alcance dos objetivos.
Dentre os diversos desa�os de um cenário de Big Data, o que se destaca é a fragmentação, distribuição e armazenamento das bases de dados, ou seja,
mesmo que seja utilizado um cluster que empregue o conceito de computação paralela e distribuída é necessário um modelo computacional para fragmentar,
distribuir e respectivamente e recuperar estes dados.
Selecione a alternativa CORRETA com o nome do modelo de programação para Big Data.
A)
Shu�e.
B)
SQL.

C)
Map Reduce.
D)
NoSQL.
Foi Einstein, homem com uma das cabeças mais geniais que já pisou neste mundo, que disse que “Deus não joga dados”. Referia-se aos pequenos cubos
numerados usados em jogos e apostas nas quais estatística e sorte andam sempre de mãos dadas.
Ao mensurar o volume de dados no mundo o IDC (International Data Corporation) estimou que haverá, até 2020, um valor sobre os dados. Selecione a
alternativa CORRETA do valor estimado pelo IDC.

A)
44 zettabytes
B)
44 bytes
C)
44 megaabytes
D)
44 kilobytes
O Big Data é, simplesmente, uma das grandes revoluções dos últimos anos e veio para �car no mercado mundial. Pode ser que os termos se modi�quem com
o passar do tempo, mas o grande conceito que precisa ser compreendido é a possibilidade existente no mundo atual de se ter uma quantidade imensa de
dados armazenados, com uma variedade in�nitamente superior à do passado e podendo ser trabalhados, analisados, cruzados e interpretados com muito
mais velocidade e e�cácia.
A busca por informação sempre foi primordial em qualquer mercado e é extremamente importante coletar e organizar os dados disponíveis, seja nos
processos que movimentam o negócio ou mesmo no meio externo à organização.
15
16
17
18
13/06/2022 19:34 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645443 6/6
Uniasselvi © 2022
Selecione a alternativa CORRETA sobre variedade em cenário de Big Data.
A)
A Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos problemas de desempenho dos bancos de dados
relacionais em gerenciar a imensa quantidade de dados produzidos.

B)
A Variedade se remete aos diversos dispositivos de coleta, bem como aos tipos de dados que podem ser estruturados, semiestruturados e não
estruturados.
C)
Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos problemas de desempenho dos bancos de dados
relacionais em gerenciar a imensa quantidade de dados produzidos.
D)
A variedade pode ser compreendida como um banco de dados com ênfase em transação, alimentado por diversas fontes.
As soluções do Cloudera para clusters oferecem escalabilidade, �exibilidade, integração da plataforma que torna fácil o gerenciamento de grandes volumes e
variedades de dados na maioria dos empreendimentos. Essa ferramenta permite a implantação e gerenciamento do Apache Hadoop e de projetos
relacionados para manipular e analisar os dados, bem como mantê-los.
Selecione a alternativa correta que traz os itens do ambiente cloudera.
A)
HDFS, Cloudera Impala, Cloudera Manager,NoSQL.B)
HDFS, Cloudera DB, Cloudera Manager, Cloudera System.
C)
CDH, Cloudera Databases, Cloudera Manager,Cloudera Chrome.

D)
CDH, Cloudera Impala, Cloudera Manager,Cloudera Navigator.
O dado tem sido considerado o petróleo da nova era. A tecnologia existente hoje é completamente con�ável, mas os softwares e plataformas apenas ajudam a
organizar. Tornar o projeto viável depende de conhecer conceitos e a própria cultura do ambiente corporativo. De acordo com estudos, 80% do conteúdo
produzido em uma empresa normal é em formato não estruturado, mas o que isso signi�ca e qual a diferença para um estruturado?
Selecione a alternativa CORRETA sobre Big Data.

A)
Big Data, tem como tradução literal “grandes dados”, termo inicialmente instituído para determinar o grande volume de dados gerados pelos sistemas de
informação. Podendo ser representado sobre a soma de volume, variedade e velocidade.
B)
Big data são os dados semiestruturados.
C)
Big Data, tem como tradução literal “pequenos dados”, termo inicialmente instituído para determinar o grande volume de dados gerados pelos sistemas de
informação. Podendo ser representado sobre a soma de volume, variedade e velocidade.
D)
Big Data é um tipo de banco de dados relacional.
19
20
Voltar