Prova Arquitetura de Coleta e Armazenamento de Dados Hadoop e Spark (17323)

•

UNIASSELVI

1

0

1

0

claudio cesar

29/11/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Ciência de Dados

3.720 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Avaliação
Acadêmico / Notas e Avaliações / Gabarito
Avaliação da Disciplina
Disciplina: Arquitetura de Coleta e Armazenamento de Dados: Hadoop e Spark (17323)
Prova: 41657813
O projeto Apache Hadoop foi criado no ano de 2005 por Doug Cutting, que colocou o nome de Hadoop em homenagem ao seu �lho, pois este era o nome do elefante de
pelúcia de seu �lho. Doug Cutting desenvolveu uma estrutura de arquivos distribuídos baseados em dois artigos disponibilizados sobre tecnologias desenvolvidas pelo
Google.
Selecione a alternativa CORRETA que traz o nome de tecnologias desenvolvidas pelo Google que serviram de base para a criação do Hadoop.
A) Google Earth e Google File System.
B) Google Drive e Google Reduce.
C) Google Earth e Google Mail.
D) Google Map Reduce e Google File System (GFS).
O planejamento é uma das funções básicas da administração de qualquer organização e pessoa, seja no ramo empresarial, educacional ou pessoal, sendo uma ferramenta
que possibilita prever problemas e reduzir os impactos que eles trarão. Nesse sentido, podemos a�rmar que o planejamento permite que...
Assinale a alternativa que completa corretamente a frase:
A) Sejam analisados os caminhos e suas chances de sucesso, rumo ao alcance dos objetivos.
B) Sejam de�nidas as ações a serem seguidas, analisando o que é mais adequado de acordo com os objetivos.
C) Sejam organizados os recursos que serão utilizados, identi�cando pessoas para atribuir tarefas e funções.
D) Sejam corrigidas imperfeições nos processos de trabalho, adequando o ambiente interno.
O planejamento deve ser realizado seguindo uma sequência de passos. O primeiro passo é a de�nição dos objetivos, ou seja, onde se deseja chegar. Em paralelo, deve-se
analisar a situação atual, veri�cando onde se está e o que precisa ser feito para atingir o objetivo. A etapa que ocorre paralelamente à de�nição dos objetivos, chama-se...
Assinale a alternativa que completa corretamente a frase:
A) Diagnóstico.
B) Ameaças.
C) Estratégia.
D) Oportunidades.
Analise o Texto a seguir: “Imagine que você possui um grande galpão para pintar. Você pode fazer essa tarefa sozinho, o que pode demorar bastante, ou contratar vários
pintores para acelerar o processo. Quanto mais pintores (ainda que até um certo limite, neste exemplo), menos tempo será necessário para �nalizar a pintura. Ou seja, a
tarefa é feita por vários agentes, cada um deles responsável por uma parte da pintura. Uma botnet é basicamente isso, só que com computadores”.
Assinale a alternativa CORRETA sobre a tecnologia que o texto acima trata.
A) Computação Distribuída.
B) Dados estruturados.
C) Bancos de Dados Relacionais.
D) Computação Paralela.
O termo Big Data começa a despertar muita atenção, mas ainda é um conceito mal de�nido e menos compreendido. Com uma rápida pesquisa no Google, é possível
identi�car pelo menos uma dúzia de de�nições. Sem entrar em de�nições, mas nos atendo apenas a conceitos, podemos resumir com uma fórmula simples, Big Data =
volume + variedade + velocidade de dados.
Selecione a alternativa CORRETA sobre velocidade em cenário de Big Data.
A) A velocidade trata de toda a massa de dados existente na organização, são milhões de Gigabytes gerados todos os dias, distribuídos em datacenters por todo o
mundo
Alterar modo de visualização
1
2
3
4
5
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes
mundo.
B) A velocidade pode ser de�nida pelas fontes de coleta de dados, desde sistemas de informações gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e
qualquer dispositivo que armazene dados.
C) A velocidade trata de diversas formas de armazenamento, rotuladas como armazenamento estruturado, semiestruturado e não estruturado.

D) Velocidade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos problemas de desempenho dos bancos de dados relacionais
em gerenciar a imensa quantidade de dados produzidos.
O dado tem sido considerado o petróleo da nova era. A tecnologia existente hoje é completamente con�ável, mas os softwares e plataformas apenas ajudam a organizar.
Tornar o projeto viável depende de conhecer conceitos e a própria cultura do ambiente corporativo. De acordo com estudos, 80% do conteúdo produzido em uma empresa
normal é em formato não estruturado, mas o que isso signi�ca e qual a diferença para um estruturado?
Selecione a alternativa CORRETA sobre Big Data.
A) Big Data é um tipo de banco de dados relacional.
B) Big Data, tem como tradução literal “pequenos dados”, termo inicialmente instituído para determinar o grande volume de dados gerados pelos sistemas de
informação. Podendo ser representado sobre a soma de volume, variedade e velocidade.
C) Big data são os dados semiestruturados.

D) Big Data, tem como tradução literal “grandes dados”, termo inicialmente instituído para determinar o grande volume de dados gerados pelos sistemas de informação.
Podendo ser representado sobre a soma de volume, variedade e velocidade.
O Apache Hadoop é denominado como um Framework de Big Data, de acordo com a de�nição é um conjunto de soluções voltado para um conjunto de problemas. Em seu
desenvolvimento inicial tinha como objetivo o particionamento e distribuição dos dados em um cluster, bem como a recuperação dos mesmos. No entanto, com os
diversos desa�os na era do Big Data, desde a pluralidade de bancos de dados, fontes de dados, bem como técnicas de mineração de dados, o framework se adapta para
resolver os problemas através de seus subprojetos.
Selecione a alternativa CORRETA sobre a linguagem em que o Apache Hadoop foi desenvolvido:
A) C
B) Python
C) Java
D) C++
Para garantir o sucesso de um planejamento, ele deve seguir uma sequência de ações que são ordenadas de modo a analisar o presente e o futuro, sempre tendo como
ponto �nal nossos objetivos.
Sobre o planejamento, assinale a alternativa correta:
A) Depois de elaborado, o plano de ação deve ser implantado, avaliado e adotadas medidas de correção sempre que necessário.
B) Não podemos de�nir um plano de ação como o mais adequado, pois os cenários estão em constante mudança.
C) O plano de ação deve considerar apenas o cenário futuro, realizando previsões baseadas na emoção e na razão.
D) Uma vez de�nido, o plano de ação deve ser implantado e, caso julgado incoerente, deve ser refeito.
As soluções do Cloudera para clusters oferecem escalabilidade, �exibilidade, integração da plataforma que torna fácil o gerenciamento de grandes volumes e variedades
de dados na maioria dos empreendimentos. Essa ferramenta permite a implantação e gerenciamento do Apache Hadoop e de projetos relacionados para manipular e
analisar os dados, bem como mantê-los.
Selecione a alternativa correta que traz os itens do ambiente cloudera.
A) HDFS, Cloudera Impala, Cloudera Manager,NoSQL.
B) HDFS, Cloudera DB, Cloudera Manager, Cloudera System.
C) CDH, Cloudera Databases, Cloudera Manager,Cloudera Chrome.
D) CDH, Cloudera Impala, Cloudera Manager,Cloudera Navigator.
Em um cenário de grandes volumes de dados a primeira etapa é a coleta, a segunda a preparação e por último o armazenamento, que permite futuras análises. Para isso,
comumente utilizamos os ditos frameworks de Big Data.
Selecione a alternativa CORRETA com a de�nição de framework.
A) Um framework é um conjunto de soluções para um conjunto de problemas.
6
7
8
9
10
) U a e o é u co ju to de so uções pa a u co ju to de p ob e as.
B) Um framework é um conjunto de códigos SQL.
C) Um framework é um conjunto de problemas.
D) Um framework é um conjunto de códigos python.
JSON (JavaScript object Notation) é uma forma de armazenamento e transmissão de dados em formato de texto. Sua forma simples e compacta de estruturar
informações tem ganhado espaço em aplicações em que o formato XML reinava até então como em aplicações Web, por exemplo. A Google é uma das empresas que se
destaca na utilização de JSON, tendo inclusive desenvolvidoa biblioteca Gson inicialmente para �ns internos, que tem como �nalidade a conversão de objetos Java em
JSON.
No que se refere aos tipos de dados, um documento JSON contém:
A) Dados semiestruturados.
B) Dados não estruturados.
C) Dados estruturados.
D) Dados do tipo NoSQL.
O Spark é um framework para processamento de Big Data construído com foco em velocidade, facilidade de uso e análises so�sticadas. Oferece APIs de alto nível em
Java, Scala e Python, bem como um conjunto de bibliotecas que o tornam capaz de trabalhar de forma integrada, em uma mesma aplicação, com SQL, streaming e
análises complexas, para lidar com uma grande variedade de situações de processamento de dados.
Selecione a alternativa CORRETA que traz os principais componentes do SPARK.
A) Spark SQL, Spark Streamming, Spark MLib,GraphX.
B) Spark Base, Spark Streamming, Spark MLib,GraphX.
C) Spark SQL, Spark File System , Spark Scala,GraphX.
D) Sparql, Spark File System, Spark Base,GraphX.
No que se refere à análise de informações, um fator primordial é o dado. Sem ele nada seria possível em um cenário de conceitos, é a matéria-prima para todo o processo
de geração de informação e conhecimento. Os dados podem ser compreendidos como: estruturados, não estruturados e semiestruturado.
Selecione a alternativa CORRETA sobre os dados estruturados.
A) São aqueles que necessitam de algum processamento para descobrir uma estrutura.
B) São dados que tem estrutura.
C) Tal estrutura é incremental e vai se alterando no passar do tempo. São exemplos de dados semiestruturados: planilhas excel, arquivos CSV, documentos XML,
documentos JSON.

D) São dados que estão armazenados em uma estrutura previamente de�nida, tradicionalmente, os softwares os utilizam na forma de SGBDR (Sistemas Gerenciadores
de Bancos de Dados Relacionais) ou BDR (Bancos de Dados Relacionais).
Nos dias de hoje geramos muito mais dados com dispositivos como celular e TVs. Além disso, temos as mídias sociais que geram a todo tempo informações
majoritariamente públicas. Hoje já é realidade a existência de carros, geladeiras e dispositivos vestíveis (wearable devices) conectados entre si e gerando ainda mais
dados para serem processados e transformados em informações úteis.
Um mecanismo utilizado em problemas de grandes volumes de dados é a computação paralela. Selecione a alternativa CORRETA sobre computação paralela.
A) Na arquitetura paralela o objetivo é “uni�car” os processos, ou seja, uni�car entre os núcleos.
B) Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, dividir entre os núcleos.
C) Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, distribuir entre vários computadores.
D) Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, pegar os processos de vários núcleos e executar em apenas um.
A explosão exponencial de dados digitais forçou pesquisadores a encontrarem novas formas de ver e analisar o mundo. Trata-se de descobrir novas ordens de grandeza
para capturar, pesquisar, compartilhar, armazenar, analisar e apresentar dados. É assim que o "big data" nasceu, um conceito para armazenar uma quantidade enorme de
informações em uma base digital.
Selecione a alternativa CORRETA com a linguagem de programação considerada a linguagem tendência para Big Data.
A) Python.
B) Visual Basic.
C) Delphi.
11
12
13
14
15
D) C++.
A proposta de uma solução de Big Data é oferecer uma abordagem consistente no tratamento do constante crescimento e da complexidade dos dados. Para tanto, o
conceito considera os 5 Vs do Big Data: o Volume, a Velocidade, a Variedade, a Veracidade e o Valor.
Selecione a alternativa CORRETA sobre volume em cenário de Big Data.
A) O Volume tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos problemas de desempenho dos bancos de dados relacionais em
gerenciar a imensa quantidade de dados produzidos.
B) O volume trata de toda a massa de dados existente na organização, são milhões de Gigabytes gerados todos os dias, distribuídos em datacenters por todo o mundo.
C) O Volume pode ser de�nido pelas fontes de coleta de dados, desde sistemas de informações gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e
qualquer dispositivo que armazene dados.
D) O Volume trata de diversas formas de armazenamento, rotuladas como armazenamento estruturado, semiestruturado e não estruturado.
O Big Data é, simplesmente, uma das grandes revoluções dos últimos anos e veio para �car no mercado mundial. Pode ser que os termos se modi�quem com o passar do
tempo, mas o grande conceito que precisa ser compreendido é a possibilidade existente no mundo atual de se ter uma quantidade imensa de dados armazenados, com
uma variedade in�nitamente superior à do passado e podendo ser trabalhados, analisados, cruzados e interpretados com muito mais velocidade e e�cácia.
A busca por informação sempre foi primordial em qualquer mercado e é extremamente importante coletar e organizar os dados disponíveis, seja nos processos que
movimentam o negócio ou mesmo no meio externo à organização.
Selecione a alternativa CORRETA sobre variedade em cenário de Big Data.
A) A variedade pode ser compreendida como um banco de dados com ênfase em transação, alimentado por diversas fontes.
B) Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos problemas de desempenho dos bancos de dados relacionais em
gerenciar a imensa quantidade de dados produzidos.
C) A Variedade se remete aos diversos dispositivos de coleta, bem como aos tipos de dados que podem ser estruturados, semiestruturados e não estruturados.
D) A Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos problemas de desempenho dos bancos de dados relacionais
em gerenciar a imensa quantidade de dados produzidos.
Tanto as empresas como as famílias podem elaborar um planejamento para que as metas estabelecidas sejam alcançadas. No planejamento, são estabelecidas ações
baseadas em estudos dos ambientes interno e externo. Sobre o planejamento e suas características, analise as sentenças que seguem:
I – O planejamento deve ser um processo rígido, no qual as ações não podem ser alteradas.
II – O planejamento é um processo dinâmico, pois novos objetivos podem ser inseridos.
III – O planejamento deve ser fundamentado em aspectos emocionais e informações concretas.
IV – O planejamento tem como objetivo melhorar o desempenho e antecipar situações.
Assinale a alternativa que apresenta a resposta correta:
A) As sentenças I e IV, estão corretas.
B) As sentenças II e IV, estão corretas.
C) As sentenças II e III, estão corretas.
D) As sentenças I e III, estão corretas.
Foi Einstein, homem com uma das cabeças mais geniais que já pisou neste mundo, que disse que “Deus não joga dados”. Referia-se aos pequenos cubos numerados
usados em jogos e apostas nas quais estatística e sorte andam sempre de mãos dadas.
Ao mensurar o volume de dados no mundo o IDC (International Data Corporation) estimou que haverá, até 2020, um valor sobre os dados. Selecione a alternativa CORRETA
do valor estimado pelo IDC.
A) 44 bytes
B) 44 kilobytes
C) 44 zettabytes
D) 44 megaabytes
A gênese do Hadoop veio do papel Google File System, que foi publicado em Outubro de 2003. Este trabalho deu origem a outro trabalho de pesquisa do Google –
MapReduce: simpli�cado Processamento de Dados em grandes aglomerados Desenvolvimento começou no projeto Apache Nutch mas foi transferido para o novo
16
17
18
19
20
Uniasselvi © 2021
MapReduce: simpli�cado Processamento de Dados em grandes aglomerados. Desenvolvimento começou no projeto Apache Nutch, mas foi transferido para o novo
subprojeto Hadoop em janeiro de 2006. O primeiro committer adicionado ao projeto Hadoop foi Owen O’Malley em março de 2006. Hadoop 0.1.0 foi lançado em abril de
2006 e continua a evoluir pormuitos contribuintes para o projeto Apache Hadoop.
Dentre seus componentes, o Hadoop contém o Hue. Sobre o Apache Hue, selecione a alternativa CORRETA.
A) O Hue (Hadoop User Experience Database) é o banco de dados do Apache Hadoop, utilizado como SGBD.
B) O Hue (Hadoop User Experience), também conhecido como HUX, é a abordagem do Hadoop para melhorar a experiência do usuário.

C) O Hue (Hadoop User Experience) é uma interface grá�ca do usuário com base na Web e de código-fonte aberto do Apache Hadoop. O Hue agrupa vários projetos de
ecossistemas Hadoop diferentes em uma interface con�gurável.
D) O Hue (Hadoop User Experience) é uma interface grá�ca do usuário, ou seja, será com ele que serão desenvolvidas aplicações Web.
Voltar