Buscar

Hadoop e Spark

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

16/12/2023, 13:10 Avaliação da Disciplina
about:blank 1/8
Prova Impressa
GABARITO | Avaliação da Disciplina (Cod.:645443)
Peso da Avaliação 10,00
Prova 75575237
Qtd. de Questões 20
Nota 9,00
O Hadoop é um poderoso framework para Big Data. Sua instalação pode acontecer em diversos 
ambientes em cloud computing, bem como em diversos sistemas operacionais. Dentre eles o Linux 
ubuntu.
 
Sobre os passos necessários para instalar o Apache Hadoop, classifique V para as sentenças 
verdadeiras e F para as falsas.
 
( ) É necessário a instalação do OpenSSH.
( ) É necessário criar um grupo de usuários para o Hadoop.
( ) É necessário configurar o arquivo bashrc. 
( ) É necessário instalar o PostgreSQL.
 
 Assinale a alternativa que apresenta a sequência CORRETA:
A V – F – F – V.
B V – V – V – F.
C F – F – F – V.
D V – F – V – F.
O Big Data é uma das grandes revoluções dos últimos anos e veio para ficar no mercado mundial. 
Pode ser que os termos se modifiquem com o passar do tempo, mas o grande conceito que precisa ser 
compreendido é a possibilidade existente no mundo atual de se ter uma quantidade imensa de dados 
armazenados, com uma variedade infinitamente superior à do passado, podendo ser trabalhados, 
analisados, cruzados e interpretados com muito mais velocidade e eficácia. A busca por informação 
sempre foi primordial em qualquer mercado e é extremamente importante coletar e organizar os dados 
disponíveis, seja nos processos que movimentam o negócio ou mesmo no meio externo a organização.
 FONTE: https://www.proof.com.br/blog/o-que-e-big-data/Acesso em: 30 set. 2019. 
Sobre as alternativas que melhor define VARIEDADE, em cenário de Big Data, assinale a alternativa 
CORRETA:
A
 Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido
aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade
de dados produzidos. 
B
 A Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido
aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade
de dados produzidos.
 VOLTAR
A+ Alterar modo de visualização
1
2
16/12/2023, 13:10 Avaliação da Disciplina
about:blank 2/8
C A Variedade pode ser compreendida como um banco de dados com ênfase em transação,
alimentado por diversas fontes.
D A Variedade se remete aos diversos dispositivos de coleta, bem como aos tipos de dados que
podem ser estruturados, semiestruturados e não estruturados. 
Diferentemente de um banco de dados relacional comum, o banco orientado a grafos é muito mais 
simples de desenhar. Não precisa de tabelas. Não precisa de chaves primárias (embora seja útil criar 
unique indexes para nós). Não precisa de um design complexo de tabelas para começar a incluir os 
dados.
 FONTE:https://www.infoq.com/br/articles/apache-spark-sql/Acesso em: 27 jun. 2019. 
Sobre os bancos de dados orientados a grafos, assinale a alternativa CORRETA:
A Devido a sua dinamicidade não é possível realizar a modelagem de dados de bancos de dados
orientados a grafos. 
B Os bancos de dados orientados a grafos são acessados somente de modo visual, sem comandos
específicos. 
C Graças a esse tipo de banco de dados, os gerentes têm a possibilidade de controlar como o
mercado está reagindo às ações da empresa.
D É possível realizar a modelagem, na qual o modelo de dados gráficos é frequentemente referido
como sendo “quadro branco amigável”. 
Como processar grandes quantidades de dados de forma rápida e a baixo custo? A resposta é Hadoop! 
Essa framework distribuída, direcionada para clusters, foi criada pela Apache em 2011, é usada por 
vários players à escala mundial como o Facebook, Yahoo, Amazon, Netflix, eBay, Google, entre 
outros, com o objetivo de gerir e processar grandes quantidades de dados (estruturados e não 
estruturados). O Apache Hadoop é uma Framework/Plataforma desenvolvida em Java, para 
computação distribuída, usada para processamento de grandes quantidades de informação (usando 
modelos de programação simples).
 FONTE:https://pplware.sapo.pt/linux/apache-hadoop-hoje-vai-instalar-primeiro-cluster/
Acesso em: 21 jul. 2019. Sobre o Apache Hadoop, assinale a alternativa CORRETA:
A O Apache Hadoop pode ser obtido em máquinas virtuais fornecidas por empresas, bem como ser
instalado diretamente em um computador.
B O Apache Hadoop quando utilizado em máquinas virtuais é sempre utilizado na versão pseudo-
distribuída.
C O Apache Hadoop pode ser utilizado on-line através de qualquer domínio na Web.
D O Apache Hadoop pode ser utilizado apenas através de máquinas virtuais.
O planejamento é uma das funções básicas da administração de qualquer organização e pessoa, seja 
no ramo empresarial, educacional ou pessoal, sendo uma ferramenta que possibilita prever problemas 
e reduzir os impactos que eles trarão. Nesse sentido, podemos afirmar que o planejamento permite 
que...
 Assinale a alternativa que completa corretamente a frase: 
3
4
5
16/12/2023, 13:10 Avaliação da Disciplina
about:blank 3/8
A Sejam analisados os caminhos e suas chances de sucesso, rumo ao alcance dos objetivos.
B Sejam organizados os recursos que serão utilizados, identificando pessoas para atribuir tarefas e
funções.
C Sejam definidas as ações a serem seguidas, analisando o que é mais adequado de acordo com os
objetivos.
D Sejam corrigidas imperfeições nos processos de trabalho, adequando o ambiente interno.
Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e 
processamento de grandes volumes de dados, com atenção a tolerância a falhas. Foi inspirada no 
MapReduce e no GoogleFS.
 FONTE: https://hadoop.apache.org/Acesso em: 1º out. 2019. 
Sobre os passos necessários para instalar o Apache Hadoop, classifique V para as sentenças 
verdadeiras e F para as falsas.
 ( ) É necessário instalar o Java antes de instalar o Hadoop.
( ) É necessário criar um grupo de usuários para o Hadoop.
( ) É necessário formatar o computador.
( ) É necessário criar um usuário e adicionar ao grupo criado. 
Assinale a alternativa que apresenta a sequência CORRETA:
A F – V – F – V.
B V – V – F – V.
C V – V – V – F.
D V – F – V – V.
O Spark começou com as discussões do nosso grupo de pesquisa com usuários do Hadoop dentro e 
fora da universidade, à medida que as organizações começaram a carregar mais dados no Hadoop, 
eles rapidamente queriam executar aplicativos avançados que o modelo de processamento em lote de 
passagem única do MapReduce não oferece suporte eficiente.
 FONTE:https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf
Acesso em: 1º out. 2019. 
Assinale a alternativa que melhor representa o problema pelo qual o Apache Spark tem como objetivo 
resolver.
A Criar um novo sistema de arquivos distribuídos ou melhorar o HDFS.
B Criar uma nova linguagem de programação para substituir o Python e Scala.
C Criar algoritmos mais complexos e de múltiplas passagens, como os algoritmos iterativos
comuns no aprendizado de máquina e processamento de gráficos. 
D Criar um novo sistema gerenciador de banco de dados NoSQL.
6
7
16/12/2023, 13:10 Avaliação da Disciplina
about:blank 4/8
De acordo com o especialista, estima-se que o número de aparelhos ligados à Internet, em 2017, atinja 
os 8,4 milhões, o que representa um crescimento de 31% em relação a 2016, número que poderá 
chegar aos 20 mil milhões em 2020.
 FONTE: 
https://24.sapo.pt/tecnologia/artigos/os-dados-sao-o-novo-petroleo-mas-ha-um-longo-caminho-a-
percorrer
Acesso em: 9 maio 2019. 
No que se refere aos tipos de dados, há um sistema gerenciador de banco de dados que armazena e 
considera:
A Dados não estruturados. 
B Dados do tipo NoSQL.
C Dados estruturados. 
D Dados semiestruturados.
O Apache Spark é implementado em conjunto com um cluster do Hadoop, e o Spark pode se 
beneficiar de vários recursos como resultado. Por si só, o Spark é uma ferramenta poderosa para 
processargrandes volumes de dados, porém o Spark ainda não é adequado para cargas de trabalho de 
produção na empresa. Sobre a relação entre Spark e Hadoop, classifique V para sentenças verdadeiras 
e F para as falsas.
 ( ) Fazem as mesmas coisas.( ) Você pode usar um sem o outro.( ) O Spark é mais rápido.
( ) Recuperações diferentes face a falhas. 
Assinale a alternativa que apresenta a sequência CORRETA:
A V – V – V – V.
B V – V – V – F.
C F – V – V – V.
D V – V – F – V.
O planejamento deve ser realizado seguindo uma sequência de passos. O primeiro passo é a definição 
dos objetivos, ou seja, onde se deseja chegar. Em paralelo, deve-se analisar a situação atual, 
verificando onde se está e o que precisa ser feito para atingir o objetivo. A etapa que ocorre 
paralelamente à definição dos objetivos, chama-se...
 Assinale a alternativa que completa corretamente a frase: 
A Diagnóstico.
B Ameaças.
C Oportunidades.
8
9
10
16/12/2023, 13:10 Avaliação da Disciplina
about:blank 5/8
D Estratégia.
A Matriz SWOT é uma importante ferramenta de planejamento, sendo composta por quatro itens de 
análise do ambiente interno e externo. Diante disso, assinale a alternativa que apresenta os possíveis 
aspectos identificados pela ferramenta citada: 
A Missão, valores, resultados esperados e competências.
B Deficiências, grade de sucessos, áreas de foco e metas.
C Resultados obtidos, dificuldades, boas práticas e desafios.
D Pontos fortes, pontos fracos, oportunidades e ameaças.
ETL é um tipo de data integration em três etapas (extração, transformação, carregamento) usado para 
combinar dados de diversas fontes. Ele é comumente utilizado para construir um data warehouse. 
Nesse processo, os dados são retirados (extraídos) de um sistema-fonte, convertidos (transformados) 
em um formato que possam ser analisados e armazenados (carregados) em um armazém ou outro 
sistema. Extração, carregamento, transformação (ELT) é uma abordagem alternativa, embora 
relacionada, projetada para jogar o processamento para o banco de dados, de modo a aprimorar a 
performance.
 FONTE:https://www.sas.com/pt_br/insights/data-management/o-que-e-etl.html
Acesso em: 27 jun. 2019. 
Selecione a alternativa que contenha um componente do Apache Hadoop que permita a realização da 
ETL.
A Apache Hive.
B Apache Map Reduce.
C Apache Hbase.
D Apache HDFS.
Para garantir o sucesso de um planejamento, ele deve seguir uma sequência de ações que são 
ordenadas de modo a analisar o presente e o futuro, sempre tendo como ponto final nossos objetivos.
 Sobre o planejamento, assinale a alternativa correta:
A O plano de ação deve considerar apenas o cenário futuro, realizando previsões baseadas na
emoção e na razão.
B Não podemos definir um plano de ação como o mais adequado, pois os cenários estão em
constante mudança.
11
12
13
16/12/2023, 13:10 Avaliação da Disciplina
about:blank 6/8
C Depois de elaborado, o plano de ação deve ser implantado, avaliado e adotadas medidas de
correção sempre que necessário.
D Uma vez definido, o plano de ação deve ser implantado e, caso julgado incoerente, deve ser
refeito.
Embora o Hadoop seja o núcleo da redução de dados para alguns dos maiores mecanismos de 
pesquisa, ele é melhor descrito como uma estrutura para o processamento de dados distribuídos. E 
não apenas dados, mas grandes quantidades de dados, conforme necessário para mecanismos de 
pesquisa e os dados de crawl que coletam. Como uma estrutura distribuída, o Hadoop permite a 
operação de vários aplicativos que se beneficiam com o paralelismo do processamento de dados.
 FONTE:https://developer.ibm.com/technologies/linux/Acesso em: 21 jul. 2019. 
Sobre o Apache Hadoop, selecione a alternativa CORRETA:
A O Apache Hadoop por projetado para ser executado em servidores web apache. 
B O Apache Hadoop por projetado para ser executado apenas em sistemas distribuídos.
C O Apache Hadoop pode ser executado em uma máquina, em diversas máquinas (formando um
cluster) e de modo que permite emular o funcionamento em cluster em uma máquina local. 
D O Apache Hadoop por projetado para ser executado apenas por máquinas virtuais a partir de
arquivos iso.
As visualizações que vê no dashboard são denominadas mosaicos. Pode afixar os mosaicos num 
dashboard a partir de relatórios. As visualizações num dashboard são provenientes de relatórios e cada 
relatório baseia-se num conjunto de dados. Uma forma de pensar num dashboard é pensar numa 
entrada para os relatórios e conjuntos de dados subjacentes. Selecionar uma visualização leva-o ao 
relatório (e ao conjunto de dados) em que se baseia.
 FONTE:https://learn.microsoft.com/pt-pt/power-bi/create-reports/service-dashboards
Acesso em: 27 jun. 2019. 
Selecione a alternativa CORRETA que contenha exemplo de aplicações de Dashboards analíticos.
A Exemplo de um dashboard de visão diária da web consegue rastrear o desempenho da internet
por hora em relação a objetivos predeterminados para uma equipe de marketing digital.
B
 Departamento de suporte técnico: os painéis táticos fornecem habilidades de treinamento
ampliadas, o que é importante durante a implementação de um novo software de help desk, por
exemplo. 
C
 Departamento de fabricação: nele, um sistema de controle completamente novo pode ser
implementado. É realmente um aspecto importante, e que antes era difícil de ser operado. A
qualidade é fundamental no caso desse setor, e os painéis analíticos podem ser utilizados para
estabelecer reuniões regulares de revisão de qualidade.
D
 Departamento de imulonogização: nele, um sistema de controle completamente novo pode ser
implementado. A qualidade é desconsiderada no caso desse setor, e os painéis analíticos podem
ser utilizados para estabelecer reuniões regulares de revisão de qualidade. 
14
15
16/12/2023, 13:10 Avaliação da Disciplina
about:blank 7/8
A computação distribuída é um paradigma computacional que trata de uma grande quantidade de 
dados que precisam ser armazenados, bem como analisados. Está tão grande que, atualmente, não 
dispõe de um computador com o tal poder de processamento. Os sistemas distribuídos, vem 
justamente do conceito de distribuir armazenamento e processamento entre vários computadores de 
uma rede.
 Referente à computação distribuída, assinale a alternativa CORRETA:
A Cliente/Servidor, Arquitetura em Duas Camadas, Arquitetura sem Camadas, Clustering e P2K.
B Servidor/Nuvem, Arquitetura em Quatro Camadas, Arquitetura sem Camadas, Clustering e P3P.
C Servidor/Nuvem, Arquitetura em Duas Camadas, Arquitetura sem Camadas, Clustering e P2K.
D Cliente/Servidor, Arquitetura em Três Camadas, Arquitetura em N Camadas, Clustering e P2P. 
Apache Hadoop é uma estrutura em código aberto para armazenamento e processamento distribuídos 
de grandes conjuntos de dados em hardware simples. O Hadoop permite que as empresas obtenham 
insights de quantidades de dados enormes, estruturados e desestruturados de forma rápida.
 FONTE: . Acesso em: 21 jul 2019.https://br.hortonworks.com/ecosystems/Acesso em: 21 jul 2019. 
Sobre os fatos a serem considerados antes de descarregar os dados no Hadoop, assinale a alternativa 
CORRETA:
A Formatos de armazenamento de dados. 
B A data dos arquivos.
C Se os dados são imagens.
D Se os dados são relevantes para consulta. 
Em um banco de dados de grafos, relacionamentos são mais naturais. Temos as entidades chamadas 
de vértices (ou node) que são ligadas entre elas pelas arestas (ou relationships) cada um podendo 
guardar dados entre os relacionamentos e cada relacionamento pode ter uma direção.
 FONTE:
https://imasters.com.br/banco-de-dados/graphdb-series-o-que-e-um-banco-de-dados-de-grafos
Acesso em: 27 jun. 2019. 
Sobre o componente Spark que permite a manipulação de dados gráficos e grafos, assinale a 
alternativa CORRETA:
A GraphSQL. 
B GraphQL. 
C ChartX.
D GraphX.
16
17
18
16/12/2023, 13:10 Avaliação da Disciplina
about:blank 8/8
OLAP é uma ferramenta de Business Intelligence utilizadapara apoiar as empresas na análise de suas 
informações, visando obter novos conhecimentos que são empregados na tomada de decisão. O termo 
OLAP refere-se a um conjunto de ferramentas voltadas para acesso e análise ad hoc de dados, com o 
objetivo final de transformar dados em informações capazes de dar suporte às decisões gerenciais em 
tempo real.
 FONTE:https://www.devmedia.com.br/um-estudo-sobre-as-ferramentas-olap/6691
Acesso em: 27 jun. 2019. Sobre tempo real, assinale a alternativa CORRETA:
A Tempo real não tem uma definição específica compreender tempo real, mas compreende-se
como tempo real qualquer aplicação que execute em torno de 30 segundos.
B É considerado tempo real qualquer aplicação que execute em torno de 30 segundos. 
C É considerado tempo real qualquer aplicação que execute em torno de 15 segundos.
D Tempo real não tem uma definição específica, compreende tempo real a menor latência entre a
origem e o destino.
Em sua essência, o Hadoop é um armazenamento de dados distribuído que fornece uma plataforma 
para implementar estruturas de processamento paralelo poderosas. A confiabilidade desse 
armazenamento de dados quando se trata de armazenar grandes volumes, juntamente a sua 
flexibilidade na execução de várias estruturas de processamento, torna-o uma escolha ideal para seu 
hub de dados.
 Sobre a capacidade de interconectar diversos banco de dados, assinale a alternativa CORRETA: 
A Persistência Poliglota.
B Cloudera e Hortonworks.
C Hadoop e Spark.
D Google, IBM e Azure.
19
20
Imprimir

Continue navegando