Buscar

Avaliação II - Big Data Stream Arquitetura de Coleta e Armazenamento

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Avaliação II 
Parte superior do formulário
1 Como processar grandes quantidades de dados de forma rápida e a baixo custo? A resposta é Hadoop! Esta framework distribuída, direcionada para clusters, foi criada pela Apache em 2011 e é usada por vários players à escala mundial como, por exemplo, o Facebook, Yahoo, Amazon, Netflix, eBay, Google, entre outros, com o objetivo de gerir e processar grandes quantidades de dados (estruturados e não estruturados). O Apache Hadoop é uma Framework/Plataforma desenvolvida em Java, para computação distribuída, usada para processamento de grandes quantidades de informação (usando modelos de programação simples). Sobre Apache Hadoop, assinale a alternativa CORRETA: FONTE: https://pplware.sapo.pt/linux/apache-hadoop-hoje-vai-instalar-primeiro-cluster/. Acesso em: 1º jun. 2021.
A)  O Apache Hadoop pode ser utilizado apenas através de máquinas virtuais.
B)  O Apache Hadoop pode ser utilizado on-line através de qualquer domínio na Web.
C)  O Apache Hadoop quando utilizado em máquinas virtuais é sempre utilizado na versão pseudo-distribuída.D)  O Apache Hadoop pode ser obtido em máquinas virtuais fornecidas por empresas, bem como pode ser instalado diretamente em um computador.
2Dentre suas funcionalidades, o apache Hadoop também é usado amplamente como motor de muitos sistemas de processamento de consultas básicas, bem como para processamento de grandes volumes de dados. Sobre os comandos do framework Apache Hadoop, classifique V para as sentenças verdadeiras e F para as falsas:
 ( ) O comando setrep define o alvo fator replicação de arquivos identificados pelo caminho para replicar (o verdadeiro fator replicação irá se mover para a meta ao longo do tempo)
 ( ) O comando touchz cria um arquivo no caminho que contém o tempo atual como um carimbo. Não se um arquivo já existente no caminho, a menos que o arquivo já está tamanho 0.
 ( ) O comando test retorna 1 se existe caminho; possui comprimento zero; ou é um diretório ou 0 caso contrário.
 ( ) O comando stat imprime as informações sobre o caminho. Formato é uma string que aceita tamanho do arquivo em blocos (%b), ficheiro (%n), tamanho de bloco ( %s), a replicação (%r), e data de modificação (%y, %Y).
 Assinale a alternativa que apresenta a sequência CORRETA:
A)  V - V - V - V.
B)  V - F - V - F.
C)  F - V - F - V.
D)  V - F - V - V.
3Dentre algumas empresas com estes objetivos temos a Amazon Web Service, Cloudera, Hortonworks, KarmaSphere, Pentaho e Tresada. Dentre muitos especialistas, a Cloudera já teve em sua chefia Douglas Cutting, um dos criadores do Apache Hadoop original, considerado o seu principal. Sobre a máquina virtual Cloudera, associe os itens a seguir:
 I- CDH5. 
II- Cloudera Express. 
III- Cloudera Enterprise.
 ( III ) Esta é a máquina virtual completa com todos os recursos de distribuição, uma versão paga, mas você pode utilizá-la em modo trial. Para executar essa versão, deve ter um equipamento com 12GB de memória RAM disponível.
 ( I ) É a versão padrão da distribuição, muito similar ao projeto original, e, para executá-la, são necessários, no mínimo, 4GB de memória RAM.
 ( II ) É uma versão com mais componentes, e, para executá-la, são necessários 8GB, no mínimo, de memória RAM. Assinale a alternativa que apresenta a sequência CORRETA:
A)  I - III - II.
B)  II - I – III.
C)  I - II - III.
D)  III - I - II.
4O Hadoop é um poderoso framework para Big Data. Sua instalação pode acontecer em diversos ambientes em cloud computing, bem como em diversos sistemas operacionais. Dentre eles o linux ubuntu. Sobre os passos necessários para instalar o Apache Hadoop, classifique V para as sentenças verdadeiras e F para as falsas: 
( ) É necessária a instalação do OpenSSH.
 ( ) É necessário criar um grupo de usuários para o Hadoop. 
( ) É necessário configurar o arquivo bashrhc. 
( ) É necessário instalar o PostgreSQL.
 Assinale a alternativa que apresenta a sequência CORRETA:
A)  V - V - V - F.
B)  V - F - F - V.
C)  V - F - V - F.
D)  F - F - F - V.
5O Apache Spark é implementado em conjunto, com um cluster do Hadoop, e o Spark pode se beneficiar de vários recursos, como resultado. Por si só, o Spark é uma ferramenta poderosa para processar grandes volumes de dados, mas ainda não é adequado para cargas de trabalho de produção na empresa. Acerca da relação entre Spark e Hadoop, classifique V para as sentenças verdadeiras e F para as falsas:
 ( ) Fazem as mesmas coisas. 
( ) Você pode usar um sem o outro.
 ( ) O Spark é uma linguagem de programador.
 ( ) O Hadoop é um banco de dados. 
Assinale a alternativa que apresenta a sequência CORRETA:
A)  V - V - F - F.
B)  F - V - F - V.
C)  F - V - F - F.
D)  F - V - V - F.
6As soluções do Cloudera para clusters oferecem escalabilidade, flexibilidade, integração da plataforma que torna fácil o gerenciamento de grandes volumes e variedades de dados na maioria dos empreendimentos. Esta ferramenta permite a implantação e o gerenciamento do Apache Hadoop e de projetos relacionados para manipular e analisar os dados, bem como mantê-los. Sobre as soluções Cloudera, associe os itens, utilizando o código a seguir: 
I- CDH.
 II- Cloudera Impala.
 III- Cloudera Manager. 
IV- Cloudera Navigator. 
( ) Uma ferramenta de gerenciamento de dados de ponta a ponta para uma plataforma CDH. Essa ferramenta permite administradores, gerentes de dados, e análise para explorar grandes amontoados de dados no Hadoop.
 ( ) Uma aplicação sofisticada usada para implantação, gerenciamento, monitoramento, e diagnóstico de problemas com a implantação do CDH. Este produto fornece um console Admin, em uma aplicação com interface web para o usuário, que torna a administração dos dados do empreendimento mais simples e diretos. 
( ) Uma engine SQL de processamento paralelo massivo de análise interativa e para BI. Possui arquitetura altamente otimizada que o torna ideal para queries estilo BI tradicionais com joins, agregations e subqueries.
 ( ) A distribuição do Apache Hadoop do Cloudera e outros projetos open source relacionados incluem Cloudera Impala e Cloudera Search, sem contar da segurança e integração de várias soluções em hardware e software. 
Assinale a alternativa que apresenta a sequência CORRETA:
A)  III - I - IV - II.
B)  II - I - III - IV.
C)  I - II - IV - III.
D)  IV - III - II - I.
7O Hadoop é um ótimo exemplo de software utilizado para esse fim, sendo usado em clusters computacionais para criar um ambiente que permita o processamento distribuído de dados, o Hadoop é executado por meio de clusters que permitem com que sejam utilizados hardware de mais baixo custo. Considerando os comandos em ambiente Hadoop, associe os itens, utilizando o código a seguir:
 I- setrep. 
II- touchz. 
III- test.
 IV- stat.
 ( ) Imprime as informações a respeito do caminho. O formato é uma string que aceita tamanho do arquivo em blocos, pasta, tamanho de bloco, replicação e data de modificação.
 ( ) Cria um arquivo no caminho que contém o tempo atual, como um carimbo. Não se um arquivo já existe no caminho, a menos que o arquivo tenha o tamanho 0.
 ( ) Retorna 1 se existe caminho; possui comprimento zero; é um diretório ou 0, caso contrário.
 ( ) Copia o arquivo ou diretório identificado pela origem para o destino, dentro do HDFS. 
Assinale a alternativa que apresenta a sequência CORRETA:
A)  II - III - I - IV.
B)  IV - II - I - III.
C)  I - II - III - IV.
D)  II - I - III - IV.
8No meio da análise de dados, um conceito que ganha força e no qual grande parte do MapReduce está baseado é o Big Data. Trata-se de um termo empregado para descrever o crescimento, o uso e a disponibilidade das informações, sejam elas estruturadas ou não. Para o Big Data, o importante não é a coleta de grandes quantidades de dados, mas sim como eles são processados. O potencial que ele traz para as empresas é imenso e para utilizá-lo, elas precisam ser capazes de aproveitar as informações contidas em suas gigantescas bases de dados para tomar as melhores decisões. Sobre o MapReduce, assinale a alternativa CORRETA:A)  MapReduce é o banco de dados nativo do Hadoop, que permite com que sejam armazenados dados distribuídos.
B)  MapReduce é um modelo de programação, no qual o modelo usa chaves e valores para vincular dados de entrada à função Map, responsável por reconhecer as entradas e a função Reduce para agrupar e diminuir a saída.C)  MapReduce é um componente do Hadoop, não sendo necessário para sua execução.
D)  MapReduce é a linguagem de programação nativa do Hadoop, que permite com que sejam armazenados dados distribuídos.
9Entre as muitas implementações do MapReduce disponíveis nos dias de hoje, o Apache Hadoop é o mais popular e possui código aberto. Hadoop também é usado amplamente como motor de muitos sistemas de processamento de consultas básicas. Sobre os comandos do Hadoop A, classifique V para as sentenças verdadeiras e F para as falsas: 
( ) O comando copyfromlocal put copia o arquivo ou diretório no sistema de arquivos local identificado por localSrc ao destino dentro do HDFS. 
( ) O comando put é idêntico ao copy no sistema de arquivos local identificado por localSrc ao dest a HDFS, e, em seguida, o exclui a cópia local de sucesso.
 ( ) O comando movefromlocal copia o arquivo ou diretório em HDFS identificados pelo src para o caminho do sistema de arquivos local identificado pelo localDest. 
( ) O comando get exibe o conteúdo do stdout. Assinale a alternativa que apresenta a sequência CORRETA:
A)  F - F - F - F.
B)  F - F - V - V.
C)  V - V - F - F.
D)  V - F - V - V.
10Surgido como uma plataforma voltada ao armazenamento e ao processamento de dados em larga escala, o framework Apache Hadoop é uma tecnologia amplamente difundida e consolidada, tanto em termos comerciais quanto no ambiente acadêmico. Considerando os comandos em ambiente Hadoop, associe os itens, utilizando o código a seguir: 
I- lsr.
 II- du.
 III- mv.
 IV- dus. 
( ) Exibe as entradas em todos os subdiretórios do caminho.
 ( ) Mostra o uso de disco, em bytes, para todos os arquivos que correspondem ao caminho; os nomes de arquivos são relatados com o protocolo completo HDFS prefixo.
 ( ) Imprime um resumo da utilização do disco de todos os arquivos/diretórios no path.
 ( ) Move o arquivo ou diretório indicado pelo src para dest, dentro do HDFS. 
Assinale a alternativa que apresenta a sequência CORRETA: FONTE: SANTOS, Carlos Eduardo Domingues dos. Processamento de imagens distribuído usando o Hadoop e HIPI. 2017. Trabalho de Conclusão de Curso. Universidade Tecnológica Federal do Paraná.
A)  II - I - III - IV.
B)  I - II - IV - III.
C)  III - I - IV - II.
D)  IV - III - II - I.Parte inferior do formulário

Continue navegando