Baixe o app para aproveitar ainda mais
Prévia do material em texto
21/03/2024, 10:41 Avaliação Final (Objetiva) - Individual about:blank 1/5 Prova Impressa GABARITO | Avaliação Final (Objetiva) - Individual (Cod.:886679) Peso da Avaliação 3,00 Prova 74268426 Qtd. de Questões 10 Acertos/Erros 6/4 Nota 6,00 Cloudera é um dos players mais conhecidos no que envolve o Hadoop. Com um número de clientes considerável e com uma contribuição ativa para o desenvolvimento do Hadoop, o Cloudera está no top 3 da lista quando se trata de construir ferramentas inovadoras. O Cloudera Manager é fácil de usar e implementar, com uma interface para o utilizador bastante acessível, apresentando todas as informações de forma organizada e limpa. O Cloudera automatiza o processo de instalação e também presta outros serviços avançados para os utilizadores. Sobre o Hue, associe os itens, utilizando o código a seguir: I- Editor. II- Navegadores. III- Painel. IV- Agendador. ( ) O objetivo do editor do Hue é tornar a consulta de dados mais fácil e produtiva. Concentra-se no SQL, mas, também, oferece suporte a envios de tarefas. Vem com um autocomplete inteligente, pesquisa e marcação de dados e consulta de assistência. ( ) O aplicativo permite criar fluxos de trabalho e, em seguida, agendá-los para serem executados regularmente, de forma automática. Uma interface de monitoramento mostra o progresso, registra e permite ações, como pausar ou interromper tarefas. ( ) Os painéis são uma maneira interativa de explorar os dados com rapidez e facilidade. Nenhuma programação é necessária e a análise é feita por arrastar e soltar e clicar. ( ) Os navegadores do Hue permitem que você pesquise, observe e realize ações em dados, ou tarefas em nuvem ou em clusters locais. Assinale a alternativa que apresenta a sequência CORRETA: A I - IV - III - II. B II - IV - III - I. C I - II - III - IV. D IV - III - II - I. As RDDs abstraem um conjunto de objetos distribuídos no cluster, geralmente executados na memória principal. Estes podem estar armazenados em sistemas de arquivo tradicional, no HDFS (Hadoop Distributed File System) e em alguns Banco de Dados NoSQL, como Cassandra e HBase. Ele é o objeto principal do modelo de programação do Spark, pois são nesses objetos que serão executados os processamentos dos dados. Sobre RDDs, classifique V para as sentenças verdadeiras e F para as falsas: ( ) É uma sequência de operações. Ao contrário de uma transformação, que opera sobre as linhas de dados em paralelo, um RDD realiza operações completas, uma por uma. ( ) Resiliente, isto é, tolerante a falhas com a ajuda do gráfico de linhagem RDD e, portanto, capaz de recuperar partições ausentes ou danificadas devido a falhas de nó. ( ) Distribuído com dados que residem em vários nós em um cluster. VOLTAR A+ Alterar modo de visualização 1 2 21/03/2024, 10:41 Avaliação Final (Objetiva) - Individual about:blank 2/5 ( ) O conjunto de dados (dataset) é uma coleção de dados particionados com valores primitivos ou valores de valores, por exemplo, tuplas ou outros objetos (que representam registros dos dados com os quais você trabalha). Assinale a alternativa que apresenta a sequência CORRETA: FONTE: https://www.devmedia.com.br/introducao-ao-apache-spark/34178. Acesso em: 27 maio 2021. A F - F - V - V. B F - V - V - V. C V - V - F - F. D V - F - V - V. Apache Spark é um DISC que provê execução paralela e escalável de scripts com uso intensivo de dados. O Spark é baseado no processamento distribuído de dados em memória, por meio de uma abstração chamada RDD (do inglês Resilient Distributed Dataset). Sobre RDD, associe os itens, utilizando o código a seguir: I- In-Memory. II- Imutável. III- Preguiçoso. IV- Cacheable. ( ) Você pode armazenar todos os dados em um "armazenamento" persistente como a memória (padrão e o mais preferido) ou o disco (o menos preferido, devido à velocidade de acesso). ( ) Dentro do RDD não estão disponíveis ou transformados até que uma ação seja executada para acionar a execução. ( ) Não muda depois de criado, e só pode ser transformado usando transformações para novos RDDs. ( ) São armazenados na memória tanto quanto possível (tamanho) e longos (tempo). Assinale a alternativa que apresenta a sequência CORRETA: FONTE: GUEDES, Thaylon et al. Análise On-line de Dados de Proveniência e de Domínio de Aplicações Spark com SAMbA. In: SBBD Companion. 2018. p. 17-22. A I - II - III - IV. B IV - III - II - I. C I - IV - II - IV. D I - IV - III - II. A panóplia de frameworks de Big Data existentes e a complexidade, tanto da escolha das ferramentas adequadas como da sua implementação, requer um processo de investigação exigente, de forma a proporcionar uma solução exequível e o mais próximo possível da resolução do problema. Sobre a definição de framework, assinale a alternativa CORRETA: A Um framework é um conjunto de códigos SQL. B Um framework é um conjunto de problemas. 3 4 21/03/2024, 10:41 Avaliação Final (Objetiva) - Individual about:blank 3/5 C Um framework é um conjunto de códigos python. D Um framework é um conjunto de soluções para um conjunto de problemas. O Apache Spark é uma plataforma voltada ao processamento distribuído de dados em memória. O Apache Spark é um framework open source que oferece uma plataforma voltada para a computação distribuída e paralela, com ênfase em Big Data Streaming. Sobre os componentes do framework Apache Spark, classifique V para as sentenças verdadeiras e F para as falsas: ( ) MLib é uma extensão que faz parte do núcleo da API Spark. O Spark Streaming facilita a criação de fluxos de processamento tolerante a falhas sobre dados em streaming e em tempo real. ( ) GraphX é a API do Apache Spark para gráficos (por exemplo, Web-Graphs e Redes Sociais) e computação em paralelo gráfico (por exemplo, PageRank e Collaborative Filtering). Inclui uma biblioteca embutida de algoritmos de gráficos e construtores. ( ) SPARQL é uma recomendação do W3C a partir de janeiro de 2008. Seu propósito é permitir que arquivos RDF sejam consultados através de uma linguagem. O Spark é uma linguagem de consumo de dados, assim como a SQL. ( ) Spark Streaming permite utilizar recursos de aprendizado de máquina. A diferença desta biblioteca para as convencionais utilizadas pelas linguagens de programação é que foi desenvolvida para uso paralelo e distribuído. Assinale a alternativa que apresenta a sequência CORRETA: FONTE: CARDOSO, Paulo Vinicus; FAZUL, Rhauani Weber Aita; BARCELOS, Patrícia Pitthan. Validação de Políticas para o Estabelecimento Dinâmico de Checkpoints no Apache Spark. In: Anais do XXXVIII Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos - SBC, 2020. p. 29-42. A V - F - V - V. B F - V - V - F. C F - V - F - V. D F - V - F - F. No meio da análise de dados, um conceito que ganha força e no qual grande parte do MapReduce está baseado é o Big Data. Trata-se de um termo empregado para descrever o crescimento, o uso e a disponibilidade das informações, sejam elas estruturadas ou não. Para o Big Data, o importante não é a coleta de grandes quantidades de dados, mas sim como eles são processados. O potencial que ele traz para as empresas é imenso e para utilizá-lo, elas precisam ser capazes de aproveitar as informações contidas em suas gigantescas bases de dados para tomar as melhores decisões. Sobre o MapReduce, assinale a alternativa CORRETA: A MapReduce é um componente do Hadoop, não sendo necessário para sua execução. B MapReduce é a linguagem de programação nativa do Hadoop, que permite com que sejam armazenados dados distribuídos. C MapReduce é um modelo de programação, no qual o modelo usa chaves e valores para vincular dados de entrada à função Map, responsável por reconhecer as entradas e a função Reduce para agrupar e diminuir a saída. D MapReduce é o banco de dados nativo do Hadoop, que permite com que sejam armazenados dados distribuídos. 5 6 21/03/2024, 10:41 Avaliação Final (Objetiva) - Individualabout:blank 4/5 O Apache Hadoop também é usado amplamente como motor de muitos sistemas de processamento de consultas básicas, bem como para processamento de grandes volumes de dados. Sobre os componentes do framework Apache Hadoop, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Hbase é o banco NOSQL (Not Only SQL) que é nativo dentro do apache Hadoop. ( ) Sqoop é um framework que implementa o modelo de programação MapReduce, o qual visa dividir a informação para processar em blocos separados e concorrentes. ( ) Hadoop MapReduce é uma ferramenta que cria uma interface do Apache Hadoop com bancos de dados relacionais e ferramentas de data warehouse. ( ) Zookeeper é um serviço de distribuição de coordenadas do Apache Hadoop, desenvolvido para trabalhar em clusters do qual existem diversos outros componentes. Assinale a alternativa que apresenta a sequência CORRETA: A F - V - V - V. B V - F - V - V. C V - F - V - F. D V - F - F - V. O Apache Spark é implementado em conjunto, com um cluster do Hadoop, e o Spark pode se beneficiar de vários recursos, como resultado. Por si só, o Spark é uma ferramenta poderosa para processar grandes volumes de dados, mas ainda não é adequado para cargas de trabalho de produção na empresa. Acerca da relação entre Spark e Hadoop, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Fazem as mesmas coisas. ( ) Você pode usar um sem o outro. ( ) O Spark é uma linguagem de programador. ( ) O Hadoop é um banco de dados. Assinale a alternativa que apresenta a sequência CORRETA: A F - V - V - F. B V - V - F - F. C F - V - F - V. D F - V - F - F. Inicialmente, as máquinas virtuais permitem a criação de um ambiente de execução, possivelmente com um conjunto de bibliotecas e sistemas operacionais próprios, onde uma aplicação pode executar sobre uma plataforma de hardware comum junto a outras máquinas. Sobre os nomes de distribuidores de máquinas virtuais com Apache Hadoop, assinale a alternativa CORRETA: A Coursera, Hortonworks, MapReduce e Bitnami. B Cloudera, Hortonworks, MapR e Bitnami. C Google, Amazon AWS, IBM. 7 8 9 21/03/2024, 10:41 Avaliação Final (Objetiva) - Individual about:blank 5/5 D NoSQL, Oracle e Microsoft. O Spark é um framework que possibilita a execução das tarefas paralelizáveis de forma distribuída em máquinas multi-core ou clusters YARN/Mesos, com ênfase no processamento em pipeline de atividades, com alocação de arquivos intermediários primordialmente em servidores distribuídos. Sobre as características das RDDs, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A RDD pode ser executada paralela, ou seja, processar os dados em paralelo. ( ) A RDD pode ser digitada, pois os registros RDD possuem tipos, por exemplo, Long em RDD[Long] ou (Int, String) em RDD [(Int, String)]. ( ) A RDD pode ser particionada, com os registros particionados (divididos em partições lógicas) e distribuídos entre nós em um cluster. ( ) A RDD pode ter localização, sendo que o RDD pode definir as preferências de posicionamento para calcular as partições (haver proximidade com os registros). Assinale a alternativa que apresenta a sequência CORRETA: A V - F - V - V. B V - V - V - V. C F - F - V - V. D V - V - F - F. 10 Imprimir
Compartilhar