Baixe o app para aproveitar ainda mais
Prévia do material em texto
1. O paradigma de programação MapReduce demonstrou ser adequado para trabalhar com problemas que podem ser particionados ou fragmentados em subproblemas. Isso porque se pode aplicar separadamente as funções map e reduce a um conjunto de dados. Sobre essas funções, analise as afirmativas a seguir e assinale a correta: Você acertou! E. As funções map e reduce são normalmente utilizadas juntas, especificando que a saída da função map será a entrada da função reduce. A função map é executada nos nós escravos. Ela recebe uma lista como entrada e, aplicando uma função dada, gera uma nova lista como saída. A função reduce, similarmente à função map, vai receber como entrada uma lista e, em geral, aplicará uma função para que a entrada seja reduzida a um único valor na saída. Ela também é executada nos nós escravos. As funções map e reduce são normalmente utilizadas juntas, especificando que a saída da função map será a entrada da função reduce. 2. O Apache Hadoop é um framework que simplifica o trabalho com sistemas distribuídos, tornando transparentes diversas funções. Assinale a alternativa que apresenta uma característica do Hadoop: Você acertou! C. O Hadoop oferece estratégias automáticas para garantir o processamento em caso de falhas em computadores alocados para o processamento, garantindo continuidade. Possui licenciamento flexível, que torna possíveis as modificações e a redistribuição do programa-fonte. Possibilita a escalabilidade da aplicação, pois para o Hadoop é relativamente simples aumentar a quantidade de máquinas a serem utilizadas no processamento. O Hadoop oferece estratégias automáticas para garantir o processamento em caso de falhas em computadores alocados para o processamento, garantindo sua continuidade. No Hadoop, as operações são simples e especificadas por meio de funções de mapeamento (map) e de junção (reduce). O Apache Hadoop possui código aberto. 3. Para realizar sua função, o Hadoop possui um conjunto de componentes e cada um possui responsabilidades bem definidas. Analise as afirmativas a seguir e selecione aquela que apresenta corretamente um dos componentes do Hadoop. Você acertou! E. O SecondaryNameNodeé responsável pela verificação dos checkpoints necessários para garantir a recuperação em caso de falha. 4. O Hadoop possui alguns modos de execução e cada um deles possui configurações e formas de execução específicas. Analise as alternativas a seguir e selecione aquela que descreve corretamente um dos modos de execução do Hadoop: Você acertou! B. No pseudo-distributed mode, o Hadoop simula o processamento paralelo em uma única máquina. Standalone mode é o modo padrão, no qual utiliza-se uma única máquina. Já o modo pseudo-distributed mode é utilizado para simular a distribuição, usando um único computador. Por outro lado, o fully distributed mode é a distribuição real, que trabalha com conjunto de computadores especificados nos arquivos de configuração. Blank mode e single distributed mode não existem. 5. O Hadoop Distributed File System (HDFS) é o sistema de arquivos distribuídos do Hadoop. Ele deve garantir: Você acertou! A. Tolerância a falhas para que, em caso de falha de algum nó, os dados não sejam perdidos e o processamento não pare. 1. Um dos primeiros passos para lidar com big data é o planejamento. Com um projeto bem feito, deve ser levado em consideração que tipo de dado, com que frequência e em quais condições os dados se encontram. Sobre os primeiros passos em um projeto de big data, analise as afirmações a seguir: I. ETL é um processo importante na obtenção de dados. II. Com os dados disponíveis, o sistema pode começar a processá-los para exibir informações reais. III. Os requisitos básicos para trabalhar com big data não são os mesmos utilizados para trabalhar com conjuntos de dados de qualquer tamanho. Estão corretas: Resposta correta. A. I e II, apenas. Extração, Transformação e Carga (ETL) é um dos primeiros processos a serem realizados com os dados em um sistema de big data. Esse processo prepara os dados para serem analisados, assim podendo gerar relatórios com informações reais. Os requisitos básicos para lidar com big data ou com dados em menor tamanho são os mesmos, incluindo um local de armazenamento, etapas de recebimento e inserção dos dados no local de armazenamento, entre outras características. 2. Devido às qualidades e quantidades do big data, computadores individuais geralmente são inadequados para manipular os dados na maioria dos estágios. Em ambiente de servidores para lidar com grandes conjuntos de dados, geralmente se adota uma estrutura capaz de suportar o volume de dados que irá trafegar: um cluster. Clustering de big data combina os recursos de muitas máquinas menores, buscando fornecer vários benefícios. Sobre os benefícios de um cluster, analise as afirmações a seguir: I. Pool de recursos combina espaço de armazenamento ao uso de CPUs e memória RAM de várias máquinas em um único propósito. II. Escalabilidade dos clusters facilitam o dimensionamento vertical adicionando mais discos de armazenamentos, memória e CPU às máquinas do grupo. III. Alta disponibilidade em clusters fornece níveis variados de tolerância a falhas, garantindo disponibilidade para impedir que falhas de hardware ou software afetem o acesso a dados e processamento. Está correto o que se afirma em: Você acertou! E. I e III, apenas. O chamado pool de recursos de um cluster inclui a junção das capacidades computacionais de várias máquinas como se fossem uma só, gerando um supercomputador a partir de máquinas mais simples, que juntam sua capacidade de processador (CPU), discos de armazenamento e de memória RAM. A alta disponibilidade dos clusters também mantém certa segurança ante falhas, uma vez que os dados podem ser replicados entre os nós do cluster. A escalabilidade fácil do cluster é uma virtude, mas seu crescimento escalar é horizontal e não vertical. Quem aumenta é o número de nós (agregando mais máquinas) e não o acréscimo de mais componentes aos computadores existentes. 3. Uma maneira de adicionar dados a um sistema de big data são as ferramentas dedicadas de inserção ou ingestão. Durante o processo de ingestão, geralmente ocorre algum nível de análise, classificação e rotulagem dos dados. As operações típicas podem incluir e modificar os dados recebidos para formatá-los, categorizar e rotular dados, filtrar dados desnecessários, incorretos ou validar potencialmente a conformidade com certos requisitos. Esse processo ou técnica é conhecido tradicionalmente por: Você acertou! C. ETL. ETL é a tradicional etapa de extração, transformação e carga de dados. É como se realiza a ingestão ou a inserção de dados no armazenamento de sistemas de big data. SQL Injection é uma técnica de inserir dados indevidamente em bancos de dados relacionais. HDFS é a sigla para Hadoop Distributed File System (sistema de arquivos distribuídos Hadoop), um sistema que gerencia arquivos distribuídos no ecossistema Hadoop. NoSQL é como são chamados os bancos de dados não relacionais de modo geral. Já data warehouse é uma forma de chamar um armazém ou galpão de dados, que serve como base para dados após o processo de ETL em um projeto big data. 4. No ecossistema Hadoop, os arquivos carregados do HDFS são armazenados em cache na memória compartilhada, que pode ser acessada diretamente por uma biblioteca e um sistema cliente. Dentro do uso de HDFS é comum o processamento em lote. Esse processamento é um método de computação em um grande conjunto de dados. Sobre o processamento em lote, qual é a alternativa correta? Você acertou! B. Processo que divide o trabalho em partes menores, reorganiza os dados e calcula o resultado final. 5. O ecossistema Hadoop foi projetado partindo do pressuposto que a falhado hardware no qual estão os arquivos e os dados é uma regra e não uma exceção. Sobre o Hadoop e seu ecossistema, analise as afirmações a seguir: I. MapReduce é um framework ou técnica que permite que os dados sejam processados paralelamente. II. R e Python são bibliotecas pertencentes ao framework Apache Spark. III. Cassandra, HBase e Hive são bancos de dados NoSQL criados para o ecossistema Hadoop. Sobre os sistemas que envolvem o Hadoop, está correto o que se afirma em: Resposta correta. A. I, apenas. MapReduce é considerada uma técnica ou framework baseado em algoritmos para lidar com processamento paralelo em sistemas distribuídos. R e Python são linguagens de programação e podem fazer parte de projetos que envolvam Hadoop, mas são independentes desse ecossistema também. Hive e HBase são considerados bancos de dados NoSQL, desenvolvidos inicialmente para o Hadoop (embora atualmente funcionem de outras formas), mas o Cassandra nasceu da equipe de desenvolvimento do Facebook. . 1 Um dos maiores desafios em sistemas de armazenamento de dados é a escalabilidade: a capacidade de crescimento de maneira escalar. Esse é um dos problemas mais comuns e importantes que toda empresa enfrenta. Lida-se com negócios em crescimento, causando armazenamento exponencial de dados, com necessidade e grande demanda de disponibilidade deles. Em termos de dados e sistemas, analise as afirmações a seguir sobre escalabilidade: I. Característica de um sistema que descreve sua capacidade de lidar e executar bem sob aumento ou expansão. II. Capacidade de lidar com crescimento sem ser prejudicada por sua estrutura ou recursos disponíveis. III. Possibilidade de atender a diversas demandas ao mesmo tempo. IV. Está diretamente ligada a bancos de dados relacionais. Está correto o que se afirma em: Você acertou! D. I, II e III. Escalabilidade é uma característica de um sistema, modelo ou função que descreve sua capacidade de lidar e executar bem sob uma carga de trabalho, escopo aumentado ou em expansão. Um sistema que dimensione bem poderá manter ou até aumentar seu nível de desempenho ou eficiência, mesmo quando testado por demandas operacionais cada vez maiores. Um sistema escalar atende bem a muitas demandas ao mesmo tempo. Porém, apesar de poder ser aplicado ao uso de bancos de dados relacionais, não tem ligação direta, pois um SGBD relacional pode não ser escalável. 2. Sharding é uma arquitetura de bancos de dados relativamente nova. Considerada revolucionária por profissionais da área, tem sido adotada por desenvolvedores e equipes responsáveis por projetos que lidam com dados de variados tipos. Sobre o conceito de sharding, pode-se afirmar: Você acertou! A. Define uma abordagem acessível para escala horizontal dos dados. 3. Diferentes tipos de bancos de dados usam sharding como forma de oferecer suporte a implantações com conjuntos de dados muito grandes e operações de alto rendimento. Os sistemas de banco de dados com grandes conjuntos de dados ou aplicativos de alto rendimento podem desafiar a capacidade de um único servidor. Sharding pode ser uma alternativa para um conhecido método de aceleração de consultas a bancos de dados. Esse método é conhecido como: Resposta correta. C. índices 4. Cluster é um termo na língua inglesa que pode ser traduzido como “aglomerar” ou “aglomeração”. Em computação, é o termo que pode definir um sistema que junta vários computadores em comum, a fim de transformar seu conjunto em uma única máquina com a soma de todas as capacidades reunidas. Sobre clusters, avalie as afirmações a seguir: I. Requer o uso de supercomputadores em sua composição. II. Ao unir vários computadores, é simulado um supercomputador. III. Cada computador em um cluster é chamado de node ou nó. IV. O computador principal é chamado de node master. Sendo assim, é correto o que se afirma em: Você acertou! C. II, III e IV. 5. Geralmente, os clusters são implantados para melhorar o desempenho e a disponibilidade em relação a um único computador. Além disso, são muito mais econômicos que computadores individuais com velocidade ou disponibilidade comparáveis. Sobre o uso de clusters, observe as afirmações a seguir: I. O particionamento pode reduzir muito o custo total de armazenamento de dados. II. Clusters de computadores surgiram de tendências como a disponibilidade de computadores de baixo custo, redes de alta velocidade e software para computação distribuída de alto desempenho. III. Bancos de dados relacionais possuem a exclusiva capacidade de serem distribuídos e adotados em clusters. IV. Clusters podem ser formados por pequenos computadores de empresas menores ou pela junção de vários supercomputares, para processamento de dados em grande escala. É correto o que se afirma em: Você acertou! E. I, II e IV. 1. Diversas expressões se tornam cada vez mais comuns, tanto entre profissionais de Tecnologia da Informação (TI) quanto entre profissionais de outras áreas. Assinale a alternativa correta a respeito do conceito de stream de dados. Você acertou! B. Fazem parte dos dados que alimentam sistemas de big data. 2. Stream de dados é uma expressão em crescimento que envolve características e conceitos específicos. Assinale a alternativa que apresenta um cenário que representa uma fonte de stream de dados. Você acertou! C. Sensor enviando dados de consumo de energia de um equipamento que fica ligado 24 horas. 3. Em streams de dados existe um processo específico que possibilita o tratamento dos dados. Assinale a alternativa que representa a retirada de uma quantidade de dados do fluxo de dados por meio de uma janela. Resposta correta. E. Ingestão de dados. 4. Por se tratar de um conceito relativamente novo e em larga expansão, quem trabalha com stream de dados precisa cuidar e planejar alguns pontos para lidar com os principais desafios dessa área. Assinale a alternativa que representa os principais pontos de planejamento para quem trabalha com stream de dados. Você acertou! A. Plano de escalabilidade, de durabilidade e de tolerância a falhas. 5. O conceito de stream de dados tem tantos problemas comuns com big data quanto problemas específicos. Assinale a alternativa que representa os principais desafios que devem ser considerados para lidar com stream de dados. Você acertou! D. Geração contínua de dados por fontes diversas com diferentes formatos e grande número de fontes de dados que gerem mais informação do que é possível de ser processada
Compartilhar