Prévia do material em texto
Você acertou 3 de 10 questões Verifique o seu desempenho e continue treinando! Você pode refazer o exercício quantas vezes quiser. Verificar Desempenho A B C 1 Marcar para revisão A arquitetura do Hadoop é projetada para garantir alto desempenho na manipulação de grandes volumes de dados distribuídos. Um de seus principais diferenciais é a capacidade de dividir tarefas entre diversos nós do cluster. Qual componente da arquitetura Hadoop é responsável por gerenciar os recursos computacionais disponíveis e monitorar o uso de CPU, memória e disco em cada máquina do cluster? NameNode NodeManager DataNode Questão 1 de 10 Corretas (3) Incorretas (7) Em branco (0) 1 2 3 4 5 6 7 8 9 10 Lista de exercícios Hadoop e… Sair 01/11/2025, 21:30 estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ 1/13 D E A B TaskTracker Mapper Resposta incorreta Opa! A alternativa correta é a letra B. Confira o gabarito comentado! Gabarito Comentado O NodeManager atua como o agente em cada máquina (nó) do cluster, sendo responsável por monitorar os recursos locais e repassar essas informações ao ResourceManager, parte integrante do YARN. Ele assegura que os containers sejam gerenciados com base na capacidade da máquina, otimizando a alocação de tarefas. 2 Marcar para revisão O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop. Processos de extração, transformação e carregamento dos dados. Mecanismo para melhorar o processamento dos dados. 01/11/2025, 21:30 estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ 2/13 C D E Aplicar políticas de segurança. Gerenciamento do armazenamento de dados. Tratar dados não-estruturados. Resposta incorreta Opa! A alternativa correta é a letra C. Confira o gabarito comentado! Gabarito Comentado O desafio de aplicar políticas de segurança no Hadoop é significativo, pois envolve a configuração de um sistema que lida com problemas complexos de Big Data. A segurança da informação é um aspecto crítico em qualquer sistema de dados, e no caso do Hadoop, isso se torna ainda mais desafiador devido à sua natureza de lidar com grandes volumes de dados, muitas vezes não estruturados. Portanto, o profissional responsável por essa etapa precisa ter um alto nível de conhecimento e habilidade para garantir a segurança adequada dos dados. 3 Marcar para revisão A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas. 01/11/2025, 21:30 estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ 3/13 A B C D E MapReduce HDFS Task manager Camada de ingestão Mrjob Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado O MapReduce é o componente do Hadoop responsável pelo rastreamento de tarefas. Ele opera por meio de dois tipos de rastreadores: os Task Trackers, que rastreiam tarefas individuais, e os Job Trackers, que rastreiam trabalhos completos. Este mecanismo permite a distribuição eficiente de tarefas em um cluster. As demais alternativas, HDFS, Task manager, Camada de ingestão e Mrjob, embora estejam relacionadas ao Hadoop, não possuem a funcionalidade específica de rastreamento de tarefas. 4 Marcar para revisão 01/11/2025, 21:30 estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ 4/13 A B C D E Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake. É um repositório para tratamento dos dados. É uma tecnologia de armazenamento e processamento de dados. É um repositório centralizado para armazenamento de dados. É um ambiente para tratamento e armazenamento apenas de dados relacionais. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados. Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado O conceito de Data Lake se refere a um repositório centralizado que tem a capacidade de armazenar uma grande quantidade de dados em diversos formatos, sejam eles estruturados, não estruturados ou semiestruturados. A principal característica do Data Lake é que ele permite o armazenamento de dados 01/11/2025, 21:30 estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ 5/13 A B C D E sem a necessidade de aplicar nenhum tratamento prévio. Portanto, a alternativa que melhor define o Data Lake é a alternativa C: "É um repositório centralizado para armazenamento de dados". 5 Marcar para revisão Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake. Possui alta latência para acesso dos dados. Aplica processos de tratamento nos dados. Armazena os dados de modo eficiente. Demanda por equipamentos especiais. São exclusivos da distribuição Hadoop Apache. Resposta incorreta Opa! A alternativa correta é a letra C. Confira o gabarito comentado! Gabarito Comentado 01/11/2025, 21:30 estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ 6/13 O conceito de Data Lake se refere a um sistema de armazenamento que é capaz de guardar uma grande quantidade de dados brutos, em seu formato original. A alternativa correta é a letra C, que afirma que o Data Lake armazena os dados de modo eficiente. Isso ocorre porque o Data Lake é projetado para armazenar grandes volumes de dados de maneira eficaz, permitindo que os usuários acessem e analisem esses dados rapidamente. Além disso, é importante ressaltar que o Data Lake não demanda por equipamentos especiais e não é de uso exclusivo da distribuição Hadoop Apache, contrariando as afirmações das alternativas D e E, respectivamente. 6 Marcar para revisão Organizações que lidam com grandes volumes de dados, como redes sociais e plataformas de streaming, frequentemente adotam soluções específicas para garantir desempenho, escalabilidade e tolerância a falhas. Uma dessas soluções é o Hadoop, cuja arquitetura é composta por diversos componentes que trabalham em conjunto. Considerando a função desses componentes, qual deles é responsável por armazenar os dados efetivos dentro do cluster Hadoop? 01/11/2025, 21:30 estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ 7/13 A B C D E YARN, por ser o componente responsável pelo agendamento e gerenciamento de tarefas distribuídas NameNode, por conter os metadados que descrevem a localização dos arquivos armazenados MapReduce, por possibilitar a divisão das tarefas em pares chave-valor para processamento paralelo DataNode, por ser o responsável direto pelo armazenamento físico dos dados no cluster Hadoop Common, por fornecer bibliotecas e scripts necessários à execução dos demais componentes Resposta incorreta Opa! A alternativa correta é a letra D. Confira o gabarito comentado! Gabarito Comentado O DataNode é o componente da arquitetura Hadoop responsável por armazenar osdados reais em cada nó do cluster. Ele atua como "escravo" na estrutura mestre- escravo, sendo coordenado pelo NameNode, que apenas gerencia metadados. Enquanto outros componentes como YARN e MapReduce se concentram em processamento e gerenciamento, o 01/11/2025, 21:30 estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ 8/13 A B C D E DataNode se encarrega do armazenamento em si. 7 Marcar para revisão A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados. YARN NameNode Bloco de dados Replicação DataNode Resposta incorreta Opa! A alternativa correta é a letra E. Confira o gabarito comentado! Gabarito Comentado O componente lógico que mantém os dados do usuário na forma de blocos de dados no HDFS é o DataNode. Ele é uma parte essencial da arquitetura do HDFS, pois é responsável pelo armazenamento dos dados. Cada arquivo no HDFS é dividido em blocos de dados, que são armazenados em DataNodes. Portanto, a 01/11/2025, 21:30 estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ 9/13 A B C D E alternativa correta é a E, que menciona o DataNode. 8 Marcar para revisão Em relação às fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Embaralhamento Combinação Agrupamento Redução Gravação da saída Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado O processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", é o componente do Hadoop responsável pela geração de pares intermediários de valor e chave. Esses pares são transferidos para a fase de redução. Este processo 01/11/2025, 21:30 estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ 10/13 A B C ocorre em paralelo com outras tarefas da fase de mapeamento, otimizando o uso dos recursos e aumentando a eficiência do processamento de dados. Portanto, a alternativa correta é a "A: Embaralhamento". 9 Marcar para revisão Durante a execução de aplicações com Hadoop, a fase de redução desempenha papel fundamental no processamento final dos dados. Essa etapa é precedida por um processo que organiza e redistribui os pares chave-valor gerados pelas tarefas de mapeamento, otimizando a carga de trabalho entre os nós. Qual é o nome desse processo e qual é sua principal contribuição? Combinação – reduz a quantidade de tarefas no redutor ao eliminar duplicatas Classificação – organiza os dados em ordem alfabética antes da gravação final Embaralhamento – redistribui os dados intermediários para os redutores corretos 01/11/2025, 21:30 estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ 11/13 D E A B Particionamento – divide os dados em grupos com base em similaridade semântica Agendamento – determina quais tarefas devem ser executadas com prioridade Resposta incorreta Opa! A alternativa correta é a letra C. Confira o gabarito comentado! Gabarito Comentado O embaralhamento (ou shuffle) é o processo em que os pares chave-valor intermediários, gerados pelos mapeadores, são redistribuídos entre os redutores conforme a chave. Essa etapa garante que todos os valores de uma mesma chave sejam processados juntos, permitindo uma redução eficaz e consistente dos dados. 10 Marcar para revisão Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios. Nível de governança Nível de Metadados 01/11/2025, 21:30 estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ 12/13 C D E Nível de admissão Nível de gerenciamento Nível de consumo Resposta incorreta Opa! A alternativa correta é a letra E. Confira o gabarito comentado! Gabarito Comentado O Data Lake é estruturado em três níveis principais: admissão, gerenciamento e consumo. O nível de admissão é responsável pelos serviços de aquisição de dados. O nível de gerenciamento cuida da identificação e localização dos dados. Por fim, o nível de consumo é o que fornece dados para serem utilizados por aplicações que auxiliam na tomada de decisões de negócios. Portanto, a alternativa correta é o "Nível de consumo", pois é este nível que disponibiliza os dados para análise de negócios. 01/11/2025, 21:30 estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6906a33acf9f8031e139b2fd/gabarito/ 13/13