Prévia do material em texto
Questões Lista de exercícios Hadoop e Armazenamento De Dados 12/09/2025, 09:37 estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ 1/12 Você acertou 9 de 10 questões Verifique o seu desempenho e continue treinando! Você pode refazer o exercício quantas vezes quiser. Verificar Desempenho A B C D E 1 Marcar para revisão Durante a execução de aplicações com Hadoop, a fase de redução desempenha papel fundamental no processamento final dos dados. Essa etapa é precedida por um processo que organiza e redistribui os pares chave-valor gerados pelas tarefas de mapeamento, otimizando a carga de trabalho entre os nós. Qual é o nome desse processo e qual é sua principal contribuição? Combinação – reduz a quantidade de tarefas no redutor ao eliminar duplicatas Classificação – organiza os dados em ordem alfabética antes da gravação final Embaralhamento – redistribui os dados intermediários para os redutores corretos Particionamento – divide os dados em grupos com base em similaridade semântica Agendamento – determina quais tarefas devem ser executadas com prioridade Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito 12/09/2025, 09:37 estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ 2/12 A B C D E comentado! Gabarito Comentado O embaralhamento (ou shuffle) é o processo em que os pares chave-valor intermediários, gerados pelos mapeadores, são redistribuídos entre os redutores conforme a chave. Essa etapa garante que todos os valores de uma mesma chave sejam processados juntos, permitindo uma redução eficaz e consistente dos dados. 2 Marcar para revisão O Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta que contenha a linguagem de programação utilizada para o desenvolvimento e implementação do Hadoop. Python Java Lua JavaScript Perl Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado O Hadoop foi originalmente desenvolvido utilizando a linguagem de m ã J l A h F d ti C m d t m 12/09/2025, 09:37 estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ 3/12 A B C D E programação Java, pela Apache Foundation. Com o passar do tempo, diferentes versões do framework foram implementadas em várias linguagens, incluindo Python. No entanto, a linguagem de programação principal e mais utilizada para o desenvolvimento e implementação do Hadoop continua sendo Java, tornando a alternativa B a resposta correta para esta questão. 3 Marcar para revisão Organizações que lidam com grandes volumes de dados, como redes sociais e plataformas de streaming, frequentemente adotam soluções específicas para garantir desempenho, escalabilidade e tolerância a falhas. Uma dessas soluções é o Hadoop, cuja arquitetura é composta por diversos componentes que trabalham em conjunto. Considerando a função desses componentes, qual deles é responsável por armazenar os dados efetivos dentro do cluster Hadoop? YARN, por ser o componente responsável pelo agendamento e gerenciamento de tarefas distribuídas NameNode, por conter os metadados que descrevem a localização dos arquivos armazenados MapReduce, por possibilitar a divisão das tarefas em pares chave- valor para processamento paralelo DataNode, por ser o responsável direto pelo armazenamento físico dos dados no cluster Hadoop Common, por fornecer bibliotecas e scripts necessários à execução dos demais componentes Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! 12/09/2025, 09:37 estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ 4/12 A B C D E Gabarito Comentado O DataNode é o componente da arquitetura Hadoop responsável por armazenar os dados reais em cada nó do cluster. Ele atua como "escravo" na estrutura mestre-escravo, sendo coordenado pelo NameNode, que apenas gerencia metadados. Enquanto outros componentes como YARN e MapReduce se concentram em processamento e gerenciamento, o DataNode se encarrega do armazenamento em si. 4 Marcar para revisão Em relação às fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Embaralhamento Combinação Agrupamento Redução Gravação da saída Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado O processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", é o componente do Hadoop responsável pela geração de pares 12/09/2025, 09:37 estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ 5/12 A B C D E intermediários de valor e chave. Esses pares são transferidos para a fase de redução. Este processo ocorre em paralelo com outras tarefas da fase de mapeamento, otimizando o uso dos recursos e aumentando a eficiência do processamento de dados. Portanto, a alternativa correta é a "A: Embaralhamento". 5 Marcar para revisão A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados. YARN NameNode Bloco de dados Replicação DataNode Resposta incorreta Opa! A alternativa correta é a letra E. Confira o gabarito comentado! Gabarito Comentado O componente lógico que mantém os dados do usuário na forma de blocos de dados no HDFS é o DataNode. Ele é uma parte essencial da arquitetura do HDFS, pois é responsável pelo armazenamento dos dados. Cada arquivo no HDFS é dividido em blocos de dados, que são armazenados em DataNodes. Portanto, a alternativa correta é a E, que menciona o DataNode. 12/09/2025, 09:37 estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ 6/12 A B C D E 6 Marcar para revisão Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios. Nível de governança Nível de Metadados Nível de admissão Nível de gerenciamento Nível de consumo Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado O Data Lake é estruturado em três níveis principais: admissão, gerenciamento e consumo. O nível de admissão é responsável pelos serviços de aquisição de dados. O nível de gerenciamento cuida da identificação e localização dos dados. Por fim, o nível de consumo é o que fornece dados para serem utilizados por aplicações que auxiliam na tomada de decisões de negócios. Portanto, a alternativa correta é o "Nível de consumo", pois é este nível que disponibiliza os dados para análise de negócios. 7 Marcar para revisão 12/09/2025, 09:37 estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ 7/12 A B C D E Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake. É um repositório para tratamento dos dados. É uma tecnologia de armazenamento e processamento de dados. É um repositório centralizado para armazenamento de dados. É um ambiente para tratamento e armazenamento apenas de dados relacionais. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazero gerenciamento dos dados. Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado O conceito de Data Lake se refere a um repositório centralizado que tem a capacidade de armazenar uma grande quantidade de dados em diversos formatos, sejam eles estruturados, não estruturados ou semiestruturados. A principal característica do Data Lake é que ele permite o armazenamento de dados sem a necessidade de aplicar nenhum tratamento prévio. Portanto, a alternativa que melhor define o Data Lake é a alternativa C: "É um repositório centralizado para armazenamento de dados". 8 Marcar para revisão 12/09/2025, 09:37 estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ 8/12 A B C D E A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas. MapReduce HDFS Task manager Camada de ingestão Mrjob Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado O MapReduce é o componente do Hadoop responsável pelo rastreamento de tarefas. Ele opera por meio de dois tipos de rastreadores: os Task Trackers, que rastreiam tarefas individuais, e os Job Trackers, que rastreiam trabalhos completos. Este mecanismo permite a distribuição eficiente de tarefas em um cluster. As demais alternativas, HDFS, Task manager, Camada de ingestão e Mrjob, embora estejam relacionadas ao Hadoop, não possuem a funcionalidade específica de rastreamento de tarefas. 9 Marcar para revisão Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake. 12/09/2025, 09:37 estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ 9/12 A B C D E A Possui alta latência para acesso dos dados. Aplica processos de tratamento nos dados. Armazena os dados de modo eficiente. Demanda por equipamentos especiais. São exclusivos da distribuição Hadoop Apache. Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado O conceito de Data Lake se refere a um sistema de armazenamento que é capaz de guardar uma grande quantidade de dados brutos, em seu formato original. A alternativa correta é a letra C, que afirma que o Data Lake armazena os dados de modo eficiente. Isso ocorre porque o Data Lake é projetado para armazenar grandes volumes de dados de maneira eficaz, permitindo que os usuários acessem e analisem esses dados rapidamente. Além disso, é importante ressaltar que o Data Lake não demanda por equipamentos especiais e não é de uso exclusivo da distribuição Hadoop Apache, contrariando as afirmações das alternativas D e E, respectivamente. 10 Marcar para revisão Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. Apenas estruturado 12/09/2025, 09:37 estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ 10/12 B C D E Estruturado e semiestruturado Estruturado, não estruturado e semiestruturado Apenas não estruturado Apenas tabelas relacionais Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado O Data Lake é uma solução de armazenamento de dados que permite a inclusão de diferentes formatos de dados, sejam eles estruturados, semiestruturados ou não estruturados. Essa característica de variedade dos dados é uma das principais vantagens do Data Lake, especialmente em aplicações de Big Data, onde a diversidade de formatos de dados é uma constante. Portanto, a alternativa correta é a C, que afirma que o Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados. 12/09/2025, 09:37 estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ 11/12 12/09/2025, 09:37 estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68c40e4957e88db34d501b06/gabarito/ 12/12