Prévia do material em texto
Verifique o seu desempenho e continue treinando! Você pode refazer o exercício quantas vezes quiser. A 1 Durante a execução de aplicações com Hadoop, a fase de redução desempenha papel fundamental no processamento final dos dados. Essa etapa é precedida por um processo que organiza e redistribui os pares chave-valor gerados pelas tarefas de mapeamento, otimizando a carga de trabalho entre os nós. Qual é o nome desse processo e qual é sua principal contribuição? Combinação – reduz a quantidade de tarefas no redutor ao eliminar duplicatas Questão de 10 Corretas Em branco 1 2 3 4 5 6 7 8 9 10 Hadoop e… Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 1 of 14 08/06/2025, 22:45 B C D E Classificação – organiza os dados em ordem alfabética antes da gravação final Embaralhamento – redistribui os dados intermediários para os redutores corretos Particionamento – divide os dados em grupos com base em similaridade semântica Agendamento – determina quais tarefas devem ser executadas com prioridade Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O embaralhamento (ou shuffle) é o processo em que os pares chave-valor intermediários, gerados pelos mapeadores, são redistribuídos entre os redutores conforme a chave. Essa etapa garante que todos os valores de uma mesma chave sejam processados juntos, permitindo uma redução eficaz e consistente dos dados. Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 2 of 14 08/06/2025, 22:45 A B C D E 2 Em relação às fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Embaralhamento Combinação Agrupamento Redução Gravação da saída Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", é o componente do Hadoop responsável pela geração de pares intermediários de valor e chave. Esses pares são transferidos para a fase de redução. Este processo ocorre em paralelo com outras tarefas da fase de mapeamento, otimizando o uso dos Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 3 of 14 08/06/2025, 22:45 A B C D E recursos e aumentando a eficiência do processamento de dados. Portanto, a alternativa correta é a "A� Embaralhamento". 3 A arquitetura do Hadoop é projetada para garantir alto desempenho na manipulação de grandes volumes de dados distribuídos. Um de seus principais diferenciais é a capacidade de dividir tarefas entre diversos nós do cluster. Qual componente da arquitetura Hadoop é responsável por ? NameNode NodeManager DataNode TaskTracker Mapper Parabéns, você selecionou a Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 4 of 14 08/06/2025, 22:45 A B C D alternativa correta. Confira o gabarito comentado! O NodeManager atua como o agente em cada máquina (nó) do cluster, sendo responsável por monitorar os recursos locais e repassar essas informações ao ResourceManager, parte integrante do YARN. Ele assegura que os containers sejam gerenciados com base na capacidade da máquina, otimizando a alocação de tarefas. 4 Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios. Nível de governança Nível de Metadados Nível de admissão Nível de gerenciamento Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 5 of 14 08/06/2025, 22:45 E Nível de consumo Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O Data Lake é estruturado em três níveis principais: admissão, gerenciamento e consumo. O nível de admissão é responsável pelos serviços de aquisição de dados. O nível de gerenciamento cuida da identificação e localização dos dados. Por fim, o nível de consumo é o que fornece dados para serem utilizados por aplicações que auxiliam na tomada de decisões de negócios. Portanto, a alternativa correta é o "Nível de consumo", pois é este nível que disponibiliza os dados para análise de negócios. 5 O Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta que contenha a linguagem de programação utilizada para o desenvolvimento e implementação do Hadoop. Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 6 of 14 08/06/2025, 22:45 A B C D E Python Java Lua JavaScript Perl Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O Hadoop foi originalmente desenvolvido utilizando a linguagem de programação Java, pela Apache Foundation. Com o passar do tempo, diferentes versões do framework foram implementadas em várias linguagens, incluindo Python. No entanto, a linguagem de programação principal e mais utilizada para o desenvolvimento e implementação do Hadoop continua sendo Java, tornando a alternativa B a resposta correta para esta questão. Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 7 of 14 08/06/2025, 22:45 A B C D E 6 A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas. MapReduce HDFS Task manager Camada de ingestão Mrjob Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O MapReduce é o componente do Hadoop responsável pelo rastreamento de tarefas. Ele opera por meio de dois tipos de rastreadores: os Task Trackers, que rastreiam tarefas individuais, e os Job Trackers, que rastreiam trabalhos completos. Este mecanismo permite a distribuição eficiente de tarefas em um cluster. As demais alternativas, HDFS, Task Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 8 of 14 08/06/2025, 22:45 A B C D E manager, Camada de ingestão e Mrjob, embora estejam relacionadas ao Hadoop, não possuem a funcionalidade específica de rastreamento de tarefas. 7 Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. Apenas estruturado Estruturado e semiestruturado Estruturado, não estruturado e semiestruturado Apenas não estruturado Apenas tabelas relacionais Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O Data Lake é uma solução de Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 9 of 14 08/06/2025, 22:45 A B C D armazenamento de dados que permite a inclusão de diferentes formatos de dados, sejam eles estruturados, semiestruturados ou não estruturados. Essa característica de variedade dos dados é uma das principais vantagens do Data Lake, especialmente em aplicações de Big Data, onde a diversidade de formatos de dados é uma constante. Portanto, a alternativa correta é a C, que afirma que o Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados. 8 Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake. Possui alta latência para acesso dos dados. Aplica processos de tratamento nos dados. Armazena os dados de modo eficiente. Demanda por equipamentos especiais. Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 10 of 14 08/06/2025, 22:45 E São exclusivos da distribuição Hadoop Apache. Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O conceito de Data Lake se refere a um sistema de armazenamento que é capaz de guardar uma grande quantidade de dados brutos, em seu formato original. A alternativa correta é a letra C, que afirma que o Data Lake armazena os dados de modo eficiente. Isso ocorre porque o Data Lake é projetado para armazenar grandes volumes de dados de maneira eficaz, permitindo que os usuários acessem e analisem esses dados rapidamente.Além disso, é importante ressaltar que o Data Lake não demanda por equipamentos especiais e não é de uso exclusivo da distribuição Hadoop Apache, contrariando as afirmações das alternativas D e E, respectivamente. 9 Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 11 of 14 08/06/2025, 22:45 A B C D E Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake. É um repositório para tratamento dos dados. É uma tecnologia de armazenamento e processamento de dados. É um repositório centralizado para armazenamento de dados. É um ambiente para tratamento e armazenamento apenas de dados relacionais. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados. Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O conceito de Data Lake se refere a um repositório centralizado que tem a capacidade de armazenar uma grande quantidade de dados em diversos formatos, sejam eles estruturados, não estruturados Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 12 of 14 08/06/2025, 22:45 A B ou semiestruturados. A principal característica do Data Lake é que ele permite o armazenamento de dados sem a necessidade de aplicar nenhum tratamento prévio. Portanto, a alternativa que melhor define o Data Lake é a alternativa C� "É um repositório centralizado para armazenamento de dados". 10 Organizações que lidam com grandes volumes de dados, como redes sociais e plataformas de streaming, frequentemente adotam soluções específicas para garantir desempenho, escalabilidade e tolerância a falhas. Uma dessas soluções é o Hadoop, cuja arquitetura é composta por diversos componentes que trabalham em conjunto. Considerando a função desses componentes, qual deles é ? YARN, por ser o componente responsável pelo agendamento e gerenciamento de tarefas distribuídas NameNode, por conter os metadados que descrevem a localização dos arquivos armazenados Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 13 of 14 08/06/2025, 22:45 C D E MapReduce, por possibilitar a divisão das tarefas em pares chave-valor para processamento paralelo DataNode, por ser o responsável direto pelo armazenamento físico dos dados no cluster Hadoop Common, por fornecer bibliotecas e scripts necessários à execução dos demais componentes Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O DataNode é o componente da arquitetura Hadoop responsável por armazenar os dados reais em cada nó do cluster. Ele atua como "escravo" na estrutura mestre- escravo, sendo coordenado pelo NameNode, que apenas gerencia metadados. Enquanto outros componentes como YARN e MapReduce se concentram em processamento e gerenciamento, o DataNode se encarrega do armazenamento em si. Firefox https://estacio.saladeavaliacoes.com.br/exercicio/68403de2aec0bb3210... 14 of 14 08/06/2025, 22:45