Prévia do material em texto
1 - Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. A - Apenas estruturado B - Estruturado e semiestruturado C - Estruturado, não estruturado e semiestruturado D - Apenas não estruturado E - Apenas tabelas relacionais Gabarito comentado: O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data. 2 - O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop. A – Processos de extração, transformação e carregamento dos dados. B – Mecanismo para melhorar o processamento dos dados. C – Gerenciamento do armazenamento de dados. D – Gerenciamento do armazenamento de dados. E – Tratar dados não-estruturados. Gabarito comentado: O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o profissional responsável por essa etapa terá que configurar o sistema que, pela natureza dos problemas de Big Data, é uma tarefa complexa. 3 – Em relação aos arquivos de configuração do Hadoop, selecione a opção correta que contém o arquivo que trata das configurações do HDFS. A – mapred-site.xml B – core-site.xml C – hdfs-site.xml D – yarn-site.xml E – hadoop-env.cmd Gabarito comentado: O arquivo de configuração hdfs-site.xml é o responsável pela definição de configuração para processos do HDFS. Ele também é responsável por fazer a especificação da replicação de bloco padrão e verificação de permissão no HDFS. 4 – Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake. A – É um repositório para tratamento dos dados. B – É uma tecnologia de armazenamento e processamento de dados. C – É um repositório centralizado para armazenamento de dados. D – É um ambiente para tratamento e armazenamento apenas de dados relacionais. E – Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados. Gabarito comentado: O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento. 5 – A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados. A – YARN B – NameNode C – Bloco de dados D – Replicação E – DataNode Gabarito comentado: O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados. 6 – O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake. A – Camada de governança B – Camada de Metadados C – Camada de segurança D – Camada de gerenciamento de dados E – Camada de gerenciamento do ciclo de vida da informação Gabarito comentado: O Data Lake possui três camadas: a de governança e segurança de dados, a de metadados e a de gerenciamento do ciclo de vida da informação que tratam, respectivamente, da política de segurança de dados, da marcação e identificação dos dados e das regras de armazenamento. 7 – Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios. A – Nível de governança B – Nível de Metadados C – Nível de admissão D – Nível de gerenciamento E – Nível de consumo Gabarito comentado: O Data Lake possui três níveis: o de admissão, o de gerenciamento e o de consumo que tratam, respectivamente, dos serviços de aquisição de dados, da identificação e localização dos dados e que fornecem dados para ser consumidos por aplicações de apoio à tomada de decisão. 8 – A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas. A – MapReduce B – HDFS C – Task manager D – Camada de ingestão E – Mrjob Gabarito comentado: O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas. 9 – Em relação ao Hadoop, selecione a opção correta que trata da otimização da relação custo e benefício a respeito da expansão de uma infraestrutura. A – Escalabilidade B – Tempo de resposta C – Volume de dados D – Flexibilidade E – Variedade dos dados Gabarito comentado: A escalabilidade trata da expansão de um sistema. Essa situação é bastante comum em projetos de Big Data. No caso do Hadoop, ele pode utilizar equipamentos comuns, como computadores pessoais formando clusters de escalabilidade horizontal. 10 – Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. A – Embaralhamento B – Combinação C – Agrupamento D – Redução E – Gravação da saída Gabarito comentado: Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento.