Prévia do material em texto
Conteúdo do exercício Ocultar opções de resposta Pergunta 1 -- /0 A redundância e o desempenho do Apache Hadoop se dão por intermédio da sua arquitetura baseada em cluster. Existem diferentes formas de implantar o cluster do Hadoop dependendo da sua utilização, seja para ambientes de desenvolvimento, testes ou produção. Considerando essas informações e o conteúdo estudado, é correto afirmar que: O modelo de instalação Stand Alone Mode, que seria uma instalação local, não possui processos divididos entre diferentes servidores, sendo muito indicado para estudantes. O Stand Alone Mode é também é indicado para ambientes de desenvolvimento de grande porte. O cluster do Hadoop no modo Pseudo Distributed Mode é indicado para ambientes de produção. O modo Pseudo Distributed Mode implanta os processos em diferentes servidores, rodando independentemente. O multi-node mode roda no mesmo servidor, mas não na mesma JVM para facilitar o uso em background dos recursos computacionais. Pergunta 2 -- /0 Os dados processados em Big Data passaram de Gigabytes para Terabytes e daí para Petabytes, ficando cada vez mais claro que o seu tratamento exige uma nova estratégia de processamento e armazenamento. O Hadoop implementa a estratégia de processamento chamada MapReduce, que deve ser usada para a criação de jobs de Ocultar opções de resposta Ocultar opções de resposta acesso e processamento dos dados no Hadoop. Com base nessas informações e no conteúdo estudado, é correto afirmar que o MapReduce foi criado para: facilitar a criptografia dos dados de forma paralela entre os clusters, pois é mais fácil transportar os dados criptografados para processamento. facilitar a compactação dos dados nos clusters, facilitando o transporte desses dados entre o cluster e as aplicações usuárias do serviço. facilitar o transporte do processamento de forma paralela entre os clusters, pois é mais fácil transportar o processamento do que os dados. abstrair a forma como os jobs devem ser processados, permitindo que qualquer tipo de modelo seja usado no Hadoop sem precisar reescrever códigos já criados. ampliar a capacidade de processamento paralelo ao transportar os dados para o nó de cluster que executa o job de processamento dos dados solicitados. Pergunta 3 -- /0 Historicamente, os arquitetos de soluções criadores do Hadoop enfrentaram situações que estrangularam a forma tradicional de processamento de dados, alguns dos paradigmas foram quebrados para conseguirem o desempenho desejado e imposto pelas aplicações e usuários da Internet. Uma forma de busca de dados que era completamente indesejada pelos bancos de dados tradicionais foi a solução que gerou o melhor desempenho para o grande volume de dados, possibilitando respostas rápidas para pesquisas de dados não estruturados. Com base no texto e nos estudos da unidade, assinale a alternativa que contém a solução descrita acima: Table scan. Algoritmo de busca OLAP. Índice de tabela. Algoritmo de busca OLTP. Desnormalização. Ocultar opções de resposta Pergunta 4 -- /0 O Hadoop, por ter sido desenvolvido para utilizar clusters e implantar a replicação de dados, possui o desafio de manter consistente o seu estado mesmo quando ocorre algum erro interno. Com base nessas informações e no conteúdo estudado, é correto afirmar que, para assegurar o estado de consistência de gestão de seus metadados, o Hadoop: efetua checkpoints dos logs gerados pelo SecondaryNode usando o DataNode para efetuar a análise das diferenças encontradas e manter a consistência dos dados. usa o SecondaryNode para replicar os logs de alterações nos dados, que são gerenciados pelo NameNode, fazendo checkpoints do estado consistente. efetua checkpoints dos logs gerados pelo NameNode usando o DataNode para efetuar a análise das diferenças encontradas e manter a consistência dos dados. usa os recursos normais de backup dos servidores em cluster oferecidos pelos sistemas operacionais, garantindo a restauração dos arquivos. usa o NameNode para replicar os logs de alterações nos dados, que são gerenciados pelo SecondaryNode, fazendo backups dos dados. Pergunta 5 -- /0 O Hadoop é a principal ferramenta de Big Data e a base de muitas soluções desse mercado. Ao crescer nesse sentido, aprimorou a sua forma de gerenciar os recursos e processos de maneira mais eficiente com o YARN. Com base nessas informações e no conteúdo estudado, analise as afirmações abaixo e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s): I. ( ) O YARN nasceu da necessidade do Hadoop de gerenciar outros recursos além no MapReduce, com prioridades adequadas para novos tipos de aplicações. II. ( ) O ResourceManager fica no servidor escravo e recebe instruções do NodeManager. III. ( ) O NodeManager fica no servidor master, gerencia os recursos do cluster e centraliza as requisições de serviço, distribuindo os recursos entre as tarefas. Ocultar opções de resposta Ocultar opções de resposta IV. ( ) O container é uma unidade de processamento com memória e CPU criado para executar as requisições que chegam no NodeManager. Agora, assinale a alternativa que apresenta a sequência correta: F, V, F, V. F, V, V, F. V, V, F, F. V, F, V, F. V, F, F, V. Pergunta 6 -- /0 O Hadoop possui um ecossistema integrado de soluções que ampliam a utilização para Data Science e Big Data. Uma empresa precisa preparar os dados que chegam do ERP para adequá-los e utilizar na criação de Machine Learning, de forma periódica e agendada, respeitando sequências de ações. Com base nessas informações e no conteúdo estudado, assinale a alternativa contendo a ferramenta do ecossistema mais indicada para criação de fluxos de trabalho com o Hadoop: Solr. HDFS. Oozie. Yarn. Ambari. Pergunta 7 -- /0 Ocultar opções de resposta A ASF – Apache Software Foundation está completando 20 anos de existência, e possui mais de 180 projeto de OpenSource, dos quais 49 são associados a Big Date e o Hadoop, o ecossistema do Hadoop possui uma família bem densa e intensa na sua evolução. Com base nessas informações e no conteúdo estudado, analise as ferramentas do ecossistema do Hadoop abaixo e relacione-as com suas respectivas descrições: 1) Ambari. 2) Drill. 3) HBase. 4) Sqoop. ( ) Concatena dados estruturados e não estruturados (NoSQL), possui mecanismo de estruturação automática de plano de consulta para aproveitar os recursos, e simula acessos aos dados no formato tabela, o que ajuda muito as aplicações em BI. ( ) É uma ferramenta para importação e exportação de dados estruturados em bancos de dados relacionais, criando os respectivos MapReduces no Hadoop. ( ) É a solução para bases de dados muito grandes, entre bilhões de linhas, usado para aplicações de acesso em tempo real (OLTP). ( ) É uma ferramenta de monitoração, gestão de aprovisionamento de cluster. Agora, assinale a alternativa que apresenta a sequência correta: 3, 2, 4, 1. 2, 1, 3, 4. 2, 3, 4, 1. 2, 4, 3, 1. 1, 3, 4, 2. Pergunta 8 -- /0 Nem todas as transações são do mesmo tipo, algumas são criadas para efetuar tarefas que exigem resultado imediato e outras podem demorar mais tempo analisando uma quantidade maior de dados. Com base nessas informações e no conteúdo estudado, é correto afirmar que as transações OLTP: Ocultar opções de resposta são feitas por aplicações de análise de dados, envolvem muitos cálculos e são custosas para o ambiente de produção, sendo consideradas de menor prioridade. são feitas por aplicações online para registros rápidos e coerentes, de forma consistente, como, por exemplo, compras por cartão de crédito. são transações seguras, criptografadas para integração entre aplicações, dispendiosas em termos de tempo e podem levar horas para serem processadas. são muito utilizadas por soluções de Business Intelligence, pois permitem a resposta rápida e analítica dos dados, mesmo que envolvam várias outras transações. são efetuadas normalmente na madrugada, sem intervenção humana, organizadas em ferramentasde gestão de processamento batch. Pergunta 9 -- /0 Leia o trecho a seguir: “Muito se fala a respeito do Big Data e de como o número de dados gerados graças à Internet das Coisas, operações financeiras, registros médicos, smartphones, mídias sociais e uma série de outras coisas tende a aumentar em um ritmo assustador.Atualmente, estima-se a marca dos 1,8 zettabytes (1 zettabyte equivale a 1 bilhão de gigabytes) de dados existentes no mundo, mas um estudo realizado pela IDC prevê que o ‘universo digital’ deve atingir a marca de 40 zettabytes – o equivalente a 45 trilhões de gigabytes – em 2020.” Fonte: CANALTECH. Cientista de dados: o profissional do futuro. 31 jul. 2013. Disponível em: < https://canaltech.com.br/carreira/Cientista-de-dados-o-profissional-do-futuro/>. Acesso em: 31 mar. 2019. Com base no trecho acima e no conteúdo estudado, analise as afirmações a seguir a respeito de como historicamente as soluções foram sendo encontradas para se criarem ferramentas como o Hadoop, e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s): I. ( ) Os bancos de dados relacionais tradicionais eram totalmente capazes de desempenhar a velocidade necessária para processar pesquisas de internet como Yahoo e Google. II. ( ) Como não era possível criar formas de indexação dos dados, optou-se por fazer o que era aparentemente incabível: table scan. Em cluster, dividindo a base em colunas, ficou muito mais rápido o processamento viabilizando a sua paralelização. III. ( ) Como os dados eram muito mais difíceis e custosos de transportar, a distribuição das operações se tornou a forma mais viável. Assim, acabou-se criando uma indexação de servidores, metadados e divisão do processamento para facilitar a sua distribuição em um grande número de servidores em cluster. IV. ( ) Com sempre houve a disponibilidade de memória RAM em servidores, e com seu baixo custo, optou-se por alocar todo os dados em memória, facilitando a busca de informações e acelerando a resposta às pesquisas solicitadas pelos usuários. Ocultar opções de resposta Ocultar opções de resposta Assinale a alternativa F, V, V, F. V, V, F, F. V, V, V, F. F, F, V, V. V, F, V, F. Pergunta 10 -- /0 Um grande escritório de advocacia quer poder pesquisa e analisar contratos, processos, petições, cartas e outros documentos em seu escritório para melhorar a eficiência de seus advogados, aproveitando históricos e documentos já criados. De acordo com o texto acima, quais ferramentas do ecossistema do Apache podem ser utilizadas para uma solução de Data Science e Big Data: Drill para armazenamento dos documentos, Solr para indexação e pesquisa de documentos e bibliotecas em R para processamento de linguagem natural. Hadoop HDFS para indexação dos documentos, Pig para armazenamento em cluster e MapReduce para criação aplicações. YARN para indexação dos documentos, Solr para indexação e pesquisa de documentos e Oozie para processamento de linguagem natural. Hadoop HDFS para armazenamento, Solr para indexação e pesquisa de documentos, e bibliotecas de processamento de linguagem natural do Python. Hadoop HDFS para armazenamento, Hive para indexação de documentos e Mahout para criação de Machine Learning.