31/01/2022 11:34 Avaliação da Disciplina 1/9 Prova Impressa GABARITO | Avaliação da Disciplina (Cod.:645443) Peso da Avaliação 10,00 Prova 31283276 Qtd. de Questões 20 Nota 9,50 O Hadoop é um framework Open-source desenvolvido pela Apache e baseado na linguagem Java que tem como principal objetivo processar uma grande quantidade de dados de forma mais eficiente possível. Esse aplicativo funciona em ambientes de computação distribuída, nos quais são utilizados clusters. Ele foi projetado para realizar a expansão de um servidor único para milhares de outras máquinas, cada uma disponibilizando computação local e armazenamento. Dentro do Hadoop, existe o Hue e o Impala. Selecione a alternativa CORRETA sobre esses componentes. A Impala e Hive como parte do projeto Stinger estão competindo pela liderança na corrida pelo SQL interativo para implementações Big Data. Recentemente a Cloudera anunciou que o Impala é de 6 a 69 vezes mais rápido do que a versão 0.12 do Hive e superou em média 2 vezes um não informado DBMS. B Impala e Hive são linguagens de programação do Apache Hadoop, ambos brigam pelo mercado diretamente com Python e Scala. C Impala e Hive são bases de dados nativas, utilizadas para realização de experimentos. D Impala e Hive são SGBDs do Apache Hadoop, ambos brigam pelo mercado. A proposta de uma solução de Big Data é oferecer uma abordagem consistente no tratamento do constante crescimento e da complexidade dos dados. Para tanto, o conceito considera os 5 Vs do Big Data: o Volume, a Velocidade, a Variedade, a Veracidade e o Valor. Selecione a alternativa CORRETA sobre volume em cenário de Big Data. A O Volume trata de diversas formas de armazenamento, rotuladas como armazenamento estruturado, semiestruturado e não estruturado. B O volume trata de toda a massa de dados existente na organização, são milhões de Gigabytes gerados todos os dias, distribuídos em datacenters por todo o mundo. C O Volume pode ser definido pelas fontes de coleta de dados, desde sistemas de informações gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e qualquer dispositivo que armazene dados. VOLTAR A+ Alterar modo de visualização 1 2 31/01/2022 11:34 Avaliação da Disciplina 2/9 D O Volume tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados produzidos. O termo Big Data começa a despertar muita atenção, mas ainda é um conceito mal definido e menos compreendido. Com uma rápida pesquisa no Google, é possível identificar pelo menos uma dúzia de definições. Sem entrar em definições, mas nos atendo apenas a conceitos, podemos resumir com uma fórmula simples, Big Data = volume + variedade + velocidade de dados. Selecione a alternativa CORRETA sobre velocidade em cenário de Big Data. A A velocidade trata de diversas formas de armazenamento, rotuladas como armazenamento estruturado, semiestruturado e não estruturado. B A velocidade pode ser definida pelas fontes de coleta de dados, desde sistemas de informações gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e qualquer dispositivo que armazene dados. C A velocidade trata de toda a massa de dados existente na organização, são milhões de Gigabytes gerados todos os dias, distribuídos em datacenters por todo o mundo. D Velocidade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados produzidos. O dado tem sido considerado o petróleo da nova era. A tecnologia existente hoje é completamente confiável, mas os softwares e plataformas apenas ajudam a organizar. Tornar o projeto viável depende de conhecer conceitos e a própria cultura do ambiente corporativo. De acordo com estudos, 80% do conteúdo produzido em uma empresa normal é em formato não estruturado, mas o que isso significa e qual a diferença para um estruturado? Selecione a alternativa CORRETA sobre Big Data. A Big Data, tem como tradução literal “pequenos dados”, termo inicialmente instituído para determinar o grande volume de dados gerados pelos sistemas de informação. Podendo ser representado sobre a soma de volume, variedade e velocidade. B Big data são os dados semiestruturados. C Big Data é um tipo de banco de dados relacional. D Big Data, tem como tradução literal “grandes dados”, termo inicialmente instituído para determinar o grande volume de dados gerados pelos sistemas de informação. Podendo ser representado sobre a soma de volume, variedade e velocidade. 3 4 31/01/2022 11:34 Avaliação da Disciplina 3/9 Em um cenário de grandes volumes de dados a primeira etapa é a coleta, a segunda a preparação e por último o armazenamento, que permite futuras análises. Para isso, comumente utilizamos os ditos frameworks de Big Data. Selecione a alternativa CORRETA com a definição de framework. A Um framework é um conjunto de códigos python. B Um framework é um conjunto de códigos SQL. C Um framework é um conjunto de soluções para um conjunto de problemas. D Um framework é um conjunto de problemas. Existem empresas de Big Data que disponibilizam máquinas virtuais com o Hadoop instalado e executando. Essas máquinas virtuais contêm as próprias distribuições dessas empresas, que no geral guardam a documentação em site oficial e todos os recursos do projeto original complementado de particularidades de cada uma. As máquinas virtuais são disponibilizadas de maneira gratuita, basta realizar o download e utilizá-las. Selecione a alternativa CORRETA que traz o nome de distribuidores de máquinas virtuais com Apache Hadoop. A Cloudera, Hortonworks, MapR e Bitnami. B NoSQL, Oracle e Microsoft. C Coursera, Hortonworks, MapReduce e Bitnami. D Google, Amazon AWS, IBM. O Apache Hadoop é denominado como um Framework de Big Data, de acordo com a definição é um conjunto de soluções voltado para um conjunto de problemas. Em seu desenvolvimento inicial tinha como objetivo o particionamento e distribuição dos dados em um cluster, bem como a recuperação dos mesmos. No entanto, com os diversos desafios na era do Big Data, desde a pluralidade de bancos de dados, fontes de dados, bem como técnicas de mineração de dados, o framework se adapta para resolver os problemas através de seus subprojetos. 5 6 7 31/01/2022 11:34 Avaliação da Disciplina 4/9 Selecione a alternativa CORRETA sobre a linguagem em que o Apache Hadoop foi desenvolvido: A C B Java C Python D C++ Dentre os diversos desafios de um cenário de Big Data, o que se destaca é a fragmentação, distribuição e armazenamento das bases de dados, ou seja, mesmo que seja utilizado um cluster que empregue o conceito de computação paralela e distribuída é necessário um modelo computacional para fragmentar, distribuir e respectivamente e recuperar estes dados. Selecione a alternativa CORRETA com o nome do modelo de programação para Big Data. A NoSQL. B Map Reduce. C SQL. D Shuffle. O Hadoop é um projeto que oferece uma solução para problemas relacionados à Big Data, tendo em seu núcleo duas partes essenciais: o Hadoop Distributed Filesystem (HDFS), que é um sistema de arquivos distribuído e confiável, responsável pelo armazenamento dos dados, e o próprio Hadoop MapReduce, responsável pela análise e processamento dos dados. Ambos possuem a confiabilidade como uma marca, o que torna o sistema muito robusto para aplicações que envolvem dados massivos e importantes para as organizações que o utilizam. Selecione a alternativa correta sobre o HDFS: A O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuído projetado para ser executado em hardware comum. Tem muitas semelhanças com sistemas de arquivos distribuídos existentes. No entanto, as diferenças de outros sistemas de arquivos distribuídos são significativas. B O Hadoop Distributed