Prévia do material em texto
Avaliação II: BIG DATA 1. Os dados são gerados a todo momento por diversos meios, plataformas, sistemas, redes sociais, buscadores de Internet, entre outros. Com isso, surge o Big Data, que propõe a utilização desses dados, de forma a gerar informações importantes aos gestores. Com base nisso, analise as afirmativas a seguir: I. Os dados gerados por fontes como redes sociais e e-commerce são estruturados, pois sempre geram tuplas idênticas. II. Dados semiestruturados originados de fontes como aplicações web são ideais para bancos de dados do tipo relacional. III. As redes sociais têm dados não estruturados como os vídeos e as fotos postados pelos usuários. Está correto o que se afirma em: II e III. III. (Alternativa correta) I e II. I, II e III. 2. No que diz respeito a Data Warehouse, Data Lake e Big Data, é importante entender que o coração do sistema é o seu formato de armazenamento e recuperação dos dados. Um sistema eficiente para o armazenamento é o Hadoop Distributed FileSystem. Escolha a alternativa que descreve como o HDFS consegue armazenar de forma tão eficiente uma grande massa de dados: Eliminando dados redundantes. Por meio de restrições de discos. Pela configuração presente no arquivo dfs.divide. Por meio da divisão dos dados em blocos. (Alternativa correta) 3. Mesmo em sistemas mais modernos, sempre existe a possibilidade de determinado local que armazena dados falhar. O HDFS armazena seus dados nos DataNodes. Imagine que, em seu sistema de Big Data em pleno funcionamento, durante uma leitura de dados, um DataNode falha. Assinale a alternativa que descreve o que acontece nesse caso: O HDFS, por meio de seu sistema de tolerância a falhas, irá procurar os dados em outra replicação e, após isso, criará mais uma replicação de segurança, mantendo o mesmo número de replicações antes de a falha ocorrer. (Alternativa correta) O HDFS indicará na tela uma mensagem de falha de leitura de setor e irá sugerir para você usar uma ferramenta que tente realizar a correção dos dados semelhante ao Scandisk presente nos Windows. No momento da falha, o Hadoop Distributed System envia um sinal de paralização a todos os NameNodes e, nesse momento, os DataNodes presentes no HDFS irão criar duas replicações rápidas de segurança. Como o HDFS foi projetado para tolerar falhas, ele apenas irá procurar os dados em outra replicação, e isso sanará totalmente o problema sem necessidade de novas intervenções. 4. O HQL permite utilizar diversos comandos muito semelhantes aos do SQL. Entretanto, o HQL ainda tem muitas diferenças em relação ao SQL. Selecione a opção que descreve o resultado deste bloco de comandos: CREATE TABLE cliente (id INT, nome STRING, idade INT, endereco STRING) PARTITIONED BY (data_cadastro STRING) STORED AS SEQUENCEFILE; Atualiza uma tabela chamada cliente, inserindo as colunas id e idade do tipo inteiro, e as colunas nome e endereco do tipo string. Além disso, a tabela é particionada com uma coluna chamada data_cadastro do tipo string. Por fim, define o armazenamento em formato criptografado com o comando STORED AS SEQUENCEFILE. Cria uma tabela chamada cliente, com as colunas id e nome do tipo inteiro, e as colunas idade e endereco do tipo string. Além disso, a tabela é particionada com uma coluna chamada data_cadastro do tipo string. Por fim, define o armazenamento em formato binário com o comando STORED AS SEQUENCEFILE. Cria uma tabela chamada cliente, com as colunas id e idade do tipo inteiro, e as colunas nome e endereco do tipo string. Além disso, a tabela não é particionada com nenhuma coluna. Por fim, define o armazenamento em formato binário com o comando STORED AS SEQUENCEFILE. Cria uma tabela chamada cliente, com as colunas id e idade do tipo inteiro, e as colunas nome e endereco do tipo string. Além disso, a tabela é particionada com uma coluna chamada data_cadastro do tipo string. Por fim, define o armazenamento em formato binário com o comando STORED AS SEQUENCEFILE. (Alternativa correta) 5. O MapReduce foi desenhado para processar grandes volumes de dados, dividindo as tarefas em subconjuntos, de forma independente, entre os nós, permitindo a criação de programas que são escritos seguindo um padrão em forma de listas de processamento de dados. Sobre a definição para esse modelo, marque a resposta correta. O MapReduce é considerado um modelo de programação que permite centralizar o processamento de dados em um nó mestre e utilizar um nó escravo, caso o principal falhe. O MapReduce é considerado um modelo de programação que permite o processamento de dados em grande volume com o uso de apenas uma máquina de alto processamento, visando ao baixo custo. O MapReduce é considerado um modelo de programação que permite o processamento de dados distribuído em diversas máquinas com o uso de cluster, porém com alta complexidade de programação. O MapReduce é considerado um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído de forma simples, ocultando a complexidade de operação. (Alternativa correta) 6. O Big Data vem sendo cada vez mais procurado por empresas, independente do seu porte. Isso se dá pela potencialidade econômica que a tecnologia pode proporcionar aos negócios de qualquer segmento. Porém, antes de tudo, o profissional deve saber distinguir os tipos de dados. Nesse contexto, observe as afirmativas a seguir e julgue (V) verdadeiro ou (F) falso: ( ) A idade e a altura são dados do tipo estruturado. ( ) Dados cartográficos são considerados semiestruturados. ( ) As figuras geométricas são dados não estruturados. ( ) Longos textos gerados por TAGs são semiestruturados. ( ) Somente os vídeos em MP4 são considerados do tipo estruturado. Assinale a alternativa com a sequência correta: V - F - F - V - V. F - F - F - F - V. V - F - V - V - F. (Alternativa correta) F - V - F - V - F. 7. A plataforma Apache Hadoop armazena e processa grandes volumes de dados. Suponha que você esteja realizando uma consultoria sobre o conjunto de ferramentas Hadoop e seja perguntado sobre quais são seus componentes principais. Assinale a alternativa correta: MapReduce, HDFS e Common. (Alternativa correta) Ambari, HDFS e Ambari. Hive, Common, HDFS e Ambari. Hive, HDFS, Common e MapReduce. 8. Ao pensarmos em um sistema para utilização das ferramentas de Big Data, é necessária a compreensão dos desafios relacionados a sua operacionalização no dia a dia nas empresas. Com base nisso, observe as afirmativas a seguir. São desafios do Big Data: I. Alto custo de implementação devido ao fato de os ecossistemas do Big Data terem apenas softwares proprietários. II. Infraestrutura de redes de computadores devido às limitações de infraestrutura e ao surgimento das redes convergentes. III. As autorizações judiciais para acessar e utilizar os dados de maneira comercial. Está correto o que se afirma em: I. II. (Alternativa correta) I e II. III. 9. Entre os componentes da arquitetura de MapReduce, podem ser citados os nós, classificados como mestre e escravo, e a aplicação de sistema de arquivos distribuídos utilizada para armazenar os dados em conjunto com a estrutura de cluster. Sobre esses sistemas, é correto afirmar que: ambos os sistemas são ideais para tratar os dados de forma distribuída e com tolerância a falhas pelo uso de cluster, com a diferença de que, por utilizar mais nós em sua operação, o HDFS apresenta um custo mais elevado. tanto o HDFS como o GFS foram desenvolvidos em Java e podem ser executados em hardware comum, sendo capazes de se recuperar de falhas, por trabalharem com um conjunto de máquinas em que, caso um nó falhe, outro nó ativo o substitui imediatamente. o sistema GFS foi idealizado pela Google e influenciou a criação do HDFS, ambos sistemas de arquivos distribuídos que utilizam o modo de operação MapReduce para mapear e distribuir um grandevolume de dados entre os nós. (Alternativa correta) o sistema HDFS foi criado anteriormente ao GFS, por isso suporta um menor volume de dados, visto que o GFS é uma evolução para o conceito de sistemas de arquivos distribuídos que tratam volumes maiores de dados. 10. Assim como no Hadoop 1, no Hadoop 2 o YARN tem a capacidade de atender às necessidades de localidade. Qual a vantagem da localidade? Evitar a sobrecarga do Resource Manager com tarefas pequenas. Executar as tarefas na mesma máquina onde os dados estão localizados. (Alternativa correta) Garantir a boa utilização dos recursos do cluster. Executar as tarefas umas próximas das outras. 1. Os dados são gerados a todo momento por diversos meios, plataformas, sistemas, redes sociais, buscadores de Internet, entre outros. Com isso, surge o Big Data, que propõe a utilização desses dados, de forma a gerar informações importantes aos gesto... 2. No que diz respeito a Data Warehouse, Data Lake e Big Data, é importante entender que o coração do sistema é o seu formato de armazenamento e recuperação dos dados. Um sistema eficiente para o armazenamento é o Hadoop Distributed FileSystem. Escolh... 3. Mesmo em sistemas mais modernos, sempre existe a possibilidade de determinado local que armazena dados falhar. O HDFS armazena seus dados nos DataNodes. Imagine que, em seu sistema de Big Data em pleno funcionamento, durante uma leitura de dados, u... 4. O HQL permite utilizar diversos comandos muito semelhantes aos do SQL. Entretanto, o HQL ainda tem muitas diferenças em relação ao SQL. Selecione a opção que descreve o resultado deste bloco de comandos: CREATE TABLE cliente (id INT, nome STRING, i... 5. O MapReduce foi desenhado para processar grandes volumes de dados, dividindo as tarefas em subconjuntos, de forma independente, entre os nós, permitindo a criação de programas que são escritos seguindo um padrão em forma de listas de processamento ... 6. O Big Data vem sendo cada vez mais procurado por empresas, independente do seu porte. Isso se dá pela potencialidade econômica que a tecnologia pode proporcionar aos negócios de qualquer segmento. Porém, antes de tudo, o profissional deve saber dis... 7. A plataforma Apache Hadoop armazena e processa grandes volumes de dados. Suponha que você esteja realizando uma consultoria sobre o conjunto de ferramentas Hadoop e seja perguntado sobre quais são seus componentes principais. Assinale a alternativa... 8. Ao pensarmos em um sistema para utilização das ferramentas de Big Data, é necessária a compreensão dos desafios relacionados a sua operacionalização no dia a dia nas empresas. Com base nisso, observe as afirmativas a seguir. São desafios do Big Dat... 9. Entre os componentes da arquitetura de MapReduce, podem ser citados os nós, classificados como mestre e escravo, e a aplicação de sistema de arquivos distribuídos utilizada para armazenar os dados em conjunto com a estrutura de cluster. Sobre esses... 10. Assim como no Hadoop 1, no Hadoop 2 o YARN tem a capacidade de atender às necessidades de localidade. Qual a vantagem da localidade?