Arquitetura de Coleta e Armazenamento de Dados Hadoop e Spark

•

ULBRA

Adriano Persch

29/11/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Hadoop

349 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1 - Dentre os desafios desafios de um cenário de Big Data, o que se destaca é a fragmentação, distribuição e armazenamento das bases de dados, ou seja, mesmo que seja usado um cluster que empregue de conceito de computação paralela e distribuída é necessário um modelo computacional para fragmentar, distribuir e respectivamente e recuperar estes dados.
 
Selecione uma alternativa CORRETA com o nome do modelo de programação para Big Data.    
A)  SQL. 
B)  Shuffle. 
C)  NoSQL.
D)  Redução de mapa. 
2 - O dado tem sido considerado o petróleo da era nova. A tecnologia existente, hoje é totalmente confiável, mas os softwares e plataformas apenas organizadores. Tornar o projeto viável depende de conhecer os conceitos e a própria cultura do ambiente corporativo. De acordo com estudos, 80% do conteúdo produzido em uma empresa normal é em formato não estruturado, mas o que isso significa e qual a diferença para um estruturado?
 
Selecione uma alternativa CORRETA sobre Big Data.
A)  Big Data, tem como tradução literal “pequenos dados”, termo boletim instituído para determinar o grande volume de dados gerado pelos sistemas de informação. Podendo ser representado sobre a soma de volume, variedade e velocidade. 
B)  Big Data, tem como tradução literal “grandes dados”, termo boletim instituído para determinar o grande volume de dados gerado pelos sistemas de informação. Podendo ser representado sobre a soma de volume, variedade e velocidade. 
C)  Big data são os dados semiestruturados.
D)  Big Data é um tipo de banco de dados relacional.
3 - Uma explosão exponencial de dados digitais para pesquisar as pesquisas novas formas de ver e analisar o mundo. Trata-se de descobrir novas ordens de grandeza para capturar, compartilhar, armazenar, analisar e apresentar dados. É assim que o "big data" nasceu, um conceito para armazenar uma quantidade enorme de informações em uma base digital.
 
Selecione a alternativa CORRETA com a linguagem de programação considerada a tendência para o Big Data. 
A)  C ++.
B)  Delphi.
C)  Visual Basic. 
D)  Python. 
4-Hadoop e Spark são matrizes de Big Data, mas não têm as mesmas finalidades. A primeira é, essencialmente, uma infraestrutura de dados distribuída de software. Distribui conjuntos de dados em massa por vários nós em agrupamentos de servidores básicos, prescindindo da compra e manutenção de hardware e específico caro. Também faz índices e mantém o controle de localização dos dados, permitindo um processamento mais eficaz de grandes volumes de dados e processos de analítica. A Spark é uma ferramenta de processamento de dados que atua sobre esses conjuntos de dados distribuídos. E não faz armazenamento distribuído.
 
Usar como alternativa CORRETA sobre o Apache Spark: 
A)  O Apache Spark é um framework de código-fonte aberto para bancos de dados NoSQL distribuído pela oracle.
B)  O Apache Spark é um framework de código-fonte aberto, distribuído pela Microsoft. 
C)  O Apache Spark é um sistema gerenciador de banco de dados acoplado aos sistemas operacionais de origem UNIX. 
D)  SO Apache Spark é um framework de código-fonte aberto para distribuída. Foi desenvolvido no AMPLab da Universidade da Califórnia e posteriormente repassado para a Apache Software Foundation, que o mantém desde então. 
5 - No que se faz referência à análise de informações, um fator primordial é o dado. Sem ele nada possível, seria possível em um cenário de conceitos, é a matéria-prima para todo o processo de geração de informação e conhecimento. Os dados podem ser compreendidos como: estruturados, não estruturados e semiestruturados.
 
Selecione uma alternativa CORRETA sobre os dados estruturados. 
A)  São dados que tem estrutura.
B)  Tal estrutura é incremental e vai se alterando no passar do tempo. São exemplos de dados semiestruturados: planilhas excel, arquivos CSV, documentos XML, documentos JSON. 
C)  São aqueles que pertencem de algum processamento para descobrir uma estrutura. 
D)  São dados que estão armazenados em uma estrutura definida, tradicionalmente, os softwares usam na forma de SGBDR (Sistemas Gerenciadores de Bancos de Dados Relacionais) ou BDR (Bancos de Dados Relacionais). 
6 - O Spark é um framework para processamento de Big Data construído com foco em velocidade, facilidade de uso e análises sofisticadas. Oferece APIs de alto nível em Java, Scala e Python, bem como um conjunto de bibliotecas que tornam capaz de trabalhar de forma integrada, em uma mesma aplicação, com SQL, streaming e análises complexas, para lidar com uma grande variedade de situações processamento de dados.
 
Selecione uma alternativa CORRETA que traz os principais componentes do SPARK.  
A)  Spark Base, Spark Streamming, Spark MLib, GraphX. 
B)  Spark SQL, Spark Streamming, Spark MLib, GraphX. 
C)  Spark SQL, sistema de arquivos Spark, Spark Scala, GraphX.
D)  Sparql, Sistema de arquivos Spark, Spark Base, GraphX.
7- No que se refere à curva de aprendizado e utilização rápida de um ambiente Hadoop o emprego de máquinas virtuais é a melhor opção de uso do framework. São diversos os fornecedores de Máquinas virtuais, bem como diversos tipos de máquinas que podem ser usados.
 
Selecione a alternativa correta sobre Máquina Virtual e sua aplicação no Apache Hadoop. 
A)  Ao utilizar uma máquina virtual você deixa de lado detalhes de implementação e vai direto ao que interessa: utilizar e aprender mais sobre o Hadoop. 
B)  Ao usar uma máquina virtual, o apache Hadoop não pode ser usada.
C)  Ao utilizar uma máquina virtual, o apache Hadoop será executado de forma mais segura. 
D)  Ao utilizar uma máquina virtual, o apache Hadoop será gerado mais rápido. 
8 - JSON (JavaScript object Notation) é uma forma de armazenamento e transmissão de dados em formato de texto. Sua forma simples e compacta de estruturar informações tem ganhado espaço em aplicações em que o formato XML reinava até então como em aplicações Web, por exemplo. A Google é uma das empresas que se destaca na utilização de JSON, tendo inclusive desenvolvido a biblioteca Gson boletim para fins internos, que tem como forma de conversão de objetos Java em JSON.
 
No que se refere aos tipos de dados, um documento JSON contém:
A)  Dados não estruturados. 
B)  Dados do tipo NoSQL.
C)  Dados semiestruturados. 
D)  Dados estruturados. 
9 - No meio da análise de dados um conceito que ganha força, e no qual grande parte do MapReduce está baseado, é o Big Data. Trata-se de um termo empregado para definir o crescimento, o uso e a disponibilidade das informações, sejam elas estruturadas ou não. Para o Big Data, o importante não é a coleta de grandes quantidades de dados, mas sim como eles são processados. O potencial que ele traz para as empresas é imenso e para utilizá-las elas precisam ser capazes de aproveitar as informações contidas em suas bases de gigantescas de dados para tomar as melhores decisões.
 
Sobre o MapReduce, selecione a alternativa CORRETA sobre sua relação com o Apache Hadoop.  
A)  MapReduce é um componente do Hadoop, não sendo necessário para sua execução.
B)  MapReduce é um modelo de programação, sem qual o modelo MapReduce usa chaves e valores para vincular dados de entrada à função Map, responsável por reconhecer como entradas e função Reduzir para agrupar e diminuir a saída. 
C)  MapReduce é a linguagem de programação nativa do Hadoop, que permite que sejam armazenados dados armazenados. 
D)  MapReduce é o banco de dados nativo do Hadoop, que permite com que sejam armazenados dados armazenados. 
10 - O Big Data é, simplesmente, uma das grandes revoluções dos últimos anos e veio para ficar no mercado mundial. Pode ser que os termos se modifiquem com o passar do tempo, mas o grande conceito que precisa ser compreendido é a possibilidade existente no mundo atual de se ter uma quantidade imensa de dados armazenados, com uma variedade infinitamente superior ao passado e podendo ser trabalhados , travado, cruzados e interpretados com muito mais velocidade e eficácia.
A busca por informação sempre foi primordial emqualquer mercado e é extremamente importante coletar e organizar os dados disponíveis, seja nos processos que movimentam o negócio ou mesmo no meio externo à organização.
 
Selecione a alternativa CORRETA sobre variedade em cenário de Big Data. 
A)  Variedade tem a ver com a velocidade sob a qual os dados são persistidos e probabilidade, devido aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados procurados. 
B)  A Variedade se remete aos diversos dispositivos de coleta, bem como aos tipos de dados que podem ser estruturados, semiestruturados e não estruturados. 
C)  A variedade pode ser compreendida como um banco de dados com ênfase em transação, alimentado por diversas fontes.
D)  A Variedade tem a ver com a velocidade sob a qual os dados são persistidos e endereço, devido aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados adquiridos. 
11 - A proposta de uma solução de Big Data é oferecer uma abordagem consistente no tratamento constante do crescimento e da complexidade dos dados. Para tanto, o conceito considera os 5 Vs do Big Data: o Volume, a Velocidade, a Variedade, a Veracidade e o Valor.
 
Selecione a alternativa CORRETA sobre volume em cenário de Big Data.
A)  O volume trata de toda a massa de dados existentes na organização, são milhões de Gigabytes gerados todos os dias, distribuídos em datacenters por todo o mundo. 
B)  O Volume pode ser definido pelas fontes de coleta de dados, desde sistemas de informações gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e qualquer dispositivo que armazene dados. 
C)  O Volume tem a ver com a velocidade sob a qual os dados são persistidos e endereço, devido aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados procurados.
D)  O volume trata de diversas formas de armazenamento, rotulado como armazenamento estruturado, semiestruturado e não estruturado. 
12 - O Hadoop é um framework Open-source desenvolvido pela Apache e baseado na linguagem Java que tem como objetivo principal processar uma grande quantidade de dados de forma mais eficiente. Esse aplicativo funciona em ambientes de área distribuída, nos quais são utilizados clusters. Ele foi projetado para realizar a expansão de um servidor único para outras máquinas, cada uma disponibilizando o local e o armazenamento.
 
Dentro do Hadoop, existe o Hue e o Impala. Selecione uma alternativa CORRETA sobre esses componentes.
A)  Impala e Hive são SGBDs do Apache Hadoop, ambos brigam pelo mercado. 
B)  Impala e Hive como parte do projeto Stinger estão competindo pela liderança na corrida pelo SQL interativo para implementações de Big Data. Recentemente a Cloudera anunciou que o Impala é de 6 a 69 vezes mais rápido do que a versão 0.12 do Hive e superou em média 2 vezes um não informar DBMS.
C)  Impala e Hive são bases de dados nativas, utilizadas para realização de experimentos.
D)  Impala e Hive são linguagens de programação do Apache Hadoop, ambos brigam pelo mercado diretamente com Python e Scala. 
13 - Foi Einstein, homem com uma das cabeças mais geniais que já pisou neste mundo, que disse que “Deus não joga dados”. Referia-se aos pequenos cubos numerados usados em jogos e apostas nas quais estatísticas e sorte andam sempre de mãos dadas.
 
Ao mensurar o volume de dados no mundo o IDC (International Data Corporation) estimou que haverá, até 2020, um valor sobre os dados. Selecione uma alternativa CORRETA do valor estimado pelo IDC. 
A)  44 bytes
B)  44 kilobytes 
C)  44 megaabytes
D)  44 zetabytes 
14 - O termo Big Data começa a despertar muita atenção, mas ainda é um conceito mal definido e menos compreendido. Com uma rápida pesquisa no Google, é possível identificar pelo menos uma dúzia de definições. Sem entrar em definições, mas nos atendo apenas a conceitos, podemos resumir com uma fórmula simples, Big Data = volume + variedade + velocidade de dados.
 
Selecione a alternativa CORRETA sobre velocidade em cenário de Big Data.
A)  A velocidade trata de toda a massa de dados existentes na organização, são milhões de Gigabytes gerados todos os dias, distribuídos em datacenters por todo o mundo. 
B)  A velocidade trata de diversas formas de armazenamento, rotulada como armazenamento estruturado, semiestruturado e não estruturado.
C)  A velocidade pode ser definida pelas fontes de coleta de dados, desde sistemas de informações gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e qualquer dispositivo que armazene dados. 
D)  Velocidade tem a ver com a velocidade sob a qual os dados são persistidos e probabilidade, devido aos problemas de desempenho dos bancos de dados relacionais em gerenciar a quantidade imensa de dados comprados. 
15- O termo Big Data começa a despertar muita atenção, mas ainda é um conceito mal definido e menos compreendido. Com uma rápida pesquisa no Google, é possível identificar pelo menos uma dúzia de definições. Sem entrar em definições, mas nos atendo apenas a conceitos, podemos resumir com uma fórmula simples, Big Data = volume + variedade + velocidade de dados.
 
Selecione a alternativa CORRETA sobre velocidade em cenário de Big Data.
A)  A velocidade trata de toda a massa de dados existentes na organização, são milhões de Gigabytes gerados todos os dias, distribuídos em datacenters por todo o mundo. 
B)  A velocidade trata de diversas formas de armazenamento, rotulada como armazenamento estruturado, semiestruturado e não estruturado.
C)  A velocidade pode ser definida pelas fontes de coleta de dados, desde sistemas de informações gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e qualquer dispositivo que armazene dados. 
D)  Velocidade tem a ver com a velocidade sob a qual os dados são persistidos e probabilidade, devido aos problemas de desempenho dos bancos de dados relacionais em gerenciar a quantidade imensa de dados comprados. 
16- Em um cenário de grandes volumes de dados uma primeira etapa é a coleta, uma segunda preparação e por último o armazenamento, que permite futuras análises. Para isso, comumente utilizamos os ditos frameworks de Big Data.
 
Selecione a alternativa CORRETA com uma definição de framework. 
A)  Um framework é um conjunto de soluções para um conjunto de problemas. 
B)  Um framework é um conjunto de códigos SQL. 
C)  Um framework é um conjunto de códigos python. 
D)  Um framework é um conjunto de problemas.
17 - Nos dias de hoje geramos muito mais dados com dispositivos celulares e TVs. Além disso, temos as mídias sociais que geram a todo tempo informações majoritariamente públicas. Hoje já é realidade a existência de carros, geladeiras e dispositivos vestíveis (wearable devices) conectados entre si e gerando ainda mais dados para serem processados e transformados em informações úteis.
 
Um mecanismo utilizado em problemas de grandes volumes de dados é uma paralela de base. Selecione a alternativa CORRETA sobre quartos paralela.  
A)  Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, pegar os processos de vários núcleos e executar em apenas um. 
B)  Na arquitetura paralela o objetivo é “unificar” os processos, ou seja, unificar entre os núcleos.
C)  Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, dividir entre os núcleos. 
D)  Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, distribuir entre vários computadores.
18 - O Hadoop é um projeto que oferece uma solução para problemas relacionados ao Big Data, tendo em seu núcleo duas partes essenciais: o Hadoop Distributed Filesystem (HDFS), que é um sistema de arquivos distribuído e confiável, responsável pelo armazenamento dos dados, e o próprio Hadoop MapReduce, responsável pela análise e processamento dos dados. Ambos possuem a confiabilidade como uma marca, o que torna o sistema muito robusto para aplicações que envolvem dados massivos e importantes para as associações que utilizam.
 
Selecioneuma alternativa correta sobre o HDFS:
A)  O Hadoop Distributed File System (HDFS) é o sistema de arquivos distribuídos que faz com que o Hadoop funcione sem a necessidade de MapReduce.
B)  O Hadoop Distributed File System (HDFS) é o sistema de arquivos distribuídos para que os ambientes do Windows sejam executados pelo Hadoop.
C)  O Hadoop Distributed File System (HDFS) é o banco de dados do Hadoop que permite com que se execute consultas complexas. 
D)  O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuído projetado para ser desenvolvido em hardware comum. Tem muitas semelhanças com sistemas de arquivos existentes. No entanto, as diferenças de outros sistemas de arquivos distribuídos são relevantes. 
19 19 - Parte superior do formulário
19 O projeto Apache Hadoop foi criado no ano de 2005 por Doug Cutting, que colocou o nome de Hadoop em homenagem ao seu filho, pois este era o nome do elefante de pelúcia de seu filho. Doug Cutting Software uma estrutura de arquivos baseados em dois artigos disponibilizados sobre tecnologias desenvolvidas pelo Google.
 
Selecione a alternativa CORRETA que traz o nome de tecnologias desenvolvidas pelo Google que serviram de base para a criação do Hadoop. 
A)  Google Drive e Google Reduce.
B)  Google Map Reduce e Google File System (GFS). 
C)  Google Earth e Google File System.
D)  Google Earth e Google Mail. 
Anterior Próxima
Existem empresas de Big Data que disponibilizam máquinas virtuais com o Hadoop instalado e preparado. Essas máquinas virtuais são as próprias distribuições dessas empresas, que no geral guardam os documentos em site oficial e todos os recursos do projeto original complementado de particularidades de cada uma. Como máquinas virtuais são disponibilizadas de maneira gratuita, basta realizar o download e utilizar as máquinas.
 
Selecione uma alternativa CORRETA que traz o nome de distribuidores de máquinas virtuais com Apache Hadoop.
A)  Google, Amazon AWS, IBM.
B)  Cloudera, Hortonworks, MapR e Bitnami. 
C)  Coursera, Hortonworks, MapReduce e Bitnami. 
D)  NoSQL, Oracle e Microsoft. 
20 - O Apache Hadoop é denominado como um Framework de Big Data, de acordo com a definição é um conjunto de soluções voltado para um conjunto de problemas. Em seu desenvolvimento inicial tinha como objetivo o particionamento e distribuição dos dados em um cluster, bem como a recuperação dos mesmos. No entanto, com os desafios desafios na era do Big Data, desde a pluralidade de bancos de dados, fontes de dados, bem como técnicas de mineração de dados, ou framework se adapta para resolver os problemas através de seus subprojetos.
 
Selecione a alternativa CORRETA sobre a linguagem em que o Apache Hadoop foi desenvolvido: 
A)  Java 
B)  C 
C)  C ++
D)  Python