Buscar

Arquitetura de Coleta e Armazenamento de Dados- Hadoop e Spark

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

Arquitetura de Coleta e Armazenamento de Dados: Hadoop e Spark 
 
1 
Tanto as empresas como as famílias podem elaborar um planejamento para que as metas estabelecidas sejam 
alcançadas. No planejamento, são estabelecidas ações baseadas em estudos dos ambientes interno e externo. 
Sobre o planejamento e suas características, analise as sentenças que seguem: 
 I – O planejamento deve ser um processo rígido, no qual as ações não podem ser alteradas. 
II – O planejamento é um processo dinâmico, pois novos objetivos podem ser inseridos. 
III – O planejamento deve ser fundamentado em aspectos emocionais e informações concretas. 
IV – O planejamento tem como objetivo melhorar o desempenho e antecipar situações. 
 Assinale a alternativa que apresenta a resposta correta: 
A) As sentenças II e IV, estão corretas. 
B) As sentenças I e IV, estão corretas. 
C) As sentenças II e III, estão corretas. 
D) As sentenças I e III, estão corretas. 
2 
O planejamento deve ser realizado seguindo uma sequência de passos. O primeiro passo é a definição dos 
objetivos, ou seja, onde se deseja chegar. Em paralelo, deve-se analisar a situação atual, verificando onde se 
está e o que precisa ser feito para atingir o objetivo. A etapa que ocorre paralelamente à definição dos objetivos, 
chama-se... 
 Assinale a alternativa que completa corretamente a frase: 
A) Diagnóstico. 
B) Estratégia. 
C) Ameaças. 
D) Oportunidades. 
3 
O Big Data é, simplesmente, uma das grandes revoluções dos últimos anos e veio para ficar no mercado 
mundial. Pode ser que os termos se modifiquem com o passar do tempo, mas o grande conceito que precisa 
ser compreendido é a possibilidade existente no mundo atual de se ter uma quantidade imensa de dados 
armazenados, com uma variedade infinitamente superior à do passado e podendo ser trabalhados, analisados, 
cruzados e interpretados com muito mais velocidade e eficácia. 
A busca por informação sempre foi primordial em qualquer mercado e é extremamente importante coletar e 
organizar os dados disponíveis, seja nos processos que movimentam o negócio ou mesmo no meio externo à 
organização. 
 Selecione a alternativa CORRETA sobre variedade em cenário de Big Data. 
A) Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos 
problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados 
produzidos. 
B) A variedade pode ser compreendida como um banco de dados com ênfase em transação, alimentado 
por diversas fontes. 
C) A Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos 
problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados 
produzidos. 
D) A Variedade se remete aos diversos dispositivos de coleta, bem como aos tipos de dados que podem 
ser estruturados, semiestruturados e não estruturados. 
4 
A explosão exponencial de dados digitais forçou pesquisadores a encontrarem novas formas de ver e analisar o 
mundo. Trata-se de descobrir novas ordens de grandeza para capturar, pesquisar, compartilhar, armazenar, 
analisar e apresentar dados. É assim que o "big data" nasceu, um conceito para armazenar uma quantidade 
enorme de informações em uma base digital. 
 Selecione a alternativa CORRETA com a linguagem de programação considerada a linguagem tendência para 
Big Data. 
A) Python. 
B) C++. 
C) Delphi. 
D) Visual Basic. 
5 
Nos dias de hoje geramos muito mais dados com dispositivos como celular e TVs. Além disso, temos as mídias 
sociais que geram a todo tempo informações majoritariamente públicas. Hoje já é realidade a existência de 
carros, geladeiras e dispositivos vestíveis (wearable devices) conectados entre si e gerando ainda mais dados 
para serem processados e transformados em informações úteis. 
 Um mecanismo utilizado em problemas de grandes volumes de dados é a computação paralela. Selecione a 
alternativa CORRETA sobre computação paralela. 
A) Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, distribuir entre vários 
computadores. 
B) Na arquitetura paralela o objetivo é “unificar” os processos, ou seja, unificar entre os núcleos. 
C) Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, pegar os processos de vários 
núcleos e executar em apenas um. 
D) Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, dividir entre os núcleos. 
6 
O dado tem sido considerado o petróleo da nova era. A tecnologia existente hoje é completamente confiável, 
mas os softwares e plataformas apenas ajudam a organizar. Tornar o projeto viável depende de conhecer 
conceitos e a própria cultura do ambiente corporativo. De acordo com estudos, 80% do conteúdo produzido em 
uma empresa normal é em formato não estruturado, mas o que isso significa e qual a diferença para um 
estruturado? 
 Selecione a alternativa CORRETA sobre Big Data. 
A) Big data são os dados semiestruturados. 
B) Big Data é um tipo de banco de dados relacional. 
C) Big Data, tem como tradução literal “grandes dados”, termo inicialmente instituído para determinar o 
grande volume de dados gerados pelos sistemas de informação. Podendo ser representado sobre a soma de 
volume, variedade e velocidade. 
D) Big Data, tem como tradução literal “pequenos dados”, termo inicialmente instituído para determinar o 
grande volume de dados gerados pelos sistemas de informação. Podendo ser representado sobre a soma de 
volume, variedade e velocidade. 
7 
O planejamento é uma das funções básicas da administração de qualquer organização e pessoa, seja no ramo 
empresarial, educacional ou pessoal, sendo uma ferramenta que possibilita prever problemas e reduzir os 
impactos que eles trarão. Nesse sentido, podemos afirmar que o planejamento permite que... 
 Assinale a alternativa que completa corretamente a frase: 
A) Sejam corrigidas imperfeições nos processos de trabalho, adequando o ambiente interno. 
B) Sejam analisados os caminhos e suas chances de sucesso, rumo ao alcance dos objetivos. 
C) Sejam organizados os recursos que serão utilizados, identificando pessoas para atribuir tarefas e 
funções. 
D) Sejam definidas as ações a serem seguidas, analisando o que é mais adequado de acordo com os 
objetivos. 
8 
Em um cenário de grandes volumes de dados a primeira etapa é a coleta, a segunda a preparação e por último o 
armazenamento, que permite futuras análises. Para isso, comumente utilizamos os ditos frameworks de Big 
Data. 
 Selecione a alternativa CORRETA com a definição de framework. 
A) Um framework é um conjunto de soluções para um conjunto de problemas. 
B) Um framework é um conjunto de códigos python. 
C) Um framework é um conjunto de problemas. 
D) Um framework é um conjunto de códigos SQL. 
9 
Foi Einstein, homem com uma das cabeças mais geniais que já pisou neste mundo, que disse que “Deus não 
joga dados”. Referia-se aos pequenos cubos numerados usados em jogos e apostas nas quais estatística e 
sorte andam sempre de mãos dadas. 
 Ao mensurar o volume de dados no mundo o IDC (International Data Corporation) estimou que haverá, até 
2020, um valor sobre os dados. Selecione a alternativa CORRETA do valor estimado pelo IDC. 
A) 44 megaabytes 
B) 44 bytes 
C) 44 kilobytes 
D) 44 zettabytes 
10 
A gênese do Hadoop veio do papel Google File System, que foi publicado em Outubro de 2003. Este trabalho 
deu origem a outro trabalho de pesquisa do Google – MapReduce: simplificado Processamento de Dados em 
grandes aglomerados. Desenvolvimento começou no projeto Apache Nutch, mas foi transferido para o novo 
subprojeto Hadoop em janeiro de 2006. O primeiro committer adicionado ao projeto Hadoop foi Owen O’Malley 
em março de 2006. Hadoop 0.1.0 foi lançado em abril de 2006 e continua a evoluir por muitos contribuintes 
para o projeto Apache Hadoop. 
 Dentre seus componentes, o Hadoop contém o Hue. Sobre o Apache Hue, selecione a alternativaCORRETA. 
A) O Hue (Hadoop User Experience Database) é o banco de dados do Apache Hadoop, utilizado como 
SGBD. 
B) O Hue (Hadoop User Experience), também conhecido como HUX, é a abordagem do Hadoop para 
melhorar a experiência do usuário. 
dara-
Realce
dara-
Realce
dara-
Realce
C) O Hue (Hadoop User Experience) é uma interface gráfica do usuário com base na Web e de código-fonte 
aberto do Apache Hadoop. O Hue agrupa vários projetos de ecossistemas Hadoop diferentes em uma interface 
configurável. 
D) O Hue (Hadoop User Experience) é uma interface gráfica do usuário, ou seja, será com ele que serão 
desenvolvidas aplicações Web. 
11 
O Spark é um framework para processamento de Big Data construído com foco em velocidade, facilidade de 
uso e análises sofisticadas. Oferece APIs de alto nível em Java, Scala e Python, bem como um conjunto de 
bibliotecas que o tornam capaz de trabalhar de forma integrada, em uma mesma aplicação, com SQL, 
streaming e análises complexas, para lidar com uma grande variedade de situações de processamento de 
dados. 
 Selecione a alternativa CORRETA que traz os principais componentes do SPARK. 
A) Sparql, Spark File System, Spark Base,GraphX. 
B) Spark Base, Spark Streamming, Spark MLib,GraphX. 
C) Spark SQL, Spark File System , Spark Scala,GraphX. 
D) Spark SQL, Spark Streamming, Spark MLib,GraphX. 
12 
O termo Big Data começa a despertar muita atenção, mas ainda é um conceito mal definido e menos 
compreendido. Com uma rápida pesquisa no Google, é possível identificar pelo menos uma dúzia de definições. 
Sem entrar em definições, mas nos atendo apenas a conceitos, podemos resumir com uma fórmula simples, 
Big Data = volume + variedade + velocidade de dados. 
 Selecione a alternativa CORRETA sobre velocidade em cenário de Big Data. 
A) Velocidade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos 
problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados 
produzidos. 
B) A velocidade trata de diversas formas de armazenamento, rotuladas como armazenamento estruturado, 
semiestruturado e não estruturado. 
C) A velocidade trata de toda a massa de dados existente na organização, são milhões de Gigabytes 
gerados todos os dias, distribuídos em datacenters por todo o mundo. 
D) A velocidade pode ser definida pelas fontes de coleta de dados, desde sistemas de informações 
gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e qualquer dispositivo que armazene dados. 
13 
Analise o Texto a seguir: “Imagine que você possui um grande galpão para pintar. Você pode fazer essa tarefa 
sozinho, o que pode demorar bastante, ou contratar vários pintores para acelerar o processo. Quanto mais 
pintores (ainda que até um certo limite, neste exemplo), menos tempo será necessário para finalizar a pintura. 
Ou seja, a tarefa é feita por vários agentes, cada um deles responsável por uma parte da pintura. Uma botnet é 
basicamente isso, só que com computadores”. 
 Assinale a alternativa CORRETA sobre a tecnologia que o texto acima trata. 
A) Computação Paralela. 
B) Bancos de Dados Relacionais. 
C) Dados estruturados. 
D) Computação Distribuída. 
14 
JSON (JavaScript object Notation) é uma forma de armazenamento e transmissão de dados em formato de 
texto. Sua forma simples e compacta de estruturar informações tem ganhado espaço em aplicações em que o 
formato XML reinava até então como em aplicações Web, por exemplo. A Google é uma das empresas que se 
destaca na utilização de JSON, tendo inclusive desenvolvido a biblioteca Gson inicialmente para fins internos, 
que tem como finalidade a conversão de objetos Java em JSON. 
 
No que se refere aos tipos de dados, um documento JSON contém: 
A) Dados não estruturados. 
B) Dados estruturados. 
C) Dados semiestruturados. 
D) Dados do tipo NoSQL. 
15 
O projeto Apache Hadoop foi criado no ano de 2005 por Doug Cutting, que colocou o nome de Hadoop em 
homenagem ao seu filho, pois este era o nome do elefante de pelúcia de seu filho. Doug Cutting desenvolveu 
uma estrutura de arquivos distribuídos baseados em dois artigos disponibilizados sobre tecnologias 
desenvolvidas pelo Google. 
 Selecione a alternativa CORRETA que traz o nome de tecnologias desenvolvidas pelo Google que serviram de 
base para a criação do Hadoop. 
A) Google Earth e Google Mail. 
B) Google Drive e Google Reduce. 
C) Google Earth e Google File System. 
D) Google Map Reduce e Google File System (GFS). 
16 
A proposta de uma solução de Big Data é oferecer uma abordagem consistente no tratamento do constante 
crescimento e da complexidade dos dados. Para tanto, o conceito considera os 5 Vs do Big Data: o Volume, a 
Velocidade, a Variedade, a Veracidade e o Valor. 
 Selecione a alternativa CORRETA sobre volume em cenário de Big Data. 
A) O Volume tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos 
problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados 
produzidos. 
B) O volume trata de toda a massa de dados existente na organização, são milhões de Gigabytes gerados 
todos os dias, distribuídos em datacenters por todo o mundo. 
C) O Volume trata de diversas formas de armazenamento, rotuladas como armazenamento estruturado, 
semiestruturado e não estruturado. 
D) O Volume pode ser definido pelas fontes de coleta de dados, desde sistemas de informações 
gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e qualquer dispositivo que armazene dados. 
17 
O Apache Hadoop é denominado como um Framework de Big Data, de acordo com a definição é um conjunto 
de soluções voltado para um conjunto de problemas. Em seu desenvolvimento inicial tinha como objetivo o 
particionamento e distribuição dos dados em um cluster, bem como a recuperação dos mesmos. No entanto, 
com os diversos desafios na era do Big Data, desde a pluralidade de bancos de dados, fontes de dados, bem 
como técnicas de mineração de dados, o framework se adapta para resolver os problemas através de seus 
subprojetos. 
 Selecione a alternativa CORRETA sobre a linguagem em que o Apache Hadoop foi desenvolvido: 
A) Python 
B) C++ 
C) Java 
D) C 
18 
As soluções do Cloudera para clusters oferecem escalabilidade, flexibilidade, integração da plataforma que 
torna fácil o gerenciamento de grandes volumes e variedades de dados na maioria dos empreendimentos. Essa 
ferramenta permite a implantação e gerenciamento do Apache Hadoop e de projetos relacionados para 
manipular e analisar os dados, bem como mantê-los. 
 Selecione a alternativa correta que traz os itens do ambiente cloudera. 
A) CDH, Cloudera Databases, Cloudera Manager,Cloudera Chrome. 
B) HDFS, Cloudera Impala, Cloudera Manager,NoSQL. 
C) CDH, Cloudera Impala, Cloudera Manager,Cloudera Navigator. 
D) HDFS, Cloudera DB, Cloudera Manager, Cloudera System. 
19 
Para garantir o sucesso de um planejamento, ele deve seguir uma sequência de ações que são ordenadas de 
modo a analisar o presente e o futuro, sempre tendo como ponto final nossos objetivos. 
 Sobre o planejamento, assinale a alternativa correta: 
A) Depois de elaborado, o plano de ação deve ser implantado, avaliado e adotadas medidas de correção 
sempre que necessário. 
B) O plano de ação deve considerar apenas o cenário futuro, realizando previsões baseadas na emoção e 
na razão. 
C) Não podemos definir um plano de ação como o mais adequado, pois os cenários estão em constante 
mudança. 
D) Uma vez definido, o plano de ação deve ser implantado e, caso julgado incoerente, deve ser refeito. 
20 
No que se refere à análise de informações, um fator primordial é o dado. Sem ele nada seria possível em um 
cenário de conceitos, é a matéria-prima para todo o processo de geração de informação e conhecimento. Os 
dados podem ser compreendidos como: estruturados, não estruturados e semiestruturado. 
 Selecione a alternativaCORRETA sobre os dados estruturados. 
A) São aqueles que necessitam de algum processamento para descobrir uma estrutura. 
B) São dados que tem estrutura. 
C) Tal estrutura é incremental e vai se alterando no passar do tempo. São exemplos de dados 
semiestruturados: planilhas excel, arquivos CSV, documentos XML, documentos JSON. 
D) São dados que estão armazenados em uma estrutura previamente definida, tradicionalmente, os 
softwares os utilizam na forma de SGBDR (Sistemas Gerenciadores de Bancos de Dados Relacionais) ou BDR 
(Bancos de Dados Relacionais). 
 
dara-
Realce
dara-
Realce
dara-
Realce
dara-
Realce
dara-
Realce
dara-
Realce

Outros materiais