Buscar

Arquitetura de Coleta e Armazenamento de Dados - Hadoop e Spark - prova e gabarito

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

ARQUITETURA DE COLETA E ARMAZENAMENTO DE DADOS – HADOOP 
E SPARK 
UNIASSELVI 
Estou ajudando você com este material. Ajude-me você também: 
Curta o Material no Passei Direto 
Salve o Material no seu Drive 
Só assim eu ganho pontos. 
Não basta apenas visualizar o meu material. 
HÁ PESSOAS QUE POSTAM ATIVIDADES COM RESPOSTAS ERRADAS. 
AQUI, VOCÊ TERÁ SEMPRE AS RESPOTAS CORRETAS. PORTANTO, 
NADA MAIS JUSTO DO QUE VOCÊ CURTIR E SALVAR ESTE MATERIAL. 
Se você quiser, pode me seguir no PD (Claus Haetinger). Daí, sempre que tiver 
um material novo, você já vai ficar sabendo em primeira mão. 
1. Foi Einstein, homem com uma das cabeças mais geniais que já pisou 
neste mundo, que disse que “Deus não joga dados”. Referia-se aos 
pequenos cubos numerados usados em jogos e apostas nas quais 
estatística e sorte andam sempre de mãos dadas. 
 Ao mensurar o volume de dados no mundo o IDC (International Data 
Corporation) estimou que haverá, até 2020, um valor sobre os dados. 
Selecione a alternativa CORRETA do valor estimado pelo IDC. 
 
A) 44 zettabytes 
 
B) 44 bytes 
 
C) 44 kilobytes 
 
D) 44 megaabytes 
 
ALTERNATIVA A: CURTA E SALVE O MATERIAL 
2. No meio da análise de dados um conceito que ganha força, e no qual 
grande parte do MapReduce está baseado, é o Big Data. Trata-se de um 
termo empregado para descrever o crescimento, o uso e a 
disponibilidade das informações, sejam elas estruturadas ou não. Para o 
Big Data, o importante não é a coleta de grandes quantidades de dados, 
mas sim como eles são processados. O potencial que ele traz para as 
empresas é imenso e para utilizá-lo elas precisam ser capazes de 
aproveitar as informações contidas em suas gigantescas bases de 
dados para tomar as melhores decisões. 
Sobre o MapReduce, selecione a alternativa CORRETA sobre sua relação com 
o Apache Hadoop. 
 
A) MapReduce é um componente do Hadoop, não sendo necessário para sua 
execução. 
 
B) MapReduce é a linguagem de programação nativa do Hadoop, que permite 
com que sejam armazenados dados distribuídos. 
 
C) MapReduce é um modelo de programação, no qual o modelo MapReduce 
usa chaves e valores para vincular dados de entrada à função Map, 
responsável por reconhecer as entradas e a função Reduce para agrupar e 
diminuir a saída. 
 
D) MapReduce é o banco de dados nativo do Hadoop, que permite com que 
sejam armazenados dados distribuídos. 
 
ALTERNATIVA C: CURTA E SALVE O MATERIAL 
 
 
 
 
3. O planejamento consiste em uma atividade de previsão da ação a ser 
realizada, implicando definições de necessidades a atender, objetivos a 
atingir dentro das possibilidades, procedimentos e recursos a serem 
empregados, tempo de execução e formas de avaliação. 
 LIBÂNEO, José Carlos. Organização e gestão da escola: teoria e prática. 
Goiânia: Alternativa, 2001. 
 Nesse sentido, analise as afirmações que seguem e assinale V para 
verdadeiro e F para falso: 
 ( ) Planejar ajuda a concretizar aquilo que se almeja. 
( ) Planejar implica em reconhecer a atual realidade e identificar as 
possibilidades de melhoria. 
( ) Planejar é estabelecer as ações que serão executadas. 
( ) Planejar é um processo de tomada de decisões. 
 Assinale a alternativa que apresenta a sequência correta de respostas: 
 
A) V – V – V – V. 
 
B) V – V – V – F. 
 
C) V – F – V – V. 
 
D) V – V – F – V. 
 
ALERNATIVA A: CURTA E SALVE O MATERIAL 
 
 
 
 
4. A Matriz SWOT é utilizada pelas organizações a fim de potencializar 
suas forças, eliminar as fraquezas, reduzir as ameaças e aproveitar as 
oportunidades. Sobre os itens que compõe a Matriz SWOT, analise as 
sentenças abaixo: 
I – As FORÇAS são as características da organização que a fortalecem, são 
vantagens competitivas. 
II – As FRAQUEZAS são os aspectos externos que representam riscos à 
organização. 
III – As OPORTUNIDADES são aspectos externos positivos que promovem 
melhorias na organização. 
IV – As AMEAÇAS são as fragilidades da organização, suas desvantagens. 
Sobre as sentenças acima, assinale a alternativa correta: 
 
A) As sentenças I, II e III estão corretas. 
 
B) As sentenças II e IV estão corretas. 
 
C) As sentenças I e III estão corretas. 
 
D) As sentenças I, II e IV estão corretas. 
 
ALTERNATIVA C: CURTA E SALVE O MATERIAL 
 
 
 
 
 
 
 
5. O termo Big Data começa a despertar muita atenção, mas ainda é um 
conceito mal definido e menos compreendido. Com uma rápida pesquisa 
no Google, é possível identificar pelo menos uma dúzia de definições. 
Sem entrar em definições, mas nos atendo apenas a conceitos, 
podemos resumir com uma fórmula simples, Big Data = volume + 
variedade + velocidade de dados. 
 Selecione a alternativa CORRETA sobre velocidade em cenário de Big Data. 
 
A) A velocidade pode ser definida pelas fontes de coleta de dados, desde 
sistemas de informações gerenciais, sensores, GPS, celular, câmeras de 
vídeos, entre todo e qualquer dispositivo que armazene dados. 
 
B) A velocidade trata de toda a massa de dados existente na organização, são 
milhões de Gigabytes gerados todos os dias, distribuídos em datacenters por 
todo o mundo. 
 
C) Velocidade tem a ver com a velocidade sob a qual os dados são persistidos 
e analisados, devido aos problemas de desempenho dos bancos de dados 
relacionais em gerenciar a imensa quantidade de dados produzidos. 
 
D) A velocidade trata de diversas formas de armazenamento, rotuladas como 
armazenamento estruturado, semiestruturado e não estruturado. 
 
ALTERNATIVA C: CURTA E SALVE O MATERIAL 
 
 
 
 
 
 
6. A explosão exponencial de dados digitais forçou pesquisadores a 
encontrarem novas formas de ver e analisar o mundo. Trata-se de 
descobrir novas ordens de grandeza para capturar, pesquisar, 
compartilhar, armazenar, analisar e apresentar dados. É assim que o 
"big data" nasceu, um conceito para armazenar uma quantidade enorme 
de informações em uma base digital. 
Selecione a alternativa CORRETA com a linguagem de programação 
considerada a linguagem tendência para Big Data. 
 
A) C++. 
 
B) Visual Basic. 
 
C) Delphi. 
 
D) Python. 
 
ALERNATIVA D: CURTA E SALVE O MATERIAL 
 
 
 
 
 
 
 
 
 
 
7. No que se refere à análise de informações, um fator primordial é o dado. 
Sem ele nada seria possível em um cenário de conceitos, é a matéria-
prima para todo o processo de geração de informação e conhecimento. 
Os dados podem ser compreendidos como: estruturados, não 
estruturados e semiestruturado. 
Selecione a alternativa CORRETA sobre os dados estruturados. 
 
A) Tal estrutura é incremental e vai se alterando no passar do tempo. São 
exemplos de dados semiestruturados: planilhas excel, arquivos CSV, 
documentos XML, documentos JSON. 
 
B) São aqueles que necessitam de algum processamento para descobrir uma 
estrutura. 
 
C) São dados que tem estrutura. 
 
D) São dados que estão armazenados em uma estrutura previamente 
definida, tradicionalmente, os softwares os utilizam na forma de SGBDR 
(Sistemas Gerenciadores de Bancos de Dados Relacionais) ou BDR (Bancos 
de Dados Relacionais). 
 
ALTERNATIVA D: CURTA E SALVE O MATERIAL 
 
 
 
 
 
 
 
8. O dado tem sido considerado o petróleo da nova era. A tecnologia 
existente hoje é completamente confiável, mas os softwares e 
plataformas apenas ajudam a organizar. Tornar o projeto viável depende 
de conhecer conceitos e a própria cultura do ambiente corporativo. De 
acordo com estudos, 80% do conteúdo produzido em uma empresa 
normal é em formato não estruturado, mas o que isso significa e qual a 
diferença para um estruturado? 
 Selecione a alternativa CORRETA sobre Big Data. 
 
A) Big Data, tem como tradução literal “grandes dados”, termo inicialmente 
instituído para determinar o grande volume de dados gerados pelos sistemas 
de informação. Podendo ser representado sobre a soma de volume, variedade 
e velocidade. 
 
B) BigData é um tipo de banco de dados relacional. 
 
C) Big data são os dados semiestruturados. 
 
D) Big Data, tem como tradução literal “pequenos dados”, termo inicialmente 
instituído para determinar o grande volume de dados gerados pelos sistemas 
de informação. Podendo ser representado sobre a soma de volume, variedade 
e velocidade. 
 
ALTERNATIVA A: CURTA E SALVE O MATERIAL 
 
 
 
 
 
 
 
9. Dentre os diversos desafios de um cenário de Big Data, o que se 
destaca é a fragmentação, distribuição e armazenamento das bases de 
dados, ou seja, mesmo que seja utilizado um cluster que empregue o 
conceito de computação paralela e distribuída é necessário um modelo 
computacional para fragmentar, distribuir e respectivamente e recuperar 
estes dados. 
 Selecione a alternativa CORRETA com o nome do modelo de programação 
para Big Data. 
 
A) SQL. 
 
B) NoSQL. 
 
C) Shuffle. 
 
D) Map Reduce. 
 
ALTERNATIVA D: CURTA E SALVE O MATERIAL 
 
 
 
 
 
 
 
 
 
 
10. No que se refere à curva de aprendizado e rápida utilização de um 
ambiente Hadoop o emprego de máquinas virtuais é a melhor opção de 
uso do framework. São diversos os fornecedores de Máquinas virtuais, 
bem como diversos tipos de máquinas que podem ser utilizadas. 
 Selecione a alternativa correta sobre Máquina Virtual e sua aplicação no 
Apache Hadoop. 
 
A) Ao utilizar uma máquina virtual, o apache Hadoop será executado de forma 
mais segura. 
 
B) Ao utilizar uma máquina virtual você deixa de lado detalhes de 
implementação e vai direto ao que interessa: utilizar e aprender mais sobre o 
Hadoop. 
 
C) Ao utilizar uma máquina virtual, o apache Hadoop não poderá ser 
executado. 
 
D) Ao utilizar uma máquina virtual, o apache Hadoop será executado mais 
rápido. 
ALTERNATIVA B: CURTA E SALVE O MATERIAL 
11. Em um cenário de grandes volumes de dados a primeira etapa é a 
coleta, a segunda a preparação e por último o armazenamento, que 
permite futuras análises. Para isso, comumente utilizamos os ditos 
frameworks de Big Data. 
Selecione a alternativa CORRETA com a definição de framework. 
 
A) Um framework é um conjunto de códigos SQL. 
 
B) Um framework é um conjunto de problemas. 
 
C) Um framework é um conjunto de códigos python. 
 
D) Um framework é um conjunto de soluções para um conjunto de problemas. 
ALTERNATIVA D: CURTA E SALVE O MATERIAL 
12. A Matriz SWOT é uma importante ferramenta de planejamento, sendo 
composta por quatro itens de análise do ambiente interno e externo. 
Diante disso, assinale a alternativa que apresenta os possíveis aspectos 
identificados pela ferramenta citada: 
 
A) Missão, valores, resultados esperados e competências. 
 
B) Deficiências, grade de sucessos, áreas de foco e metas. 
 
C) Pontos fortes, pontos fracos, oportunidades e ameaças. 
 
D) Resultados obtidos, dificuldades, boas práticas e desafios. 
 
ALTERNATIVA C: CURTA E SALVE O MATERIAL 
13. JSON (JavaScript object Notation) é uma forma de armazenamento e 
transmissão de dados em formato de texto. Sua forma simples e 
compacta de estruturar informações tem ganhado espaço em aplicações 
em que o formato XML reinava até então como em aplicações Web, por 
exemplo. A Google é uma das empresas que se destaca na utilização de 
JSON, tendo inclusive desenvolvido a biblioteca Gson inicialmente para 
fins internos, que tem como finalidade a conversão de objetos Java em 
JSON. 
No que se refere aos tipos de dados, um documento JSON contém: 
 
A) Dados do tipo NoSQL. 
 
B) Dados estruturados. 
 
C) Dados não estruturados. 
 
D) Dados semiestruturados. 
 
ALTERNATIVA D: CURTA E SALVE O MATERIAL 
14. A ambição é natural do ser humano, pois sempre estamos em busca de 
algo melhor, desejando novas conquistas. Queremos realizar muitas 
coisas, porém encontramos dificuldades para escolher o que fazer 
primeiro e/ou como fazer o que queremos. Para auxiliar nessas 
escolhas, podemos utilizar a ferramenta do planejamento pessoal. 
Sabendo disso, assinale a alternativa que apresenta etapas de um 
planejamento pessoal: 
 
A) Estabelecer os objetivos, organizar-se, conhecer os limites/recursos 
disponíveis e revisar o planejamento. 
 
B) Estabelecer os objetivos, organizar-se, conhecer os limites, aguardar as 
oportunidades e revisar o planejamento. 
 
C) Estabelecer os objetivos, conhecer os limites/recursos disponíveis, aguardar 
as oportunidades e manter-se motivado. 
 
D) Estabelecer os objetivos, conhecer os limites/recursos disponíveis, manter-
se motivado e desconsiderar os riscos. 
 
ALTERNATIVA A: CURTA E SALVE O MATERIAL 
 
 
 
 
 
 
 
 
15. Analise o Texto a seguir: “Imagine que você possui um grande galpão 
para pintar. Você pode fazer essa tarefa sozinho, o que pode demorar 
bastante, ou contratar vários pintores para acelerar o processo. Quanto 
mais pintores (ainda que até um certo limite, neste exemplo), menos 
tempo será necessário para finalizar a pintura. Ou seja, a tarefa é feita 
por vários agentes, cada um deles responsável por uma parte da 
pintura. Uma botnet é basicamente isso, só que com computadores”. 
 Assinale a alternativa CORRETA sobre a tecnologia que o texto acima trata. 
 
A) Dados estruturados. 
 
B) Bancos de Dados Relacionais. 
 
C) Computação Paralela. 
 
D) Computação Distribuída. 
ALTERNATIVA D: CURTA E SALVE O MATERIAL 
16. O projeto Apache Hadoop foi criado no ano de 2005 por Doug Cutting, 
que colocou o nome de Hadoop em homenagem ao seu filho, pois este 
era o nome do elefante de pelúcia de seu filho. Doug Cutting 
desenvolveu uma estrutura de arquivos distribuídos baseados em dois 
artigos disponibilizados sobre tecnologias desenvolvidas pelo Google. 
 Selecione a alternativa CORRETA que traz o nome de tecnologias 
desenvolvidas pelo Google que serviram de base para a criação do Hadoop. 
 
A) Google Earth e Google Mail. 
 
B) Google Map Reduce e Google File System (GFS). 
 
C) Google Drive e Google Reduce. 
 
D) Google Earth e Google File System. 
ALTERNATIVA B: CURTA E SALVE O MATERIAL 
17. O Big Data é, simplesmente, uma das grandes revoluções dos últimos 
anos e veio para ficar no mercado mundial. Pode ser que os termos se 
modifiquem com o passar do tempo, mas o grande conceito que precisa 
ser compreendido é a possibilidade existente no mundo atual de se ter 
uma quantidade imensa de dados armazenados, com uma variedade 
infinitamente superior à do passado e podendo ser trabalhados, 
analisados, cruzados e interpretados com muito mais velocidade e 
eficácia. 
A busca por informação sempre foi primordial em qualquer mercado e é 
extremamente importante coletar e organizar os dados disponíveis, seja nos 
processos que movimentam o negócio ou mesmo no meio externo à 
organização. 
Selecione a alternativa CORRETA sobre variedade em cenário de Big Data. 
 
A) A variedade pode ser compreendida como um banco de dados com ênfase 
em transação, alimentado por diversas fontes. 
 
B) A Variedade se remete aos diversos dispositivos de coleta, bem como aos 
tipos de dados que podem ser estruturados, semiestruturados e não 
estruturados. 
 
C) A Variedade tem a ver com a velocidade sob a qual os dados são 
persistidos e analisados, devido aos problemas de desempenho dos bancos de 
dados relacionais em gerenciar a imensa quantidade de dados produzidos. 
 
D) Variedade tem a ver com a velocidade sob a qual os dados são persistidos 
e analisados, devido aos problemas de desempenho dos bancos de dados 
relacionais em gerenciar a imensa quantidade de dados produzidos. 
 
ALERNATIVA B: CURTA E SALVE O MATERIAL 
 
 
18. O Spark é um framework para processamento de Big Data construído 
com foco em velocidade, facilidade de uso e análises sofisticadas. 
Oferece APIs de alto nível em Java, Scala e Python, bem como um 
conjunto de bibliotecas que o tornam capaz de trabalhar de forma 
integrada, emuma mesma aplicação, com SQL, streaming e análises 
complexas, para lidar com uma grande variedade de situações de 
processamento de dados. 
Selecione a alternativa CORRETA que traz os principais componentes do 
SPARK. 
 
A) Spark SQL, Spark File System , Spark Scala,GraphX. 
 
B) Spark Base, Spark Streamming, Spark MLib,GraphX. 
 
C) Spark SQL, Spark Streamming, Spark MLib,GraphX. 
 
D) Sparql, Spark File System, Spark Base,GraphX. 
 
ALTERNATIVA C: CURTA E SALVE O MATERIAL 
 
 
 
 
 
 
 
 
 
19. A proposta de uma solução de Big Data é oferecer uma abordagem 
consistente no tratamento do constante crescimento e da complexidade 
dos dados. Para tanto, o conceito considera os 5 Vs do Big Data: o 
Volume, a Velocidade, a Variedade, a Veracidade e o Valor. 
Selecione a alternativa CORRETA sobre volume em cenário de Big Data. 
 
A) O Volume tem a ver com a velocidade sob a qual os dados são persistidos 
e analisados, devido aos problemas de desempenho dos bancos de dados 
relacionais em gerenciar a imensa quantidade de dados produzidos. 
 
B) O Volume pode ser definido pelas fontes de coleta de dados, desde 
sistemas de informações gerenciais, sensores, GPS, celular, câmeras de 
vídeos, entre todo e qualquer dispositivo que armazene dados. 
 
C) O volume trata de toda a massa de dados existente na organização, são 
milhões de Gigabytes gerados todos os dias, distribuídos em datacenters por 
todo o mundo. 
 
D) O Volume trata de diversas formas de armazenamento, rotuladas como 
armazenamento estruturado, semiestruturado e não estruturado. 
 
ALERNATIVA C: CURTA E SALVE O MATERIAL 
 
 
 
 
 
 
 
20. Nos dias de hoje geramos muito mais dados com dispositivos como 
celular e TVs. Além disso, temos as mídias sociais que geram a todo 
tempo informações majoritariamente públicas. Hoje já é realidade a 
existência de carros, geladeiras e dispositivos vestíveis (wearable 
devices) conectados entre si e gerando ainda mais dados para serem 
processados e transformados em informações úteis. 
 Um mecanismo utilizado em problemas de grandes volumes de dados é a 
computação paralela. Selecione a alternativa CORRETA sobre computação 
paralela. 
 
A) Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, 
distribuir entre vários computadores. 
 
B) Na arquitetura paralela o objetivo é “unificar” os processos, ou seja, unificar 
entre os núcleos. 
 
C) Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, 
dividir entre os núcleos. 
 
D) Na arquitetura paralela o objetivo é “paralelizar” os processos, ou seja, 
pegar os processos de vários núcleos e executar em apenas um. 
 
ALTERNATIVA C: CURTA E SALVE O MATERIAL

Outros materiais