Uniasselvi - Big Data Stream Arquitetura de Coleta e Armazenamento (19369) - Avaliacao I

•

UNIASSELVI

Damiao Oliveira

13/11/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Warehouse Data Mining

432 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

12/11/21, 23:03 AVA
https://ava2.uniasselvi.com.br/subject/grades-and-tests/answer-book/eyJ0ZXN0Ijp7InRlc3RDb2RlIjoiNjg5MjI0IiwiZGVzY3JpcHRpb24iOiJBdmFsaWHDp8OjbyBJIC0gSW5kaXZpZHVhbCIsInBhcmFtZXRlciI6NTQ1LC… 1/7
GABARITO | Avaliação I - Individual (Cod.:689224)
Peso da Avaliação
1,50
Prova
39836130
Qtd. de Questões
10
Acertos/Erros
8/2
Nota
8,00
Na última década, o rápido aumento da criação de dados em todos os domínios do conhecimento, como tráfego, medicina, rede social, indústria
etc., destacou a necessidade de aprimorar o processo de análise de grandes volumes de dados, a fim de ser capaz de gerenciá-los com mais facilidade e,
além disso, descobrir novas relações que nelas se escondem. Big Data é a abordagem quando um volume de dados extremamente grande é analisado.
Considerando os componentes do framework Apache Spark, associe os itens a seguir:
 
I- MLlib.
 II- SPARQL.
 III- GraphX.
 IV- Spark Streaming.
 
( ) É uma extensão que faz parte do núcleo da API Spark. O Spark Streaming facilita a criação de fluxos de processamento tolerante a falhas sobre
dados em streaming e em tempo real.
 ( ) É a API do Apache Spark para gráficos (por exemplo, Web-Graphs e Redes Sociais) e computação em paralelo gráfico (por exemplo, PageRank e
Collaborative Filtering). Inclui uma biblioteca embutida de algoritmos de gráficos e construtores.
 ( ) É uma recomendação do W3C a partir de janeiro de 2008. Seu propósito é permitir que arquivos RDF sejam consultados através de uma linguagem.
O Spark é uma linguagem de consumo de dados, assim como a SQL.
 ( ) Através deste componente será possível utilizar recursos de aprendizado de máquina. A diferença desta biblioteca para as convencionais utilizadas
pelas linguagens de programação é que foi desenvolvida para uso paralelo e distribuído. 
 
Assinale a alternativa que apresenta a sequência CORRETA: 
 
FONTE: BARBA GONZÁLEZ, C. et al. Big Data Optimization: Algorithmic Framework for Data Analysis Guided by Semantics. 2018.
A IV - III - II - I.
B I - II - III - IV.
C III - I - II - IV.
D II - I - III - IV.
A+ Alterar modo de visualização
1
12/11/21, 23:03 AVA
https://ava2.uniasselvi.com.br/subject/grades-and-tests/answer-book/eyJ0ZXN0Ijp7InRlc3RDb2RlIjoiNjg5MjI0IiwiZGVzY3JpcHRpb24iOiJBdmFsaWHDp8OjbyBJIC0gSW5kaXZpZHVhbCIsInBhcmFtZXRlciI6NTQ1LC… 2/7
A panóplia de frameworks de Big Data existentes e a complexidade, tanto da escolha das ferramentas adequadas como da sua implementação,
requer um processo de investigação exigente, de forma a proporcionar uma solução exequível e o mais próximo possível da resolução do problema.
Sobre a definição de framework, assinale a alternativa CORRETA:
A Um framework é um conjunto de problemas.
B Um framework é um conjunto de códigos python.
C Um framework é um conjunto de códigos SQL.
D Um framework é um conjunto de soluções para um conjunto de problemas.
Atualmente, geramos muito mais dados com dispositivos como celular e TVs. Além disso, temos as mídias sociais que geram a todo tempo
informações majoritariamente públicas. Hoje já é realidade a existência de carros, geladeiras e dispositivos vestíveis (wearable devices) conectados entre
si e gerando ainda mais dados para serem processados e transformados em informações úteis. Sobre as arquiteturas, classifique V para as sentenças
verdadeiras e F para as falsas:
 
( ) Na arquitetura paralela, o objetivo é "paralelizar" os processos, ou seja, dividir entre os núcleos.
 ( ) Na arquitetura paralela, o objetivo é "paralelizar" os processos, ou seja, distribuir entre vários computadores.
 ( ) Na arquitetura paralela, o objetivo é "unificar" os processos, ou seja, unificar entre os núcleos.
 ( ) Na arquitetura paralela, o objetivo é "paralelizar" os processos, ou seja, pegar os processos de vários núcleos e executar em apenas um.
 
Assinale a alternativa que apresenta a sequência CORRETA:
 
FONTE: http://marketingpordados.com/analise-de-dados/o-que-e-big-data-%F0%9F%A4%96/. Acesso em: 7 jun. 2021.
A V - F - F - F.
B F - F - F - V.
C V - V - V - F.
D V - F - V - V.
2
3
12/11/21, 23:03 AVA
https://ava2.uniasselvi.com.br/subject/grades-and-tests/answer-book/eyJ0ZXN0Ijp7InRlc3RDb2RlIjoiNjg5MjI0IiwiZGVzY3JpcHRpb24iOiJBdmFsaWHDp8OjbyBJIC0gSW5kaXZpZHVhbCIsInBhcmFtZXRlciI6NTQ1LC… 3/7
Em um cenário de grandes volumes de dados, a primeira etapa é a coleta, a segunda é a preparação e, por último, o armazenamento que permite
futuras análises. Para isso, comumente utilizamos os ditos frameworks de Big Data. Sobre os frameworks A, classifique V para as sentenças verdadeiras
e F para as falsas:
 
( ) Um framework é um conjunto de códigos SQL.
 ( ) Um framework é um conjunto de códigos python.
 ( ) Um framework é um conjunto de problemas.
 ( ) Um framework é um conjunto de soluções para um conjunto de problemas.
 
Assinale a alternativa que apresenta a sequência CORRETA: 
 
FONTE: http://marketingpordados.com/analise-de-dados/o-que-e-big-data-%F0%9F%A4%96/. Acesso em: 7 jun. 2021.
A V - V - F - F.
B V - F - V - V.
C V - F - V - V.
D F - F - F - V.
Surgido como uma plataforma voltada ao armazenamento e ao processamento de dados em larga escala, o framework Apache Hadoop é uma
tecnologia amplamente difundida e consolidada, tanto em termos comerciais quanto no ambiente acadêmico. Considerando os componentes do Apache
Hadoop, associe os itens, utilizando o código a seguir: 
 
I- Hadoop Streaming.
 II- HDFS.
 III- Hive.
 IV- Hue.
 
( ) Componente que permite codificar aplicações em diversas linguagens, não somente em Java.
 ( ) É o sistema gerenciador de dados distribuídos do Hadoop, este gerencia o armazenamento dos dados e a distribuição.
É
4
5
12/11/21, 23:03 AVA
https://ava2.uniasselvi.com.br/subject/grades-and-tests/answer-book/eyJ0ZXN0Ijp7InRlc3RDb2RlIjoiNjg5MjI0IiwiZGVzY3JpcHRpb24iOiJBdmFsaWHDp8OjbyBJIC0gSW5kaXZpZHVhbCIsInBhcmFtZXRlciI6NTQ1LC… 4/7
( ) É um framework que em sua principal funcionalidade permite implementar data warehouse, favorecendo processos de Business Intelligence e
mineração de dados. 
( ) É um SDK (Software Development Kit - Kit de Desenvolvimento de Software) que gera uma interface com usuário, permitindo com que a
informação seja manipulada tanto utilizando linguagem SQL, bem como através de uma interface visual. 
Assinale a alternativa que apresenta a sequência CORRETA: 
FONTE: FAZUL, Rhauani; CARDOSO, Paulo Vinicius; BARCELOS, Patricia Pitthan. Análise do impacto da replicação de dados implementada pelo
apache hadoop no balanceamento de carga. In: Anais do X Computer on the Beach (CotB 2019). 2019.
A III - I - IV - II.
B IV - III - II - I.
C II - I - III - IV.
D I - II - III - IV.
O Apache Spark é uma plataforma voltada ao processamento distribuído de dados em memória. O Apache Spark é um framework open source que
oferece uma plataforma voltada para a computação distribuída e paralela, com ênfase em Big Data Streaming. Sobre os componentes do framework
Apache Spark, classifique V para as sentenças verdadeiras e F para as falsas:
( ) MLib é uma extensão que faz parte do núcleo da API Spark. O Spark Streaming facilita a criação de fluxos de processamento tolerante a falhas
sobre dados em streaming e em tempo real.
( ) GraphX é a API do Apache Spark para gráficos (por exemplo, Web-Graphs e Redes Sociais) e computação em paralelo gráfico (por exemplo,
PageRank e Collaborative Filtering). Inclui uma biblioteca embutida de algoritmos de gráficos e construtores.
( ) SPARQL é uma recomendação do W3C a partir de janeiro de 2008. Seu propósito é permitir que arquivos RDF sejam consultados através de uma
linguagem. O Spark é uma linguagem de consumo de dados, assim como a SQL.
( ) Spark Streaming permite utilizar recursos de aprendizado de máquina. A diferença desta biblioteca para as convencionais utilizadas pelas
linguagens de programação é que foi desenvolvida para uso paralelo e distribuído. 
Assinale a alternativa que apresenta a sequência CORRETA:FONTE: CARDOSO, Paulo Vinicus; FAZUL, Rhauani Weber Aita; BARCELOS, Patrícia Pitthan. Validação de Políticas para o Estabelecimento
Dinâmico de Checkpoints no Apache Spark. In: Anais do XXXVIII Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos - SBC,
2020. p. 29-42.
6
12/11/21, 23:03 AVA
https://ava2.uniasselvi.com.br/subject/grades-and-tests/answer-book/eyJ0ZXN0Ijp7InRlc3RDb2RlIjoiNjg5MjI0IiwiZGVzY3JpcHRpb24iOiJBdmFsaWHDp8OjbyBJIC0gSW5kaXZpZHVhbCIsInBhcmFtZXRlciI6NTQ1LC… 5/7
A F - V - F - V.
B F - V - F - F.
C V - F - V - V.
D F - V - V - F.
O Apache Hadoop também é usado amplamente como motor de muitos sistemas de processamento de consultas básicas, bem como para
processamento de grandes volumes de dados. Sobre os componentes do framework Apache Hadoop, classifique V para as sentenças verdadeiras e F para
as falsas:
( ) Hbase é o banco NOSQL (Not Only SQL) que é nativo dentro do apache Hadoop.
( ) Sqoop é um framework que implementa o modelo de programação MapReduce, o qual visa dividir a informação para processar em blocos
separados e concorrentes.
( ) Hadoop MapReduce é uma ferramenta que cria uma interface do Apache Hadoop com bancos de dados relacionais e ferramentas de data
warehouse.
( ) Zookeeper é um serviço de distribuição de coordenadas do Apache Hadoop, desenvolvido para trabalhar em clusters do qual existem diversos
outros componentes.
Assinale a alternativa que apresenta a sequência CORRETA:
A F - V - V - V.
B V - F - F - V.
C V - F - V - V.
D V - F - V - F.
Big Data é visto como um hype, sim, pode ser verdade, mas é um tsunami no alto mar ainda, e não pode ser ignorado. Quando se estabilizar, será
chamado apenas Data, com um volume absurdamente grande, mas juntamente com os outros Vs (velocidade, variedade, veracidade e valor) estarão
combinados para gerar novos processos, tratar e analisar os dados será tão importante para as organizações quanto os demais fatores, como recursos
7
8
12/11/21, 23:03 AVA
https://ava2.uniasselvi.com.br/subject/grades-and-tests/answer-book/eyJ0ZXN0Ijp7InRlc3RDb2RlIjoiNjg5MjI0IiwiZGVzY3JpcHRpb24iOiJBdmFsaWHDp8OjbyBJIC0gSW5kaXZpZHVhbCIsInBhcmFtZXRlciI6NTQ1LC… 6/7
humanos, tecnológicos e financeiros. As empresas simplesmente não viverão sem analisar dados continuamente. A velocidade é um dos pilares de Big
Data, sobre Big Data Streaming e a velocidade, assinale a alternativa CORRETA:
A Os frameworks de Big Data Streaming tem o desafio de coletar, processar e armazenar dados em um volume o mais próximo possível do
tempo real.
B Os frameworks de Big Data Streaming tem o desafio de coletar, processar e armazenar dados em uma velocidade o mais longe possível
do tempo real.
C Os frameworks de Big Data Streaming tem o desafio de coletar, processar e armazenar dados em uma velocidade o mais próximo
possível do tempo real.
D Os frameworks de Big Data Streaming têm o desafio de coletar, processar e armazenar dados em uma velocidade sem preocupação com
tempo.
Sendo um dos principais frameworks de Big Data, uma plataforma voltada ao armazenamento e ao processamento de dados em larga escala, o
framework Apache Hadoop é uma tecnologia amplamente difundida e consolidada, tanto em termos comerciais quanto no ambiente acadêmico. Sobre os
componentes do framework Apache Hadoop, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O HDFS é um componente que permite codificar aplicações em diversas linguagens, não somente em Java.
( ) O Hadoop Streaming é o sistema gerenciador de dados distribuídos do Hadoop, este gerencia o armazenamento dos dados e a distribuição.
( ) O Hive é um framework que em sua principal funcionalidade permite implementar data warehouse, favorecendo processos de Business Intelligence
e mineração de dados. A partir do Hive é possível executar uma linguagem denominada HiveQL (Hive Query Language- Linguagem de Consulta Hive),
muito similar ao SQL (Structured Query Language - Linguagem de Consulta Estruturada). O Hive executa os comandos HiveQL e automaticamente
traduz as consultas em um ou mais trabalhos de MapReduce. 
( ) O Hue é um SDK (Software Development Kit - Kit de Desenvolvimento de Software) que gera uma interface com usuário, permitindo com que a
informação seja manipulada tanto utilizando linguagem SQL, bem como através de uma interface visual. 
Assinale a alternativa que apresenta a sequência CORRETA:
A V - F - F - F.
B V - F - V - F.
C F - V - F - V.
D F - F - V - V.
9
12/11/21, 23:03 AVA
https://ava2.uniasselvi.com.br/subject/grades-and-tests/answer-book/eyJ0ZXN0Ijp7InRlc3RDb2RlIjoiNjg5MjI0IiwiZGVzY3JpcHRpb24iOiJBdmFsaWHDp8OjbyBJIC0gSW5kaXZpZHVhbCIsInBhcmFtZXRlciI6NTQ1LC… 7/7
Entre as muitas implementações do MapReduce disponíveis nos dias de hoje, o Apache Hadoop é o mais popular e possui código aberto. Hadoop
também é usado amplamente como motor de muitos sistemas de processamento de consultas básicas, bem como para processamento de grandes volumes
de dados. Considerando os componentes do Apache Hadoop, associe os itens, utilizando o código a seguir: 
I- Hadoop MapReduce.
II- Sqoop.
III- Zookeeper.
IV- Hbase.
( ) É o banco NOSQL (Not Only SQL) que é nativo dentro do apache Hadoop.
( ) Um framework que implementa o modelo de programação MapReduce, o qual visa dividir a informação para processar em blocos separados e
concorrentes.
( ) Uma ferramenta que cria uma interface do Apache Hadoop com bancos de dados relacionais e ferramentas de data warehouse.
( ) O serviço de distribuição de coordenadas do apache hadoop, desenvolvido para trabalhar em clusters do qual existem diversos outros componentes.
Assinale a alternativa que apresenta a sequência CORRETA:
A IV - III - I - II.
B I - II - III - IV.
C I - II - IV - III.
D I - III - II - IV.
10