Frameworks para Big Data I

•

Exatas

5

1

5

1

0

Jackson Garcia

18/05/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.904 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1.
Os sistemas distribuídos têm dois desafios principais, o primeiro deles é a
possibilidade de falha de um dos equipamentos de hardware que armazena os dados
e o segundo tem relação com a análise combinando dados lidos de discos distintos.
Marque a opção que representa os dois principais recursos do Hadoop para lidar com
esses desafios:

Resposta correta.
C.
HDFS e MapReduce.

2.
Quando grandes volumes de dados são armazenados, eles são replicados em outros
servidores, pois cada um deles tem diversos elementos com probabilidade de falha.
Tais falhas precisam ser detectadas rapidamente e resolvidas eficientemente, de
forma que seja evitada a parada do sistema de arquivos como um todo. Marque a
opção que representa os dois processos principais da arquitetura do HDFS,
estruturada em mestre e escravo:

Você acertou!
B.
Namenode e Datanode.

3.
O Apache Spark é uma ferramenta utilizada no processamento de grandes conjuntos
de dados de forma paralela e distribuída, e sua arquitetura é constituída de três partes
principais. Marque a opção que representa os três principais componentes que
constituem a arquitetura do Apache Spark:

Você acertou!
E.
Driver Program, Cluster Manager e Workers.

4.
Assim como a sua arquitetura, para trabalhar com o Apache Spark é importante
conhecer os componentes do modelo de programação do Spark, como o RDD –
Resilient Distrubuted Datasets, as operações e o Spark Context. Marque a opção que
representa o conceito do RDD:
Você acertou!
A.
Abstraem um conjunto de objetos distribuídos e geralmente são executados na memória
principal.

.
Tanto o Hadoop quanto o Spark são ferramentas utilizadas para trabalhar com Big
Data, de forma que processam grandes volumes de dados. Marque a opção verdadeira
em relação ao processamento no Apache Hadoop e no Apache Spark:

Você acertou!
D.
Tanto no Hadoop quanto no Spark, os módulos de processamento são integrados na própria
ferramenta.

1.
O Spark Streaming fornece uma abstração de alto nível para representar um fluxo
contínuo de dados. Marque a opção que representa a abstração de alto nível fornecida
pelo Spark Streaming.
Você acertou!
A.
DStream.

2.
O Spark Streaming e o Spark Structured Streaming são frameworks para lidar com
fluxos contínuos de dados em tempo real, à medida que os dados chegam. Marque a
opção correta a respeito da diferença entre o Spark Streaming e o Spark Structured
Streaming.
Você acertou!
D.
Para armazenar os resultados, o Spark Streaming utiliza o conceito de microlotes, e o
Structured Streaming atualiza uma tabela de resultados.

3.
O Spark Streaming é considerado um framework que torna simples a criação de
aplicações em fluxos de dados. Marque a opção que representa uma característica do
Spark Streaming.

Você acertou!
C.
Facilmente escalável.

4.
Para criar uma aplicação utilizando o Spark Streaming, é necessário seguir algumas
etapas, sendo uma delas a criação de objetos de tipos específicos. Marque a opção
que representa o tipo do objeto em que é configurado o local de execução da
aplicação, o número de threads e o nome da aplicação.

Você acertou!
B.
SparkConf.

5.
Em uma aplicação com Spark Streaming, boa parte do código é apenas de
configuração e não é executada até a chamada de uma função específica. Marque a
opção que representa a função que permite a execução da aplicação Spark Streaming
após a sua configuração.

Resposta correta.
E.
start.

1.
Algumas vantagens com a adoção da visualização de dados no processo de
descoberta do conhecimento em big data podem ser elencadas.
Tomando como base o resultado da pesquisa apresentado por Wang et al. (2015), qual
seria o principal benefício do uso da visualização de dados?

Você acertou!
D.
Melhoria no processo de tomada de decisão.

2.
Durante a análise dos dados do censo de seu Município, Tim observou uma
correlação positiva entre as variáveis correspondentes à “escolaridade” e ao
“número de quartos no imóvel” do cidadão.
Qual(is) técnica(s) de visualização de dados Tim pode ter utilizado para descobrir
essa informação?
Considerando essa lista de opções:
I. Gráfico de barras
II. Mapa de árvore
III. Gráfico de dispersão
IV. Gráfico de coordenadas paralelas
Marque a resposta correta.

Você acertou!
E.
Apenas III e IV.

3.
Tim está trabalhando em um painel de controle para apresentar dados à equipe
executiva de uma empresa de vendas de produtos pela Internet. Foi solicitado que ele
incluísse um indicador do tempo médio de navegação dos clientes no website.
Qual seria a melhor estratégia para seguir com a apresentação dessa informação?

Você acertou!
D.
Gerar um texto apresentando essa informação como “X minutos média de tempo de
navegação”, e, antes de seguir com essa apresentação, Tim deve gerar um histograma para
avaliar se algum pré-processamento é necessário.

4.
Durante o planejamento da sua visualização, você deverá considerar algumas
questões que nortearão o design da sua visualização.
Baseando-se na metodologia proposta por Munzner (2009) e nos seis itens abaixo,
marque a alternativa que indica os principais itens que devem ser considerados nessa
etapa.
I. A necessidade e o público-alvo.
II. Conjunto de dados sob análise.
III. A origem e/ou fornecedor do conjunto de dados.
IV. As tarefas que o usuário estará executando.
V. A técnica de visualização que será utilizada.
VI. A tecnologia e/ou software utilizado para gerar as visualizações.

Você acertou!
D.
Apenas I, II, IV e V.

5.
Tim trabalha como analista de dados e recebeu uma nova demanda para apresentar
os dados dos clientes de uma grande instituição financeira. Essa instituição tem uma
carteira de milhões de clientes e no último ano passou a capturar dados do uso de
determinados recursos do seu aplicativo para dispositivos móveis. Agora eles
querem entender se há alguma relação entre grupos de perfis de clientes e os itens
mais utilizados no aplicativo. Com base nesses resultados, eles irão revisitar algumas
estratégias de design do seu aplicativo para dispositivos móveis.
O desafio de Tim é desenvolver uma visualização para apresentar os dados
resultantes de um modelo de aprendizagem de máquina que utiliza técnicas de
agrupamento (clustering).
Qual opção abaixo melhor descreve um dos principais desafios para a visualização
de dados em cenários de big data?

Você acertou!
C.
A capacidade computacional para processar e apresentar grandes volumes de dados em
tempo real.

1.
Muitas linguagens de programação estão disponíveis, mas, dentro do contexto de
análise de dados e do desenvolvimento de visualização de dados, há duas que são
mais amplamente utilizadas. Escolha a opção verdadeira.

Você acertou!
D.
Python e R.

2.
A percepção de que o desenvolvimento de visualização de dados é parte importante
do processo da descoberta do conhecimento é cada vez maior. Entretanto, mais do
que visualizações estáticas, é também importante o desenvolvimento de
apresentações em que o usuário possa interagir com os dados. Para isso, é
importante que uma linguagem ofereça elementos dinâmicos para interação e
animação dessas visualizações. Qual linguagem oferece mais recursos nesse
contexto web?

Você acertou!
D.
JavaScript.

3.
Há uma grande variedade de bibliotecas disponíveis para o desenvolvimento de
visualização de dados nas linguagens Python e R. Porém, há algumas mais utilizadas
por oferecerem as técnicas de visualização necessárias para o dia a dia das tarefas
de análise de dados e com uma sintaxe relativamente simples. Indique quais as mais
utilizadas, respectivamente, para Python e R.

Você acertou!
D.
Matplotlib e ggplot2.

4.
Considere que você precisa desenvolver uma visualização para apresentar dadosdo
censo. É preciso criar uma visualização considerando os dados de localização
(utilizando o mapa do Brasil) e a taxa de moradores por imóvel em cada estado. Quais
bibliotecas você poderá considerar como recurso para o desenvolvimento da sua
visualização de dados para apresentar essa informação?

I. Corrplot.
II. Plotly.
III. Google Charts.
IV. NetworkX.
V. Folium.

Você acertou!
C.
II, III e V.

5.
Caso você receba a demanda para desenvolver visualizações em interface web e que
fogem das técnicas de visualização de dados mais comumente utilizadas ou que
precisem de uma maior customização, você deverá utilizar os recursos da D3.js.
Identifique a opção correta quanto a caracterização da D3.js.

Você acertou!
C.
É uma biblioteca para visualização de dados desenvolvida em JavaScript.