Buscar

Frameworks para Big Data I

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1. 
Os sistemas distribuídos têm dois desafios principais, o primeiro deles é a 
possibilidade de falha de um dos equipamentos de hardware que armazena os dados 
e o segundo tem relação com a análise combinando dados lidos de discos distintos. 
Marque a opção que representa os dois principais recursos do Hadoop para lidar com 
esses desafios: 
 
Resposta correta. 
C. 
HDFS e MapReduce. 
 
2. 
Quando grandes volumes de dados são armazenados, eles são replicados em outros 
servidores, pois cada um deles tem diversos elementos com probabilidade de falha. 
Tais falhas precisam ser detectadas rapidamente e resolvidas eficientemente, de 
forma que seja evitada a parada do sistema de arquivos como um todo. Marque a 
opção que representa os dois processos principais da arquitetura do HDFS, 
estruturada em mestre e escravo: 
 
Você acertou! 
B. 
Namenode e Datanode. 
 
3. 
O Apache Spark é uma ferramenta utilizada no processamento de grandes conjuntos 
de dados de forma paralela e distribuída, e sua arquitetura é constituída de três partes 
principais. Marque a opção que representa os três principais componentes que 
constituem a arquitetura do Apache Spark: 
 
Você acertou! 
E. 
Driver Program, Cluster Manager e Workers. 
 
 
 
 
4. 
Assim como a sua arquitetura, para trabalhar com o Apache Spark é importante 
conhecer os componentes do modelo de programação do Spark, como o RDD – 
Resilient Distrubuted Datasets, as operações e o Spark Context. Marque a opção que 
representa o conceito do RDD: 
Você acertou! 
A. 
Abstraem um conjunto de objetos distribuídos e geralmente são executados na memória 
principal. 
 
. 
Tanto o Hadoop quanto o Spark são ferramentas utilizadas para trabalhar com Big 
Data, de forma que processam grandes volumes de dados. Marque a opção verdadeira 
em relação ao processamento no Apache Hadoop e no Apache Spark: 
 
Você acertou! 
D. 
Tanto no Hadoop quanto no Spark, os módulos de processamento são integrados na própria 
ferramenta. 
 
 
1. 
O Spark Streaming fornece uma abstração de alto nível para representar um fluxo 
contínuo de dados. Marque a opção que representa a abstração de alto nível fornecida 
pelo Spark Streaming. 
Você acertou! 
A. 
DStream. 
 
2. 
O Spark Streaming e o Spark Structured Streaming são frameworks para lidar com 
fluxos contínuos de dados em tempo real, à medida que os dados chegam. Marque a 
opção correta a respeito da diferença entre o Spark Streaming e o Spark Structured 
Streaming. 
Você acertou! 
D. 
Para armazenar os resultados, o Spark Streaming utiliza o conceito de microlotes, e o 
Structured Streaming atualiza uma tabela de resultados. 
 
3. 
O Spark Streaming é considerado um framework que torna simples a criação de 
aplicações em fluxos de dados. Marque a opção que representa uma característica do 
Spark Streaming. 
 
Você acertou! 
C. 
Facilmente escalável. 
 
4. 
Para criar uma aplicação utilizando o Spark Streaming, é necessário seguir algumas 
etapas, sendo uma delas a criação de objetos de tipos específicos. Marque a opção 
que representa o tipo do objeto em que é configurado o local de execução da 
aplicação, o número de threads e o nome da aplicação. 
 
Você acertou! 
B. 
SparkConf. 
 
5. 
Em uma aplicação com Spark Streaming, boa parte do código é apenas de 
configuração e não é executada até a chamada de uma função específica. Marque a 
opção que representa a função que permite a execução da aplicação Spark Streaming 
após a sua configuração. 
 
Resposta correta. 
E. 
start. 
 
1. 
Algumas vantagens com a adoção da visualização de dados no processo de 
descoberta do conhecimento em big data podem ser elencadas. 
Tomando como base o resultado da pesquisa apresentado por Wang et al. (2015), qual 
seria o principal benefício do uso da visualização de dados? 
 
Você acertou! 
D. 
Melhoria no processo de tomada de decisão. 
 
2. 
Durante a análise dos dados do censo de seu Município, Tim observou uma 
correlação positiva entre as variáveis correspondentes à “escolaridade” e ao 
“número de quartos no imóvel” do cidadão. 
Qual(is) técnica(s) de visualização de dados Tim pode ter utilizado para descobrir 
essa informação? 
Considerando essa lista de opções: 
I. Gráfico de barras 
II. Mapa de árvore 
III. Gráfico de dispersão 
IV. Gráfico de coordenadas paralelas 
Marque a resposta correta. 
 
Você acertou! 
E. 
Apenas III e IV. 
 
3. 
Tim está trabalhando em um painel de controle para apresentar dados à equipe 
executiva de uma empresa de vendas de produtos pela Internet. Foi solicitado que ele 
incluísse um indicador do tempo médio de navegação dos clientes no website. 
Qual seria a melhor estratégia para seguir com a apresentação dessa informação? 
 
 
Você acertou! 
D. 
Gerar um texto apresentando essa informação como “X minutos média de tempo de 
navegação”, e, antes de seguir com essa apresentação, Tim deve gerar um histograma para 
avaliar se algum pré-processamento é necessário. 
 
4. 
Durante o planejamento da sua visualização, você deverá considerar algumas 
questões que nortearão o design da sua visualização. 
Baseando-se na metodologia proposta por Munzner (2009) e nos seis itens abaixo, 
marque a alternativa que indica os principais itens que devem ser considerados nessa 
etapa. 
I. A necessidade e o público-alvo. 
II. Conjunto de dados sob análise. 
III. A origem e/ou fornecedor do conjunto de dados. 
IV. As tarefas que o usuário estará executando. 
V. A técnica de visualização que será utilizada. 
VI. A tecnologia e/ou software utilizado para gerar as visualizações. 
 
 
Você acertou! 
D. 
Apenas I, II, IV e V. 
 
5. 
Tim trabalha como analista de dados e recebeu uma nova demanda para apresentar 
os dados dos clientes de uma grande instituição financeira. Essa instituição tem uma 
carteira de milhões de clientes e no último ano passou a capturar dados do uso de 
determinados recursos do seu aplicativo para dispositivos móveis. Agora eles 
querem entender se há alguma relação entre grupos de perfis de clientes e os itens 
mais utilizados no aplicativo. Com base nesses resultados, eles irão revisitar algumas 
estratégias de design do seu aplicativo para dispositivos móveis. 
O desafio de Tim é desenvolver uma visualização para apresentar os dados 
resultantes de um modelo de aprendizagem de máquina que utiliza técnicas de 
agrupamento (clustering). 
Qual opção abaixo melhor descreve um dos principais desafios para a visualização 
de dados em cenários de big data? 
 
Você acertou! 
C. 
A capacidade computacional para processar e apresentar grandes volumes de dados em 
tempo real. 
 
 
1. 
Muitas linguagens de programação estão disponíveis, mas, dentro do contexto de 
análise de dados e do desenvolvimento de visualização de dados, há duas que são 
mais amplamente utilizadas. Escolha a opção verdadeira. 
 
Você acertou! 
D. 
Python e R. 
 
2. 
A percepção de que o desenvolvimento de visualização de dados é parte importante 
do processo da descoberta do conhecimento é cada vez maior. Entretanto, mais do 
que visualizações estáticas, é também importante o desenvolvimento de 
apresentações em que o usuário possa interagir com os dados. Para isso, é 
importante que uma linguagem ofereça elementos dinâmicos para interação e 
animação dessas visualizações. Qual linguagem oferece mais recursos nesse 
contexto web? 
 
 
Você acertou! 
D. 
JavaScript. 
 
3. 
Há uma grande variedade de bibliotecas disponíveis para o desenvolvimento de 
visualização de dados nas linguagens Python e R. Porém, há algumas mais utilizadas 
por oferecerem as técnicas de visualização necessárias para o dia a dia das tarefas 
de análise de dados e com uma sintaxe relativamente simples. Indique quais as mais 
utilizadas, respectivamente, para Python e R. 
 
 
Você acertou! 
D. 
Matplotlib e ggplot2. 
 
4. 
Considere que você precisa desenvolver uma visualização para apresentar dadosdo 
censo. É preciso criar uma visualização considerando os dados de localização 
(utilizando o mapa do Brasil) e a taxa de moradores por imóvel em cada estado. Quais 
bibliotecas você poderá considerar como recurso para o desenvolvimento da sua 
visualização de dados para apresentar essa informação? 
 
I. Corrplot. 
II. Plotly. 
III. Google Charts. 
IV. NetworkX. 
V. Folium. 
 
 
Você acertou! 
C. 
II, III e V. 
 
 
5. 
Caso você receba a demanda para desenvolver visualizações em interface web e que 
fogem das técnicas de visualização de dados mais comumente utilizadas ou que 
precisem de uma maior customização, você deverá utilizar os recursos da D3.js. 
Identifique a opção correta quanto a caracterização da D3.js. 
 
Você acertou! 
C. 
É uma biblioteca para visualização de dados desenvolvida em JavaScript.

Continue navegando