Buscar

ÓPICOS DE BIG DATA EM PYTHON

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Aluno(a): ELIEL DE SOUZA MOREIRA 
202002110831 
Acertos: 8,0 de 10,0 03/04/2022 
 
 
 
1a 
 Questão 
Acerto: 1,0 / 1,0 
 
A respeito das aplicações de fluxos de dados, selecione a opção correta. 
 
 
Serviços de compras online 
 
Reapresentação de programas de televisão. 
 Serviços sob demanda, como serviços de filme online. 
 
Transações bancárias, como o serviço de PIX. 
 
Serviço de correio eletrônico 
Respondido em 03/04/2022 15:37:41 
 
Explicação: 
Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em 
partes por serviço e reproduzidos por um cliente conforme a entrega continua. As demais 
opções estão erradas, pois são exemplos de serviços em que os dados já foram gerados, ou 
que são usados apenas esporadicamente. 
 
 
2a 
 Questão 
Acerto: 1,0 / 1,0 
 
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem 
que é usada como referência para as outras plataformas. 
 
 Amazon AWS 
 
Microsft Azure 
 
Google Cloud 
 
IBM Cloud 
 
Oracle Cloud 
Respondido em 03/04/2022 15:38:06 
 
Explicação: 
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como 
principal referência do mercado. As outras plataformas também são muito importantes e, 
junto com a Amazon, detém boa fatia do mercado. 
 
 
3a 
 Questão 
Acerto: 1,0 / 1,0 
 
Em relação ao Hadoop, selecione a opção correta que trata da otimização da relação 
custo e benefício a respeito da expansão de uma infraestrutura. 
 
https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado.asp?cod_hist_prova=279600867&cod_prova=5181525843&f_cod_disc=
 
Tempo de resposta 
 
Volume de dados 
 Escalabilidade 
 
Variedade dos dados 
 
Flexibilidade 
Respondido em 03/04/2022 15:45:36 
 
Explicação: 
A escalabilidade trata da expansão de um sistema. Essa situação é bastante comum em 
projetos de Big Data. No caso do Hadoop, ele pode utilizar equipamentos comuns, como 
computadores pessoais formando clusters de escalabilidade horizontal. 
 
 
4a 
 Questão 
Acerto: 1,0 / 1,0 
 
Em relação aos arquivos de configuração do Hadoop, selecione a opção correta que 
contém o arquivo que trata das configurações do HDFS. 
 
 
core-site.xml 
 
mapred-site.xml 
 hdfs-site.xml 
 
yarn-site.xml 
 
hadoop-env.cmd 
Respondido em 03/04/2022 15:46:10 
 
Explicação: 
O arquivo de configuração hdfs-site.xml é o responsável pela definição de configuração para 
processos do HDFS. Ele também é responsável por fazer a especificação da replicação de 
bloco padrão e verificação de permissão no HDFS. 
 
 
5a 
 Questão 
Acerto: 1,0 / 1,0 
 
Observe o trecho de código abaixo 
import numpy as np 
from pyspark import SparkContext 
spark_contexto = SparkContext() 
a = np.array([1, 5, 1, 6, 4, 7, 7]) 
teste = spark_contexto.parallelize(a) 
Selecione a opção correta a respeito dele. 
 
 A variável "teste" corresponde a um RDD. 
 
A utilização do SparkContext é opcional. 
 
O objetivo do trecho de código é contar a quantidade de ocorrências dos 
valores do vetor "a". 
 
A execução do trecho de código vai gerar um erro. 
 
A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para 
processar o vetor "a". 
Respondido em 03/04/2022 15:46:24 
 
Explicação: 
Gabarito: A variável "teste" corresponde a um RDD. 
Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD 
que, no caso, é representado pela variável "teste" para isso é obrigatório utilizar o 
"SparkContext". O pacote "numpy" foi utilizado por causa da variável vetor "a". 
 
 
6a 
 Questão 
Acerto: 1,0 / 1,0 
 
O paradigma MapReduce é uma estratégia de computação com capacidade de processar 
grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à 
técnica MapReduce, selecione a opção que é responsável por consolidar os resultados 
produzidos ao longo do processamento. 
 
 
Mapeamento 
 
Processamento 
 Redução 
 
Separação 
 
Agregação 
Respondido em 03/04/2022 15:46:37 
 
Explicação: 
Gabarito: Redução 
Justificativa: A função de redução agrupa os pares após a fase de embaralhamento 
concluindo o processamento dos dados. O MapReduce é uma técnica clássica de 
programação distribuída e é bastante utilizada por diversos frameworks como o Spark, por 
exemplo. 
 
 
7a 
 Questão 
Acerto: 1,0 / 1,0 
 
Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer 
com que os dados fiquem na mesma escala? 
 
 
Shuffle 
 MinMax 
 
Divide 
 
Map & Reduce 
 
Splice 
Respondido em 03/04/2022 15:50:20 
 
Explicação: 
Extraímos do dado observado sua proporção em relação ao valor mínimo possível até o 
valor máximo e enquadramos o mesmo nesta régua, assim realizando a regularização, que 
consiste em colocar os dados na mesma escala. 
 
 
8a 
 Questão 
Acerto: 0,0 / 1,0 
 
Eduardo quer mostrar aos gestores da empresa como as ações da carteira de 
investimentos recomendada que ele e o time dele propuseram estão valorizando e 
gerando muitos dividendos aos clientes. Para isso, Eduardo construiu um gráfico de 
______, pois está lidando com dados ________ e quer mostrar o quão bem as 
recomendações geradas por seu time estão evoluindo. 
Respectivamente a resposta que completa as duas lacunas é: 
 
 Linha; Temporais 
 
Pizza; Categóricos 
 
Linha; Numéricos 
 
Pizza; Numéricos 
 Linha; Categóricos 
Respondido em 03/04/2022 15:49:29 
 
Explicação: 
O gráfico correto é o de linhas, pois os dados são temporais, uma vez que Eduardo quer 
mostrar cronologia para os acionistas e o gráfico de linha representa muito bem isto, e os 
dados em questão variam ao longo de meses ou anos. Gráficos de pizza não se aplicam a 
dados temporais. Os dados não são simplesmente numéricos pois, em essência, estamos 
lidando com a cronologia, logo são dados temporais. O tipo de dados em que números 
variam no tempo não pode ser classificado como tipo categórico. 
 
 
9a 
 Questão 
Acerto: 0,0 / 1,0 
 
O enquadramento de aprendizado não supervisionado contempla qual(is) técnicas? 
I - Agrupamento 
II - Classificação 
III - Regressão 
 
 
Apenas as opções II e III estão corretas 
 Apenas a opção I está correta 
 Apenas as opções I e III estão corretas 
 
Apenas a opção III está correta 
 
Apenas a opção II está correta 
Respondido em 03/04/2022 15:47:44 
 
Explicação: 
O aprendizado supervisionado se caracteriza pelo aprendizado autodidata que é 
caracterizado pelo agrupamento. Já a classificação e a regressão são técnicas oriundas do 
aprendizado supervisionado. 
 
 
10a 
 Questão 
Acerto: 1,0 / 1,0 
 
Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer 
elaborar um classificador de imagem, mas, não sabe se decidir com relação à 
configuração das camadas de sua rede neural. É muito comum utilizarmos o conjunto 
________ para fazermos o benchmark de modelos de ______________: 
 
 
IRIS; Processamento da Linguagem Natural 
 
MNIST; Processamento de Linguagem Natural 
 MNIST; Processamento de Imagens 
 
Pizzas; Categorias 
 
IRIS; Processamento de Imagens 
Respondido em 03/04/2022 15:49:01 
 
Explicação: 
O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na 
literatura de aprendizado de máquina. Mas, essa fama não é à toa, pois esse é o conjunto 
de comparação entre modelos de processamento de imagens, uma vez que uma boa 
configuração de rede neural deve ser capaz de reconhecer os dígitos escritos a mão do 
MNIST.

Continue navegando