ÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

6

0

6

0

Eliel Moreira

03/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Open Data Struct - Python

13 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Aluno(a): ELIEL DE SOUZA MOREIRA
202002110831
Acertos: 8,0 de 10,0 03/04/2022

1a
Questão
Acerto: 1,0 / 1,0

A respeito das aplicações de fluxos de dados, selecione a opção correta.

Serviços de compras online

Reapresentação de programas de televisão.
Serviços sob demanda, como serviços de filme online.

Transações bancárias, como o serviço de PIX.

Serviço de correio eletrônico
Respondido em 03/04/2022 15:37:41

Explicação:
Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em
partes por serviço e reproduzidos por um cliente conforme a entrega continua. As demais
opções estão erradas, pois são exemplos de serviços em que os dados já foram gerados, ou
que são usados apenas esporadicamente.

2a
Questão
Acerto: 1,0 / 1,0

Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem
que é usada como referência para as outras plataformas.

Amazon AWS

Microsft Azure

Google Cloud

IBM Cloud

Oracle Cloud
Respondido em 03/04/2022 15:38:06

Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como
principal referência do mercado. As outras plataformas também são muito importantes e,
junto com a Amazon, detém boa fatia do mercado.

3a
Questão
Acerto: 1,0 / 1,0

Em relação ao Hadoop, selecione a opção correta que trata da otimização da relação
custo e benefício a respeito da expansão de uma infraestrutura.

https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado.asp?cod_hist_prova=279600867&cod_prova=5181525843&f_cod_disc=

Tempo de resposta

Volume de dados
Escalabilidade

Variedade dos dados

Flexibilidade
Respondido em 03/04/2022 15:45:36

Explicação:
A escalabilidade trata da expansão de um sistema. Essa situação é bastante comum em
projetos de Big Data. No caso do Hadoop, ele pode utilizar equipamentos comuns, como
computadores pessoais formando clusters de escalabilidade horizontal.

4a
Questão
Acerto: 1,0 / 1,0

Em relação aos arquivos de configuração do Hadoop, selecione a opção correta que
contém o arquivo que trata das configurações do HDFS.

core-site.xml

mapred-site.xml
hdfs-site.xml

yarn-site.xml

hadoop-env.cmd
Respondido em 03/04/2022 15:46:10

Explicação:
O arquivo de configuração hdfs-site.xml é o responsável pela definição de configuração para
processos do HDFS. Ele também é responsável por fazer a especificação da replicação de
bloco padrão e verificação de permissão no HDFS.

5a
Questão
Acerto: 1,0 / 1,0

Observe o trecho de código abaixo
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.

A variável "teste" corresponde a um RDD.

A utilização do SparkContext é opcional.

O objetivo do trecho de código é contar a quantidade de ocorrências dos
valores do vetor "a".

A execução do trecho de código vai gerar um erro.

A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para
processar o vetor "a".
Respondido em 03/04/2022 15:46:24

Explicação:
Gabarito: A variável "teste" corresponde a um RDD.
Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD
que, no caso, é representado pela variável "teste" para isso é obrigatório utilizar o
"SparkContext". O pacote "numpy" foi utilizado por causa da variável vetor "a".

6a
Questão
Acerto: 1,0 / 1,0

O paradigma MapReduce é uma estratégia de computação com capacidade de processar
grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à
técnica MapReduce, selecione a opção que é responsável por consolidar os resultados
produzidos ao longo do processamento.

Mapeamento

Processamento
Redução

Separação

Agregação
Respondido em 03/04/2022 15:46:37

Explicação:
Gabarito: Redução
Justificativa: A função de redução agrupa os pares após a fase de embaralhamento
concluindo o processamento dos dados. O MapReduce é uma técnica clássica de
programação distribuída e é bastante utilizada por diversos frameworks como o Spark, por
exemplo.

7a
Questão
Acerto: 1,0 / 1,0

Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer
com que os dados fiquem na mesma escala?

Shuffle
MinMax

Divide

Map & Reduce

Splice
Respondido em 03/04/2022 15:50:20

Explicação:
Extraímos do dado observado sua proporção em relação ao valor mínimo possível até o
valor máximo e enquadramos o mesmo nesta régua, assim realizando a regularização, que
consiste em colocar os dados na mesma escala.

8a
Questão
Acerto: 0,0 / 1,0

Eduardo quer mostrar aos gestores da empresa como as ações da carteira de
investimentos recomendada que ele e o time dele propuseram estão valorizando e
gerando muitos dividendos aos clientes. Para isso, Eduardo construiu um gráfico de
______, pois está lidando com dados ________ e quer mostrar o quão bem as
recomendações geradas por seu time estão evoluindo.
Respectivamente a resposta que completa as duas lacunas é:

Linha; Temporais

Pizza; Categóricos

Linha; Numéricos

Pizza; Numéricos
Linha; Categóricos
Respondido em 03/04/2022 15:49:29

Explicação:
O gráfico correto é o de linhas, pois os dados são temporais, uma vez que Eduardo quer
mostrar cronologia para os acionistas e o gráfico de linha representa muito bem isto, e os
dados em questão variam ao longo de meses ou anos. Gráficos de pizza não se aplicam a
dados temporais. Os dados não são simplesmente numéricos pois, em essência, estamos
lidando com a cronologia, logo são dados temporais. O tipo de dados em que números
variam no tempo não pode ser classificado como tipo categórico.

9a
Questão
Acerto: 0,0 / 1,0

O enquadramento de aprendizado não supervisionado contempla qual(is) técnicas?
I - Agrupamento
II - Classificação
III - Regressão

Apenas as opções II e III estão corretas
Apenas a opção I está correta
Apenas as opções I e III estão corretas

Apenas a opção III está correta

Apenas a opção II está correta
Respondido em 03/04/2022 15:47:44

Explicação:
O aprendizado supervisionado se caracteriza pelo aprendizado autodidata que é
caracterizado pelo agrupamento. Já a classificação e a regressão são técnicas oriundas do
aprendizado supervisionado.

10a
Questão
Acerto: 1,0 / 1,0

Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer
elaborar um classificador de imagem, mas, não sabe se decidir com relação à
configuração das camadas de sua rede neural. É muito comum utilizarmos o conjunto
________ para fazermos o benchmark de modelos de ______________:

IRIS; Processamento da Linguagem Natural

MNIST; Processamento de Linguagem Natural
MNIST; Processamento de Imagens

Pizzas; Categorias

IRIS; Processamento de Imagens
Respondido em 03/04/2022 15:49:01

Explicação:
O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na
literatura de aprendizado de máquina. Mas, essa fama não é à toa, pois esse é o conjunto
de comparação entre modelos de processamento de imagens, uma vez que uma boa
configuração de rede neural deve ser capaz de reconhecer os dígitos escritos a mão do
MNIST.