TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

Alan Bredoff

05/06/2022

Prévia do material em texto

05/06/2022 11:00 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/5

Simulado AV
Teste seu conhecimento acumulado

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a): ALAN KARDEC ALVES BREDOFF FILHO 202003486493
Acertos: 7,0 de 10,0 05/06/2022

Acerto: 1,0 / 1,0
Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta.
Garantir a consistência da informação através da ordenação dos dados.
Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados.
Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer
inconsistência.
Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente.
Usar algoritmos de criptografia nos dados para evitar o acesso indevido.
Respondido em 05/06/2022 10:35:27

Explicação:
Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, normalmente,
elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a
consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda
que haja problemas, desde que estejam dentro de um patamar de qualidade pré-estabelecido.

Acerto: 1,0 / 1,0
Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento
dos dados.
valor
volume
velocidade
variedade
veracidade
Respondido em 05/06/2022 10:36:11

Explicação:
A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao
formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade
de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados.

Questão1
a
Questão2
a
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();
05/06/2022 11:00 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/5

Acerto: 1,0 / 1,0
A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma
de blocos de dados.
Bloco de dados
DataNode
Replicação
YARN
NameNode
Respondido em 05/06/2022 10:36:51

Explicação:
O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de
blocos de dados.

Acerto: 1,0 / 1,0
Selecione a opção que indica o processo responsável por executar uma tarefa atribuída a ele pelo Job Tracker.
MapTracker
MapJob
MapReduce
Task Tracker
Job Tracker Slave
Respondido em 05/06/2022 10:38:26

Explicação:
O JobTracker envia as informações necessárias para a execução de uma tarefa para o TaskTracker que, por sua
vez, executa a tarefa e envia os resultados de volta para JobTracker, além de fazer o seu rastreamento.

Acerto: 1,0 / 1,0
Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos
dados de entrada.
sample
random
mapRandom
distinct
filter
Respondido em 05/06/2022 10:41:10

Explicação:
Gabarito: sample
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma
operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser
necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de
Questão3
a
Questão4
a
Questão5
a
05/06/2022 11:00 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/5
dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são
funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada.

Acerto: 1,0 / 1,0
O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do
Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para
utilização do PySpark.
Python e Escala
Java e Python
Java e R
Casandra e Spark
Hadoop e Spark
Respondido em 05/06/2022 10:53:06

Explicação:
Gabarito: Java e Python
Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração
do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai
rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também.

Acerto: 0,0 / 1,0
A linguagem Python se destaca como intuitiva e de fácil aprendizagem. Analise o código abaixo que apresenta
laços condicionais e instruções de repetição.
for i in range(10):
if (i%2==0):
print(i)
Qual a saída esperada após a execução do programa?
Serão impressos no console os números ímpares entre 0 e 10.
Serão impressos no console os números racionais entre 0 e 9.
Serão impressos no console os números pares entre 0 e 9.
Serão impressos no console os números pares entre 1 e 10.
Serão impressos no console os números ímpares entre 0 e 9.
Respondido em 05/06/2022 10:52:40

Explicação:
O constructo de laço que itera sobre uma sequência dos números reais de 0 a 9, e cujo condicional dentro do
laço escolhe apenas os números cujo resto de sua divisão por 2 seja 0, condição lógica que define se um
número é par ou não.

Acerto: 0,0 / 1,0
Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia
de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para fazer suas
Questão6
a
Questão7
a
Questão8
a
05/06/2022 11:00 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/5
análises exploratórias. O departamento de contabilidade extrai os dados de seus relatórios de um SAP que
retorna valores brutos de compras, quantidades de produtos etc. Então os contadores organizam, por
agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso
e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos
Contadores é respectivamente dos tipos:
Secundária; Secundária.
Secundária; Primária.
Secundária; Terciária.
Primária; Secundária.
Primária; Primária.
Respondido em 05/06/2022 10:47:59

Explicação:
Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta primária
direto na fonte dos dados do SAP que, para os fins desta questão está funcionando como um repositório de
dados para eles.

Acerto: 1,0 / 1,0
No modelo de aprendizado profundo, as camadas internas ocultas representam:

I - Abstrações de aspectos de dados complexos
II - Informação relevante dos dados de entrada
III - Pesos e Viéses

As alternativas I, II e III

Apenas III

Apenas I

Apenas II e III

Apenas I e III

Respondido em 05/06/2022 10:50:46

Explicação:
Os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair
automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até
mesmo combinações de aspectos descobertos em camadas anteriores.

alternativa I - Abstrações de aspectos de dados complexos ¿ está correta pois os modelos de aprendizado
profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente
abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de
aspectos descobertos em camadas anteriores.

A alternativa II - Informação relevante dos dados de entrada - está incorreta por estar relacionada com o
conceito de sistema de informação, que é uma coleção de partes que recebe dados como insumo, processa-os
por meio de dinâmicas internas das partes e devolve informação relevante ao usuário final.
Questão9
a
05/06/2022 11:00 Estácio: Alunos
https://simulado.estacio.br/alunos/ 5/5

A alternativa III ¿ Pesose Vieses ¿ está incorreta, pois o aprendizado profundo tenta modelar abstrações de alto
nível de dados, sendo os grafos empregados nessa área as redes neurais artificiais, onde as camadas ocultas
mapeiam de forma equivariante os pesos e os filtros para as camadas subsequentes.

Acerto: 0,0 / 1,0
A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?
Regressão
Agrupamento
Modelos Generativos
Classificação
Q-Learning
Respondido em 05/06/2022 10:53:01

Explicação:
O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina
que pode ser utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo
da técnica em questão, por exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para
regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora.

Questão10
a
javascript:abre_colabore('38403','286957000','5480462478');