Estácio - Tópicos de Big Data em Python - Simulado AV

•

ESTÁCIO

8

0

8

0

Rodrigo Domingues

26/05/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.960 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Acertos: 10,0 de 10,0 17/05/2022

1a
Questão
Acerto: 1,0 / 1,0

Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino.

É uma placa de hardware
É um ecossistema que envolve software e hardware

É o outro nome para Raspberry PI

É um protocolo de internet das coisas

É um programa
Respondido em 17/05/2022 10:51:01

Explicação:
O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto, não é um
programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI não é o mesmo que
Arduino, pois se trata de uma outra tecnologia para internet das coisas.

2a
Questão
Acerto: 1,0 / 1,0

Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta.

CoAP

HTTP

TCP
UDP

MQTT
Respondido em 17/05/2022 10:52:05

Explicação:
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O
protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a
aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados.

3a
Questão
Acerto: 1,0 / 1,0

Em relação aos arquivos de configuração do Hadoop, selecione a opção correta que contém o arquivo que trata das
configurações do HDFS.

hdfs-site.xml

mapred-site.xml

core-site.xml

yarn-site.xml

hadoop-env.cmd
Respondido em 17/05/2022 10:59:23

Explicação:
O arquivo de configuração hdfs-site.xml é o responsável pela definição de configuração para processos do HDFS. Ele
também é responsável por fazer a especificação da replicação de bloco padrão e verificação de permissão no HDFS.

4a
Questão
Acerto: 1,0 / 1,0

Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de
pares intermediários de valor e chave.

Redução

Gravação da saída
Embaralhamento

Combinação

Agrupamento
Respondido em 17/05/2022 10:54:22

Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz
a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em
paralelo com outras tarefas da fase de mapeamento.

5a
Questão
Acerto: 1,0 / 1,0

Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que
contenha apenas funções que podem ser categorizadas como transformações no Spark.

map, take e reduce.

count, collect e take.

reduce, first e map.

map, sample e collect.
map, filter e union.
Respondido em 17/05/2022 10:54:58

Explicação:
Gabarito: map, filter e union.
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As
citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de mapeamento e de
filtragem, sendo que os dados se originam de uma única partição.

6a
Questão
Acerto: 1,0 / 1,0

Observe o trecho de código abaixo
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.

A execução do trecho de código vai gerar um erro.

A utilização do SparkContext é opcional.

O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".

A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a".
A variável "teste" corresponde a um RDD.
Respondido em 17/05/2022 11:44:12

Explicação:
Gabarito: A variável "teste" corresponde a um RDD.
Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é representado pela
variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado por causa da variável vetor
"a".

7a
Questão
Acerto: 1,0 / 1,0

Sobre o Pandas DataFrame o que podemos afirmar?
I - É o coletivo de séries temporais pandas.Series
II - É a estrutura de dados que representa os dados em painel
III - É uma matriz conjunto de vetores
IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina.
Analise as frases listadas e assinale a alternativa correta.

Apenas a opção III.

Todas as opções I, II, III, IV.

Apenas as opções II, III.
Apenas as opções I, II, IV.

Apenas as opções I, II, III.
Respondido em 17/05/2022 11:42:09

Explicação:
A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas
Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são
conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade,
pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está
correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos
DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de
máquina.

8a
Questão
Acerto: 1,0 / 1,0

A linguagem Python se destaca como intuitiva e de fácil aprendizagem. Analise o código abaixo que apresenta laços
condicionais e instruções de repetição.
for i in range(10):
if (i%2==0):
print(i)
Qual a saída esperada após a execução do programa?

Serão impressos no console os números racionais entre 0 e 9.

Serão impressos no console os números ímpares entre 0 e 10.

Serão impressos no console os números ímpares entre 0 e 9.

Serão impressos no console os números pares entre 1 e 10.
Serão impressos no console os números pares entre 0 e 9.
Respondido em 17/05/2022 11:10:44

Explicação:
O constructo de laço que itera sobre uma sequência dos números reais de 0 a 9, e cujo condicional dentro do laço escolhe
apenas os números cujo resto de sua divisão por 2 seja 0, condição lógica que define se um número é par ou não.

9a
Questão
Acerto: 1,0 / 1,0

As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos
é(são)

Camadas Escondidas

Pesos

Camada de Saída

Função de Ativação

Vieses
Respondido em 17/05/2022 11:41:16

Explicação:
O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas (hidden), pois é lá
que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas, produzem o
conhecimento necessário para discriminar novas observações com base em registros passados.

10a
Questão
Acerto: 1,0 / 1,0

A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?

Agrupamento

Regressão

Q-Learning

Modelos Generativos
Classificação
Respondido em 17/05/2022 11:10:47

Explicação:
O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina que pode ser
utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo da técnica em questão, por
exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para regressão se chama Árvore Regressora, ou
Árvore de Decisão Regressora.