Logo Passei Direto
Buscar

TÓPICOS DE BIG DATA EM PYTHON Simulado

User badge image
Gun mota

em

Ferramentas de estudo

Questões resolvidas

A função de agrupamento do Pandas é o groupby, responsável por in�uenciar a indexação das colunas. O que acontece ao aplicarmos o método reset_index() no resultado de uma agregação?


As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha.
Nada, o DataFrame �ca imutável.
O DataFrame é indexado pelas suas colunas.
Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação.
O DataFrame é embaralhado.

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

A função de agrupamento do Pandas é o groupby, responsável por in�uenciar a indexação das colunas. O que acontece ao aplicarmos o método reset_index() no resultado de uma agregação?


As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha.
Nada, o DataFrame �ca imutável.
O DataFrame é indexado pelas suas colunas.
Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação.
O DataFrame é embaralhado.

Prévia do material em texto

AAvvaalliiaannddoo
AApprreennddiizzaaddoo
TTeessttee sseeuu ccoonnhheecciimmeennttoo aaccuummuullaaddoo
Disc.: TTÓÓPPIICCOOSS DDEE BBIIGG DDAATTAA EEMM PPYYTTHHOONN     
Aluno(a): GGUUNNAARR VVIINNGGRREE DDAA SSIILLVVAA MMOOTTAA 220022220044227700449988
Acertos: 22,,00 ddee 22,,00 1188//0022//22002244
Acerto: 00,,22  / 00,,22
Observe o trecho de código abaixo
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.
A execução do trecho de código vai gerar um erro.
A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a".
O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".
A variável "teste" corresponde a um RDD.
A utilização do SparkContext é opcional.
Respondido em 18/02/2024 17:08:37
Explicação:
GGaabbaarriittoo:: A variável "teste" corresponde a um RDD.
JJuussttii��ccaattiivvaa::  O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é
representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado
por causa da variável vetor "a".
Acerto: 00,,22  / 00,,22
No mundo de Big Data, temos dados os mais variados possíveis, e sua classi�cação é fundamental para um
cientista de dados. As notas que compõem o histórico escolar de um aluno são classi�cadas como  que tipo de
dados?
Atemporais
Categóricos
Semi-Estruturados
Temporais
Questão / 11a
Questão / 22a
Estácio: Alunos https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado....
1 of 5 27/02/2024, 16:42
https://simulado.estacio.br/alunos/inicio.asp
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();
javascript:voltar();
https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.asp?cod_hist_prova=326763774&cod_prova=6953180987&f_cod_disc=DGT0134#
https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.asp?cod_hist_prova=326763774&cod_prova=6953180987&f_cod_disc=DGT0134#
https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.asp?cod_hist_prova=326763774&cod_prova=6953180987&f_cod_disc=DGT0134#
https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.asp?cod_hist_prova=326763774&cod_prova=6953180987&f_cod_disc=DGT0134#
Numéricos
Respondido em 18/02/2024 17:10:18
Explicação:
O correto é classi�car como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções
de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das
vezes signi�ca que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O
tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao
modelarmos nossos dados.
Acerto: 00,,22  / 00,,22
As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus
conhecimentos é(são) 
Função de Ativação
Camadas Escondidas
Pesos
Camada de Saída
Vieses
Respondido em 18/02/2024 17:09:20
Explicação:
O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas (hidden),
pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas,
produzem o conhecimento necessário para discriminar novas observações com base em registros passados.
Acerto: 00,,22  / 00,,22
Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos
dados de entrada.
�lter
distinct
random
sample
mapRandom
Respondido em 18/02/2024 17:11:19
Explicação:
GGaabbaarriittoo:: sample
JJuussttii��ccaattiivvaa::  A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma
operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser
necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados
em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções
válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada.
Questão / 33a
Questão / 44a
Estácio: Alunos https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado....
2 of 5 27/02/2024, 16:42
Acerto: 00,,22  / 00,,22
Gabriel entrou recentemente  em uma empresa de gestão de fundos de investimento. No seu primeiro
dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para fazer
suas análises exploratórias. O departamento de contabilidade extrai os dados de seus relatórios de um
SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os contadores
organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por
questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por
Gabriel e pelos Contadores é respectivamente dos tipos:
Primária; Secundária.
Secundária; Terciária.
Secundária; Secundária.
Secundária; Primária.      
Primária; Primária.
Respondido em 18/02/2024 17:11:56
Explicação:
Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta primária
direto na fonte dos dados do SAP que, para os �ns desta questão está funcionando como um repositório de dados
para eles.
Acerto: 00,,22  / 00,,22
O enquadramento de aprendizado não supervisionado contempla qual(is) técnicas?
I - Agrupamento
II - Classi�cação
III - Regressão
Apenas as opções II e III estão corretas
Apenas a opção II está correta
Apenas as opções I e III estão corretas
Apenas a opção I está correta
Apenas a opção III está correta
Respondido em 18/02/2024 17:09:33
Explicação:
O aprendizado supervisionado se caracteriza pelo aprendizado autodidata que é caracterizado pelo agrupamento.
Já a classi�cação e a regressão são técnicas oriundas do aprendizado supervisionado.
Acerto: 00,,22  / 00,,22
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com �nalidades
especí�cas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma
conexão com o Cluster.
Questão / 55a
Questão / 66a
Questão / 77a
Estácio: Alunos https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado....
3 of 5 27/02/2024, 16:42
DataFrame
RDD
Spark.Catalog
SparkContext
SparkSession
Respondido em 18/02/2024 17:12:37
Explicação:
GGaabbaarriittoo:: SparkContext
JJuussttii��ccaattiivvaa::  O componente responsável por estabelecer uma conexão com o cluster é o SparkContext e pode ser
usado para criar RDDs, acumuladores e variáveis de transmissão nesse cluster. O SparkSession, por sua vez, é um
ponto de entrada para que o Spark possa trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma
interface para gerenciar um catálogo de metadados de entidades relacionais.
Acerto: 00,,22  / 00,,22
A função de agrupamento do Pandas é o groupby, responsável por in�uenciar a indexação das colunas. O que
acontece ao aplicarmos o método reset_index() no resultado de uma agregação?
As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha.
Nada, o DataFrame �ca imutável.
O DataFrame é indexado pelas suas colunas.
Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação.
O DataFrame é embaralhado.
Respondido em 18/02/2024 17:13:26
Explicação:
Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas escolhidas. A partir de
então, o index das agregações passa a ser o agrupamento.  Com o reset_index() após a agregação, os índices
originais das colunas são preservados.
Acerto: 00,,22  / 00,,22
O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se
refereao processo de:
LSTM
CNN
KDD
RNN
DNN
Respondido em 18/02/2024 17:15:31
Explicação:
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de
dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de
dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês
Questão / 88a
Questão / 99a
Estácio: Alunos https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado....
4 of 5 27/02/2024, 16:42
Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD
comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do
inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa
DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes
neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A
alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais ou
temporais.
Acerto: 00,,22  / 00,,22
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com �nalidades
especí�cas. Selecione a opção que contém o componente do ecossistema do Spark especializado em
aplicações de aprendizado de máquina.
Spark Learning
MLSpark
MLlib
RDDs
GraphX Learning
Respondido em 18/02/2024 17:14:58
Explicação:
GGaabbaarriittoo:: MLlib
JJuussttii��ccaattiivvaa:: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos
estatísticos e de aprendizado de máquina para simpli�car pipelines de aprendizado de máquina em projetos de big
data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são
componentes para conjunto de dados resilientes.
Questão / 1100a
Estácio: Alunos https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado....
5 of 5 27/02/2024, 16:42

Mais conteúdos dessa disciplina