Buscar

TÓPICOS DE BIG DT EM PYTHON

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1. 
 
 
Em relação às plataformas para Internet das Coisas, selecione a 
opção correta sobre o Arduino. 
 
 
É um protocolo de internet das coisas 
 
 
É o outro nome para Raspberry PI 
 
 
É uma placa de hardware 
 
 
É um ecossistema que envolve software e hardware 
 
 
É um programa 
Data Resp.: 13/03/2022 14:05:30 
 
Explicação: 
O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das 
coisas. Portanto, não é um programa, nem uma placa de hardware e tão pouco um protocolo de 
comunicação. Já o Raspberry PI não é o mesmo que Arduino, pois se trata de uma outra 
tecnologia para internet das coisas. 
 
 
 
 
 
2. 
 
 
Em relação aos V's que caracterizam os projetos de Big Data, 
selecione a opção que trata do processamento dos dados. 
 
 
veracidade 
 
 
variedade 
 
 
volume 
 
 
valor 
 
 
velocidade 
Data Resp.: 13/03/2022 14:08:59 
 
Explicação: 
A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade 
diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, 
volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito 
à confiabilidade da origem dos dados. 
 
 
 
 
 
3. 
 
 
A respeito do HDFS, selecione a opção correta cujo componente 
lógico mantém os dados do usuário na forma de blocos de dados. 
 
 
Bloco de dados 
 
 
YARN 
 
 
DataNode 
 
 
Replicação 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174
 
 
NameNode 
Data Resp.: 13/03/2022 14:10:00 
 
Explicação: 
O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados 
na forma de blocos de dados. 
 
 
 
 
 
4. 
 
 
Em relação ao Data Lake, selecione a opção correta que contenha 
o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. 
 
 
apenas tabelas relacionais 
 
 
estruturado, não estruturado e semiestruturado 
 
 
estruturado e semiestruturado 
 
 
apenas não estruturado 
 
 
apenas estruturado 
Data Resp.: 13/03/2022 14:14:09 
 
Explicação: 
O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que 
correspondem a característica de variedade dos dados que é bem típica de aplicações de Big 
Data. 
 
 
 
 
 
5. 
 
 
Os componentes do Spark têm como objetivo facilitar o 
desenvolvimento de projetos com finalidades específicas. Nesse 
sentido, selecione a opção que contém o componente responsável 
por estabelecer uma conexão com o Cluster. 
 
 
DataFrame 
 
 
SparkSession 
 
 
RDD 
 
 
Spark.Catalog 
 
 
SparkContext 
Data Resp.: 13/03/2022 14:15:29 
 
Explicação: 
Gabarito: SparkContext 
Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o 
SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão nesse 
cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa trabalhar 
com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar um catálogo 
de metadados de entidades relacionais. 
 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174
 
 
 
 
6. 
 
 
Observe o trecho de código abaixo 
query = "SELECT * FROM tabela_teste WHERE 
valor = "+str(str_valor) 
registros = spark.sql(query) 
Selecione a opção correta a respeito dele. 
 
 
É um exemplo de aplicação de GraphX. 
 
 
Trata-se de um exemplo de utilização do Spark SQL 
 
 
A execução do trecho de código vai funcionar corretamente. 
 
 
A implementação do trecho de código está errada. 
 
 
É possível afirmar que a tabela_teste existe. 
Data Resp.: 13/03/2022 14:15:36 
 
Explicação: 
Gabarito: Trata-se de um exemplo de utilização do Spark SQL 
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente 
viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A 
implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar 
sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a 
execução. 
 
 
 
 
 
7. 
 
 
A função de agrupamento do Pandas é o groupby, responsável por 
influenciar a indexação das colunas. O que acontece ao aplicarmos 
o método reset_index() no resultado de uma agregação? 
 
 
O DataFrame é embaralhado. 
 
 
As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha. 
 
 
Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação. 
 
 
Nada, o DataFrame fica imutável. 
 
 
O DataFrame é indexado pelas suas colunas. 
Data Resp.: 13/03/2022 14:15:43 
 
Explicação: 
Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas 
escolhidas. A partir de então, o index das agregações passa a ser o agrupamento. Com o 
reset_index() após a agregação, os índices originais das colunas são preservados. 
 
 
 
 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174
 
8. 
 
 
Gabriel entrou recentemente em uma empresa de gestão de 
fundos de investimento. No seu primeiro dia de trabalho, lhe é 
conferida a tarefa de buscar os relatórios do pessoal da 
contabilidade para fazer suas análises exploratórias. O 
departamento de contabilidade extrai os dados de seus 
relatórios de um SAP que retorna valores brutos de compras, 
quantidades de produtos etc. Então os contadores organizam, 
por agregação, informação relevante no relatório em planilhas 
por eles desenvolvidos. Por questões de acesso e segurança, 
Gabriel só pode lidar com essas planilhas. Este tipo de coleta 
feita por Gabriel e pelos Contadores é respectivamente dos 
tipos: 
 
 
Secundária; Primária. 
 
 
Primária; Secundária. 
 
 
Secundária; Secundária. 
 
 
Primária; Primária. 
 
 
Secundária; Terciária. 
Data Resp.: 13/03/2022 14:15:57 
 
Explicação: 
Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma 
coleta primária direto na fonte dos dados do SAP que, para os fins desta questão está 
funcionando como um repositório de dados para eles. 
 
 
 
 
 
9. 
 
 
As técnicas de aprendizado de máquina para aprendizado 
supervisionado são: 
 
I - Classificação 
II - Agrupamento 
III - Regressão 
 
 
Apenas I 
 
 
Apenas II 
 
 
Apenas II e III 
 
 
Apenas I e III 
 
 
Apenas I e II 
Data Resp.: 13/03/2022 14:16:11 
 
Explicação: 
O aprendizado supervisionado contempla duas técnicas que são a de classificação, em que o 
modelo tenta aprender a categorizar observações, e a regressão, que tenta aferir um valor 
numérico para novos registros, baseado no registro histórico e suas características. 
 
 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX017410. 
 
 
No modelo de aprendizado profundo, as camadas internas ocultas 
representam: 
 
I - Abstrações de aspectos de dados complexos 
II - Informação relevante dos dados de entrada 
III - Pesos e Viéses 
 
 
 
Apenas I 
 
 
 
Apenas I e III 
 
 
 
As alternativas I, II e III 
 
 
 
Apenas II e III 
 
 
 
Apenas III 
 
 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174

Mais conteúdos dessa disciplina