TÓPICOS DE BIG DT EM PYTHON

•

ESTÁCIO

Ensino distancia

19/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Em relação às plataformas para Internet das Coisas, selecione a
opção correta sobre o Arduino.

É um protocolo de internet das coisas

É o outro nome para Raspberry PI

É uma placa de hardware

É um ecossistema que envolve software e hardware

É um programa
Data Resp.: 13/03/2022 14:05:30

Explicação:
O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das
coisas. Portanto, não é um programa, nem uma placa de hardware e tão pouco um protocolo de
comunicação. Já o Raspberry PI não é o mesmo que Arduino, pois se trata de uma outra
tecnologia para internet das coisas.

Em relação aos V's que caracterizam os projetos de Big Data,
selecione a opção que trata do processamento dos dados.

veracidade

variedade

volume

valor

velocidade
Data Resp.: 13/03/2022 14:08:59

Explicação:
A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade
diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados,
volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito
à confiabilidade da origem dos dados.

A respeito do HDFS, selecione a opção correta cujo componente
lógico mantém os dados do usuário na forma de blocos de dados.

Bloco de dados

YARN

DataNode

Replicação
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174

NameNode
Data Resp.: 13/03/2022 14:10:00

Explicação:
O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados
na forma de blocos de dados.

Em relação ao Data Lake, selecione a opção correta que contenha
o(s) formato(s) de dados que pode(m) ser armazenado(s) nele.

apenas tabelas relacionais

estruturado, não estruturado e semiestruturado

estruturado e semiestruturado

apenas não estruturado

apenas estruturado
Data Resp.: 13/03/2022 14:14:09

Explicação:
O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que
correspondem a característica de variedade dos dados que é bem típica de aplicações de Big
Data.

Os componentes do Spark têm como objetivo facilitar o
desenvolvimento de projetos com finalidades específicas. Nesse
sentido, selecione a opção que contém o componente responsável
por estabelecer uma conexão com o Cluster.

DataFrame

SparkSession

RDD

Spark.Catalog

SparkContext
Data Resp.: 13/03/2022 14:15:29

Explicação:
Gabarito: SparkContext
Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o
SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão nesse
cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa trabalhar
com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar um catálogo
de metadados de entidades relacionais.

https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174

Observe o trecho de código abaixo
query = "SELECT * FROM tabela_teste WHERE
valor = "+str(str_valor)
registros = spark.sql(query)
Selecione a opção correta a respeito dele.

É um exemplo de aplicação de GraphX.

Trata-se de um exemplo de utilização do Spark SQL

A execução do trecho de código vai funcionar corretamente.

A implementação do trecho de código está errada.

É possível afirmar que a tabela_teste existe.
Data Resp.: 13/03/2022 14:15:36

Explicação:
Gabarito: Trata-se de um exemplo de utilização do Spark SQL
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente
viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A
implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar
sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a
execução.

A função de agrupamento do Pandas é o groupby, responsável por
influenciar a indexação das colunas. O que acontece ao aplicarmos
o método reset_index() no resultado de uma agregação?

O DataFrame é embaralhado.

As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha.

Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação.

Nada, o DataFrame fica imutável.

O DataFrame é indexado pelas suas colunas.
Data Resp.: 13/03/2022 14:15:43

Explicação:
Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas
escolhidas. A partir de então, o index das agregações passa a ser o agrupamento. Com o
reset_index() após a agregação, os índices originais das colunas são preservados.

Gabriel entrou recentemente em uma empresa de gestão de
fundos de investimento. No seu primeiro dia de trabalho, lhe é
conferida a tarefa de buscar os relatórios do pessoal da
contabilidade para fazer suas análises exploratórias. O
departamento de contabilidade extrai os dados de seus
relatórios de um SAP que retorna valores brutos de compras,
quantidades de produtos etc. Então os contadores organizam,
por agregação, informação relevante no relatório em planilhas
por eles desenvolvidos. Por questões de acesso e segurança,
Gabriel só pode lidar com essas planilhas. Este tipo de coleta
feita por Gabriel e pelos Contadores é respectivamente dos
tipos:

Secundária; Primária.

Primária; Secundária.

Secundária; Secundária.

Primária; Primária.

Secundária; Terciária.
Data Resp.: 13/03/2022 14:15:57

Explicação:
Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma
coleta primária direto na fonte dos dados do SAP que, para os fins desta questão está
funcionando como um repositório de dados para eles.

As técnicas de aprendizado de máquina para aprendizado
supervisionado são:

I - Classificação
II - Agrupamento
III - Regressão

Apenas I

Apenas II

Apenas II e III

Apenas I e III

Apenas I e II
Data Resp.: 13/03/2022 14:16:11

Explicação:
O aprendizado supervisionado contempla duas técnicas que são a de classificação, em que o
modelo tenta aprender a categorizar observações, e a regressão, que tenta aferir um valor
numérico para novos registros, baseado no registro histórico e suas características.

No modelo de aprendizado profundo, as camadas internas ocultas
representam:

I - Abstrações de aspectos de dados complexos
II - Informação relevante dos dados de entrada
III - Pesos e Viéses

Apenas I

Apenas I e III

As alternativas I, II e III

Apenas II e III

Apenas III

https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174