tópicos de bigData em python AP 1

Big Data

•

ESTÁCIO

2

0

2

0

nata viana

02/10/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.745 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Acertos: 2,0 de 2,0 17/09/2023
Acerto: 0,2 / 0,2
Em relação aos desa�os do processamento de �uxo de dados, selecione a opção correta.
Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente.
Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer
inconsistência.
Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados.
Garantir a consistência da informação através da ordenação dos dados.
Usar algoritmos de criptogra�a nos dados para evitar o acesso indevido.
Respondido em 17/09/2023 15:35:26
Explicação:
Nas aplicações de streaming de dados, di�cilmente não vai ocorrer alguma inconsistência, pois, normalmente, elas
estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a consistência dos
dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda que haja problemas, desde
que estejam dentro de um patamar de qualidade pré-estabelecido.
Acerto: 0,2 / 0,2
Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de
negócios.
Nível de gerenciamento
Nível de consumo
Nível de admissão
Nível de governança
Nível de Metadados
Respondido em 17/09/2023 15:41:53
Explicação:
O Data Lake possui três níveis: o de admissão, o de gerenciamento e o de consumo que tratam, respectivamente, dos
serviços de aquisição de dados, da identi�cação e localização dos dados e que fornecem dados para ser consumidos
por aplicações de apoio à tomada de decisão.
Questão1
a
Questão2
a
https://simulado.estacio.br/alunos/inicio.asp
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();
javascript:voltar();
Acerto: 0,2 / 0,2
Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos
dados de entrada.
mapRandom
distinct
sample
random
�lter
Respondido em 17/09/2023 15:36:17
Explicação:
Gabarito: sample
Justi�cativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da
categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar
movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma
condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark.
Distinct retorna um RDD com elementos diferentes de um RDD de entrada.
Acerto: 0,2 / 0,2
Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados
�quem na mesma escala?
MinMax
Shuf�e
Map & Reduce
Divide
Splice
Respondido em 17/09/2023 15:43:04
Explicação:
Extraímos do dado observado sua proporção em relação ao valor mínimo possível até o valor máximo e enquadramos
o mesmo nesta régua, assim realizando a regularização, que consiste em colocar os dados na mesma escala.
Acerto: 0,2 / 0,2
Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um
classi�cador de imagem, mas, não sabe se decidir com relação à con�guração das camadas de sua rede neural. É
muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________:
Pizzas; Categorias
IRIS; Processamento de Imagens
MNIST; Processamento de Linguagem Natural
MNIST; Processamento de Imagens
Questão3
a
Questão4
a
Questão5
a
IRIS; Processamento da Linguagem Natural
Respondido em 17/09/2023 15:43:51
Explicação:
O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na literatura de aprendizado de
máquina. Mas, essa fama não é à toa, pois esse é o conjunto de comparação entre modelos de processamento de
imagens, uma vez que uma boa con�guração de rede neural deve ser capaz de reconhecer os dígitos escritos a mão do
MNIST.
Acerto: 0,2 / 0,2
Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos
dados.
volume
veracidade
variedade
valor
velocidade
Respondido em 17/09/2023 15:49:42
Explicação:
A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao
formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume signi�ca a quantidade de
dados disponíveis para tratamento e a veracidade diz respeito à con�abilidade da origem dos dados.
Acerto: 0,2 / 0,2
Reconhecer os conceitos de Data Lake é fundamental para o pro�ssional de Tecnologia da Informação.
Selecione a opção correta que de�ne resumidamente o que é o Data Lake.
É um repositório para tratamento dos dados.
Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para
fazer o gerenciamento dos dados.
É um ambiente para tratamento e armazenamento apenas de dados relacionais.
É um repositório centralizado para armazenamento de dados.
É uma tecnologia de armazenamento e processamento de dados.
Respondido em 17/09/2023 15:50:30
Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não
estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento.
Acerto: 0,2 / 0,2
Questão6
a
Questão7
a
Questão8
a
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com �nalidades
especí�cas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma
conexão com o Cluster.
SparkContext
RDD
SparkSession
DataFrame
Spark.Catalog
Respondido em 17/09/2023 15:50:39
Explicação:
Gabarito: SparkContext
Justi�cativa: O componente responsável por estabelecer uma conexão com o cluster é o SparkContext e pode ser
usado para criar RDDs, acumuladores e variáveis de transmissão nesse cluster. O SparkSession, por sua vez, é um
ponto de entrada para que o Spark possa trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface
para gerenciar um catálogo de metadados de entidades relacionais.
Acerto: 0,2 / 0,2
No mundo de Big Data, temos dados os mais variados possíveis, e sua classi�cação é fundamental para um
cientista de dados. As notas que compõem o histórico escolar de um aluno são classi�cadas como que tipo de
dados?
Numéricos
Semi-Estruturados
Temporais
Categóricos
Atemporais
Respondido em 17/09/2023 15:52:00
Explicação:
O correto é classi�car como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de
soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes
signi�ca que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo
numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos
nossos dados.
Acerto: 0,2 / 0,2
A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classi�cadora pertence?
Classi�cação
Agrupamento
Regressão
Modelos Generativos
Q-Learning
Respondido em 17/09/2023 15:52:34
Questão9
a
Questão10
a
Explicação:
O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina que pode
ser utilizado tanto para regressão quanto para classi�cação, mas muda sua terminação dependendo da técnica em
questão, por exemplo, para classi�cação é a Árvore de Decisão Classi�cadora, enquanto para regressão se chama
Árvore Regressora, ou Árvore de Decisão Regressora.