Logo Passei Direto
Buscar

TÓPICOS DE BIG DATA EM PYTHON Simulado 2

User badge image
Tiago Queiroz

em

Ferramentas de estudo

Questões resolvidas

Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. Microsft Azure Google Cloud Oracle Cloud Amazon AWS IBM Cloud

Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data.
Zetabytes
Petabytes
Exabytes
Gigabytes
Terabytes

Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios.
Nível de gerenciamento
Nível de consumo
Nível de Metadados
Nível de governança
Nível de admissão

Selecione a opção correta que define resumidamente o que é o Data Lake.
Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados.
É um repositório para tratamento dos dados.
É um repositório centralizado para armazenamento de dados.
É uma tecnologia de armazenamento e processamento de dados.
É um ambiente para tratamento e armazenamento apenas de dados relacionais.

Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark.
Hadoop e Spark
Java e Python
Java e R
Casandra e Spark
Python e Escala

Em relação à técnica MapReduce, selecione a opção correta.
É uma técnica lenta para processamento de grandes volumes de dados
É uma técnica de computação distribuída
Consiste em uma técnica de programação sequencial
Só pode ser aplicada para grandes volumes de dados
Foi substituída no Spark por acesso direto à memória

Qual o método utilizado para fazer a junção entre DataFrames no pandas?
sum
values
set_index
merge
reset_index

As notas que compõem o histórico escolar de um aluno são classificadas como que tipo de dados?
Temporais
Categóricos
Atemporais
Semi-Estruturados
Numéricos

Leonardo quer elaborar um classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de sua rede neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________:
MNIST; Processamento de Imagens
IRIS; Processamento de Imagens
IRIS; Processamento da Linguagem Natural
Pizzas; Categorias
MNIST; Processamento de Linguagem Natural

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. Microsft Azure Google Cloud Oracle Cloud Amazon AWS IBM Cloud

Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data.
Zetabytes
Petabytes
Exabytes
Gigabytes
Terabytes

Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios.
Nível de gerenciamento
Nível de consumo
Nível de Metadados
Nível de governança
Nível de admissão

Selecione a opção correta que define resumidamente o que é o Data Lake.
Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados.
É um repositório para tratamento dos dados.
É um repositório centralizado para armazenamento de dados.
É uma tecnologia de armazenamento e processamento de dados.
É um ambiente para tratamento e armazenamento apenas de dados relacionais.

Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark.
Hadoop e Spark
Java e Python
Java e R
Casandra e Spark
Python e Escala

Em relação à técnica MapReduce, selecione a opção correta.
É uma técnica lenta para processamento de grandes volumes de dados
É uma técnica de computação distribuída
Consiste em uma técnica de programação sequencial
Só pode ser aplicada para grandes volumes de dados
Foi substituída no Spark por acesso direto à memória

Qual o método utilizado para fazer a junção entre DataFrames no pandas?
sum
values
set_index
merge
reset_index

As notas que compõem o histórico escolar de um aluno são classificadas como que tipo de dados?
Temporais
Categóricos
Atemporais
Semi-Estruturados
Numéricos

Leonardo quer elaborar um classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de sua rede neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________:
MNIST; Processamento de Imagens
IRIS; Processamento de Imagens
IRIS; Processamento da Linguagem Natural
Pizzas; Categorias
MNIST; Processamento de Linguagem Natural

Prévia do material em texto

07/06/2023, 20:57 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/5
 
Meus
Simulados
Teste seu conhecimento acumulado
Disc.: TÓPICOS DE BIG DATA EM PYTHON   
Aluno(a): TIAGO HENRIQUE DE SOUZA QUEIROZ 202003104477
Acertos: 9,0 de 10,0 07/06/2023
Acerto: 1,0  / 1,0
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como
referência para as outras plataformas.
Oracle Cloud
Microsft Azure
 Amazon AWS
Google Cloud
IBM Cloud
Respondido em 07/06/2023 20:58:47
Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do
mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado.
Acerto: 1,0  / 1,0
Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a
projetos de Big Data.
 Petabytes
Zetabytes
Exabytes
Gigabytes
Terabytes
Respondido em 07/06/2023 20:59:01
Explicação:
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data. As
alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de
armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes.
 Questão1
a
 Questão2
a
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();
07/06/2023, 20:57 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/5
Acerto: 1,0  / 1,0
Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de
negócios.
Nível de gerenciamento
 Nível de consumo
Nível de Metadados
Nível de admissão
Nível de governança
Respondido em 07/06/2023 20:59:12
Explicação:
O Data Lake possui três níveis: o de admissão, o de gerenciamento e o de consumo que tratam, respectivamente, dos
serviços de aquisição de dados, da identi�cação e localização dos dados e que fornecem dados para ser consumidos
por aplicações de apoio à tomada de decisão.
Acerto: 1,0  / 1,0
Reconhecer os conceitos de Data Lake é fundamental para o pro�ssional de Tecnologia da Informação.
Selecione a opção correta que de�ne resumidamente o que é o Data Lake.
Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para
fazer o gerenciamento dos dados.
É um repositório para tratamento dos dados.
 É um repositório centralizado para armazenamento de dados.
É uma tecnologia de armazenamento e processamento de dados.
É um ambiente para tratamento e armazenamento apenas de dados relacionais.
Respondido em 07/06/2023 20:59:31
Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não
estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento.
Acerto: 1,0  / 1,0
O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do
Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização
do PySpark.
Casandra e Spark
 Java e Python
Hadoop e Spark
Python e Escala
Java e R
Respondido em 07/06/2023 20:59:41
 Questão3
a
 Questão4
a
 Questão5
a
07/06/2023, 20:57 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/5
Explicação:
Gabarito: Java e Python
Justi�cativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e con�guração do
Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No
caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também.
Acerto: 1,0  / 1,0
O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o
Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta.
É uma técnica lenta para processamento de grandes volumes de dados
 É uma técnica de computação distribuída
Consiste em uma técnica de programação sequencial
Só pode ser aplicada para grandes volumes de dados
Foi substituída no Spark por acesso direto à memória
Respondido em 07/06/2023 20:59:56
Explicação:
Gabarito: É uma técnica de computação distribuída
Justi�cativa: O MapReduce é uma técnica de computação distribuída que apesar de clássica ainda é considerada
muito e�ciente para processamento de grandes volumes de dados. Apesar de ser adequada para projetos de big data,
ela também pode ser utilizada para menores volumes, mas não é apropriada para esses casos.
Acerto: 1,0  / 1,0
Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o
método utilizado para fazer a junção entre DataFrames no pandas?
set_index
reset_index
values
 merge
sum
Respondido em 07/06/2023 21:00:08
Explicação:
O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou de
indexes pré-de�nidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção entre
DataFrames.
Acerto: 0,0  / 1,0
 Questão6
a
 Questão7
a
 Questão8
a
07/06/2023, 20:57 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/5
No mundo de Big Data, temos dados os mais variados possíveis, e sua classi�cação é fundamental para um
cientista de dados. As notas que compõem o histórico escolar de um aluno são classi�cadas como  que tipo de
dados?
Temporais
 Categóricos
Atemporais
Semi-Estruturados
 Numéricos
Respondido em 07/06/2023 21:00:32
Explicação:
O correto é classi�car como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de
soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes
signi�ca que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo
numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos
nossos dados.
Acerto: 1,0  / 1,0
Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um
classi�cador de imagem, mas, não sabe se decidir com relação à con�guração das camadas de sua rede neural. É
muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________:
 MNIST; Processamento de Imagens
IRIS; Processamento de Imagens
IRIS; Processamento da Linguagem Natural
Pizzas; Categorias
MNIST; Processamento de Linguagem Natural
Respondido em 07/06/2023 21:01:36
Explicação:
O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na literatura de aprendizado de
máquina. Mas, essa fama não é à toa, pois esse é o conjunto de comparação entre modelos de processamento de
imagens, uma vez que uma boa con�guração de rede neural deve ser capaz de reconhecer os dígitos escritos a mão do
MNIST.
Acerto: 1,0  / 1,0
Qual o objetivo da inteligência arti�cial ao simular comportamentos humanos na máquina?
 Otimizar algoritmos para que eles se adaptem a contextos não previamente codi�cados.
Melhorar a capacidade de processamento de dados do sistema.
Viabilizar a computação paralela.
Incrementar o uso da memória de longa duração do sistema.
Fazer com que computadores acessem a internet mais rápido.
Respondido em 07/06/2023 21:01:52
 Questão9
a
 Questão10
a
07/06/2023, 20:57 Estácio: Alunos
https://simulado.estacio.br/alunos/ 5/5
Explicação:
A razão por trás da existência da inteligência arti�cial é criar algoritmos e soluções capazes de se adaptar a novas
situações que não necessariamente foram pré-programadas, mas se adapte pela experiência passada com casos
similares.

Mais conteúdos dessa disciplina