SIMULADO TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

Regis Conde

12/06/2023

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a):
Acertos: 9,0 de 10,0 02/04/2023

1a
Questão
Acerto: 1,0 / 1,0

Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a
projetos de Big Data.

Petabytes

Zetabytes

Terabytes

Gigabytes

Exabytes
Respondido em 02/04/2023 22:11:10

Explicação:
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data. As
alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de
armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes.

2a
Questão
Acerto: 0,0 / 1,0

Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino.

É um protocolo de internet das coisas

É um programa
É uma placa de hardware
É um ecossistema que envolve software e hardware

É o outro nome para Raspberry PI
Respondido em 02/04/2023 22:12:54

Explicação:
O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto, não é um
programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI não é o mesmo
que Arduino, pois se trata de uma outra tecnologia para internet das coisas.

3a
Questão
Acerto: 1,0 / 1,0

O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione
a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do
Hadoop.

Processos de extração, transformação e carregamento dos dados.

Gerenciamento do armazenamento de dados.
Aplicar políticas de segurança.

Mecanismo para melhorar o processamento dos dados.

Tratar dados não-estruturados.
Respondido em 02/04/2023 22:25:04

Explicação:
O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o profissional responsável por essa
etapa terá que configurar o sistema que, pela natureza dos problemas de Big Data, é uma tarefa complexa.

4a
Questão
Acerto: 1,0 / 1,0

Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação.
Selecione a opção correta que define resumidamente o que é o Data Lake.

É um ambiente para tratamento e armazenamento apenas de dados relacionais.

É um repositório para tratamento dos dados.

Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce
para fazer o gerenciamento dos dados.

É uma tecnologia de armazenamento e processamento de dados.
É um repositório centralizado para armazenamento de dados.
Respondido em 02/04/2023 22:17:51

Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não
estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento.

5a
Questão
Acerto: 1,0 / 1,0

Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades
específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em
aplicações de aprendizado de máquina.

MLSpark

Spark Learning

GraphX Learning
MLlib

RDDs
Respondido em 02/04/2023 22:18:50

Explicação:
Gabarito: MLlib
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos
estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big data.
As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são
componentes para conjunto de dados resilientes.

6a
Questão
Acerto: 1,0 / 1,0

Observe o trecho de código abaixo
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor)
registros = spark.sql(query)
Selecione a opção correta a respeito dele.

A implementação do trecho de código está errada.

A execução do trecho de código vai funcionar corretamente.

É possível afirmar que a tabela_teste existe.

É um exemplo de aplicação de GraphX.
Trata-se de um exemplo de utilização do Spark SQL
Respondido em 02/04/2023 22:20:41

Explicação:
Gabarito: Trata-se de um exemplo de utilização do Spark SQL
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização
de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada
corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações
que permitam fazer afirmações sobre a execução.

7a
Questão
Acerto: 1,0 / 1,0

Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados
fiquem na mesma escala?

Map & Reduce

Splice
MinMax

Shuffle

Divide
Respondido em 02/04/2023 22:22:13

Explicação:
Extraímos do dado observado sua proporção em relação ao valor mínimo possível até o valor máximo e enquadramos o
mesmo nesta régua, assim realizando a regularização, que consiste em colocar os dados na mesma escala.

8a
Questão
Acerto: 1,0 / 1,0

A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o
método que faz a projeção do Dataframe orientado pelos rótulos das colunas do conjunto?

iloc
loc

shuffle

sum

reset_index
Respondido em 02/04/2023 22:23:20

Explicação:
Através do método loc, passando o nome da coluna ou colunas desejadas entre colchetes, é aplicada a operação de
projeção do DataFrame, de acordo com o objetivo desejado. As demais alternativas não dizem respeito à projeção do
DataFrame.

9a
Questão
Acerto: 1,0 / 1,0

O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se
refere ao processo de:

LSTM

RNN

DNN

CNN
KDD
Respondido em 02/04/2023 22:26:05

Explicação:
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados,
seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A
alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery
in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de
Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural
Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito
não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural
Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais
recorrentes, também utilizadas em problemas sequenciais ou temporais.

10a
Questão
Acerto: 1,0 / 1,0

As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus
conhecimentos é(são)

Vieses
Camadas Escondidas

Camada de Saída

Pesos

Função de Ativação
Respondido em 02/04/2023 22:27:11

Explicação:
O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas (hidden),
pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas, produzem o
conhecimento necessário para discriminar novas observações com base em registros passados.

Conteúdos escolhidos para você

5 pág.

Perguntas dessa disciplina

Tópicos De Big Data Em Python Ps dados que, por alguma razão, normalmente interferencia, não chegam todos os atributos esperados durante a coleta d...

ESTÁCIO

Sobre as linguagens de programação para Big Data, assinale a alternativa CORRETA: A O R é uma linguagem que pode ser utilizada em validação estatí...

Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações 00 hora : 49 min : 57 seg Ocultar Questão 1 de 10 Em branco(10) ...

ESTÁCIO

SIMULADO TÓPICOS DE BIG DATA EM PYTHON

ESTÁCIO

Mais conteúdos dessa disciplina

Conteúdos escolhidos para você

TÓPICOS DE BIG DATA EM PYTHON

TÓPICOS DE BIG DATA EM PYTHON 5 acertos

TUDO python big data

Teste_Conhecimento_Tópicos_Big_Data

TÓPICOS DE BIG DATA EM PYTHON

Perguntas dessa disciplina

Tópicos De Big Data Em Python Ps dados que, por alguma razão, normalmente interferencia, não chegam todos os atributos esperados durante a coleta d...

Sobre as linguagens de programação para Big Data, assinale a alternativa CORRETA: A O R é uma linguagem que pode ser utilizada em validação estatí...

Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações 00 hora : 49 min : 57 seg Ocultar Questão 1 de 10 Em branco(10) ...

Qual o impacto da Big Data? Assinale a alternativa correta. O impacto do Big Data é amplamente positivo, uma vez que o aumento na quantidade de d...

Qual o impacto da Big Data? Assinale a alternativa correta. O impacto do Big Data é amplamente irresponsável, uma vez que o aumento na quantidade...