Buscar

SIMULADO TÓPICOS DE BIG DATA EM PYTHON

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON 
Aluno(a): 
Acertos: 9,0 de 10,0 02/04/2023 
 
 
 
1a 
 Questão 
Acerto: 1,0 / 1,0 
 
Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a 
projetos de Big Data. 
 
 Petabytes 
 
Zetabytes 
 
Terabytes 
 
Gigabytes 
 
Exabytes 
Respondido em 02/04/2023 22:11:10 
 
Explicação: 
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data. As 
alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de 
armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes. 
 
 
2a 
 Questão 
Acerto: 0,0 / 1,0 
 
Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino. 
 
 
É um protocolo de internet das coisas 
 
É um programa 
 É uma placa de hardware 
 É um ecossistema que envolve software e hardware 
 
É o outro nome para Raspberry PI 
Respondido em 02/04/2023 22:12:54 
 
Explicação: 
O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto, não é um 
programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI não é o mesmo 
que Arduino, pois se trata de uma outra tecnologia para internet das coisas. 
 
 
3a 
 Questão 
Acerto: 1,0 / 1,0 
 
O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione 
a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do 
Hadoop. 
 
 
Processos de extração, transformação e carregamento dos dados. 
 
Gerenciamento do armazenamento de dados. 
 Aplicar políticas de segurança. 
 
Mecanismo para melhorar o processamento dos dados. 
 
Tratar dados não-estruturados. 
Respondido em 02/04/2023 22:25:04 
 
Explicação: 
O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o profissional responsável por essa 
etapa terá que configurar o sistema que, pela natureza dos problemas de Big Data, é uma tarefa complexa. 
 
 
4a 
 Questão 
Acerto: 1,0 / 1,0 
 
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. 
Selecione a opção correta que define resumidamente o que é o Data Lake. 
 
 
É um ambiente para tratamento e armazenamento apenas de dados relacionais. 
 
É um repositório para tratamento dos dados. 
 
Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce 
para fazer o gerenciamento dos dados. 
 
É uma tecnologia de armazenamento e processamento de dados. 
 É um repositório centralizado para armazenamento de dados. 
Respondido em 02/04/2023 22:17:51 
 
Explicação: 
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não 
estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento. 
 
 
5a 
 Questão 
Acerto: 1,0 / 1,0 
 
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades 
específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em 
aplicações de aprendizado de máquina. 
 
 
MLSpark 
 
Spark Learning 
 
GraphX Learning 
 MLlib 
 
RDDs 
Respondido em 02/04/2023 22:18:50 
 
Explicação: 
Gabarito: MLlib 
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos 
estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big data. 
As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são 
componentes para conjunto de dados resilientes. 
 
 
6a 
 Questão 
Acerto: 1,0 / 1,0 
 
Observe o trecho de código abaixo 
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) 
registros = spark.sql(query) 
Selecione a opção correta a respeito dele. 
 
 
A implementação do trecho de código está errada. 
 
A execução do trecho de código vai funcionar corretamente. 
 
É possível afirmar que a tabela_teste existe. 
 
É um exemplo de aplicação de GraphX. 
 Trata-se de um exemplo de utilização do Spark SQL 
Respondido em 02/04/2023 22:20:41 
 
Explicação: 
Gabarito: Trata-se de um exemplo de utilização do Spark SQL 
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização 
de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada 
corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações 
que permitam fazer afirmações sobre a execução. 
 
 
7a 
 Questão 
Acerto: 1,0 / 1,0 
 
Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados 
fiquem na mesma escala? 
 
 
Map & Reduce 
 
Splice 
 MinMax 
 
Shuffle 
 
Divide 
Respondido em 02/04/2023 22:22:13 
 
Explicação: 
Extraímos do dado observado sua proporção em relação ao valor mínimo possível até o valor máximo e enquadramos o 
mesmo nesta régua, assim realizando a regularização, que consiste em colocar os dados na mesma escala. 
 
 
8a 
 Questão 
Acerto: 1,0 / 1,0 
 
A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o 
método que faz a projeção do Dataframe orientado pelos rótulos das colunas do conjunto? 
 
 
iloc 
 loc 
 
shuffle 
 
sum 
 
reset_index 
Respondido em 02/04/2023 22:23:20 
 
Explicação: 
Através do método loc, passando o nome da coluna ou colunas desejadas entre colchetes, é aplicada a operação de 
projeção do DataFrame, de acordo com o objetivo desejado. As demais alternativas não dizem respeito à projeção do 
DataFrame. 
 
 
9a 
 Questão 
Acerto: 1,0 / 1,0 
 
O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se 
refere ao processo de: 
 
 
LSTM 
 
RNN 
 
DNN 
 
CNN 
 KDD 
Respondido em 02/04/2023 22:26:05 
 
Explicação: 
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, 
seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A 
alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery 
in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de 
Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural 
Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito 
não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural 
Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais 
recorrentes, também utilizadas em problemas sequenciais ou temporais. 
 
 
10a 
 Questão 
Acerto: 1,0 / 1,0 
 
As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus 
conhecimentos é(são) 
 
 
Vieses 
 Camadas Escondidas 
 
Camada de Saída 
 
Pesos 
 
Função de Ativação 
Respondido em 02/04/2023 22:27:11 
 
Explicação: 
O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas (hidden), 
pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas, produzem o 
conhecimento necessário para discriminar novas observações com base em registros passados.

Mais conteúdos dessa disciplina