Buscar

TÓPICOS DE BIG DATA EM PYTHON

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON 
 
Acertos: 10,0 2022 
 
 
 
 
 Questão 
Acerto: 
 
Selecione a opção correta com a medida de volume de dados que normalmente é usada 
para se referenciar a projetos de Big Data. 
 
 
Exabytes 
 
Zetabytes 
 Petabytes 
 
Terabytes 
 
Gigabytes 
 
 
Explicação: 
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são 
consideradas de Big Data. As alternativas da questão podem ser vistas em ordem crescente 
de grandeza das unidades de medida de armazenamento: Gigabytes, Terabytes, Petabytes, 
Exabytes e Zetabytes. 
 
 
 
 Questão 
Acerto: 
 
Em relação ao formato dos dados, selecione a opção correta que corresponde ao 
formato dos dados de transações bancárias. 
 
 
dados semiestruturados 
 
dados de Internet das Coisas 
 
dados não estruturados 
 
dados de Big Data 
 dados estruturados 
 
 
Explicação: 
Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados 
estruturados, que são típicos de sistemas de transações on line armazenados em banco de 
dados. As demais alternativas tratam de dados não convencionais que não são armazenados 
em bancos de dados tradicionais. 
 
 
 
 Questão 
Acerto: 
 
Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é 
fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione 
a opção correta sobre o Hadoop. 
 
 
O Hadoop tem apenas uma única distribuição. 
 O Hadoop utiliza o HDFS para armazenar dados. 
 
A estrutura de desenvolvimento no Hadoop é sequencial. 
 
O Hadoop não funciona com pequenos volumes de dados. 
 
Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de 
dados. 
 
 
Explicação: 
O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop 
Distributed File System). Ele é o componente responsável pelo armazenamento e 
gerenciamento de dados, de forma similar aos sistemas gerenciadores de bancos de dados 
relacionais (RDBMS). 
 
 
 
 Questão 
Acerto: 
 
A respeito do Hadoop, selecione a opção correta com o componente que faz o 
rastreamento de tarefas. 
 
 MapReduce 
 
Mrjob 
 
HDFS 
 
Task manager 
 
Camada de ingestão 
 
 
Explicação: 
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através 
de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais 
alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de 
rastreamento de tarefas. 
 
 
 
 Questão 
Acerto: 
 
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos 
com finalidades específicas. Selecione a opção que contém o componente do 
ecossistema do Spark especializado em aplicações de aprendizado de máquina. 
 
 
RDDs 
 
Spark Learning 
 MLlib 
 
GraphX Learning 
 
MLSpark 
 
 
Explicação: 
Gabarito: MLlib 
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para 
implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines 
de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX 
Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes para 
conjunto de dados resilientes. 
 
 
 
 Questão 
Acerto: 
 
O Spark é uma ferramenta computacional voltada para aplicações de Big Data. 
Selecione a opção correta a respeito do componente que pode ser tratado com o Spark 
SQL. 
 
 
DAG 
 
Work Node 
 
Tasks 
 
Executor 
 RDD 
 
 
Explicação: 
Gabarito: RDD 
Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à 
linguagem SQL para manipular RDDs. DAGs correspondem a abstrações sobre as execuções 
dos processos. O Executor é responsável pela execução de tarefas individuais, enquanto o 
Work Node corresponde ao conjunto de máquinas que executam as tarefas que são as 
Tasks, ou seja, subdivisões do processo. 
 
 
 
 Questão 
Acerto: 1,0 / 1,0 
 
A linguagem Python fornece para o cientista de dados uma grande variedade de funções 
e bibliotecas. Qual o método que faz a projeção do Dataframe orientado pelos rótulos 
das colunas do conjunto? 
 
 
reset_index 
 
shuffle 
 loc 
 
iloc 
 
sum 
 
 
Explicação: 
Através do método loc, passando o nome da coluna ou colunas desejadas entre colchetes, é 
aplicada a operação de projeção do DataFrame, de acordo com o objetivo desejado. As 
demais alternativas não dizem respeito à projeção do DataFrame. 
 
 
 
 Questão 
Acerto: 
 
A função de agrupamento do Pandas é o groupby, responsável por influenciar a 
indexação das colunas. O que acontece ao aplicarmos o método reset_index() no 
resultado de uma agregação? 
 
 
As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo 
número da linha. 
 
O DataFrame é embaralhado. 
 
Nada, o DataFrame fica imutável. 
 Os indexes não são deletados, evitando a perda de colunas no DataFrame da 
agregação. 
 
O DataFrame é indexado pelas suas colunas. 
 
 
Explicação: 
Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas 
escolhidas. A partir de então, o index das agregações passa a ser o agrupamento. Com o 
reset_index() após a agregação, os índices originais das colunas são preservados. 
 
 
 
 Questão 
Acerto 
 
Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai 
conceitos de engenharia de aprendizado de máquina e implementa modelos de ML? 
 
 
Pandas 
 
Numpy 
 
BeautifulSoup 
 
OS 
 Scikit-Learn 
 
 
Explicação: 
O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar 
a modelar qualquer problema de ciência de dados, mas é com o scikit-learn principalmente 
que implementamos modelos de machine learning de forma facilitada. 
 
 
 
 Questão 
Acerto: 
 
O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, 
na realidade ele se refere ao processo de: 
 
 
CNN 
 
LSTM 
 
DNN 
 
RNN 
 KDD 
 
 
Explicação: 
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de 
etapas de coleta de dados, seleção de dados, pré-processamento, transformação, 
descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou 
Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in 
Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD 
comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes 
neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito 
utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não 
foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais 
recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou 
temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em 
problemas sequenciais ou temporais.

Continue navegando