TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

16

0

16

0

L3o Ferrari

08/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Python

3.269 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON

Acertos: 10,0 2022

Questão
Acerto:

Selecione a opção correta com a medida de volume de dados que normalmente é usada
para se referenciar a projetos de Big Data.

Exabytes

Zetabytes
Petabytes

Terabytes

Gigabytes

Explicação:
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são
consideradas de Big Data. As alternativas da questão podem ser vistas em ordem crescente
de grandeza das unidades de medida de armazenamento: Gigabytes, Terabytes, Petabytes,
Exabytes e Zetabytes.

Questão
Acerto:

Em relação ao formato dos dados, selecione a opção correta que corresponde ao
formato dos dados de transações bancárias.

dados semiestruturados

dados de Internet das Coisas

dados não estruturados

dados de Big Data
dados estruturados

Explicação:
Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados
estruturados, que são típicos de sistemas de transações on line armazenados em banco de
dados. As demais alternativas tratam de dados não convencionais que não são armazenados
em bancos de dados tradicionais.

Questão
Acerto:

Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é
fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione
a opção correta sobre o Hadoop.

O Hadoop tem apenas uma única distribuição.
O Hadoop utiliza o HDFS para armazenar dados.

A estrutura de desenvolvimento no Hadoop é sequencial.

O Hadoop não funciona com pequenos volumes de dados.

Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de
dados.

Explicação:
O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop
Distributed File System). Ele é o componente responsável pelo armazenamento e
gerenciamento de dados, de forma similar aos sistemas gerenciadores de bancos de dados
relacionais (RDBMS).

Questão
Acerto:

A respeito do Hadoop, selecione a opção correta com o componente que faz o
rastreamento de tarefas.

MapReduce

Mrjob

HDFS

Task manager

Camada de ingestão

Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através
de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais
alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de
rastreamento de tarefas.

Questão
Acerto:

Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos
com finalidades específicas. Selecione a opção que contém o componente do
ecossistema do Spark especializado em aplicações de aprendizado de máquina.

RDDs

Spark Learning
MLlib

GraphX Learning

MLSpark

Explicação:
Gabarito: MLlib
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para
implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines
de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX
Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes para
conjunto de dados resilientes.

Questão
Acerto:

O Spark é uma ferramenta computacional voltada para aplicações de Big Data.
Selecione a opção correta a respeito do componente que pode ser tratado com o Spark
SQL.

DAG

Work Node

Tasks

Executor
RDD

Explicação:
Gabarito: RDD
Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à
linguagem SQL para manipular RDDs. DAGs correspondem a abstrações sobre as execuções
dos processos. O Executor é responsável pela execução de tarefas individuais, enquanto o
Work Node corresponde ao conjunto de máquinas que executam as tarefas que são as
Tasks, ou seja, subdivisões do processo.

Questão
Acerto: 1,0 / 1,0

A linguagem Python fornece para o cientista de dados uma grande variedade de funções
e bibliotecas. Qual o método que faz a projeção do Dataframe orientado pelos rótulos
das colunas do conjunto?

reset_index

shuffle
loc

iloc

sum

Explicação:
Através do método loc, passando o nome da coluna ou colunas desejadas entre colchetes, é
aplicada a operação de projeção do DataFrame, de acordo com o objetivo desejado. As
demais alternativas não dizem respeito à projeção do DataFrame.

Questão
Acerto:

A função de agrupamento do Pandas é o groupby, responsável por influenciar a
indexação das colunas. O que acontece ao aplicarmos o método reset_index() no
resultado de uma agregação?

As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo
número da linha.

O DataFrame é embaralhado.

Nada, o DataFrame fica imutável.
Os indexes não são deletados, evitando a perda de colunas no DataFrame da
agregação.

O DataFrame é indexado pelas suas colunas.

Explicação:
Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas
escolhidas. A partir de então, o index das agregações passa a ser o agrupamento. Com o
reset_index() após a agregação, os índices originais das colunas são preservados.

Questão
Acerto

Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai
conceitos de engenharia de aprendizado de máquina e implementa modelos de ML?

Pandas

Numpy

BeautifulSoup

OS
Scikit-Learn

Explicação:
O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar
a modelar qualquer problema de ciência de dados, mas é com o scikit-learn principalmente
que implementamos modelos de machine learning de forma facilitada.

Questão
Acerto:

O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas,
na realidade ele se refere ao processo de:

CNN

LSTM

DNN

RNN
KDD

Explicação:
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de
etapas de coleta de dados, seleção de dados, pré-processamento, transformação,
descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou
Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in
Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD
comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes
neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito
utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não
foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais
recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou
temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em
problemas sequenciais ou temporais.