TÓPICOS DE BIG DATA EM PYTHON simulado AV

•

ESTÁCIO

12

1

12

1

0

Francisco Júnior

28/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

6.071 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a):
Acertos: 10,0 de 10,0 28/04/2022

1a
Questão
Acerto: 1,0 / 1,0

Selecione a opção em que a computação se refere à execução de aplicações e serviços
em uma rede distribuída usando recursos virtualizados.

Computação de banco de dados
Computação em Nuvem

Computação Paralela

Computação centralizada

Computação de Big Data
Respondido em 28/04/2022 11:33:40

Explicação:
As aplicações de computação em nuvem são acessadas por protocolos de Internet e
padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha
obrigatoriamente com protocolos de internet.

2a
Questão
Acerto: 1,0 / 1,0

Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações
de internet das coisas.

Camada de aplicação

Camada lógica

Camada de sessão

Camada de enlace de dados
Camada de transporte
Respondido em 28/04/2022 11:34:01

Explicação:
A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações
e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma
que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não
existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A
camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a
camada de aplicação é responsável pela comunicação fim-a-fim entre processos.

3a Acerto: 1,0 / 1,0
Questão

Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia
da Informação. Selecione a opção correta a respeito do Data Lake.

São exclusivos da distribuição Hadoop Apache.

Demandam por equipamentos especiais.
Armazenam os dados de modo eficiente.

Possui alta latência para acesso dos dados.

Aplicam processos de tratamento nos dados.
Respondido em 28/04/2022 11:37:07

Explicação:
O Data Lake utiliza um método muito eficiente para fazer o armazenamento dos dados.
Dessa forma ele possui baixa latência para acessar os dados. Além disso, o Data Lake não
demanda por equipamentos especiais e não é de uso exclusivo da distribuição Hadoop
Apache.

4a
Questão
Acerto: 1,0 / 1,0

Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia
da Informação. Selecione a opção correta que define resumidamente o que é o Data
Lake.

É uma tecnologia de armazenamento e processamento de dados.

É um repositório para tratamento dos dados.

Trata-se de um componente do HDFS responsável pela implementação do
mecanismo MapReduce para fazer o gerenciamento dos dados.
É um repositório centralizado para armazenamento de dados.

É um ambiente para tratamento e armazenamento apenas de dados relacionais.
Respondido em 28/04/2022 11:37:48

Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos
formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar
nenhum tratamento.

5a
Questão
Acerto: 1,0 / 1,0

O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos
frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a
opção correta.

É uma técnica de computação distribuída

Foi substituída no Spark por acesso direto à memória

É uma técnica lenta para processamento de grandes volumes de dados

Consiste em uma técnica de programação sequencial

Só pode ser aplicada para grandes volumes de dados
Respondido em 28/04/2022 11:35:05

Explicação:
Gabarito: É uma técnica de computação distribuída
Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de
clássica ainda é considerada muito eficiente para processamento de grandes volumes de
dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada
para menores volumes, mas não é apropriada para esses casos.

6a
Questão
Acerto: 1,0 / 1,0

Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos
com finalidades específicas. Nesse sentido, selecione a opção que contém o componente
responsável por estabelecer uma conexão com o Cluster.

DataFrame
SparkContext

SparkSession

Spark.Catalog

RDD
Respondido em 28/04/2022 11:35:36

Explicação:
Gabarito: SparkContext
Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o
SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão
nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa
trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar
um catálogo de metadados de entidades relacionais.

7a
Questão
Acerto: 1,0 / 1,0

Luis planeja começar um projeto particular visando construir um módulo de análise de
dados. Primeiramente ele deseja começar por um módulo de coleta de dados. Para que
ele possa obter um padrão organizado de criação de projeto, qual a sequência
desejável de passos que esperamos que Luis siga?

Criar uma pasta para acomodar seu projeto; Instalar as dependências com as
quais ele quer trabalhar através do pip install; congelar as mesmas no
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta
e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do
módulo.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do
venv; Instalar as dependências com as quais ele quer trabalhar através do pip
install; congelar as mesmas no requirements.txt através do pip freeze; criar uma
pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em
branco e outro para a lógica do módulo.

Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do
venv; Instalar as dependências com as quais ele quer trabalhar através do pip
install; congelar as mesmas no requirements.txt através do pip freeze; criar uma
pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py com a
lógica do módulo.

Criar uma pasta para acomodar seu projeto; Instalar as dependências com as
quais ele quer trabalhar através do pip install; criar uma pasta para o módulo de
coleta e dentro dela criar um arquivo __init__.py em branco e outro para a
lógica do módulo.

Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do
venv; Instalar as dependências com as quais ele quer trabalhar através do pip
install; congelar as mesmas no requirements.txt através do pip freeze; criar uma
pasta para o módulo de coleta e dentro dela criar um para a lógica do módulo.
Respondido em 28/04/2022 11:41:27

Explicação:
O passo a passo correto envolve: criar uma pasta para o projeto; levantar um ambiente
virtual; instalar as dependências e guardá-las no arquivo requirements.txt; criar uma pasta
para o módulo de coleta e criar um arquivo __init__.py em branco e outro para o módulo.
As opções que não descrevem todos esses passos estão incompletas ou na ordem incorreta.

8a
Questão
Acerto: 1,0 / 1,0

A visualização dos dados é fundamental no processo de análise e interpretação. Qual o
tipo de visualização de dados mais indicada para dados temporais?

Gráfico de Barra.

Gráfico de Matriz de Dispersão.

Gráfico de Faces de Chernoff.

Gráfico de Estrela.
Gráfico de Linha.
Respondido em 28/04/2022 11:42:40

Explicação:
O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do
dado, mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do
dado. As demais alternativas indicam tipos de visualização inadequados para dadostemporais.

9a
Questão
Acerto: 1,0 / 1,0

A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão
Classificadora pertence?

Agrupamento
Classificação

Modelos Generativos

Regressão

Q-Learning
Respondido em 28/04/2022 11:46:36

Explicação:
O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de
aprendizado de máquina que pode ser utilizado tanto para regressão quanto para
classificação, mas muda sua terminação dependendo da técnica em questão, por exemplo,
para classificação é a Árvore de Decisão Classificadora, enquanto para regressão se chama
Árvore Regressora, ou Árvore de Decisão Regressora.

10a
Questão
Acerto: 1,0 / 1,0

O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas,
na realidade ele se refere ao processo de:

KDD

CNN

DNN

LSTM

RNN
Respondido em 28/04/2022 11:45:28

Explicação:
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto
de etapas de coleta de dados, seleção de dados, pré-processamento, transformação,
descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou
Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in
Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD
comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes
neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito
utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não
foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais
recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou
temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em
problemas sequenciais ou temporais.