SIMULADO TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

Liliane Lima

28/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

SIMULADO TÓPICOS DE BIG DATA EM PYTHON
1a
Questão
Acerto: 1,0 / 1,0

Selecione a opção em que a computação se refere à execução de aplicações e serviços
em uma rede distribuída usando recursos virtualizados.

Computação Paralela

Computação centralizada

Computação de banco de dados

Computação de Big Data
Computação em Nuvem
Respondido em 27/03/2022 10:15:53

Explicação:
As aplicações de computação em nuvem são acessadas por protocolos de Internet e
padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha
obrigatoriamente com protocolos de internet.

2a
Questão
Acerto: 1,0 / 1,0

Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações
de internet das coisas.

Camada de enlace de dados

Camada de aplicação

Camada de sessão

Camada lógica
Camada de transporte
Respondido em 27/03/2022 10:15:09

Explicação:
A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações
e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma
que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não
existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A
camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a
camada de aplicação é responsável pela comunicação fim-a-fim entre processos.

3a
Questão
Acerto: 1,0 / 1,0

O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da
camada responsável por fazer a marcação dos dados do Data Lake.

Camada de Metadados

Camada de gerenciamento de dados

Camada de gerenciamento do ciclo de vida da informação

Camada de segurança

Camada de governança
Respondido em 27/03/2022 10:31:37

Explicação:
O Data Lake possui três camadas: a de governança e segurança de dados, a de metadados
e a de gerenciamento do ciclo de vida da informação que tratam, respectivamente, da
política de segurança de dados, da marcação e identificação dos dados e das regras de
armazenamento.

4a
Questão
Acerto: 1,0 / 1,0

Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer
dados para a análise de negócios.

Nível de Metadados

Nível de gerenciamento

Nível de admissão

Nível de governança
Nível de consumo
Respondido em 27/03/2022 10:32:29

Explicação:
O Data Lake possui três níveis: o de admissão, o de gerenciamento e o de consumo que
tratam, respectivamente, dos serviços de aquisição de dados, da identificação e localização
dos dados e que fornecem dados para ser consumidos por aplicações de apoio à tomada de
decisão.

5a
Questão
Acerto: 1,0 / 1,0

O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos
frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a
opção correta.

Consiste em uma técnica de programação sequencial
É uma técnica de computação distribuída

Foi substituída no Spark por acesso direto à memória

Só pode ser aplicada para grandes volumes de dados

É uma técnica lenta para processamento de grandes volumes de dados
Respondido em 27/03/2022 10:17:34

Explicação:
Gabarito: É uma técnica de computação distribuída
Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de
clássica ainda é considerada muito eficiente para processamento de grandes volumes de
dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada
para menores volumes, mas não é apropriada para esses casos.

6a
Questão
Acerto: 1,0 / 1,0

Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos
com finalidades específicas. Nesse sentido, selecione a opção que contém o componente
responsável por estabelecer uma conexão com o Cluster.

SparkContext

SparkSession

Spark.Catalog

DataFrame

RDD
Respondido em 27/03/2022 10:34:18

Explicação:
Gabarito: SparkContext
Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o
SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão
nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa
trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar
um catálogo de metadados de entidades relacionais.

7a
Questão
Acerto: 1,0 / 1,0

Compreender a análise de dados em Python é fundamental para o cientista de dados.
Qual o papel do sistema pip da linguagem Python?

Gerenciador de Pacotes do Python.

Gerenciador de memória do Python.

Gerenciador de espaços virtuais do Python.

Motor de Busca da IDE do Python.

Biblioteca de Processamento de Linguagem Natural.
Respondido em 27/03/2022 10:19:24

Explicação:
O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como
instalá-los via comando pip install. Gerenciar memória é papel do sistema operacional, não
do pip. A função de gerenciar espaços virtuais é atribuída ao venv, o virtualenv. Motor de
busca é uma atribuição de IDE, não de linguagem de programação. O processamento de
linguagem natural é função de biblioteca, diferente de gerenciamento de pacotes.

8a
Questão
Acerto: 0,0 / 1,0

A visualização dos dados é fundamental no processo de análise, interpretação e
obtenção de conhecimento. Dentre as visualizações mais adequadas para dados
numéricos estão:
I - Histograma
II - Gráfico de Dispersão
III - Gráfico de Pizza
Analise as alternativas listadas e assinale a correta.

Apenas I e II
As alternativas I, II e III

Apenas II e III

Apenas I e III

Apenas III
Respondido em 27/03/2022 10:38:57

Explicação:
Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das
variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para
dados categóricos, quando queremos mostrar proporção e valores distintos de categorias
possíveis.

9a
Questão
Acerto: 0,0 / 1,0

Quais destas opções representam as diferenças entre o KDD e o CRISP-DM?

I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML
II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-
Processamento e Transformação de Dados
III - A obrigatoriedade da entrega de um artefato de ML

Apenas a opção I
As opções I, II, e III estão corretas

Apenas a opção II
Apenas as opções I e III

Apenas as opções II e III
Respondido em 27/03/2022 10:43:01

Explicação:
O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das
etapas de entendimento do negócio e entendimento dos dados, bem como a simplificação
de três etapas de preparação de dados para uma, e, finalmente, o comprometimento do
processo CRISP-DM de entregar um artefato de ML.

10a
Questão
Acerto: 1,0 / 1,0

Quais os métodos de aprendizado de máquina que existem?

Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e
Semisupervisionado

Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado

Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório

Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e
Semisupervisionado

Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e
Semisupervisionado
Respondido em 27/03/2022 10:23:21

Explicação:
Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado,
que treina modelos a partir de exemplos positivos e negativos; o aprendizado não
supervisionado, em que o modelo tenta extrair padrões deforma autodidata dos registros;
por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o
Semisupervisionado que aprende com dados tanto rotulados como não rotulados.