Buscar

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

SIMULADO TÓPICOS DE BIG DATA EM PYTHON 
1a 
 Questão 
Acerto: 1,0 / 1,0 
 
Selecione a opção em que a computação se refere à execução de aplicações e serviços 
em uma rede distribuída usando recursos virtualizados. 
 
 
Computação Paralela 
 
Computação centralizada 
 
Computação de banco de dados 
 
Computação de Big Data 
 Computação em Nuvem 
Respondido em 27/03/2022 10:15:53 
 
Explicação: 
As aplicações de computação em nuvem são acessadas por protocolos de Internet e 
padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha 
obrigatoriamente com protocolos de internet. 
 
 
2a 
 Questão 
Acerto: 1,0 / 1,0 
 
Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações 
de internet das coisas. 
 
 
Camada de enlace de dados 
 
Camada de aplicação 
 
Camada de sessão 
 
Camada lógica 
 Camada de transporte 
Respondido em 27/03/2022 10:15:09 
 
Explicação: 
A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações 
e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma 
que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não 
existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A 
camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a 
camada de aplicação é responsável pela comunicação fim-a-fim entre processos. 
 
 
3a 
 Questão 
Acerto: 1,0 / 1,0 
 
O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da 
camada responsável por fazer a marcação dos dados do Data Lake. 
 
 Camada de Metadados 
 
Camada de gerenciamento de dados 
 
Camada de gerenciamento do ciclo de vida da informação 
 
Camada de segurança 
 
Camada de governança 
Respondido em 27/03/2022 10:31:37 
 
Explicação: 
O Data Lake possui três camadas: a de governança e segurança de dados, a de metadados 
e a de gerenciamento do ciclo de vida da informação que tratam, respectivamente, da 
política de segurança de dados, da marcação e identificação dos dados e das regras de 
armazenamento. 
 
 
4a 
 Questão 
Acerto: 1,0 / 1,0 
 
Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer 
dados para a análise de negócios. 
 
 
Nível de Metadados 
 
Nível de gerenciamento 
 
Nível de admissão 
 
Nível de governança 
 Nível de consumo 
Respondido em 27/03/2022 10:32:29 
 
Explicação: 
O Data Lake possui três níveis: o de admissão, o de gerenciamento e o de consumo que 
tratam, respectivamente, dos serviços de aquisição de dados, da identificação e localização 
dos dados e que fornecem dados para ser consumidos por aplicações de apoio à tomada de 
decisão. 
 
 
5a 
 Questão 
Acerto: 1,0 / 1,0 
 
O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos 
frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a 
opção correta. 
 
 
Consiste em uma técnica de programação sequencial 
 É uma técnica de computação distribuída 
 
Foi substituída no Spark por acesso direto à memória 
 
Só pode ser aplicada para grandes volumes de dados 
 
É uma técnica lenta para processamento de grandes volumes de dados 
Respondido em 27/03/2022 10:17:34 
 
Explicação: 
Gabarito: É uma técnica de computação distribuída 
Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de 
clássica ainda é considerada muito eficiente para processamento de grandes volumes de 
dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada 
para menores volumes, mas não é apropriada para esses casos. 
 
 
6a 
 Questão 
Acerto: 1,0 / 1,0 
 
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos 
com finalidades específicas. Nesse sentido, selecione a opção que contém o componente 
responsável por estabelecer uma conexão com o Cluster. 
 
 SparkContext 
 
SparkSession 
 
Spark.Catalog 
 
DataFrame 
 
RDD 
Respondido em 27/03/2022 10:34:18 
 
Explicação: 
Gabarito: SparkContext 
Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o 
SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão 
nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa 
trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar 
um catálogo de metadados de entidades relacionais. 
 
 
7a 
 Questão 
Acerto: 1,0 / 1,0 
 
Compreender a análise de dados em Python é fundamental para o cientista de dados. 
Qual o papel do sistema pip da linguagem Python? 
 
 Gerenciador de Pacotes do Python. 
 
Gerenciador de memória do Python. 
 
Gerenciador de espaços virtuais do Python. 
 
Motor de Busca da IDE do Python. 
 
Biblioteca de Processamento de Linguagem Natural. 
Respondido em 27/03/2022 10:19:24 
 
Explicação: 
O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como 
instalá-los via comando pip install. Gerenciar memória é papel do sistema operacional, não 
do pip. A função de gerenciar espaços virtuais é atribuída ao venv, o virtualenv. Motor de 
busca é uma atribuição de IDE, não de linguagem de programação. O processamento de 
linguagem natural é função de biblioteca, diferente de gerenciamento de pacotes. 
 
 
8a 
 Questão 
Acerto: 0,0 / 1,0 
 
A visualização dos dados é fundamental no processo de análise, interpretação e 
obtenção de conhecimento. Dentre as visualizações mais adequadas para dados 
numéricos estão: 
I - Histograma 
II - Gráfico de Dispersão 
III - Gráfico de Pizza 
Analise as alternativas listadas e assinale a correta. 
 
 Apenas I e II 
 As alternativas I, II e III 
 
Apenas II e III 
 
Apenas I e III 
 
Apenas III 
Respondido em 27/03/2022 10:38:57 
 
Explicação: 
Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das 
variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para 
dados categóricos, quando queremos mostrar proporção e valores distintos de categorias 
possíveis. 
 
 
9a 
 Questão 
Acerto: 0,0 / 1,0 
 
Quais destas opções representam as diferenças entre o KDD e o CRISP-DM? 
 
I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML 
II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-
Processamento e Transformação de Dados 
III - A obrigatoriedade da entrega de um artefato de ML 
 
 
Apenas a opção I 
 As opções I, II, e III estão corretas 
 
Apenas a opção II 
 Apenas as opções I e III 
 
Apenas as opções II e III 
Respondido em 27/03/2022 10:43:01 
 
Explicação: 
O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das 
etapas de entendimento do negócio e entendimento dos dados, bem como a simplificação 
de três etapas de preparação de dados para uma, e, finalmente, o comprometimento do 
processo CRISP-DM de entregar um artefato de ML. 
 
 
10a 
 Questão 
Acerto: 1,0 / 1,0 
 
Quais os métodos de aprendizado de máquina que existem? 
 
 Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e 
Semisupervisionado 
 
Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado 
 
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório 
 
Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e 
Semisupervisionado 
 
Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e 
Semisupervisionado 
Respondido em 27/03/2022 10:23:21 
 
Explicação: 
Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, 
que treina modelos a partir de exemplos positivos e negativos; o aprendizado não 
supervisionado, em que o modelo tenta extrair padrões deforma autodidata dos registros; 
por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o 
Semisupervisionado que aprende com dados tanto rotulados como não rotulados.

Mais conteúdos dessa disciplina