GUIA DE ESTUDO - TOPICOS DE BIG DATA EM PYTHON

Big Data

•

ESTÁCIO

Dini Morais

31/10/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.871 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

GUIA DE ESTUDO -TÓPICOS DE BIG 
DATA EM PYTHON 
1- Em relação ao protocolo de transporte para transmissão de aplicações de 
streaming, selecione a opção correta: 
A- UDP 
B- CoAP 
C- TCP 
D- MQTT 
E- HTTP 
 
 
Resposta: A. 
2- Em relação às plataformas para Internet das Coisas, selecione a opção correta 
sobre o Arduino? 
A- É um programa 
B- É um ecossistema que envolve software e hardware 
C- É um protocolo de internet das coisas 
D- É o outro nome para Raspberry PI 
E- É uma placa de hardware 
 
 
Resposta: B. 
3- A linguagem Python se destaca como intuitiva e de fácil aprendizagem. 
Analise o código abaixo que apresenta laços condicionais e instruções de 
repetição. 
for i in range(10): 
if (i%2==0): 
print(i) 
Qual a saída esperada após a execução do programa? 
A- Serão impressos no console os números pares entre 0 e 9. 
B- Serão impressos no console os números pares entre 1 e 10. 
C- Serão impressos no console os números ímpares entre 0 e 10. 
D- Serão impressos no console os números racionais entre 0 e 9. 
E- Serão impressos no console os números ímpares entre 0 e 9. 
 
Resposta: A. 
4- A visualização dos dados é fundamental no processo de análise e 
interpretação. Qual o tipo de visualização de dados mais indicada para dados 
temporais? 
A- Gráfico de Linha. 
B- Gráfico de Estrela. 
C- Gráfico de Barra. 
D- Gráfico de Matriz de Dispersão. 
E- Gráfico de Faces de Chernoff. 
 
Resposta: A. 
5- Reconhecer os conceitos de Data Lake é fundamental para o profissional de 
Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake? 
A- Aplicam processos de tratamento nos dados. 
B- Demandam por equipamentos especiais. 
C- Armazenam os dados de modo eficiente. 
D- São exclusivos da distribuição Hadoop Apache. 
E- Possui alta latência para acesso dos dados. 
 
Resposta: C. 
6- Em relação ao Data Lake, selecione a opção correta que contenha o(s) 
formato(s) de dados que pode(m) ser armazenado(s) nele? 
A- estruturado, não estruturado e semiestruturado 
B- estruturado e semiestruturado 
C- apenas tabelas relacionais 
D- apenas não estruturado 
E- apenas estruturado 
 
 
Resposta: A. 
7- Observe o trecho de código abaixo 
 
import numpy as np 
from pyspark import SparkContext 
spark_contexto = SparkContext() 
a = np.array([1, 5, 1, 6, 4, 7, 7]) 
teste = spark_contexto.parallelize(a) 
Selecione a opção correta a respeito dele. 
A- O objetivo do trecho de código é contar a quantidade de ocorrências dos 
valores do vetor "a". 
B- A variável "teste" corresponde a um RDD. 
C- A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para 
processar o vetor "a". 
D- A execução do trecho de código vai gerar um erro. 
E- A utilização do SparkContext é opcional. 
 
 
Resposta: B. 
8- O paradigma MapReduce é uma estratégia de computação com capacidade 
de processar grandes conjuntos dedados de maneira distribuída em várias 
máquinas. Em relação à técnica MapReduce, selecione a opção que é 
responsável por consolidar os resultados produzidos ao longo do 
processamento? 
A- Mapeamento 
B- Redução 
C- Processamento 
D- Agregação 
E- Separação 
 
 
 
Resposta: B. 
9- Qual o objetivo da inteligência artificial ao simular comportamentos humanos 
na máquina? 
A- Incrementar o uso da memória de longa duração do sistema. 
B- Otimizar algoritmos para que eles se adaptem a contextos não previamente 
codificados. 
C- Fazer com que computadores acessem a internet mais rápido. 
D- Viabilizar a computação paralela. 
E- Melhorar a capacidade de processamento de dados do sistema. 
 
Resposta: B. 
10 - O enquadramento de aprendizado não supervisionado contempla qual(is) 
técnicas? 
I- Agrupamento 
II- Classificação 
III- Regressão 
A- Apenas as opções I e III estão corretas 
B- Apenas a opção III está correta 
C- Apenas as opções II e III estão corretas 
D- Apenas a opção I está correta 
E- Apenas a opção II está correta 
 
 
Resposta: D. 
11- A biblioteca pandas é poderosa e de grande valia para a vida de um cientista 
de dados. Sobre ela podemos afirmar que: 
I- O nome Pandas se refere a dados em painel ou painel data. 
II- O DataFrame é o coletivo de listas (lists). 
III- É possível criarmos DataFrames a partir de praticamente qualquer 
estrutura de dados, principalmente CSVs, Excels, e JSONs 
Analise as frases listadas e assinale a alternativa correta? 
A- Apenas I e II. 
B- Apenas II e III. 
C- Apenas I e III. 
D- Apenas I. 
E- Apenas II. 
 
 
Resposta: C. 
12- Os dados que, por alguma razão, normalmente interferência humana, não 
chegam com todos os atributos esperados durante a coleta de dados, são 
conhecidos como: 
A- Enviesados. 
B- Corrompidos. 
C- Embaralhados. 
D- Nulos. 
E- Faltantes. 
 
 
Resposta: E. 
13- Alfredo começou em um laboratório de pesquisa e inovação no começo deste 
ano. Este laboratório investiga a relação entre trocas de mensagens em redes 
sociais e variações na bolsa de valores, dependendo principalmente de 
modelos de redes neurais recorrentes. Com qual tipo de IA Alfredo está 
lidando? 
A- IA Simbólica 
B- IA SubSimbólica 
C- IA Quântica 
D- IA Pura 
E- IA Biológica 
 
 
Resposta: B. 
14- Qual o processo irmão do KDD que é utilizado comumente no âmbito 
industrial? 
A- SIGM. 
B- KDM. 
C- CRISP-DM. 
D- SIGKDD. 
E- KDD-DM. 
 
 
Resposta: C. 
15- Em relação aos RDBMS, selecione a opção que apresenta a característica 
que trata as transações em um banco de dados como uma unidade 
indivisível? 
A- Indivisibilidade. 
B- Isolamento. 
C- Consistência. 
D- Atomicidade. 
E- Durabilidade. 
 
 
Resposta: D. 
16- O data lake é composto por camadas e níveis. Selecione a opção correta a 
respeito da camada responsável por fazer a marcação dos dados do Data 
Lake? 
A- Camada de gerenciamento do ciclo de vida da informação. 
B- Camada de governança. 
C- Camada de segurança. 
D- Camada de Metadados. 
E- Camada de gerenciamento de dados 
 
 
Resposta: D. 
17- Em relação aos formatos que os dados de Big Data, selecione a opção que 
corresponde a quantidade de formas que podem ser encontrados? 
A- 4 
B- 5 
C- 3 
D- 6 
E- 2 
 
 
Resposta: C. 
18- Em relação às redes de Internet das coisas, selecione a opção correta que 
relaciona os dispositivos entre si? 
A- São interconectados entre si. 
B- São um conjunto de sinais. 
C- São redes locais. 
D- É uma conexão rede a rede. 
E- São um relacionamento máquina a máquina 
 
 
Resposta: A. 
19- Selecione a opção correta que contenha as categorias em que transformações 
podem ser classificadas? 
A- Separação e finalização. 
B- Mapeamento e redução. 
C- Mapeamento e partição. 
D- Estreitas e amplas. 
E- Embaralhamento e redução 
 
 
Resposta: D. 
20- O Spark é um framework de alto desempenho usado para aplicações de Big 
Data. Em relação à arquitetura do Spark, selecione a opção correta? 
A- O Executor corresponde ao conjunto de máquina que executam como 
escravos. 
B- O gerenciador de cluster do Spark oferece suporte a Hadoop YARN. 
C- Os Worker Nodes da arquitetura Spark são responsáveis pelo 
gerenciamento das máquinas que executarão como escravos. 
D- O gerenciador de cluster do Spark faz o gerenciamento da execução das 
tarefas. 
E- O Executor e os Worker Nodes desempenham papeis equivalentes na 
arquitetura do Spark. 
 
 
Resposta: B. 
21- Selecione a opção em que a computação se refere à execução de aplicações e 
serviços em uma rede distribuída usando recursos virtualizados? 
A- Computação de banco de dados. 
B- Computação de Big Data. 
C- Computação Paralela. 
D- Computação em Nuvem. 
E- Computação centralizada. 
 
 
Resposta: D. 
22- Selecione a opção correta que contém a principal plataforma de tecnologia de 
nuvem que é usada como referência para as outras plataformas? 
A- IBM Cloud. 
B- Microsoft Azure. 
C- Google Cloud. 
D- Oracle Cloud . 
E- Amazon AWS. 
 
 
Resposta: E. 
23- O Hadoop é um framework de código aberto voltado para aplicações de 
Big Data. Neste sentido, selecione a alternativa correta que apresenta um 
grandedesafio no processo de configuração e gerenciamento do 
Hadoop? 
A- Aplicar políticas de segurança. 
B- Gerenciamento do armazenamento de dados. 
C- Tratar dados não-estruturados. 
D- Processos de extração, transformação e carregamento dos dados. 
E- Mecanismo para melhorar o processamento dos dados. 
 
 
 
Resposta: A. 
24- Observe o trecho de código abaixo: 
 
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) 
 registros = spark.sql(query) 
 
Selecione a opção correta a respeito dele: 
A- É um exemplo de aplicação de GraphX. 
B- A execução do trecho de código vai funcionar corretamente. 
C- A implementação do trecho de código está errada. 
D- É possível afirmar que a tabela_teste existe. 
E- Trata-se de um exemplo de utilização do Spark SQL 
 
 
 
Resposta: E. 
25- Os componentes do Spark têm como objetivo facilitar o desenvolvimento de 
projetos com finalidades específicas. Nesse sentido, selecione a opção que 
contém o componente responsável por estabelecer uma conexão com o 
Cluster? 
A- Spark.Catalog 
B- SparkSession 
C- RDD 
D- SparkContext 
E- DataFrame 
 
Resposta: D. 
26- Eduardo quer mostrar aos gestores da empresa como as ações da carteira de 
investimentos recomendada que ele e o time dele propuseram estão 
valorizando e gerando muitos dividendos aos clientes. Para isso, Eduardo 
construiu um gráfico de ______, pois está lidando com dados ________ e quer 
mostrar o quão bem as recomendações geradas por seu time estão 
evoluindo. 
Respectivamente a resposta que completa as duas lacunas é: 
A- Linha; Categóricos. 
B- Pizza; Categóricos. 
C- Linha; Numéricos. 
D- Pizza; Numéricos. 
E- Linha; Temporais. 
 
 
Resposta: E. 
27- A visualização dos dados é fundamental no processo de análise, interpretação 
e obtenção de conhecimento. 
Dentre as visualizações mais adequadas para dados numéricos estão: 
I- Histograma; 
II- Gráfico de Dispersão; 
III- Gráfico de Pizza. 
Analise as alternativas listadas e assinale a correta. 
A- Apenas I e II. 
B- As alternativas I, II e III. 
C- Apenas I e III. 
D- Apenas III. 
E- Apenas II e II. 
 
Resposta: A. 
 
28- Quais destas opções representam as diferenças entre o KDD e o CRISP-DM? 
I- Etapas de Entendimento do Negócio, e Implantação do Artefato de 
ML; 
II- A etapa de Preparação de Dados substituindo as etapas de Seleção de 
Dados, Pré-Processamento e Transformação de Dados; 
III- A obrigatoriedade da entrega de um artefato de ML. 
A- Apenas as opções II e III. 
B- Apenas as opções I e III. 
C- Apenas a opção I. 
D- Apenas a opção II. 
E- As opções I, II, e III estão corretas. 
 
Resposta: E. 
29- A respeito das aplicações de fluxos de dados, selecione a opção correta? 
A- Serviço de correio eletrônico. 
B- Reapresentação de programas de televisão. 
C- Serviços sob demanda, como serviços de filme online. 
D- Serviços de compras online. 
E- Transações bancárias, como o serviço de PIX. 
 
 
Resposta: C. 
30- Selecione a opção em que a camada fornece comunicação ponta a ponta nas 
aplicações de internet das coisas? 
A- Camada de transporte. 
B- Camada de sessão. 
C- Camada lógica. 
D- Camada de enlace de dados. 
E- Camada de aplicação. 
 
 
Resposta: A. 
31- A respeito do HDFS, selecione a opção correta cujo componente lógico 
mantém os dados do usuário na forma de blocos de dados? 
A- Bloco de dados 
B- Replicação 
C- NameNode 
D- YARN 
E- DataNode 
 
 
Resposta: E. 
32- Selecione a opção que indica o processo responsável por executar uma 
tarefa atribuída a ele pelo Job Tracker. 
A- MapTracker 
B- Task Tracker 
C- Job Tracker Slave 
D- MapJob 
E- MapReduce 
 
 
Resposta: B. 
33- O MapReduce é uma técnica clássica de programação e é bastante utilizada 
por diversos frameworks como o Spark, por exemplo. Em relação à técnica 
MapReduce, selecione a opção correta? 
A- É uma técnica lenta para processamento de grandes volumes de dados. 
B- Só pode ser aplicada para grandes volumes de dados. 
C- Foi substituída no Spark por acesso direto à memória. 
D- Consiste em uma técnica de programação sequencial. 
E- É uma técnica de computação distribuída. 
 
 
Resposta: E. 
34- O paradigma MapReduce é uma estratégia de computação com capacidade 
de processar grandes conjuntos de dados de maneira distribuída em várias 
máquinas. Em relação à técnica MapReduce, selecione a opção que é 
responsável por consolidar os resultados produzidos ao longo do 
processamento? 
A- Processamento. 
B- Separação. 
C- Redução. 
D- Agregação. 
E- Mapeamento. 
 
Resposta: C. 
35- Luis planeja começar um projeto particular visando construir um módulo de 
análise de dados. Primeiramente ele deseja começar por um módulo de 
coleta de dados. Para que ele possa obter um padrão organizado de criação 
de projeto, qual a sequência desejável de passos que esperamos que Luis 
siga? 
A- Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através 
do venv; Instalar as dependências com as quais ele quer trabalhar através 
do pip install; congelar as mesmas no requirements.txt através do pip 
freeze; criar uma pasta para o módulo de coleta e dentro dela criar um 
arquivo __init__.py com a lógica do módulo. 
B- Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através 
do venv; Instalar as dependências com as quais ele quer trabalhar através 
do pip install; congelar as mesmas no requirements.txt através do pip 
freeze; criar uma pasta para o módulo de coleta e dentro dela criar um para 
a lógica do módulo. 
C- Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através 
do venv; Instalar as dependências com as quais ele quer trabalhar através 
do pip install; congelar as mesmas no requirements.txt através do pip 
freeze; criar uma pasta para o módulo de coleta e dentro dela criar um 
arquivo __init__.py em branco e outro para a lógica do módulo. 
D- Criar uma pasta para acomodar seu projeto; Instalar as dependências com 
as quais ele quer trabalhar através do pip install; criar uma pasta para o 
módulo de coleta e dentro dela criar um arquivo __init__.py em branco e 
outro para a lógica do módulo. 
E- Criar uma pasta para acomodar seu projeto; Instalar as dependências com 
as quais ele quer trabalhar através do pip install; congelar as mesmas no 
requirements.txt através do pip freeze; criar uma pasta para o módulo de 
coleta edentro dela criar um arquivo __init__.py em branco e outro para a 
lógica do módulo. 
 
 
Resposta: C. 
36- Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu 
o seguinte código: 
 
import pandas as pd 
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) 
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) 
df1.merge(df2, left_on='lkey', right_on='rkey') 
 
Qual destas alternativas descreve as saídas do código? 
I- O conjunto resultante terá colunas lkey, value_x, rkey, value_y. 
II- O código não executará, pois Filipe não definiu os sufixos de coluna. 
III- O resultado do código em questão retornará um pd. Series juntando 
os conjuntos pela lkey e rkey. 
 
A- Apenas a opção II está correta. 
B- Apenas as opções I e III estão corretas. 
C- Apenas a opção III está correta. 
D- Apenas a opção I está correta. 
E- Apenas as opções II e III estão corretas. 
 
 
Resposta: D. 
37- As redes neurais são modelos poderosos cujo principal componente onde 
estão armazenados seus conhecimentos é(são)? 
A- Camadas Escondidas. 
B- Vieses. 
C- Pesos. 
D- Camada de Saída. 
E- Função de Ativação. 
 
 
Resposta: A. 
38- O seguinte constructo da linguagem Python representa o condicional simples: 
A- else . 
B- if. 
C- with. 
D- while. 
E- for. 
 
 
Resposta: B. 
39- A biblioteca pandas é poderosa e de grande valia para a vida de um cientista 
de dados. Sobre ela podemos afirmar que: 
I- O nome Pandas se refere a dados em painel ou panel data; 
II- O DataFrame é o coletivo de listas (lists); 
III- É possível criarmos DataFrames a partir de praticamente qualquer 
estruturade dados, principalmente CSVs, Excels, e JSONs. 
 
Analise as frases listadas e assinale a alternativa correta. 
A- Apenas I e II. 
B- Apenas II e III. 
C- Apenas I e III. 
D- Apenas I. 
E- Apenas II. 
 
 
 
Resposta: C. 
40- Os modelos simbólicos são aqueles que: 
A- São aqueles que só lidam com problemas categóricos. 
B- Se baseiam em táticas de agrupamento por similaridade. 
C- São aqueles que lidam apenas com problemas numéricos. 
D- Se baseiam em lógica e regras de inferência para aprender e raciocinar. 
E- Se baseiam estritamente em dados e inferências estatísticas em cima deles 
 
 
Resposta: D. 
41- Quais os métodos de aprendizado de máquina que existem? 
A- Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e 
Semisupervisionado; 
B- Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório; 
C- Aprendizado Supervisionado, Escondido, Por Reforço, e 
Semisupervisionado; 
D- Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e 
Semisupervisionado; 
E- Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e 
Semisupervisionado 
 
 
Resposta: D. 
42- Em relação aos RDBMS, selecione a opção que apresenta a característica 
que trata as transações em um banco de dados como uma unidade 
indivisível. 
A- Atomicidade. 
B- Indivisibilidade. 
C- Durabilidade. 
D- Consistência. 
E- Isolamento. 
 
 
Resposta: A. 
43- Selecione a opção correta a respeito do processamento e streaming de 
dados? 
A- Os dados podem vir de várias fontes. 
B- Os dados são caracterizados também são denominados de lotes estáticos. 
C- Os dados sempre estão no mesmo formato. 
D- Os dados sempre são provenientes de aplicações transacionais. 
E- Caracterizam-se pelo envio do mesmo dado por várias fontes. 
 
 
Resposta: A. 
44- Em relação aos modelos de serviço de nuvem, selecione a opção correta com 
o modelo de serviço focado no hardware? 
A- CaaS. 
B- MaaS. 
C- HaaS. 
D- IaaS. 
E- PaaS. 
Resposta: D. 
45- O MapReduce é uma técnica de computação distribuída considerada 
extremamente eficiente para o processamento de dados, desempenhando 
papel fundamental no Spark. Em relação ao MapReduce, selecione a opção 
correta? 
A- As fases de processamento do MapReduce podem variar de acordo com a 
aplicação. 
B- Só é possível utilizar o MapReduce no Spark através do PySpark. 
C- Projetos de big data só podem ser tratados por MapReduce. 
D- A principal característica do MapReduce é a utilização eficiente da 
memória. 
E- Pode ser aplicada para projetos que envolvam grandes volumes e variedade 
de dados. 
 
 
Resposta: E. 
46- Observe o trecho de código abaixo: 
 
import numpy as np 
x = np.array([1, 5, 1, 6, 4, 7, 7]) 
função_teste = lambda x: x+x 
print(função_teste(x)) 
 
Selecione a opção correta a respeito dele? 
A- A saída do programa é [2]. 
B- O programa vai gerar e imprimir [2 10 2 12 8 14 14]. 
C- O programa ficará sintaticamente correto se for acrescentado o 
"SparkContext" para executar o MapReduce. 
D- O programa produz a saída 31. 
E- O programa vai gerar um erro 
 
 
Resposta: B. 
47- A coleta e preparação dos dados para análise no Python são de extrema 
importância. Os dados secundários são assim definidos devido: 
A- O fato de virem de uma fonte alternativa não convencional. 
B- A sua baixa qualidade. 
C- O fato de ocuparem menos espaço de memória. 
D- O fato de terem sido obtidos a partir de terceiros. 
E- O fato de requererem muito mais pré-processamento. 
 
 
Resposta: D. 
48- Os dados que, por alguma razão, normalmente interferência humana, não 
chegam com todos os atributos esperados durante a coleta de dados, são 
conhecidos como: 
A- Faltantes. 
B- Enviesados. 
C- Corrompidos. 
D- Nulos. 
E- Embaralhados 
 
 
Resposta: A. 
49- As redes neurais são implementadas em Python através de uma biblioteca de 
processamento de cálculos em paralelo baseada em grafos. Qual o nome 
desta biblioteca? 
A- Tensorflow 
B- Pandas 
C- Scipy 
D- Plotly 
E- Numpy 
 
 
Resposta: A. 
50- Em relação aos RDBMS, selecione a opção que apresenta a característica que 
trata as transações em um banco de dados como uma unidade indivisível? 
A- Indivisibilidade. 
B- Isolamento. 
C- Atomicidade. 
D- Consistência. 
E- Durabilidade. 
 
 
Resposta: C. 
51- O sistema de arquivos distribuídos do Hadoop, conhecido como HDFS, foi 
idealizado para trabalhar com grandes volumes de dados. Selecione a opção 
correta que apresenta o paradigma como o HDFS funciona? 
A- Centralizado e distribuído. 
B- Distribuído e centralizado. 
C- Distribuído e distribuído. 
D- Centralizado e centralizado. 
E- Mestre e escravo. 
 
 
Resposta: E. 
52- Selecione a opção a respeito da computação em nuvem? 
A- é uma outra forma de denominar a internet das coisas. 
B- é uma forma de abstrair serviços da internet das coisa sem redes locais 
distribuídas 
C- é um conjunto de tecnologias que disponibilizam sistemas e recursos na 
internet 
D- trata-se da utilização de aplicações com finalidades específicas 
E- é a definição para aplicações de Big Data que utilizamos protocolos de 
internet 
 
 
Resposta: C. 
53- Um dos desdobramentos de big data é o big data analytics, que se refere aos 
softwares capazes de tratar dados para transformá-los em informações úteis 
às organizações. O big data analytics difere do business intelligence por? 
A- Priorizar o ambiente de negócios em detrimento de outras áreas. 
B- Analisar dúvidas já conhecidas para as quais se deseje obter resposta. 
C- Analisar o que já existe, definindo as melhores hipóteses. 
D- Analisar o que já existe e o que está por vir, apontando novos caminhos. 
E- Dar enfoque à coleta, à transformação e à disponibilização dos dados 
 
 
Resposta: D. 
54- Um dos principais tipos de sistemas gerenciadores de banco de dados são os 
bancos de dados relacionais. Assinale a alternativa que apresenta a forma 
que todos os dados de um banco de dados relacional são armazenados? 
A- Arquivos 
B- Tabelas 
C- Memória 
D- Fitas 
E- Discos 
 
 
Resposta: B. 
55- Big Data requer clusters de servidores de apoio às ferramentas que 
processam grandes volumes, alta velocidade e formatos variados de Big 
Data. Nesse sentido, é correto afirmar que Hadoop refere-se a? 
A- Um banco de dados com capacidade melhorada. 
B- Uma estratégia baseada em tecnologia que permite a coleta de insights 
mais profundos e relevantes dos clientes, parceiros e sobre o negócio. 
C- Um sistema de armazenamento e processamento de dados massivamente 
escalável ¿ não é um banco de dados. 
D- Um equipamento de hardware que permite que sistemas administrem 
crescentes cargas de processamento. 
E- Um banco de dados com tecnologia de virtualização 
 
 
Resposta: C. 
56- Com relação a análise de dados marque a alternativa INCORRETA: 
A- As ferramentas de análise de dados disponíveis atualmente facilitam a 
construção de inúmeros algoritmos utilizando uma diversidade de dados. 
Os excelentes resultados nas análises geralmente vêm de dados brutos sem 
nenhum tipo de tratamento. 
B- O foco principal das tarefas da categoria descritiva é caracterizar e 
apresentar as propriedades de um conjunto de dados de maneira concisa e 
informativa. 
C- A detecção de anomalias nos ajuda a perceber a existência de valores 
extremos que influenciarão alguns métodos baseados em estatística, 
mesmo em casos em que as anomalias correspondam a dados válidos. 
D- Após a captura, armazenamento e processamento dos dados, iniciamos a 
fase de análise. Nessa fase temos inúmeras possibilidades de converter 
dados brutos em conhecimento. 
E- O objetivo das atividades preditivas é construir um modelo para prever as 
propriedades e/ou tendências de um conjunto de dados desconhecido. 
 
 
Resposta: A. 
57- Visualização de dados é importante para comunicar a mensagem de forma 
rápida e eficiente. Marque a opção que representa o tipo de visualização que 
tem como objetivo representar a frequência de ocorrência de cada palavra 
existente em uma base de dados textual?A- Rain of words 
B- Word cloud 
C- Barra 
D- Jogo de palavras 
E- Linha 
 
Resposta: B. 
58- Assinale a opção correta sobre MapReduce, de acordo com Hurwitz (2015)? 
A- Apesar da utilização da técnica MapReduce para tratar grandes volumes de 
dados no contexto de Big Data, não é recomendável a sua utilização em 
uma arquitetura distribuída, virtualizada ou multiprocessada. 
B- No contexto de Big Data, a técnica MapReduce não é utilizada por ser 
pouco eficiente quando o volume de dados é muito alto. 
C- MapReduce é uma estrutura de software que permite que desenvolvedores 
escrevam programas que possam processar quantidades massivas de dados 
desestruturados em paralelo, por meio de um grupo distribuído de 
processadores. 
D- A técnica MapReduce é utilizada pelos SGBD para a criação de gatilhos nas 
tabelas no banco de dados relacionais. 
E- No MapReduce, a função Map coloca um valor inicial em uma variável 
acumuladora e, então, processa cada elemento de uma lista passada pela 
função Reduce e, ao final, retorna um resultado do acumulador. 
 
 
Resposta: C. 
59- O ecossistema do Hadoop possui um conjunto de ferramentas de alto nível 
para facilitar a manipulação dos dados em sistemas distribuídos. Marque a 
opção que apresenta a ferramenta projetada para transferir dados entre o 
Hadoop e um banco de dados relacional? 
A- Have. 
B- Cassandra. 
C- Mahout. 
D- Hbase. 
E- Sqoop. 
 
 
Resposta: E. 
60- Imagine uma situação hipotética onde uma Analista de Tecnologia da 
Informação foi solicitada para configurar um Servidor de Arquivos 
implementando técnicas RAID (Redundant Array of Inexpensive Disks). Para 
realizar a configuração do RAID, essa Analista pretende utilizar o Sistema 
Operacional GNU/Linux Debian pelo fato desse sistema operacional suportar 
diversos tipos de RAID via software. Durante o processo de configuração do 
RAID, ela optou pelo RAID do tipo 0. Qual foi a motivação dessa escolha? 
A- Implementar redundância baseada em paridade 
B- Implementar redundância 
C- Otimizar o desempenho 
D- Replicar o conteúdo do disco principal 
E- Implementar um subsistema JBOD 
 
 
Resposta: C. 
61- O Apache Spark é um mecanismo de análise unificado para processamento de 
dados em grande escala com várias vantagens. Marque a opção que NÃO 
representa uma dessas vantagens? 
A- A combinação de DAG e RDD ajudam ao Spark realizar o processamento 
paralelo extremamente rápido, em particular quando o cluster é grande o 
suficiente para armazenar todos os dados em memória. 
B- O Spark tem um rico conjunto de bibliotecas para implementar 
processamentos em estilo SQL, processamento de streaming, algoritmos de 
grafos e aprendizado de máquina. 
C- O Spark é tem a flexibilidade para processar dados em HDFS, HBase, 
Cassandra, Hive e qualquer outro formato de entrada aceito pelo Hadoop. 
D- No Spark as aplicações têm possibilidade de serem escritas em Java, Scala, 
Python ou R. 
E- O Spark tem um gerenciador de recursos do cluster próprio responsável por 
alocar e monitorar os recursos disponíveis no cluster para todas as 
aplicações. 
 
 
Resposta: E. 
62- Big Data se refere ao imenso volume de conjuntos de dados que alcançam 
elevadas ordens de magnitude. O valor real do Big Data está no insight que 
ele produz quando analisado ¿ buscando padrões, derivando significado, 
tomando decisões e, por fim, respondendo ao mundo com inteligência. 
Referente ao Big Data, é correto afirmar que o termo variedade refere-se? 
A- Aos data centers físicos que transformam os dados em informações 
pertinentes ao negócio. 
B- Ao controle de dados semiestruturados de formatos definidos como texto e 
números. 
C- Ao banco de dados homogêneo que trata de informações do mesmo tipo 
definindo padrões de segurança. 
D- A um conjunto de dados mais diversos, incluindo dados estruturados, 
semiestruturados e não estruturados. É heterogêneo e vem em muitos 
formatos, incluindo texto, documento, imagem, vídeo e outros. 
E- A um conjunto de dados que são gerados em tempo real, o que requer a 
oferta imediata de informações úteis 
 
 
Resposta: D. 
63- Com relação aos fundamentos e aos conceitos de Big Data, julgue os itens a 
seguir. 
I- O volume de dados é uma característica importante de Big Data. 
II- Em Big Data, a qualidade do dado não tem importância, porque a 
transformação dos dados não impacta os negócios. 
III- A característica de velocidade de entrada dos dados impacta o modelo 
de processamento e armazenamento. 
IV- A variedade dos dados não é característica intrínseca nos 
fundamentos de Big Data. 
 
Estão certos apenas os itens: 
A- I, III e IV 
B- II e IV 
C- I e II 
D- I e III 
E- II, III e IV 
 
 
Resposta: D. 
64- Bancos de Dados não relacionais, também conhecidos como NoSQL, surgiram 
para armazenar dados não estruturados, usando modelos de armazenamento 
específicos para os tipos de dados que são armazenados, usualmente, fugindo 
do padrão de armazenamento de linhas e colunas dos bancos de dados 
tradicionais. Em relação ao Banco de Dados NoSQL, quais são as categorias 
consideradas para esse tipo de armazenamento? 
A- Armazéns chave-valor; Banco de dados orientados a documentos; Banco de 
dados de grafos 
B- Primeira forma normal; Banco de dados orientados a documentos; 
Normalização 
C- Armazéns chave-valor; Normalização; Banco de dados orientados a coluna 
D- Banco de dados orientados a linha; Normalização; Banco de dados 
orientados a coluna 
E- Banco de dados de grafos; Banco de dados orientados a linha; Formas 
normais de armazenamento 
 
 
Resposta: A. 
65- O conceito de computação em nuvem (em inglês, cloud computing) refere-se: 
A- À tecnologia de comunicação de dados que permite uma transmissão de 
dados mais rápida através de linhas de telefone do que um modem 
convencional pode oferecer, sendo os dados transmitidos mais 
rapidamente em uma direção do que na outra, assimetricamente. 
B- À utilização da memória e da capacidade de armazenamento e cálculo de 
computadores e servidores compartilhados e interligados por meio da 
Internet, seguindo o princípio da computação em grade. 
C- Ao armazenamento de dados feito em serviços que poderão ser acessados 
de qualquer lugar do mundo, a qualquer hora, havendo necessidade de 
instalação de programas ou, por vezes, de armazenar dados. 
D- Ao protocolo de comunicação da comada de aplicação utilizado para 
sistemas de informação de hipermídia, distribuídos e colaborativos, 
representando a base para a comunicação de dados da World Wide Web. 
E- Ao programa que habilita seus usuários a interagirem com documentos 
HTML hospedados em um servidor da rede, destacando-se na era da web 
2.0, uma vez que quase tudo do que se necessita está online. 
 
 
Resposta: B. 
66- Marque a opção que apresenta SOMENTE ferramentas utilizadas para análise 
de dados? 
A- HBase e Python. 
B- Apache mahout e Spark mllib. 
C- Hadoop MapReduce e Apache mahout. 
D- R e Apache Spark. 
E- MarkLogic e Weka. 
 
 
Resposta: B. 
67- Existe uma série de ferramentas para visualização de dados. Algumas delas 
foram desenvolvidas para serem utilizadas no software R. Marque a opção 
em que SOMENTE há exemplos de recursos do software R? 
A- MarkLogic e graphX. 
B- Matplotlib e pentaho. 
C- Shiny e graphX. 
D- Ploty e rcmdr. 
E- Power BI e plotly 
 
 
Resposta: D. 
68- Com referência a Big Data , assinale a opção correta? 
A- O MapReduce é considerado um modelo de programação que permite o 
processamento de dados massivos em um algoritmo paralelo e distribuído. 
B- Para armazenar e recuperar grande volume de dados, Big Data utiliza 
bancos SQL nativos, que são bancos de dados que podem estar 
configurados em quatro tipos diferentes de armazenamentos: valor chave, 
colunar, gráfico ou documento. 
C- A definição mais ampla de Big Data restringe o termo a duas partes ¿ o 
volume absoluto e a velocidade ¿, o que facilita a extração das informações 
e dos insights de negócios. 
D- Em Big Data, o sistema de arquivos HDFS é usado para armazenararquivos 
muito grandes de forma distribuída, tendo como princípio o write-many, 
read-once. 
E- O sistema de arquivos distribuído Hadoop implementa o algoritmo Dijkstra 
modificado para busca irrestrita de dados em árvores aglomeradas em 
clusters com criptografia. 
 
 
Resposta: A. 
69- O Apache Flume é um framework confiável para coletar, agregar e mover com 
eficiência grandes quantidades de dados. Possui uma arquitetura simples e 
flexível, baseada no fluxo de dados de streaming. O fluxo de dados é tratado 
por um agente Flume constituído de três componentes configuráveis, são 
eles: 
A- fonte, canal e sink. 
B- bolt, sink e nimbus. 
C- entrada, canal e destino. 
D- canal, supervisor e destino. 
E- fonte, canal e destino. 
 
 
Resposta: A. 
70- Assinale a opção correta sobre Backups? 
A- Backups mantém sempre cópias atualizadas dos dados. 
B- Backups são desnecessários quando utilizamos o sistema HDFS. 
C- Backups não podem ser utilizados para recuperação de uma falha física dos 
meios de armazenamento. 
D- Backups são desnecessários quando utilizamos o sistema RAID 1. 
E- Backups são necessários para recuperação de falhas sistêmicas 
 
 
Resposta: E. 
71- A biblioteca do Spark que oferece uma interface relacional para trabalhar 
com dados estruturados usando operações conhecidas baseadas em SQL 
denomina-se: 
A- GraphX. 
B- Spark SQL. 
C- Streaming. 
D- DataFrame. 
E- Dataset. 
 
 
 
Resposta: B. 
72- ANAC 2016 - ANALISTA ADMINISTRATIVO - ANÁLISE DE SISTEMAS /ESAF). Big 
Data é: 
A- Dimensão + variedade + otimização + veracidade, tudo agregando + 
agilidade. 
B- Volume + disponibilidade + velocidade + portabilidade, tudo requerendo ¿ 
valor. 
C- Volume + variedade + velocidade + veracidade, tudo agregando + valor. 
D- Volume + variedade + agilidade + efetividade, tudo agregando + valor + 
atualidade. 
E- Volume + oportunidade + segurança + veracidade, tudo agregando + valor 
 
 
 
Resposta: C. 
73- Existem algoritmos de análise que têm como objetivo utilizar atributos de um 
objeto para prever um valor numérico contínuo. Esses algoritmos são do 
tipo? 
A- Sumarização. 
B- Classificação. 
C- Agrupamento. 
D- Associação. 
E- Regressão 
 
 
Resposta: E. 
74- O Sqoop foi projetado para transferir dados entre sistemas de gerenciamento 
de banco de dados relacional e o Hadoop. Ele automatiza a maior parte do 
processo de transformação de dados e realiza as importações e exportação 
via? 
A- JDBC. 
B- Spouts. 
C- HQL. 
D- Nimbus. 
E- ResourceManager 
 
 
Resposta: A. 
75- (TRT - 11ª Região AM e RR 2016) Um dos servidores computacionais do TRT 
utiliza o esquema de armazenamento RAID 1 no qual os dados são 
armazenados de forma? 
A- distribuída nos discos para aumentar o desempenho. 
B- fracionada com a paridade armazenada de forma distribuída nos discos. 
C- fracionada byte a byte com a paridade armazenada em um disco dedicado. 
D- espelhada entre os discos para aumentar a confiabilidade. 
E- fracionada em setores com a paridade armazenada em um disco dedicado. 
 
 
 
Resposta: D. 
76- Marque a opção que melhor descreve as funcionalidades de GraphX? 
A- Framework que simplifica as tarefas de análise de gráficos, fornece a 
capacidade de realizar operações em grafos direcionados e com 
propriedades anexadas a cada vértice e aresta; 
B- Framework desenvolvido para coletar, agregar e mover grandes volumes de 
dados de várias fontes distintas para o conjunto de dados distribuídos 
resilientes do Spark; 
C- Conjunto de bibliotecas com funcionalidades para agregar, comparar e unir 
dados heterogêneos; 
D- Conjunto de bibliotecas de alto nível que fornecem uma abstração para 
consultar um conjunto de dados em cache como se fossem tabelas de um 
bando de dados relacional; 
E- Ferramenta especializada em otimizar o processamento de dados em 
cluster através da divisão de jobs em pequenas tarefas relacionadas. Tais 
relacionamentos são expressos através de grafos direcionados acíclicos que 
são executadas em paralelo; 
 
 
Resposta: A. 
77- (IADES - 2018 - APEX Brasil - Analista - Prospecção de Projetos). Assinale a 
alternativa que apresenta o conceito de Big Data? 
A- Conjuntos de dados de grande volume que se utilizam de ferramentas 
especiais de processamento, pesquisa e análise, e que podem ser 
aproveitados no tempo necessário, com precisão e grande velocidade. 
B- Refere-se a um grande número de computadores pessoais (PC) interligados 
entre si em uma grande rede de infor. 
C- São apenas grandes volumes de dados que precisam ainda ser mais bem 
aproveitados pelo mundo corporativo. 
D- Manuseio de informações necessárias às empresas e aos negócios do 
mundo moderno, que podem ser armazenadas em computadores pessoais, 
utilizando-se a técnica de nuvem de dados. 
E- São bancos de dados de fácil acesso e rápida velocidade, operados como 
computadores pessoais. 
 
 
Resposta: A. 
78- (FCC - 2020 - AL-AP - Analista Legislativo - Desenvolvedor de Banco de Dados) 
Atualmente, diversos dados são coletados pelos sistemas digitais de 
empresas na internet para constituir Big Data com conteúdo sobre os 
resultados alcançados por seus produtos e serviços, prestígio da imagem da 
organização e seus representantes. Porém, parte desses dados pode ser falsa 
ou manipulada por internautas. O tratamento dos dados, a fim de qualificá-
los antes de disponibilizá-los para a tomada de decisão na empresa, segundo 
o conceito das cinco dimensões ¿V¿ de avaliação de um Big Data, se refere? 
A- À variedade. 
B- À velocidade. 
C- À veracidade. 
D- Ao volume. 
E- Ao valor. 
 
 
Resposta: C. 
79- (INSTITUTO AOCP - 2018 - PRODEB - Analista de TIC I - Construção de 
Software).Sobre Banco de Dados Relacional, é correto afirmar que? 
A- cada tabela do banco de dados terá um nome, que pode se repetir, desde 
que suas tuplas sejam diferentes. 
B- em sua terminologia, uma tabela é chamada de atributo. 
C- os dados são representados como uma coleção de tabelas. 
D- todos os valores de uma coluna não precisam ser do mesmo tipo de dados. 
E- uma chave primária pode ser nula, desde que sua chave secundária esteja 
preenchida. 
 
 
Resposta: C. 
80- Existem diversas ferramentas de visualização de dados. Assinale a ferramen 
ta utilizada no Apache Spark. 
A- GraphX 
B- Apache storm 
C- Apache accumulo 
D- Apache mahout 
E- Spark Mllib 
 
 
Resposta: A. 
81- Os RDDs representam uma coleção de dados somente para leitura, 
particionada em um conjunto de máquinas que são acessados por meio de 
operações paralelas que podem ser de dois tipos: 
A- Criação e ação; 
B- Ação e reduce; 
C- Map e transformação; 
D- Map e reduce; 
E- Transformação e ação; 
Resposta: E. 
82- (FUNDATEC - 2017 - CREMERS - Técnico em Informática) Analisando uma 
tabela em um banco de dados relacional, qual seria o conceito de chave 
primária? 
A- Apenas uma coluna que possua valor numérico e autoincremental. 
B- Uma coluna que permita a inserção de um valor de documento válido. 
C- Uma coluna que permita a inserção de um valor de documento inválido. 
D- Uma coluna ou combinação de colunas cujos valores distinguem uma linha 
das demais, dentro da mesma tabela. 
E- Apenas uma coluna que possua valor numérico e não autoincremental. 
 
 
Resposta: D. 
83- O framework para processamento em tempo real e próximo ao tempo real, 
considerado uma evolução do Hadoop MapReduce, que utiliza um cache de 
resultados intermediários mantidos em memória que otimiza os processos 
executados diversas vezes sobre o mesmo conjunto de dados é chamado: 
A- Apache Storm. 
B- Hbase. 
C- Apache Spark. 
D- Memcached. 
E- Cassandra. 
 
Resposta: C. 
84- O tipo de escalonamento que agrega diversos computadores, cada um 
funcionando sozinho, mas todos operando em conjunto, denomina-se? 
A- Irregular; 
B- Horizontal; 
C- Paralela; 
D- Vertical; 
E- Linear 
 
 
Resposta: B. 
85- Marque a opção que apresentam ferramentas que conseguem interoperar 
com as ferramentas R e Python? 
A- Couchbase e RStudio; 
B- Spark mllib e Weka;C- Spark mllib e InfoGrid; 
D- Weka e Apache mahout; 
E- Apache mahout e Cassandra 
 
 
Resposta: B. 
86- São características do MapReduce, mas não de todos os sistemas distribuídos: 
A- Consolidação dos resultados; 
B- Utilização de interfaces de comunicação entre computadores; 
C- Orquestração das atividades; 
D- Tolerância a falhas de componentes; 
E- Processamento paralelo 
 
 
Resposta: D. 
87- São componentes do método do MapReduce: 
A- Computador mestre e computador escravo; 
B- Nó mestre e nó escravo; 
C- Computador principal e computador secundário; 
D- Nó gestor e nó operário; 
E- Nó principal e nó secundário. 
 
 
Resposta: B. 
88- (FUNCAB 2008) A técnica RAID (Redundant Arrays of Inexpensive Disk) é 
usada: 
A- no armazenamento de informação ECC (error correcting code), que é a 
informação de controle de erros; 
B- na conexão à rede padrão ethernet; 
C- em gerenciamento de disco para otimizar as operações de E/S e 
implementar redundância e proteção de dados; 
D- na otimização das interfaces IDE. 
E- na alocação dinâmica de memória RAM; 
 
 
Resposta: C. 
89- Em relação aos desafios do processamento de fluxo de dados, selecione a 
opção correta? 
A- Garantir a consistência da informação através da ordenação dos dados. 
B- Aplicar recursos de redundância no projeto para reduzir a volatilidade dos 
dados. 
C- Garantir a qualidade dos dados através de ferramentas de controle que não 
aceitem qualquer inconsistência. 
D- Usar algoritmos de criptografia nos dados para evitar o acesso indevido. 
E- Dimensionar o projeto logo no início para evitar a necessidade de expansão 
posteriormente. 
 
 
Resposta: A. 
90- Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big 
Data. Selecione a opção correta que contenha apenas funções que podem ser 
categorizadas como transformações no Spark? 
A- reduce, first e map. 
B- map, take e reduce. 
C- map, filter e union. 
D- count, collect e take. 
E- map, sample e collect. 
 
 
Resposta: C. 
91- O PySpark caracteriza-se como uma biblioteca Spark responsável por executar 
programas usando recursos do Apache Spark. Selecione a opção correta que 
contenha itens que são pré-requisitos de instalação para utilização do 
PySpark? 
A- Java e Python; 
B- Python e Escala; 
C- Java e R ; 
D- Hadoop e Spark; 
E- Casandra e Spark 
 
 
Resposta: A. 
92- Dados categóricos são aqueles normalmente expressos por texto, que 
representam rótulos, nomes e símbolos. Qual tipo de visualização de dados 
abaixo é recomendado para dados categóricos? 
A- Gráfico de Faces de Chernoff. 
B- Gráficos de Linha. 
C- Gráfico de Matriz de Dispersão. 
D- Gráfico de Estrela. 
E- Gráficos de Barra. 
 
 
Resposta: E. 
93- Para a regularização dos dados obtidos, qual técnica podemos utilizar 
objetivando fazer com que os dados fiquem na mesma escala? 
A- MinMax 
B- Splice 
C- Map & Reduce 
D- Shuffle 
E- Divide 
 
 
Resposta: A. 
94- A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão 
Classificadora pertence? 
A- Agrupamento 
B- Modelos Generativos 
C- Q-Learning 
D- Classificação 
E- Regressão 
 
 
Resposta: A. 
95- Selecione a opção correta que contenha a operação responsável por retornar 
um subconjunto aleatório dos dados de entrada? 
A- Random 
B- Sample 
C- MapRandom 
D- Filter 
E- Distinct 
 
 
Resposta: B. 
96- O termo mineração de dados é amplamente usado na comunidade técnica a 
esmo, mas, na realidade ele se refere ao processo de? 
A- RNN 
B- CNN 
C- LSTM 
D- KDD 
E- DNN 
 
 
Resposta: D.