Buscar

Cientista de Dados_Simulado_Gabarito

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 1/8
Data Masters - Cientista de Dados - Simulado Perguntas e respostas
IDENTIFICAÇÃO: 211533
PERGUNTA CATEGORIA
Assinale a alternativa correta:
I - Devido a sensibilidade a inicialização, os algoritmos
hierárquicos single e complete linkage precisam ser
executados múltiplas vezes.
II - É possível identificar um outlier por meio do
dendrograma pois estas observações são agrupadas nos
nós mais próximos da raiz.
III - O algoritmo Bisecting K-Means é um exemplo de
algoritmo hierárquico do tipo top-down (divisivos). Sobre as
afirmações acima:
 
BRA_DM_CD_01_Agrupamento 
Texto de Resposta Escolha(s) Correta(s)
I e II estão corretas. 
I e III estão corretas. 
II e III estão corretas. X
Somente II está correta. 
IDENTIFICAÇÃO: 211532
PERGUNTA CATEGORIA
Considerando as métricas utilizadas para mensurar a
qualidade de um agrupamento:
I - A silhueta (do inglês silhouette) considera as distâncias
intra e inter cluster.
II - O índice de Jaccard pode ser calculado como a divisão
entre a intersecção e a união de dois grupos.
III - O erro quadrático pode ser utilizado para estimar o
número de clusters no algoritmo K-meansr:
Sobre as afirmações acima, é correto afirmar: 
BRA_DM_CD_01_Agrupamento 
Texto de Resposta Escolha(s) Correta(s)
I e II estão corretas 
I e III estão corretas 
Somente III está correta 
I, II e III estão corretas X
IDENTIFICAÇÃO: 211531
PERGUNTA CATEGORIA
Dada a matriz de similaridade apresentada na imagem e
usando agrupamento hierárquico aglomerativo single linkage
é esperado que na 2ª iteração tenhamos os seguintes
conjuntos formados: 
BRA_DM_CD_01_Agrupamento 
Texto de Resposta Escolha(s) Correta(s)
{ {a} , {b} , {c,e} , {d} , {f,g} } 
{ {a,b} , {c,e} , {d} , {f} , {g} } X
{ {a,b} , {c} , {d,e} , {f} , {g} } 
{ {a} , {b,c} , {d,g} , {e} , {f} } 
IDENTIFICAÇÃO: 211530
PERGUNTA CATEGORIA
A complexidade computacional do algoritmo K-Means em
que: i é o número de iterações, k o número de grupos, n o
número de elementos e N a dimensão dos dados, é: 
BRA_DM_CD_01_Agrupamento 
Texto de Resposta Escolha(s) Correta(s)
O( i.k.n.N ). X
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 2/8
O( i².k.n.N ). 
O( i.k.n ). 
O( i.k.n^N ). 
IDENTIFICAÇÃO: 211529
PERGUNTA CATEGORIA
Sobre a tarefa de machine learning chamada de “Topic
Modeling”, marque as afirmações abaixo com V, se
verdadeiras, ou F, se falsas:
( ) Ao aplicar a técnica Latent Dirichlet Allocation para
encontrar os tópicos de um conjunto de documentos de
texto, cada documento poderá ser visto como uma mistura
de vários tópicos.
( ) Ao aplicar a técnica Latent Dirichlet Allocation em um
conjunto de documentos, cada tópico é explicado como uma
distribuição sobre as palavras em um vocabulário.
( ) Você pode usar Latent Dirichlet Allocation para reduzir a
dimensão dos dados de entrada para um algoritmo de
classificação de documentos de texto supervisionado.
 
BRA_DM_CD_01_Agrupamento 
Texto de Resposta Escolha(s) Correta(s)
V - V - V. X
F - V - V. 
V - V - F. 
V - F - V. 
IDENTIFICAÇÃO: 211593
PERGUNTA CATEGORIA
Sobre o algoritmo K Nearest Neighbors (KNN):
I - Executa mais computação na fase de treinamento do que
na fase de inferência.
II - Pode ser usado para problemas de classificação e para
regressão.
III - Pode ser usado para preencher valores faltantes na base
de dados para variáveis categóricas e também para variáveis
contínuas.
Sobre as afirmações acima:
 
BRA_DM_CD_02_Classificação 
Texto de Resposta Escolha(s) Correta(s)
I e II estão corretas. 
I e III estão corretas. 
II e III estão corretas. X
Todas estão corretas. 
IDENTIFICAÇÃO: 211592
PERGUNTA CATEGORIA
Dentre as diversas características do algoritmo Random
Forest, podemos destacar: 
BRA_DM_CD_02_Classificação 
Texto de Resposta Escolha(s) Correta(s)
As árvores são criadas de forma independentes o que o torna altamente paralelizável. X
Analisa todas as variáveis dependentes (atributos) em cada uma das quebras das árvores,
o que o torna um bom algoritmo para fazer seleção de atributos. 
Tem complexidade computacional maior que a de uma rede neural profunda e, por este
motivo, não é amplamente utilizada em dados não estruturados como as redes neurais
(Deep Learning).
 
Faz uma regressão logística por folha e, por este motivo, sempre apresenta melhores
resultados que uma simples árvore de decisão. 
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 3/8
IDENTIFICAÇÃO: 211591
PERGUNTA CATEGORIA
Sobre árvores de decisão, pode-se afirmar que: BRA_DM_CD_02_Classificação 
Texto de Resposta Escolha(s) Correta(s)
Pode-se calcular o erro quadrático médio para avaliar a performance da árvore de decisão
em situações onde a variável resposta é binária 
Modelos demasiadamente complexos são mais suscetíveis ao problema de overfitting, pois
correm o risco de “explicar” oscilações aleatórias. X
Não é possível aplicar esse método para estimar variáveis respostas contínuas 
Aplica-se a estatística qui-quadrado para determinar as melhores quebras (significativas)
da árvore quando a variável resposta é contínua 
IDENTIFICAÇÃO: 211590
PERGUNTA CATEGORIA
Qual das métricas abaixo não deve ser aplicada para avaliar
a qualidade do ajuste em uma regressão logística? 
BRA_DM_CD_02_Classificação 
Texto de Resposta Escolha(s) Correta(s)
KS 
ROC 
Logloss 
Erro Quadrático Médio X
IDENTIFICAÇÃO: 211589
PERGUNTA CATEGORIA
Sobre a máquina de vetores suporte (SVM) podemos
afirmar: 
BRA_DM_CD_02_Classificação 
Texto de Resposta Escolha(s) Correta(s)
O SVM separa os dados utilizando um hiperplano que minimiza a distância entre as
margens. 
Grandes valores atribuídos ao parâmetro de regularização C implica em aceitar maiores
margens e, consequentemente, maiores erros de classificação. 
O sucesso da execução do SVM depende do kernel escolhido, dos hiperparâmetros deste
kernel e do valor da variável C que controla a margem (soft/hard margin). X
Não é possível garantir aprendizado com o algoritmo SVM apesar deste apresentar bons
resultados no processo de validação cruzada. 
IDENTIFICAÇÃO: 211623
PERGUNTA CATEGORIA
Para um fiscal analisar se as garrafas de cerveja estão
saindo com 600 mL, ele retira aleatoriamente 25 garrafas da
linha de produção e, com um anemômetro (medidor de
volume) de alta precisão, verifica quantos mL têm em cada
garrafa. Usando os conceitos de teste de hipóteses, ele deve
considerar que sua amostra tem uma curva do tipo: 
BRA_DM_CD_03_Estatística Básica 
Texto de Resposta Escolha(s) Correta(s)
Logarítmica. 
Normal. 
Poisson 
T-student. X
IDENTIFICAÇÃO: 211622
PERGUNTA CATEGORIA
A figura ilustra o histograma de uma distribuição de
frequências. Entre os conjuntos apresentado na imagem, o
único que representa uma configuração plausível para os
valores da média, moda e mediana dessa distribuição,
respectivamente, é: 
BRA_DM_CD_03_Estatística Básica 
Texto de Resposta Escolha(s) Correta(s)
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 4/8
25, 16 e 17 X
16, 16 e 16 
25, 16 e 16 
20, 17 e 16 
IDENTIFICAÇÃO: 211621
PERGUNTA CATEGORIA
Em uma determinada clínica médica, prescreve-se
analgésico para 10% dos pacientes atendidos. No geral, 5%
de todos pacientes são viciados em algum tipo de droga
(incluindo analgésicos e substâncias ilegais). Dentre todas as
pessoas com prescrição de analgésico, 8% são viciadas. Qual
a probabilidade de se prescrever um analgésico para um
paciente viciado? 
BRA_DM_CD_03_Estatística Básica 
Texto de Resposta Escolha(s) Correta(s)
5% 
8% 
16% X
12% 
IDENTIFICAÇÃO: 211620PERGUNTA CATEGORIA
Em Estatística, as medidas centrais de uma variável aleatória
são bastante utilizadas para caracterizar uma população. As
mais conhecidas são média, moda e mediana. Assinale a
alternativa correta: 
BRA_DM_CD_03_Estatística Básica 
Texto de Resposta Escolha(s) Correta(s)
Quando os dados contêm outlier (observação atípica), a mediana é muito influenciada por
este valor e, nestes casos, a média é uma medida mais robusta. 
O conceito para a construção da mediana não leva em conta uma ordenação dos dados. 
Em distribuições assimétricas, a média e a mediana são diferentes e, quando a
concentração dos dados é em valores baixos, a média é maior. X
Em distribuições assimétricas a média e a mediana são próximas. 
IDENTIFICAÇÃO: 211619
PERGUNTA CATEGORIA
Em relação à amostragem aleatória simples, é INCORRETO
afirmar que: 
BRA_DM_CD_03_Estatística Básica 
Texto de Resposta Escolha(s) Correta(s)
Se os elementos da amostra são tomados com reposição, a variância da média amostral
não depende do tamanho da população. 
A média amostral é um estimador não viciado da média populacional em ambos os
procedimentos, com ou sem reposição dos elementos tomados da população. 
Para tamanho de amostra igual a 1 (um), a variância da média amostral é a mesma nos
procedimentos com e sem reposição dos elementos tomados da população. 
Para tamanho de amostra maior que um, a variância da média amostral é menor quando
os elementos da amostra são tomados com reposição do que quando os elementos da
amostra são tomados sem reposição.
 X
IDENTIFICAÇÃO: 211653
PERGUNTA CATEGORIA
Assinale a alternativa correta:
I - Apache Spark executa computação in-memory para
aumentar a velocidade do processamento de dados.
II - Resilient Distribution Datasets (ou RDDs) – são como
coleções de elementos, tolerantes à falhas que rodam em
paralelo. O dado no RDD é imutável.
III - Spark DataFrames são coleções de dados que,
diferentemente do RDD são mutáveis.
BRA_DM_CD_04_Proficiência de Dados 
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 5/8
Sobre as afirmações acima:
 
Texto de Resposta Escolha(s) Correta(s)
I e III estão corretas. 
I e II estão corretas. X
II e III estão corretas. 
Somente II está correta. 
IDENTIFICAÇÃO: 211652
PERGUNTA CATEGORIA
Indique a resposta que contém apenas as afirmações
corretas:
I - Uma chave primária deve ser utilizada quando queremos
identificar um registro de forma única e não nula.
II - Uma chave estrangeira pode fazer referência a uma
chave única de outra tabela.
III - Uma chave composta consiste necessariamente da
junção de uma chave primária e uma chave secundária.
IV - Uma chave primária pode referenciar mais de um
registro ao realizarmos uma consulta.
V - Uma chave estrangeira deve referenciar uma chave
primária de outra tabela.
VI - Uma chave composta permite a identificação de
registros de forma única por meio da junção de informações.
 
BRA_DM_CD_04_Proficiência de Dados 
Texto de Resposta Escolha(s) Correta(s)
I, II e V. 
I, II e VI. X
II, III e V. 
I, IV e V. 
IDENTIFICAÇÃO: 211651
PERGUNTA CATEGORIA
Qual das alternativas melhor representa, respectivamente, o
comportamento e o resultado da seguinte consulta: 
BRA_DM_CD_04_Proficiência de Dados 
Texto de Resposta Escolha(s) Correta(s)
A quantidade de linhas retornada pela subconsulta “agrupa” é 13; Resultado 39. 
A quantidade de linhas retornada pela subconsulta “consolida” é 13; Resultado 91. 
A quantidade de linhas retornada pela subconsulta “numSel” é 91; Resultado 36. 
A quantidade de linhas retornada pela subconsulta “consolida” é 91; Resultado 41. X
IDENTIFICAÇÃO: 211650
PERGUNTA CATEGORIA
Um experimento qualquer consistiu em coletar algumas
frutas e medir o seu peso. A tabela apresenta todas as
observações do experimento: 
BRA_DM_CD_04_Proficiência de Dados 
Texto de Resposta Escolha(s) Correta(s)
I X
II 
III 
IV 
IDENTIFICAÇÃO: 211649
PERGUNTA CATEGORIA
São exemplos de bancos de dados NoSQL: BRA_DM_CD_04_Proficiência de Dados 
Texto de Resposta Escolha(s) Correta(s)
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 6/8
MongoDB, Redis, Cassandra e HBase. X
Neo4j, MongoDB, CouchDB e Oracle DB. 
HBase, GemFire, MySQL e Cassandra. 
Oracle NoSQL, HBase, RDBMS e Neo4j. 
IDENTIFICAÇÃO: 211683
PERGUNTA CATEGORIA
Qual dos métodos abaixo é o método menos eficiente de
busca (Complexidade Computacional)? 
BRA_DM_CD_05_Programação 
Texto de Resposta Escolha(s) Correta(s)
Quick sort 
Bubble sort X
Merge sort 
Insert sort 
IDENTIFICAÇÃO: 211682
PERGUNTA CATEGORIA
Uma estrutura de dados em que o primeiro elemento
inserido seja o primeiro elemento a ser retirado é
denominada: 
BRA_DM_CD_05_Programação 
Texto de Resposta Escolha(s) Correta(s)
Pilha 
Matriz 
Fila X
Lista 
IDENTIFICAÇÃO: 211681
PERGUNTA CATEGORIA
São boas práticas de programação:
I - Comentários e refatoração.
II - Indentação.
III - Comentário e versionamento.
IV - Criação de classes, documentação, complexidade do
código.
V - Arquitetura, refatoração, limitação de caracteres por
linha. 
Quais das alternativas representa a opção verdadeira?
 
BRA_DM_CD_05_Programação 
Texto de Resposta Escolha(s) Correta(s)
I, II e IV. 
Apenas V. 
II e IV. 
I, II, III e V. X
IDENTIFICAÇÃO: 211680
PERGUNTA CATEGORIA
Com base no algoritmo apresentado na imagem, e supondo
que:
• A recebe o valor 3 na linha 03.
• B recebe o valor 10 na linha 04.
• C recebe o valor 1 na linha 05.
BRA_DM_CD_05_Programação 
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 7/8
Qual das alternativas demonstra de forma correta os valores
escritos na linha?
 
Texto de Resposta Escolha(s) Correta(s)
11, 9, 80. X
10, 8, 80. 
11, 9, 70. 
10, 8, 70. 
IDENTIFICAÇÃO: 211679
PERGUNTA CATEGORIA
O fluxo de trabalho de machine learning envolve, de forma
simplificada, diversas manipulações nos dados e a aplicação
de um estimador. A utilização de pipelines se torna
imprescindível para que o fluxo seja coerente e fácil de
entender, para que as etapas sejam seguidas na ordem
desejada e para garantir reprodutibilidade. Considere o
exemplo da utilização do método pipeline da biblioteca scikit-
learn para Python:
Qual alternativa abaixo possui os valores corretos para
(step1), (step2) e (step3), respectivamente, que sejam
coerentes com o fluxo de trabalho de machine learning?
 
BRA_DM_CD_05_Programação 
Texto de Resposta Escolha(s) Correta(s)
I 
II 
III X
IV 
IDENTIFICAÇÃO: 211583
PERGUNTA CATEGORIA
Qual das afirmações abaixo é verdadeira com relação à
regularização LASSO? 
BRA_DM_CD_06_Regressão 
Texto de Resposta Escolha(s) Correta(s)
A regularização LASSO inclui todas as features no modelo, já que não reduz os coeficientes
a zero. Assim, a principal vantagem de regressão com essa regularização é o encolhimento
dos coeficientes e redução de complexidade do modelo.
 
Além da redução dos coeficientes, a regularização LASSO também realiza seleção de
features. Como alguns dos coeficientes podem ser reduzidos a exatamente zero, isso é
equivalente a uma feature ser excluída do modelo.
 X
A regularização LASSO não é indicada quando existe um número grande de features, pois
como todas as features acabam entrando no modelo, existem desafios computacionais. 
Mais conhecida como regularização L2, conforme o termo alpha aumenta, mais complexo é
o modelo. 
IDENTIFICAÇÃO: 211582
PERGUNTA CATEGORIA
Considerando as 3 afirmações sobre como se aplica bagging
para regressão usando árvores, assinale a alternativa
correta:
I - Construímos N árvores de regressão, cada uma a partir
de N amostras obtidas por meio de bootstrapping
II - Em cada estágio da construção, introduzimos uma nova
árvore de regressão queé calculada com o objetivo de
compensar os problemas do modelo do passo anterior.
III - A resposta final é a média das respostas individuais de
cada uma das N árvores
 
BRA_DM_CD_06_Regressão 
Texto de Resposta Escolha(s) Correta(s)
Estão corretas I e III. X
Estão corretas II e III 
Está correta apenas a afirmação II. 
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 8/8
Está correta apenas a afirmação I. 
IDENTIFICAÇÃO: 211581
PERGUNTA CATEGORIA
Deseja-se investigar se a venda de refrigerante (Y) por
semana é função da temperatura média (T) e da existência
de feriado (F) dentro da semana. Após ajustar um modelo de
regressão linear múltipla, obteve-se a seguinte saída
Qual das seguintes expressões representa o modelo
ajustado, considerando apenas as variáveis significantes
(nível de significância de 5%)? 
BRA_DM_CD_06_Regressão 
Texto de Resposta Escolha(s) Correta(s)
A única variável estatisticamente significante é a temperatura. O modelo pode ser
representado pela seguinte expressão: Y=0,08*T. 
As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser
representado pela seguinte expressão: Y=15,16+0,08*T-0,42*F. X
As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser
representado pela seguinte expressão: Y=0,08*T-0,42*F. 
A única variável estatisticamente significante é o feriado. O modelo pode ser representado
pela seguinte expressão: Y=15,16-0,42*F. 
IDENTIFICAÇÃO: 211580
PERGUNTA CATEGORIA
Dado um conjunto treinamento (x1, y1) . . . (xN, yN), em
que cada xi = (xi1, xi2, . . . , xip)T é um vetor de
características para o i-ésimo elemento. O que significa a
expressão a seguir? 
BRA_DM_CD_06_Regressão 
Texto de Resposta Escolha(s) Correta(s)
É a soma dos quadrados dos resíduos. X
É uma regressão polinomial. 
É a minimização da soma dos quadrados dos resíduos. 
É a função de custo de uma regressão Ridge. 
IDENTIFICAÇÃO: 211579
PERGUNTA CATEGORIA
Considerando o parâmetro λ da regressão Ridge, assinale a
alternativa correta: 
BRA_DM_CD_06_Regressão 
Texto de Resposta Escolha(s) Correta(s)
Quando λ aumenta, a variância diminui e o quadrado do viés também diminui. 
Quando λ aumenta, a variância aumenta e o quadrado do viés também aumenta. 
Quando λ aumenta, a variância aumenta e o quadrado do viés diminui 
Quando λ aumenta, a variância diminui e o quadrado do viés aumenta. X

Outros materiais