Logo Passei Direto
Buscar

Ferramentas de estudo

Questões resolvidas

Assinale a alternativa correta: I - Devido a sensibilidade a inicialização, os algoritmos hierárquicos single e complete linkage precisam ser executados múltiplas vezes. II - É possível identificar um outlier por meio do dendrograma pois estas observações são agrupadas nos nós mais próximos da raiz. III - O algoritmo Bisecting K-Means é um exemplo de algoritmo hierárquico do tipo top-down (divisivos). Sobre as afirmacoes acima:
I e II estão corretas.
I e III estão corretas.
II e III estão corretas.
Somente II está correta.

Considerando as métricas utilizadas para mensurar a qualidade de um agrupamento: I - A silhueta (do inglês silhouette) considera as distâncias intra e inter cluster. II - O índice de Jaccard pode ser calculado como a divisão entre a intersecção e a união de dois grupos. III - O erro quadrático pode ser utilizado para estimar o número de clusters no algoritmo K-meansr: Sobre as afirmações acima, é correto afirmar:
I e II estão corretas
I e III estão corretas
Somente III está correta
I, II e III estão corretas

A complexidade computacional do algoritmo K-Means em que: i é o número de iterações, k o número de grupos, n o número de elementos e N a dimensão dos dados, é:
O( i.k.n.N ).
O( i².k.n.N ).
O( i.k.n ).
O( i.k.n^N ).

Sobre a tarefa de machine learning chamada de “Topic Modeling”, marque as afirmações abaixo com V, se verdadeiras, ou F, se falsas: ( ) Ao aplicar a técnica Latent Dirichlet Allocation para encontrar os tópicos de um conjunto de documentos de texto, cada documento poderá ser visto como uma mistura de vários tópicos. ( ) Ao aplicar a técnica Latent Dirichlet Allocation em um conjunto de documentos, cada tópico é explicado como uma distribuição sobre as palavras em um vocabulário. ( ) Você pode usar Latent Dirichlet Allocation para reduzir a dimensão dos dados de entrada para um algoritmo de classificação de documentos de texto supervisionado.
V - V - V.
F - V - V.
V - V - F.
V - F - V.

Sobre o algoritmo K Nearest Neighbors (KNN): I - Executa mais computação na fase de treinamento do que na fase de inferência. II - Pode ser usado para problemas de classificação e para regressão. III - Pode ser usado para preencher valores faltantes na base de dados para variáveis categóricas e também para variáveis contínuas. Sobre as afirmações acima:
I e II estão corretas.
I e III estão corretas.
II e III estão corretas.
Todas estão corretas.

Sobre árvores de decisão, pode-se afirmar que:
Pode-se calcular o erro quadrático médio para avaliar a performance da árvore de decisão em situações onde a variável resposta é binária
Modelos demasiadamente complexos são mais suscetíveis ao problema de overfitting, pois correm o risco de “explicar” oscilações aleatórias.
Não é possível aplicar esse método para estimar variáveis respostas contínuas
Aplica-se a estatística qui-quadrado para determinar as melhores quebras (significativas) da árvore quando a variável resposta é contínua

Qual das métricas abaixo não deve ser aplicada para avaliar a qualidade do ajuste em uma regressão logística?
KS
ROC
Logloss
Erro Quadrático Médio

Sobre a máquina de vetores suporte (SVM) podemos afirmar:
O SVM separa os dados utilizando um hiperplano que minimiza a distância entre as margens.
Grandes valores atribuídos ao parâmetro de regularização C implica em aceitar maiores margens e, consequentemente, maiores erros de classificação.
O sucesso da execução do SVM depende do kernel escolhido, dos hiperparâmetros deste kernel e do valor da variável C que controla a margem (soft/hard margin).
Não é possível garantir aprendizado com o algoritmo SVM apesar deste apresentar bons resultados no processo de validação cruzada.

Para um fiscal analisar se as garrafas de cerveja estão saindo com 600 mL, ele retira aleatoriamente 25 garrafas da linha de produção e, com um anemômetro (medidor de volume) de alta precisão, verifica quantos mL têm em cada garrafa. Usando os conceitos de teste de hipóteses, ele deve considerar que sua amostra tem uma curva do tipo:
Logarítmica.
Normal.
Poisson
T-student.

Em Estatística, as medidas centrais de uma variável aleatória são bastante utilizadas para caracterizar uma população. As mais conhecidas são média, moda e mediana. Assinale a alternativa correta:
Quando os dados contêm outlier (observação atípica), a mediana é muito influenciada por este valor e, nestes casos, a média é uma medida mais robusta.
O conceito para a construção da mediana não leva em conta uma ordenação dos dados.
Em distribuições assimétricas, a média e a mediana são diferentes e, quando a concentração dos dados é em valores baixos, a média é maior.
Em distribuições assimétricas a média e a mediana são próximas.

Em relação à amostragem aleatória simples, é INCORRETO afirmar que:
Se os elementos da amostra são tomados com reposição, a variância da média amostral não depende do tamanho da população.
A média amostral é um estimador não viciado da média populacional em ambos os procedimentos, com ou sem reposição dos elementos tomados da população.
Para tamanho de amostra igual a 1 (um), a variância da média amostral é a mesma nos procedimentos com e sem reposição dos elementos tomados da população.
Para tamanho de amostra maior que um, a variância da média amostral é menor quando os elementos da amostra são tomados com reposição do que quando os elementos da amostra são tomados sem reposição.

Assinale a alternativa correta: I - Apache Spark executa computação in-memory para aumentar a velocidade do processamento de dados. II - Resilient Distribution Datasets (ou RDDs) – são como coleções de elementos, tolerantes à falhas que rodam em paralelo. O dado no RDD é imutável. III - Spark DataFrames são coleções de dados que, diferentemente do RDD são mutáveis. Sobre as afirmações acima:
I e III estão corretas.
I e II estão corretas.
II e III estão corretas.
Somente II está correta.

Indique a resposta que contém apenas as afirmações corretas: I - Uma chave primária deve ser utilizada quando queremos identificar um registro de forma única e não nula. II - Uma chave estrangeira pode fazer referência a uma chave única de outra tabela. III - Uma chave composta consiste necessariamente da junção de uma chave primária e uma chave secundária. IV - Uma chave primária pode referenciar mais de um registro ao realizarmos uma consulta. V - Uma chave estrangeira deve referenciar uma chave primária de outra tabela. VI - Uma chave composta permite a identificação de registros de forma única por meio da junção de informações.
I, II e V.
I, II e VI.
II, III e V.
I, IV e V.

Uma estrutura de dados em que o primeiro elemento inserido seja o primeiro elemento a ser retirado é denominada:
Pilha
Matriz
Fila
Lista

São boas práticas de programação: I - Comentários e refatoração. II - Indentação. III - Comentário e versionamento. IV - Criação de classes, documentação, complexidade do código. V - Arquitetura, refatoração, limitação de caracteres por linha. Quais das alternativas representa a opção verdadeira?
I, II e IV.
Apenas V.
II e IV.
I, II, III e V.

Considerando as 3 afirmações sobre como se aplica bagging para regressão usando árvores, assinale a alternativa correta:
I - Construímos N árvores de regressão, cada uma a partir de N amostras obtidas por meio de bootstrapping.
II - Em cada estágio da construção, introduzimos uma nova árvore de regressão que é calculada com o objetivo de compensar os problemas do modelo do passo anterior.
III - A resposta final é a média das respostas individuais de cada uma das N árvores.
Estão corretas I e III.
Estão corretas II e III.
Está correta apenas a afirmação II.
Está correta apenas a afirmação I.

Deseja-se investigar se a venda de refrigerante (Y) por semana é função da temperatura média (T) e da existência de feriado (F) dentro da semana. Após ajustar um modelo de regressão linear múltipla, obteve-se a seguinte saída.
Qual das seguintes expressões representa o modelo ajustado, considerando apenas as variáveis significantes (nível de significância de 5%)?
A única variável estatisticamente significante é a temperatura. O modelo pode ser representado pela seguinte expressão: Y=0,08*T.
As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser representado pela seguinte expressão: Y=15,16+0,08*T-0,42*F.
As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser representado pela seguinte expressão: Y=0,08*T-0,42*F.
A única variável estatisticamente significante é o feriado. O modelo pode ser representado pela seguinte expressão: Y=15,16-0,42*F.

Dado um conjunto treinamento (x1, y1) . . . (xN, yN), em que cada xi = (xi1, xi2, . . . , xip)T é um vetor de características para o i-ésimo elemento.
O que significa a expressão a seguir?
É a soma dos quadrados dos resíduos.
É uma regressão polinomial.
É a minimização da soma dos quadrados dos resíduos.
É a função de custo de uma regressão Ridge.

Considerando o parâmetro λ da regressão Ridge, assinale a alternativa correta:
Quando λ aumenta, a variância diminui e o quadrado do viés também diminui.
Quando λ aumenta, a variância aumenta e o quadrado do viés também aumenta.
Quando λ aumenta, a variância aumenta e o quadrado do viés diminui.
Quando λ aumenta, a variância diminui e o quadrado do viés aumenta.

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Assinale a alternativa correta: I - Devido a sensibilidade a inicialização, os algoritmos hierárquicos single e complete linkage precisam ser executados múltiplas vezes. II - É possível identificar um outlier por meio do dendrograma pois estas observações são agrupadas nos nós mais próximos da raiz. III - O algoritmo Bisecting K-Means é um exemplo de algoritmo hierárquico do tipo top-down (divisivos). Sobre as afirmacoes acima:
I e II estão corretas.
I e III estão corretas.
II e III estão corretas.
Somente II está correta.

Considerando as métricas utilizadas para mensurar a qualidade de um agrupamento: I - A silhueta (do inglês silhouette) considera as distâncias intra e inter cluster. II - O índice de Jaccard pode ser calculado como a divisão entre a intersecção e a união de dois grupos. III - O erro quadrático pode ser utilizado para estimar o número de clusters no algoritmo K-meansr: Sobre as afirmações acima, é correto afirmar:
I e II estão corretas
I e III estão corretas
Somente III está correta
I, II e III estão corretas

A complexidade computacional do algoritmo K-Means em que: i é o número de iterações, k o número de grupos, n o número de elementos e N a dimensão dos dados, é:
O( i.k.n.N ).
O( i².k.n.N ).
O( i.k.n ).
O( i.k.n^N ).

Sobre a tarefa de machine learning chamada de “Topic Modeling”, marque as afirmações abaixo com V, se verdadeiras, ou F, se falsas: ( ) Ao aplicar a técnica Latent Dirichlet Allocation para encontrar os tópicos de um conjunto de documentos de texto, cada documento poderá ser visto como uma mistura de vários tópicos. ( ) Ao aplicar a técnica Latent Dirichlet Allocation em um conjunto de documentos, cada tópico é explicado como uma distribuição sobre as palavras em um vocabulário. ( ) Você pode usar Latent Dirichlet Allocation para reduzir a dimensão dos dados de entrada para um algoritmo de classificação de documentos de texto supervisionado.
V - V - V.
F - V - V.
V - V - F.
V - F - V.

Sobre o algoritmo K Nearest Neighbors (KNN): I - Executa mais computação na fase de treinamento do que na fase de inferência. II - Pode ser usado para problemas de classificação e para regressão. III - Pode ser usado para preencher valores faltantes na base de dados para variáveis categóricas e também para variáveis contínuas. Sobre as afirmações acima:
I e II estão corretas.
I e III estão corretas.
II e III estão corretas.
Todas estão corretas.

Sobre árvores de decisão, pode-se afirmar que:
Pode-se calcular o erro quadrático médio para avaliar a performance da árvore de decisão em situações onde a variável resposta é binária
Modelos demasiadamente complexos são mais suscetíveis ao problema de overfitting, pois correm o risco de “explicar” oscilações aleatórias.
Não é possível aplicar esse método para estimar variáveis respostas contínuas
Aplica-se a estatística qui-quadrado para determinar as melhores quebras (significativas) da árvore quando a variável resposta é contínua

Qual das métricas abaixo não deve ser aplicada para avaliar a qualidade do ajuste em uma regressão logística?
KS
ROC
Logloss
Erro Quadrático Médio

Sobre a máquina de vetores suporte (SVM) podemos afirmar:
O SVM separa os dados utilizando um hiperplano que minimiza a distância entre as margens.
Grandes valores atribuídos ao parâmetro de regularização C implica em aceitar maiores margens e, consequentemente, maiores erros de classificação.
O sucesso da execução do SVM depende do kernel escolhido, dos hiperparâmetros deste kernel e do valor da variável C que controla a margem (soft/hard margin).
Não é possível garantir aprendizado com o algoritmo SVM apesar deste apresentar bons resultados no processo de validação cruzada.

Para um fiscal analisar se as garrafas de cerveja estão saindo com 600 mL, ele retira aleatoriamente 25 garrafas da linha de produção e, com um anemômetro (medidor de volume) de alta precisão, verifica quantos mL têm em cada garrafa. Usando os conceitos de teste de hipóteses, ele deve considerar que sua amostra tem uma curva do tipo:
Logarítmica.
Normal.
Poisson
T-student.

Em Estatística, as medidas centrais de uma variável aleatória são bastante utilizadas para caracterizar uma população. As mais conhecidas são média, moda e mediana. Assinale a alternativa correta:
Quando os dados contêm outlier (observação atípica), a mediana é muito influenciada por este valor e, nestes casos, a média é uma medida mais robusta.
O conceito para a construção da mediana não leva em conta uma ordenação dos dados.
Em distribuições assimétricas, a média e a mediana são diferentes e, quando a concentração dos dados é em valores baixos, a média é maior.
Em distribuições assimétricas a média e a mediana são próximas.

Em relação à amostragem aleatória simples, é INCORRETO afirmar que:
Se os elementos da amostra são tomados com reposição, a variância da média amostral não depende do tamanho da população.
A média amostral é um estimador não viciado da média populacional em ambos os procedimentos, com ou sem reposição dos elementos tomados da população.
Para tamanho de amostra igual a 1 (um), a variância da média amostral é a mesma nos procedimentos com e sem reposição dos elementos tomados da população.
Para tamanho de amostra maior que um, a variância da média amostral é menor quando os elementos da amostra são tomados com reposição do que quando os elementos da amostra são tomados sem reposição.

Assinale a alternativa correta: I - Apache Spark executa computação in-memory para aumentar a velocidade do processamento de dados. II - Resilient Distribution Datasets (ou RDDs) – são como coleções de elementos, tolerantes à falhas que rodam em paralelo. O dado no RDD é imutável. III - Spark DataFrames são coleções de dados que, diferentemente do RDD são mutáveis. Sobre as afirmações acima:
I e III estão corretas.
I e II estão corretas.
II e III estão corretas.
Somente II está correta.

Indique a resposta que contém apenas as afirmações corretas: I - Uma chave primária deve ser utilizada quando queremos identificar um registro de forma única e não nula. II - Uma chave estrangeira pode fazer referência a uma chave única de outra tabela. III - Uma chave composta consiste necessariamente da junção de uma chave primária e uma chave secundária. IV - Uma chave primária pode referenciar mais de um registro ao realizarmos uma consulta. V - Uma chave estrangeira deve referenciar uma chave primária de outra tabela. VI - Uma chave composta permite a identificação de registros de forma única por meio da junção de informações.
I, II e V.
I, II e VI.
II, III e V.
I, IV e V.

Uma estrutura de dados em que o primeiro elemento inserido seja o primeiro elemento a ser retirado é denominada:
Pilha
Matriz
Fila
Lista

São boas práticas de programação: I - Comentários e refatoração. II - Indentação. III - Comentário e versionamento. IV - Criação de classes, documentação, complexidade do código. V - Arquitetura, refatoração, limitação de caracteres por linha. Quais das alternativas representa a opção verdadeira?
I, II e IV.
Apenas V.
II e IV.
I, II, III e V.

Considerando as 3 afirmações sobre como se aplica bagging para regressão usando árvores, assinale a alternativa correta:
I - Construímos N árvores de regressão, cada uma a partir de N amostras obtidas por meio de bootstrapping.
II - Em cada estágio da construção, introduzimos uma nova árvore de regressão que é calculada com o objetivo de compensar os problemas do modelo do passo anterior.
III - A resposta final é a média das respostas individuais de cada uma das N árvores.
Estão corretas I e III.
Estão corretas II e III.
Está correta apenas a afirmação II.
Está correta apenas a afirmação I.

Deseja-se investigar se a venda de refrigerante (Y) por semana é função da temperatura média (T) e da existência de feriado (F) dentro da semana. Após ajustar um modelo de regressão linear múltipla, obteve-se a seguinte saída.
Qual das seguintes expressões representa o modelo ajustado, considerando apenas as variáveis significantes (nível de significância de 5%)?
A única variável estatisticamente significante é a temperatura. O modelo pode ser representado pela seguinte expressão: Y=0,08*T.
As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser representado pela seguinte expressão: Y=15,16+0,08*T-0,42*F.
As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser representado pela seguinte expressão: Y=0,08*T-0,42*F.
A única variável estatisticamente significante é o feriado. O modelo pode ser representado pela seguinte expressão: Y=15,16-0,42*F.

Dado um conjunto treinamento (x1, y1) . . . (xN, yN), em que cada xi = (xi1, xi2, . . . , xip)T é um vetor de características para o i-ésimo elemento.
O que significa a expressão a seguir?
É a soma dos quadrados dos resíduos.
É uma regressão polinomial.
É a minimização da soma dos quadrados dos resíduos.
É a função de custo de uma regressão Ridge.

Considerando o parâmetro λ da regressão Ridge, assinale a alternativa correta:
Quando λ aumenta, a variância diminui e o quadrado do viés também diminui.
Quando λ aumenta, a variância aumenta e o quadrado do viés também aumenta.
Quando λ aumenta, a variância aumenta e o quadrado do viés diminui.
Quando λ aumenta, a variância diminui e o quadrado do viés aumenta.

Prévia do material em texto

8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 1/8
Data Masters - Cientista de Dados - Simulado Perguntas e respostas
IDENTIFICAÇÃO: 211533
PERGUNTA CATEGORIA
Assinale a alternativa correta:
I - Devido a sensibilidade a inicialização, os algoritmos
hierárquicos single e complete linkage precisam ser
executados múltiplas vezes.
II - É possível identificar um outlier por meio do
dendrograma pois estas observações são agrupadas nos
nós mais próximos da raiz.
III - O algoritmo Bisecting K-Means é um exemplo de
algoritmo hierárquico do tipo top-down (divisivos). Sobre as
afirmações acima:
 
BRA_DM_CD_01_Agrupamento 
Texto de Resposta Escolha(s) Correta(s)
I e II estão corretas. 
I e III estão corretas. 
II e III estão corretas. X
Somente II está correta. 
IDENTIFICAÇÃO: 211532
PERGUNTA CATEGORIA
Considerando as métricas utilizadas para mensurar a
qualidade de um agrupamento:
I - A silhueta (do inglês silhouette) considera as distâncias
intra e inter cluster.
II - O índice de Jaccard pode ser calculado como a divisão
entre a intersecção e a união de dois grupos.
III - O erro quadrático pode ser utilizado para estimar o
número de clusters no algoritmo K-meansr:
Sobre as afirmações acima, é correto afirmar: 
BRA_DM_CD_01_Agrupamento 
Texto de Resposta Escolha(s) Correta(s)
I e II estão corretas 
I e III estão corretas 
Somente III está correta 
I, II e III estão corretas X
IDENTIFICAÇÃO: 211531
PERGUNTA CATEGORIA
Dada a matriz de similaridade apresentada na imagem e
usando agrupamento hierárquico aglomerativo single linkage
é esperado que na 2ª iteração tenhamos os seguintes
conjuntos formados: 
BRA_DM_CD_01_Agrupamento 
Texto de Resposta Escolha(s) Correta(s)
{ {a} , {b} , {c,e} , {d} , {f,g} } 
{ {a,b} , {c,e} , {d} , {f} , {g} } X
{ {a,b} , {c} , {d,e} , {f} , {g} } 
{ {a} , {b,c} , {d,g} , {e} , {f} } 
IDENTIFICAÇÃO: 211530
PERGUNTA CATEGORIA
A complexidade computacional do algoritmo K-Means em
que: i é o número de iterações, k o número de grupos, n o
número de elementos e N a dimensão dos dados, é: 
BRA_DM_CD_01_Agrupamento 
Texto de Resposta Escolha(s) Correta(s)
O( i.k.n.N ). X
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 2/8
O( i².k.n.N ). 
O( i.k.n ). 
O( i.k.n^N ). 
IDENTIFICAÇÃO: 211529
PERGUNTA CATEGORIA
Sobre a tarefa de machine learning chamada de “Topic
Modeling”, marque as afirmações abaixo com V, se
verdadeiras, ou F, se falsas:
( ) Ao aplicar a técnica Latent Dirichlet Allocation para
encontrar os tópicos de um conjunto de documentos de
texto, cada documento poderá ser visto como uma mistura
de vários tópicos.
( ) Ao aplicar a técnica Latent Dirichlet Allocation em um
conjunto de documentos, cada tópico é explicado como uma
distribuição sobre as palavras em um vocabulário.
( ) Você pode usar Latent Dirichlet Allocation para reduzir a
dimensão dos dados de entrada para um algoritmo de
classificação de documentos de texto supervisionado.
 
BRA_DM_CD_01_Agrupamento 
Texto de Resposta Escolha(s) Correta(s)
V - V - V. X
F - V - V. 
V - V - F. 
V - F - V. 
IDENTIFICAÇÃO: 211593
PERGUNTA CATEGORIA
Sobre o algoritmo K Nearest Neighbors (KNN):
I - Executa mais computação na fase de treinamento do que
na fase de inferência.
II - Pode ser usado para problemas de classificação e para
regressão.
III - Pode ser usado para preencher valores faltantes na base
de dados para variáveis categóricas e também para variáveis
contínuas.
Sobre as afirmações acima:
 
BRA_DM_CD_02_Classificação 
Texto de Resposta Escolha(s) Correta(s)
I e II estão corretas. 
I e III estão corretas. 
II e III estão corretas. X
Todas estão corretas. 
IDENTIFICAÇÃO: 211592
PERGUNTA CATEGORIA
Dentre as diversas características do algoritmo Random
Forest, podemos destacar: 
BRA_DM_CD_02_Classificação 
Texto de Resposta Escolha(s) Correta(s)
As árvores são criadas de forma independentes o que o torna altamente paralelizável. X
Analisa todas as variáveis dependentes (atributos) em cada uma das quebras das árvores,
o que o torna um bom algoritmo para fazer seleção de atributos. 
Tem complexidade computacional maior que a de uma rede neural profunda e, por este
motivo, não é amplamente utilizada em dados não estruturados como as redes neurais
(Deep Learning).
 
Faz uma regressão logística por folha e, por este motivo, sempre apresenta melhores
resultados que uma simples árvore de decisão. 
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 3/8
IDENTIFICAÇÃO: 211591
PERGUNTA CATEGORIA
Sobre árvores de decisão, pode-se afirmar que: BRA_DM_CD_02_Classificação 
Texto de Resposta Escolha(s) Correta(s)
Pode-se calcular o erro quadrático médio para avaliar a performance da árvore de decisão
em situações onde a variável resposta é binária 
Modelos demasiadamente complexos são mais suscetíveis ao problema de overfitting, pois
correm o risco de “explicar” oscilações aleatórias. X
Não é possível aplicar esse método para estimar variáveis respostas contínuas 
Aplica-se a estatística qui-quadrado para determinar as melhores quebras (significativas)
da árvore quando a variável resposta é contínua 
IDENTIFICAÇÃO: 211590
PERGUNTA CATEGORIA
Qual das métricas abaixo não deve ser aplicada para avaliar
a qualidade do ajuste em uma regressão logística? 
BRA_DM_CD_02_Classificação 
Texto de Resposta Escolha(s) Correta(s)
KS 
ROC 
Logloss 
Erro Quadrático Médio X
IDENTIFICAÇÃO: 211589
PERGUNTA CATEGORIA
Sobre a máquina de vetores suporte (SVM) podemos
afirmar: 
BRA_DM_CD_02_Classificação 
Texto de Resposta Escolha(s) Correta(s)
O SVM separa os dados utilizando um hiperplano que minimiza a distância entre as
margens. 
Grandes valores atribuídos ao parâmetro de regularização C implica em aceitar maiores
margens e, consequentemente, maiores erros de classificação. 
O sucesso da execução do SVM depende do kernel escolhido, dos hiperparâmetros deste
kernel e do valor da variável C que controla a margem (soft/hard margin). X
Não é possível garantir aprendizado com o algoritmo SVM apesar deste apresentar bons
resultados no processo de validação cruzada. 
IDENTIFICAÇÃO: 211623
PERGUNTA CATEGORIA
Para um fiscal analisar se as garrafas de cerveja estão
saindo com 600 mL, ele retira aleatoriamente 25 garrafas da
linha de produção e, com um anemômetro (medidor de
volume) de alta precisão, verifica quantos mL têm em cada
garrafa. Usando os conceitos de teste de hipóteses, ele deve
considerar que sua amostra tem uma curva do tipo: 
BRA_DM_CD_03_Estatística Básica 
Texto de Resposta Escolha(s) Correta(s)
Logarítmica. 
Normal. 
Poisson 
T-student. X
IDENTIFICAÇÃO: 211622
PERGUNTA CATEGORIA
A figura ilustra o histograma de uma distribuição de
frequências. Entre os conjuntos apresentado na imagem, o
único que representa uma configuração plausível para os
valores da média, moda e mediana dessa distribuição,
respectivamente, é: 
BRA_DM_CD_03_Estatística Básica 
Texto de Resposta Escolha(s) Correta(s)
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 4/8
25, 16 e 17 X
16, 16 e 16 
25, 16 e 16 
20, 17 e 16 
IDENTIFICAÇÃO: 211621
PERGUNTA CATEGORIA
Em uma determinada clínica médica, prescreve-se
analgésico para 10% dos pacientes atendidos. No geral, 5%
de todos pacientes são viciados em algum tipo de droga
(incluindo analgésicos e substâncias ilegais). Dentre todas as
pessoas com prescrição de analgésico, 8% são viciadas. Qual
a probabilidade de se prescrever um analgésico para um
paciente viciado? 
BRA_DM_CD_03_Estatística Básica 
Texto de Resposta Escolha(s) Correta(s)
5% 
8% 
16% X
12% 
IDENTIFICAÇÃO: 211620PERGUNTA CATEGORIA
Em Estatística, as medidas centrais de uma variável aleatória
são bastante utilizadas para caracterizar uma população. As
mais conhecidas são média, moda e mediana. Assinale a
alternativa correta: 
BRA_DM_CD_03_Estatística Básica 
Texto de Resposta Escolha(s) Correta(s)
Quando os dados contêm outlier (observação atípica), a mediana é muito influenciada por
este valor e, nestes casos, a média é uma medida mais robusta. 
O conceito para a construção da mediana não leva em conta uma ordenação dos dados. 
Em distribuições assimétricas, a média e a mediana são diferentes e, quando a
concentração dos dados é em valores baixos, a média é maior. X
Em distribuições assimétricas a média e a mediana são próximas. 
IDENTIFICAÇÃO: 211619
PERGUNTA CATEGORIA
Em relação à amostragem aleatória simples, é INCORRETO
afirmar que: 
BRA_DM_CD_03_Estatística Básica 
Texto de Resposta Escolha(s) Correta(s)
Se os elementos da amostra são tomados com reposição, a variância da média amostral
não depende do tamanho da população. 
A média amostral é um estimador não viciado da média populacional em ambos os
procedimentos, com ou sem reposição dos elementos tomados da população. 
Para tamanho de amostra igual a 1 (um), a variância da média amostral é a mesma nos
procedimentos com e sem reposição dos elementos tomados da população. 
Para tamanho de amostra maior que um, a variância da média amostral é menor quando
os elementos da amostra são tomados com reposição do que quando os elementos da
amostra são tomados sem reposição.
 X
IDENTIFICAÇÃO: 211653
PERGUNTA CATEGORIA
Assinale a alternativa correta:
I - Apache Spark executa computação in-memory para
aumentar a velocidade do processamento de dados.
II - Resilient Distribution Datasets (ou RDDs) – são como
coleções de elementos, tolerantes à falhas que rodam em
paralelo. O dado no RDD é imutável.
III - Spark DataFrames são coleções de dados que,
diferentemente do RDD são mutáveis.
BRA_DM_CD_04_Proficiência de Dados 
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 5/8
Sobre as afirmações acima:
 
Texto de Resposta Escolha(s) Correta(s)
I e III estão corretas. 
I e II estão corretas. X
II e III estão corretas. 
Somente II está correta. 
IDENTIFICAÇÃO: 211652
PERGUNTA CATEGORIA
Indique a resposta que contém apenas as afirmações
corretas:
I - Uma chave primária deve ser utilizada quando queremos
identificar um registro de forma única e não nula.
II - Uma chave estrangeira pode fazer referência a uma
chave única de outra tabela.
III - Uma chave composta consiste necessariamente da
junção de uma chave primária e uma chave secundária.
IV - Uma chave primária pode referenciar mais de um
registro ao realizarmos uma consulta.
V - Uma chave estrangeira deve referenciar uma chave
primária de outra tabela.
VI - Uma chave composta permite a identificação de
registros de forma única por meio da junção de informações.
 
BRA_DM_CD_04_Proficiência de Dados 
Texto de Resposta Escolha(s) Correta(s)
I, II e V. 
I, II e VI. X
II, III e V. 
I, IV e V. 
IDENTIFICAÇÃO: 211651
PERGUNTA CATEGORIA
Qual das alternativas melhor representa, respectivamente, o
comportamento e o resultado da seguinte consulta: 
BRA_DM_CD_04_Proficiência de Dados 
Texto de Resposta Escolha(s) Correta(s)
A quantidade de linhas retornada pela subconsulta “agrupa” é 13; Resultado 39. 
A quantidade de linhas retornada pela subconsulta “consolida” é 13; Resultado 91. 
A quantidade de linhas retornada pela subconsulta “numSel” é 91; Resultado 36. 
A quantidade de linhas retornada pela subconsulta “consolida” é 91; Resultado 41. X
IDENTIFICAÇÃO: 211650
PERGUNTA CATEGORIA
Um experimento qualquer consistiu em coletar algumas
frutas e medir o seu peso. A tabela apresenta todas as
observações do experimento: 
BRA_DM_CD_04_Proficiência de Dados 
Texto de Resposta Escolha(s) Correta(s)
I X
II 
III 
IV 
IDENTIFICAÇÃO: 211649
PERGUNTA CATEGORIA
São exemplos de bancos de dados NoSQL: BRA_DM_CD_04_Proficiência de Dados 
Texto de Resposta Escolha(s) Correta(s)
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 6/8
MongoDB, Redis, Cassandra e HBase. X
Neo4j, MongoDB, CouchDB e Oracle DB. 
HBase, GemFire, MySQL e Cassandra. 
Oracle NoSQL, HBase, RDBMS e Neo4j. 
IDENTIFICAÇÃO: 211683
PERGUNTA CATEGORIA
Qual dos métodos abaixo é o método menos eficiente de
busca (Complexidade Computacional)? 
BRA_DM_CD_05_Programação 
Texto de Resposta Escolha(s) Correta(s)
Quick sort 
Bubble sort X
Merge sort 
Insert sort 
IDENTIFICAÇÃO: 211682
PERGUNTA CATEGORIA
Uma estrutura de dados em que o primeiro elemento
inserido seja o primeiro elemento a ser retirado é
denominada: 
BRA_DM_CD_05_Programação 
Texto de Resposta Escolha(s) Correta(s)
Pilha 
Matriz 
Fila X
Lista 
IDENTIFICAÇÃO: 211681
PERGUNTA CATEGORIA
São boas práticas de programação:
I - Comentários e refatoração.
II - Indentação.
III - Comentário e versionamento.
IV - Criação de classes, documentação, complexidade do
código.
V - Arquitetura, refatoração, limitação de caracteres por
linha. 
Quais das alternativas representa a opção verdadeira?
 
BRA_DM_CD_05_Programação 
Texto de Resposta Escolha(s) Correta(s)
I, II e IV. 
Apenas V. 
II e IV. 
I, II, III e V. X
IDENTIFICAÇÃO: 211680
PERGUNTA CATEGORIA
Com base no algoritmo apresentado na imagem, e supondo
que:
• A recebe o valor 3 na linha 03.
• B recebe o valor 10 na linha 04.
• C recebe o valor 1 na linha 05.
BRA_DM_CD_05_Programação 
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 7/8
Qual das alternativas demonstra de forma correta os valores
escritos na linha?
 
Texto de Resposta Escolha(s) Correta(s)
11, 9, 80. X
10, 8, 80. 
11, 9, 70. 
10, 8, 70. 
IDENTIFICAÇÃO: 211679
PERGUNTA CATEGORIA
O fluxo de trabalho de machine learning envolve, de forma
simplificada, diversas manipulações nos dados e a aplicação
de um estimador. A utilização de pipelines se torna
imprescindível para que o fluxo seja coerente e fácil de
entender, para que as etapas sejam seguidas na ordem
desejada e para garantir reprodutibilidade. Considere o
exemplo da utilização do método pipeline da biblioteca scikit-
learn para Python:
Qual alternativa abaixo possui os valores corretos para
(step1), (step2) e (step3), respectivamente, que sejam
coerentes com o fluxo de trabalho de machine learning?
 
BRA_DM_CD_05_Programação 
Texto de Resposta Escolha(s) Correta(s)
I 
II 
III X
IV 
IDENTIFICAÇÃO: 211583
PERGUNTA CATEGORIA
Qual das afirmações abaixo é verdadeira com relação à
regularização LASSO? 
BRA_DM_CD_06_Regressão 
Texto de Resposta Escolha(s) Correta(s)
A regularização LASSO inclui todas as features no modelo, já que não reduz os coeficientes
a zero. Assim, a principal vantagem de regressão com essa regularização é o encolhimento
dos coeficientes e redução de complexidade do modelo.
 
Além da redução dos coeficientes, a regularização LASSO também realiza seleção de
features. Como alguns dos coeficientes podem ser reduzidos a exatamente zero, isso é
equivalente a uma feature ser excluída do modelo.
 X
A regularização LASSO não é indicada quando existe um número grande de features, pois
como todas as features acabam entrando no modelo, existem desafios computacionais. 
Mais conhecida como regularização L2, conforme o termo alpha aumenta, mais complexo é
o modelo. 
IDENTIFICAÇÃO: 211582
PERGUNTA CATEGORIA
Considerando as 3 afirmações sobre como se aplica bagging
para regressão usando árvores, assinale a alternativa
correta:
I - Construímos N árvores de regressão, cada uma a partir
de N amostras obtidas por meio de bootstrapping
II - Em cada estágio da construção, introduzimos uma nova
árvore de regressão queé calculada com o objetivo de
compensar os problemas do modelo do passo anterior.
III - A resposta final é a média das respostas individuais de
cada uma das N árvores
 
BRA_DM_CD_06_Regressão 
Texto de Resposta Escolha(s) Correta(s)
Estão corretas I e III. X
Estão corretas II e III 
Está correta apenas a afirmação II. 
8/6/2021 Capacitando Pessoas: santander-learning
https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 8/8
Está correta apenas a afirmação I. 
IDENTIFICAÇÃO: 211581
PERGUNTA CATEGORIA
Deseja-se investigar se a venda de refrigerante (Y) por
semana é função da temperatura média (T) e da existência
de feriado (F) dentro da semana. Após ajustar um modelo de
regressão linear múltipla, obteve-se a seguinte saída
Qual das seguintes expressões representa o modelo
ajustado, considerando apenas as variáveis significantes
(nível de significância de 5%)? 
BRA_DM_CD_06_Regressão 
Texto de Resposta Escolha(s) Correta(s)
A única variável estatisticamente significante é a temperatura. O modelo pode ser
representado pela seguinte expressão: Y=0,08*T. 
As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser
representado pela seguinte expressão: Y=15,16+0,08*T-0,42*F. X
As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser
representado pela seguinte expressão: Y=0,08*T-0,42*F. 
A única variável estatisticamente significante é o feriado. O modelo pode ser representado
pela seguinte expressão: Y=15,16-0,42*F. 
IDENTIFICAÇÃO: 211580
PERGUNTA CATEGORIA
Dado um conjunto treinamento (x1, y1) . . . (xN, yN), em
que cada xi = (xi1, xi2, . . . , xip)T é um vetor de
características para o i-ésimo elemento. O que significa a
expressão a seguir? 
BRA_DM_CD_06_Regressão 
Texto de Resposta Escolha(s) Correta(s)
É a soma dos quadrados dos resíduos. X
É uma regressão polinomial. 
É a minimização da soma dos quadrados dos resíduos. 
É a função de custo de uma regressão Ridge. 
IDENTIFICAÇÃO: 211579
PERGUNTA CATEGORIA
Considerando o parâmetro λ da regressão Ridge, assinale a
alternativa correta: 
BRA_DM_CD_06_Regressão 
Texto de Resposta Escolha(s) Correta(s)
Quando λ aumenta, a variância diminui e o quadrado do viés também diminui. 
Quando λ aumenta, a variância aumenta e o quadrado do viés também aumenta. 
Quando λ aumenta, a variância aumenta e o quadrado do viés diminui 
Quando λ aumenta, a variância diminui e o quadrado do viés aumenta. X

Mais conteúdos dessa disciplina