Baixe o app para aproveitar ainda mais
Prévia do material em texto
8/6/2021 Capacitando Pessoas: santander-learning https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 1/8 Data Masters - Cientista de Dados - Simulado Perguntas e respostas IDENTIFICAÇÃO: 211533 PERGUNTA CATEGORIA Assinale a alternativa correta: I - Devido a sensibilidade a inicialização, os algoritmos hierárquicos single e complete linkage precisam ser executados múltiplas vezes. II - É possível identificar um outlier por meio do dendrograma pois estas observações são agrupadas nos nós mais próximos da raiz. III - O algoritmo Bisecting K-Means é um exemplo de algoritmo hierárquico do tipo top-down (divisivos). Sobre as afirmações acima: BRA_DM_CD_01_Agrupamento Texto de Resposta Escolha(s) Correta(s) I e II estão corretas. I e III estão corretas. II e III estão corretas. X Somente II está correta. IDENTIFICAÇÃO: 211532 PERGUNTA CATEGORIA Considerando as métricas utilizadas para mensurar a qualidade de um agrupamento: I - A silhueta (do inglês silhouette) considera as distâncias intra e inter cluster. II - O índice de Jaccard pode ser calculado como a divisão entre a intersecção e a união de dois grupos. III - O erro quadrático pode ser utilizado para estimar o número de clusters no algoritmo K-meansr: Sobre as afirmações acima, é correto afirmar: BRA_DM_CD_01_Agrupamento Texto de Resposta Escolha(s) Correta(s) I e II estão corretas I e III estão corretas Somente III está correta I, II e III estão corretas X IDENTIFICAÇÃO: 211531 PERGUNTA CATEGORIA Dada a matriz de similaridade apresentada na imagem e usando agrupamento hierárquico aglomerativo single linkage é esperado que na 2ª iteração tenhamos os seguintes conjuntos formados: BRA_DM_CD_01_Agrupamento Texto de Resposta Escolha(s) Correta(s) { {a} , {b} , {c,e} , {d} , {f,g} } { {a,b} , {c,e} , {d} , {f} , {g} } X { {a,b} , {c} , {d,e} , {f} , {g} } { {a} , {b,c} , {d,g} , {e} , {f} } IDENTIFICAÇÃO: 211530 PERGUNTA CATEGORIA A complexidade computacional do algoritmo K-Means em que: i é o número de iterações, k o número de grupos, n o número de elementos e N a dimensão dos dados, é: BRA_DM_CD_01_Agrupamento Texto de Resposta Escolha(s) Correta(s) O( i.k.n.N ). X 8/6/2021 Capacitando Pessoas: santander-learning https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 2/8 O( i².k.n.N ). O( i.k.n ). O( i.k.n^N ). IDENTIFICAÇÃO: 211529 PERGUNTA CATEGORIA Sobre a tarefa de machine learning chamada de “Topic Modeling”, marque as afirmações abaixo com V, se verdadeiras, ou F, se falsas: ( ) Ao aplicar a técnica Latent Dirichlet Allocation para encontrar os tópicos de um conjunto de documentos de texto, cada documento poderá ser visto como uma mistura de vários tópicos. ( ) Ao aplicar a técnica Latent Dirichlet Allocation em um conjunto de documentos, cada tópico é explicado como uma distribuição sobre as palavras em um vocabulário. ( ) Você pode usar Latent Dirichlet Allocation para reduzir a dimensão dos dados de entrada para um algoritmo de classificação de documentos de texto supervisionado. BRA_DM_CD_01_Agrupamento Texto de Resposta Escolha(s) Correta(s) V - V - V. X F - V - V. V - V - F. V - F - V. IDENTIFICAÇÃO: 211593 PERGUNTA CATEGORIA Sobre o algoritmo K Nearest Neighbors (KNN): I - Executa mais computação na fase de treinamento do que na fase de inferência. II - Pode ser usado para problemas de classificação e para regressão. III - Pode ser usado para preencher valores faltantes na base de dados para variáveis categóricas e também para variáveis contínuas. Sobre as afirmações acima: BRA_DM_CD_02_Classificação Texto de Resposta Escolha(s) Correta(s) I e II estão corretas. I e III estão corretas. II e III estão corretas. X Todas estão corretas. IDENTIFICAÇÃO: 211592 PERGUNTA CATEGORIA Dentre as diversas características do algoritmo Random Forest, podemos destacar: BRA_DM_CD_02_Classificação Texto de Resposta Escolha(s) Correta(s) As árvores são criadas de forma independentes o que o torna altamente paralelizável. X Analisa todas as variáveis dependentes (atributos) em cada uma das quebras das árvores, o que o torna um bom algoritmo para fazer seleção de atributos. Tem complexidade computacional maior que a de uma rede neural profunda e, por este motivo, não é amplamente utilizada em dados não estruturados como as redes neurais (Deep Learning). Faz uma regressão logística por folha e, por este motivo, sempre apresenta melhores resultados que uma simples árvore de decisão. 8/6/2021 Capacitando Pessoas: santander-learning https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 3/8 IDENTIFICAÇÃO: 211591 PERGUNTA CATEGORIA Sobre árvores de decisão, pode-se afirmar que: BRA_DM_CD_02_Classificação Texto de Resposta Escolha(s) Correta(s) Pode-se calcular o erro quadrático médio para avaliar a performance da árvore de decisão em situações onde a variável resposta é binária Modelos demasiadamente complexos são mais suscetíveis ao problema de overfitting, pois correm o risco de “explicar” oscilações aleatórias. X Não é possível aplicar esse método para estimar variáveis respostas contínuas Aplica-se a estatística qui-quadrado para determinar as melhores quebras (significativas) da árvore quando a variável resposta é contínua IDENTIFICAÇÃO: 211590 PERGUNTA CATEGORIA Qual das métricas abaixo não deve ser aplicada para avaliar a qualidade do ajuste em uma regressão logística? BRA_DM_CD_02_Classificação Texto de Resposta Escolha(s) Correta(s) KS ROC Logloss Erro Quadrático Médio X IDENTIFICAÇÃO: 211589 PERGUNTA CATEGORIA Sobre a máquina de vetores suporte (SVM) podemos afirmar: BRA_DM_CD_02_Classificação Texto de Resposta Escolha(s) Correta(s) O SVM separa os dados utilizando um hiperplano que minimiza a distância entre as margens. Grandes valores atribuídos ao parâmetro de regularização C implica em aceitar maiores margens e, consequentemente, maiores erros de classificação. O sucesso da execução do SVM depende do kernel escolhido, dos hiperparâmetros deste kernel e do valor da variável C que controla a margem (soft/hard margin). X Não é possível garantir aprendizado com o algoritmo SVM apesar deste apresentar bons resultados no processo de validação cruzada. IDENTIFICAÇÃO: 211623 PERGUNTA CATEGORIA Para um fiscal analisar se as garrafas de cerveja estão saindo com 600 mL, ele retira aleatoriamente 25 garrafas da linha de produção e, com um anemômetro (medidor de volume) de alta precisão, verifica quantos mL têm em cada garrafa. Usando os conceitos de teste de hipóteses, ele deve considerar que sua amostra tem uma curva do tipo: BRA_DM_CD_03_Estatística Básica Texto de Resposta Escolha(s) Correta(s) Logarítmica. Normal. Poisson T-student. X IDENTIFICAÇÃO: 211622 PERGUNTA CATEGORIA A figura ilustra o histograma de uma distribuição de frequências. Entre os conjuntos apresentado na imagem, o único que representa uma configuração plausível para os valores da média, moda e mediana dessa distribuição, respectivamente, é: BRA_DM_CD_03_Estatística Básica Texto de Resposta Escolha(s) Correta(s) 8/6/2021 Capacitando Pessoas: santander-learning https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 4/8 25, 16 e 17 X 16, 16 e 16 25, 16 e 16 20, 17 e 16 IDENTIFICAÇÃO: 211621 PERGUNTA CATEGORIA Em uma determinada clínica médica, prescreve-se analgésico para 10% dos pacientes atendidos. No geral, 5% de todos pacientes são viciados em algum tipo de droga (incluindo analgésicos e substâncias ilegais). Dentre todas as pessoas com prescrição de analgésico, 8% são viciadas. Qual a probabilidade de se prescrever um analgésico para um paciente viciado? BRA_DM_CD_03_Estatística Básica Texto de Resposta Escolha(s) Correta(s) 5% 8% 16% X 12% IDENTIFICAÇÃO: 211620PERGUNTA CATEGORIA Em Estatística, as medidas centrais de uma variável aleatória são bastante utilizadas para caracterizar uma população. As mais conhecidas são média, moda e mediana. Assinale a alternativa correta: BRA_DM_CD_03_Estatística Básica Texto de Resposta Escolha(s) Correta(s) Quando os dados contêm outlier (observação atípica), a mediana é muito influenciada por este valor e, nestes casos, a média é uma medida mais robusta. O conceito para a construção da mediana não leva em conta uma ordenação dos dados. Em distribuições assimétricas, a média e a mediana são diferentes e, quando a concentração dos dados é em valores baixos, a média é maior. X Em distribuições assimétricas a média e a mediana são próximas. IDENTIFICAÇÃO: 211619 PERGUNTA CATEGORIA Em relação à amostragem aleatória simples, é INCORRETO afirmar que: BRA_DM_CD_03_Estatística Básica Texto de Resposta Escolha(s) Correta(s) Se os elementos da amostra são tomados com reposição, a variância da média amostral não depende do tamanho da população. A média amostral é um estimador não viciado da média populacional em ambos os procedimentos, com ou sem reposição dos elementos tomados da população. Para tamanho de amostra igual a 1 (um), a variância da média amostral é a mesma nos procedimentos com e sem reposição dos elementos tomados da população. Para tamanho de amostra maior que um, a variância da média amostral é menor quando os elementos da amostra são tomados com reposição do que quando os elementos da amostra são tomados sem reposição. X IDENTIFICAÇÃO: 211653 PERGUNTA CATEGORIA Assinale a alternativa correta: I - Apache Spark executa computação in-memory para aumentar a velocidade do processamento de dados. II - Resilient Distribution Datasets (ou RDDs) – são como coleções de elementos, tolerantes à falhas que rodam em paralelo. O dado no RDD é imutável. III - Spark DataFrames são coleções de dados que, diferentemente do RDD são mutáveis. BRA_DM_CD_04_Proficiência de Dados 8/6/2021 Capacitando Pessoas: santander-learning https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 5/8 Sobre as afirmações acima: Texto de Resposta Escolha(s) Correta(s) I e III estão corretas. I e II estão corretas. X II e III estão corretas. Somente II está correta. IDENTIFICAÇÃO: 211652 PERGUNTA CATEGORIA Indique a resposta que contém apenas as afirmações corretas: I - Uma chave primária deve ser utilizada quando queremos identificar um registro de forma única e não nula. II - Uma chave estrangeira pode fazer referência a uma chave única de outra tabela. III - Uma chave composta consiste necessariamente da junção de uma chave primária e uma chave secundária. IV - Uma chave primária pode referenciar mais de um registro ao realizarmos uma consulta. V - Uma chave estrangeira deve referenciar uma chave primária de outra tabela. VI - Uma chave composta permite a identificação de registros de forma única por meio da junção de informações. BRA_DM_CD_04_Proficiência de Dados Texto de Resposta Escolha(s) Correta(s) I, II e V. I, II e VI. X II, III e V. I, IV e V. IDENTIFICAÇÃO: 211651 PERGUNTA CATEGORIA Qual das alternativas melhor representa, respectivamente, o comportamento e o resultado da seguinte consulta: BRA_DM_CD_04_Proficiência de Dados Texto de Resposta Escolha(s) Correta(s) A quantidade de linhas retornada pela subconsulta “agrupa” é 13; Resultado 39. A quantidade de linhas retornada pela subconsulta “consolida” é 13; Resultado 91. A quantidade de linhas retornada pela subconsulta “numSel” é 91; Resultado 36. A quantidade de linhas retornada pela subconsulta “consolida” é 91; Resultado 41. X IDENTIFICAÇÃO: 211650 PERGUNTA CATEGORIA Um experimento qualquer consistiu em coletar algumas frutas e medir o seu peso. A tabela apresenta todas as observações do experimento: BRA_DM_CD_04_Proficiência de Dados Texto de Resposta Escolha(s) Correta(s) I X II III IV IDENTIFICAÇÃO: 211649 PERGUNTA CATEGORIA São exemplos de bancos de dados NoSQL: BRA_DM_CD_04_Proficiência de Dados Texto de Resposta Escolha(s) Correta(s) 8/6/2021 Capacitando Pessoas: santander-learning https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 6/8 MongoDB, Redis, Cassandra e HBase. X Neo4j, MongoDB, CouchDB e Oracle DB. HBase, GemFire, MySQL e Cassandra. Oracle NoSQL, HBase, RDBMS e Neo4j. IDENTIFICAÇÃO: 211683 PERGUNTA CATEGORIA Qual dos métodos abaixo é o método menos eficiente de busca (Complexidade Computacional)? BRA_DM_CD_05_Programação Texto de Resposta Escolha(s) Correta(s) Quick sort Bubble sort X Merge sort Insert sort IDENTIFICAÇÃO: 211682 PERGUNTA CATEGORIA Uma estrutura de dados em que o primeiro elemento inserido seja o primeiro elemento a ser retirado é denominada: BRA_DM_CD_05_Programação Texto de Resposta Escolha(s) Correta(s) Pilha Matriz Fila X Lista IDENTIFICAÇÃO: 211681 PERGUNTA CATEGORIA São boas práticas de programação: I - Comentários e refatoração. II - Indentação. III - Comentário e versionamento. IV - Criação de classes, documentação, complexidade do código. V - Arquitetura, refatoração, limitação de caracteres por linha. Quais das alternativas representa a opção verdadeira? BRA_DM_CD_05_Programação Texto de Resposta Escolha(s) Correta(s) I, II e IV. Apenas V. II e IV. I, II, III e V. X IDENTIFICAÇÃO: 211680 PERGUNTA CATEGORIA Com base no algoritmo apresentado na imagem, e supondo que: • A recebe o valor 3 na linha 03. • B recebe o valor 10 na linha 04. • C recebe o valor 1 na linha 05. BRA_DM_CD_05_Programação 8/6/2021 Capacitando Pessoas: santander-learning https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 7/8 Qual das alternativas demonstra de forma correta os valores escritos na linha? Texto de Resposta Escolha(s) Correta(s) 11, 9, 80. X 10, 8, 80. 11, 9, 70. 10, 8, 70. IDENTIFICAÇÃO: 211679 PERGUNTA CATEGORIA O fluxo de trabalho de machine learning envolve, de forma simplificada, diversas manipulações nos dados e a aplicação de um estimador. A utilização de pipelines se torna imprescindível para que o fluxo seja coerente e fácil de entender, para que as etapas sejam seguidas na ordem desejada e para garantir reprodutibilidade. Considere o exemplo da utilização do método pipeline da biblioteca scikit- learn para Python: Qual alternativa abaixo possui os valores corretos para (step1), (step2) e (step3), respectivamente, que sejam coerentes com o fluxo de trabalho de machine learning? BRA_DM_CD_05_Programação Texto de Resposta Escolha(s) Correta(s) I II III X IV IDENTIFICAÇÃO: 211583 PERGUNTA CATEGORIA Qual das afirmações abaixo é verdadeira com relação à regularização LASSO? BRA_DM_CD_06_Regressão Texto de Resposta Escolha(s) Correta(s) A regularização LASSO inclui todas as features no modelo, já que não reduz os coeficientes a zero. Assim, a principal vantagem de regressão com essa regularização é o encolhimento dos coeficientes e redução de complexidade do modelo. Além da redução dos coeficientes, a regularização LASSO também realiza seleção de features. Como alguns dos coeficientes podem ser reduzidos a exatamente zero, isso é equivalente a uma feature ser excluída do modelo. X A regularização LASSO não é indicada quando existe um número grande de features, pois como todas as features acabam entrando no modelo, existem desafios computacionais. Mais conhecida como regularização L2, conforme o termo alpha aumenta, mais complexo é o modelo. IDENTIFICAÇÃO: 211582 PERGUNTA CATEGORIA Considerando as 3 afirmações sobre como se aplica bagging para regressão usando árvores, assinale a alternativa correta: I - Construímos N árvores de regressão, cada uma a partir de N amostras obtidas por meio de bootstrapping II - Em cada estágio da construção, introduzimos uma nova árvore de regressão queé calculada com o objetivo de compensar os problemas do modelo do passo anterior. III - A resposta final é a média das respostas individuais de cada uma das N árvores BRA_DM_CD_06_Regressão Texto de Resposta Escolha(s) Correta(s) Estão corretas I e III. X Estão corretas II e III Está correta apenas a afirmação II. 8/6/2021 Capacitando Pessoas: santander-learning https://santander-learning.csod.com/reports/TestQuestionsAnswers.aspx?test=d98cfebc-2f9f-4327-b775-52af8fb31459 8/8 Está correta apenas a afirmação I. IDENTIFICAÇÃO: 211581 PERGUNTA CATEGORIA Deseja-se investigar se a venda de refrigerante (Y) por semana é função da temperatura média (T) e da existência de feriado (F) dentro da semana. Após ajustar um modelo de regressão linear múltipla, obteve-se a seguinte saída Qual das seguintes expressões representa o modelo ajustado, considerando apenas as variáveis significantes (nível de significância de 5%)? BRA_DM_CD_06_Regressão Texto de Resposta Escolha(s) Correta(s) A única variável estatisticamente significante é a temperatura. O modelo pode ser representado pela seguinte expressão: Y=0,08*T. As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser representado pela seguinte expressão: Y=15,16+0,08*T-0,42*F. X As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser representado pela seguinte expressão: Y=0,08*T-0,42*F. A única variável estatisticamente significante é o feriado. O modelo pode ser representado pela seguinte expressão: Y=15,16-0,42*F. IDENTIFICAÇÃO: 211580 PERGUNTA CATEGORIA Dado um conjunto treinamento (x1, y1) . . . (xN, yN), em que cada xi = (xi1, xi2, . . . , xip)T é um vetor de características para o i-ésimo elemento. O que significa a expressão a seguir? BRA_DM_CD_06_Regressão Texto de Resposta Escolha(s) Correta(s) É a soma dos quadrados dos resíduos. X É uma regressão polinomial. É a minimização da soma dos quadrados dos resíduos. É a função de custo de uma regressão Ridge. IDENTIFICAÇÃO: 211579 PERGUNTA CATEGORIA Considerando o parâmetro λ da regressão Ridge, assinale a alternativa correta: BRA_DM_CD_06_Regressão Texto de Resposta Escolha(s) Correta(s) Quando λ aumenta, a variância diminui e o quadrado do viés também diminui. Quando λ aumenta, a variância aumenta e o quadrado do viés também aumenta. Quando λ aumenta, a variância aumenta e o quadrado do viés diminui Quando λ aumenta, a variância diminui e o quadrado do viés aumenta. X
Compartilhar