Cientista de Dados_Simulado_Gabarito

UAM

Sara Jus

em 09/12/2022

Questões resolvidas

Assinale a alternativa correta: I - Devido a sensibilidade a inicialização, os algoritmos hierárquicos single e complete linkage precisam ser executados múltiplas vezes. II - É possível identificar um outlier por meio do dendrograma pois estas observações são agrupadas nos nós mais próximos da raiz. III - O algoritmo Bisecting K-Means é um exemplo de algoritmo hierárquico do tipo top-down (divisivos). Sobre as afirmacoes acima:
I e II estão corretas.
I e III estão corretas.
II e III estão corretas.
Somente II está correta.

Considerando as métricas utilizadas para mensurar a qualidade de um agrupamento: I - A silhueta (do inglês silhouette) considera as distâncias intra e inter cluster. II - O índice de Jaccard pode ser calculado como a divisão entre a intersecção e a união de dois grupos. III - O erro quadrático pode ser utilizado para estimar o número de clusters no algoritmo K-meansr: Sobre as afirmações acima, é correto afirmar:
I e II estão corretas
I e III estão corretas
Somente III está correta
I, II e III estão corretas

A complexidade computacional do algoritmo K-Means em que: i é o número de iterações, k o número de grupos, n o número de elementos e N a dimensão dos dados, é:
O( i.k.n.N ).
O( i².k.n.N ).
O( i.k.n ).
O( i.k.n^N ).

Sobre a tarefa de machine learning chamada de “Topic Modeling”, marque as afirmações abaixo com V, se verdadeiras, ou F, se falsas: ( ) Ao aplicar a técnica Latent Dirichlet Allocation para encontrar os tópicos de um conjunto de documentos de texto, cada documento poderá ser visto como uma mistura de vários tópicos. ( ) Ao aplicar a técnica Latent Dirichlet Allocation em um conjunto de documentos, cada tópico é explicado como uma distribuição sobre as palavras em um vocabulário. ( ) Você pode usar Latent Dirichlet Allocation para reduzir a dimensão dos dados de entrada para um algoritmo de classificação de documentos de texto supervisionado.
V - V - V.
F - V - V.
V - V - F.
V - F - V.

Sobre o algoritmo K Nearest Neighbors (KNN): I - Executa mais computação na fase de treinamento do que na fase de inferência. II - Pode ser usado para problemas de classificação e para regressão. III - Pode ser usado para preencher valores faltantes na base de dados para variáveis categóricas e também para variáveis contínuas. Sobre as afirmações acima:
I e II estão corretas.
I e III estão corretas.
II e III estão corretas.
Todas estão corretas.

Sobre árvores de decisão, pode-se afirmar que:
Pode-se calcular o erro quadrático médio para avaliar a performance da árvore de decisão em situações onde a variável resposta é binária
Modelos demasiadamente complexos são mais suscetíveis ao problema de overfitting, pois correm o risco de “explicar” oscilações aleatórias.
Não é possível aplicar esse método para estimar variáveis respostas contínuas
Aplica-se a estatística qui-quadrado para determinar as melhores quebras (significativas) da árvore quando a variável resposta é contínua

Qual das métricas abaixo não deve ser aplicada para avaliar a qualidade do ajuste em uma regressão logística?
KS
ROC
Logloss
Erro Quadrático Médio

Sobre a máquina de vetores suporte (SVM) podemos afirmar:
O SVM separa os dados utilizando um hiperplano que minimiza a distância entre as margens.
Grandes valores atribuídos ao parâmetro de regularização C implica em aceitar maiores margens e, consequentemente, maiores erros de classificação.
O sucesso da execução do SVM depende do kernel escolhido, dos hiperparâmetros deste kernel e do valor da variável C que controla a margem (soft/hard margin).
Não é possível garantir aprendizado com o algoritmo SVM apesar deste apresentar bons resultados no processo de validação cruzada.

Para um fiscal analisar se as garrafas de cerveja estão saindo com 600 mL, ele retira aleatoriamente 25 garrafas da linha de produção e, com um anemômetro (medidor de volume) de alta precisão, verifica quantos mL têm em cada garrafa. Usando os conceitos de teste de hipóteses, ele deve considerar que sua amostra tem uma curva do tipo:
Logarítmica.
Normal.
Poisson
T-student.

Em Estatística, as medidas centrais de uma variável aleatória são bastante utilizadas para caracterizar uma população. As mais conhecidas são média, moda e mediana. Assinale a alternativa correta:
Quando os dados contêm outlier (observação atípica), a mediana é muito influenciada por este valor e, nestes casos, a média é uma medida mais robusta.
O conceito para a construção da mediana não leva em conta uma ordenação dos dados.
Em distribuições assimétricas, a média e a mediana são diferentes e, quando a concentração dos dados é em valores baixos, a média é maior.
Em distribuições assimétricas a média e a mediana são próximas.

Em relação à amostragem aleatória simples, é INCORRETO afirmar que:
Se os elementos da amostra são tomados com reposição, a variância da média amostral não depende do tamanho da população.
A média amostral é um estimador não viciado da média populacional em ambos os procedimentos, com ou sem reposição dos elementos tomados da população.
Para tamanho de amostra igual a 1 (um), a variância da média amostral é a mesma nos procedimentos com e sem reposição dos elementos tomados da população.
Para tamanho de amostra maior que um, a variância da média amostral é menor quando os elementos da amostra são tomados com reposição do que quando os elementos da amostra são tomados sem reposição.

Assinale a alternativa correta: I - Apache Spark executa computação in-memory para aumentar a velocidade do processamento de dados. II - Resilient Distribution Datasets (ou RDDs) – são como coleções de elementos, tolerantes à falhas que rodam em paralelo. O dado no RDD é imutável. III - Spark DataFrames são coleções de dados que, diferentemente do RDD são mutáveis. Sobre as afirmações acima:
I e III estão corretas.
I e II estão corretas.
II e III estão corretas.
Somente II está correta.

Indique a resposta que contém apenas as afirmações corretas: I - Uma chave primária deve ser utilizada quando queremos identificar um registro de forma única e não nula. II - Uma chave estrangeira pode fazer referência a uma chave única de outra tabela. III - Uma chave composta consiste necessariamente da junção de uma chave primária e uma chave secundária. IV - Uma chave primária pode referenciar mais de um registro ao realizarmos uma consulta. V - Uma chave estrangeira deve referenciar uma chave primária de outra tabela. VI - Uma chave composta permite a identificação de registros de forma única por meio da junção de informações.
I, II e V.
I, II e VI.
II, III e V.
I, IV e V.

Uma estrutura de dados em que o primeiro elemento inserido seja o primeiro elemento a ser retirado é denominada:
Pilha
Matriz
Fila
Lista

São boas práticas de programação: I - Comentários e refatoração. II - Indentação. III - Comentário e versionamento. IV - Criação de classes, documentação, complexidade do código. V - Arquitetura, refatoração, limitação de caracteres por linha. Quais das alternativas representa a opção verdadeira?
I, II e IV.
Apenas V.
II e IV.
I, II, III e V.

Considerando as 3 afirmações sobre como se aplica bagging para regressão usando árvores, assinale a alternativa correta:
I - Construímos N árvores de regressão, cada uma a partir de N amostras obtidas por meio de bootstrapping.
II - Em cada estágio da construção, introduzimos uma nova árvore de regressão que é calculada com o objetivo de compensar os problemas do modelo do passo anterior.
III - A resposta final é a média das respostas individuais de cada uma das N árvores.
Estão corretas I e III.
Estão corretas II e III.
Está correta apenas a afirmação II.
Está correta apenas a afirmação I.

Deseja-se investigar se a venda de refrigerante (Y) por semana é função da temperatura média (T) e da existência de feriado (F) dentro da semana. Após ajustar um modelo de regressão linear múltipla, obteve-se a seguinte saída.
Qual das seguintes expressões representa o modelo ajustado, considerando apenas as variáveis significantes (nível de significância de 5%)?
A única variável estatisticamente significante é a temperatura. O modelo pode ser representado pela seguinte expressão: Y=0,08T.
As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser representado pela seguinte expressão: Y=15,16+0,08T-0,42F.
As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser representado pela seguinte expressão: Y=0,08T-0,42F.
A única variável estatisticamente significante é o feriado. O modelo pode ser representado pela seguinte expressão: Y=15,16-0,42F.

Dado um conjunto treinamento (x1, y1) . . . (xN, yN), em que cada xi = (xi1, xi2, . . . , xip)T é um vetor de características para o i-ésimo elemento.
O que significa a expressão a seguir?
É a soma dos quadrados dos resíduos.
É uma regressão polinomial.
É a minimização da soma dos quadrados dos resíduos.
É a função de custo de uma regressão Ridge.

Considerando o parâmetro λ da regressão Ridge, assinale a alternativa correta:
Quando λ aumenta, a variância diminui e o quadrado do viés também diminui.
Quando λ aumenta, a variância aumenta e o quadrado do viés também aumenta.
Quando λ aumenta, a variância aumenta e o quadrado do viés diminui.
Quando λ aumenta, a variância diminui e o quadrado do viés aumenta.

Conteúdos escolhidos para você

62 pág.

16-Métodos Matemáticos - Exercicios

AMPLI

27 pág.

Compilado fundamentos em Data science 1-3

UNINASSAU RECIFE

42 pág.

Exercícios 1 Bioestatistica 002

18 pág.

exercicios e prova de metodos matematicos

AMPLI

25 pág.

Tipos de Amostragem em Bioestatística

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

UNILAVRAS

Questão 10/10 - ENSINO DE ESTATÍSTICA E TRATAMENTO DA INFORMAÇÃO NA EDUCAÇÃO BÁSICA Ler em voz alta Considere o excerto de texto a seguir: “As medidas

4) Em muitos problemas de engenharia e ciências aplicadas, os dados disponíveis são obtidos de experimentos ou tabelas numéricas. Para realizar previs

UNOPAR

59:53 Progresso:0/5 60 minutos QUESTIONÁRIO 03 – CONTROLE DE QUALIDADE 1 É uma técnica utilizada para gerar ideias e soluções criativas para um determ

IFNMG

Sobre os conceitos fundamentais em estatistica, considere as seguintes afirmações e julgue os itens em VERDADEIRO (V) ou FALSO (F). ( ) Consideran...

Unyleia

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Assinale a alternativa correta: I - Devido a sensibilidade a inicialização, os algoritmos hierárquicos single e complete linkage precisam ser executados múltiplas vezes. II - É possível identificar um outlier por meio do dendrograma pois estas observações são agrupadas nos nós mais próximos da raiz. III - O algoritmo Bisecting K-Means é um exemplo de algoritmo hierárquico do tipo top-down (divisivos). Sobre as afirmacoes acima:
I e II estão corretas.
I e III estão corretas.
II e III estão corretas.
Somente II está correta.

Considerando as métricas utilizadas para mensurar a qualidade de um agrupamento: I - A silhueta (do inglês silhouette) considera as distâncias intra e inter cluster. II - O índice de Jaccard pode ser calculado como a divisão entre a intersecção e a união de dois grupos. III - O erro quadrático pode ser utilizado para estimar o número de clusters no algoritmo K-meansr: Sobre as afirmações acima, é correto afirmar:
I e II estão corretas
I e III estão corretas
Somente III está correta
I, II e III estão corretas

A complexidade computacional do algoritmo K-Means em que: i é o número de iterações, k o número de grupos, n o número de elementos e N a dimensão dos dados, é:
O( i.k.n.N ).
O( i².k.n.N ).
O( i.k.n ).
O( i.k.n^N ).

Sobre a tarefa de machine learning chamada de “Topic Modeling”, marque as afirmações abaixo com V, se verdadeiras, ou F, se falsas: ( ) Ao aplicar a técnica Latent Dirichlet Allocation para encontrar os tópicos de um conjunto de documentos de texto, cada documento poderá ser visto como uma mistura de vários tópicos. ( ) Ao aplicar a técnica Latent Dirichlet Allocation em um conjunto de documentos, cada tópico é explicado como uma distribuição sobre as palavras em um vocabulário. ( ) Você pode usar Latent Dirichlet Allocation para reduzir a dimensão dos dados de entrada para um algoritmo de classificação de documentos de texto supervisionado.
V - V - V.
F - V - V.
V - V - F.
V - F - V.

Sobre o algoritmo K Nearest Neighbors (KNN): I - Executa mais computação na fase de treinamento do que na fase de inferência. II - Pode ser usado para problemas de classificação e para regressão. III - Pode ser usado para preencher valores faltantes na base de dados para variáveis categóricas e também para variáveis contínuas. Sobre as afirmações acima:
I e II estão corretas.
I e III estão corretas.
II e III estão corretas.
Todas estão corretas.

Sobre árvores de decisão, pode-se afirmar que:
Pode-se calcular o erro quadrático médio para avaliar a performance da árvore de decisão em situações onde a variável resposta é binária
Modelos demasiadamente complexos são mais suscetíveis ao problema de overfitting, pois correm o risco de “explicar” oscilações aleatórias.
Não é possível aplicar esse método para estimar variáveis respostas contínuas
Aplica-se a estatística qui-quadrado para determinar as melhores quebras (significativas) da árvore quando a variável resposta é contínua

Qual das métricas abaixo não deve ser aplicada para avaliar a qualidade do ajuste em uma regressão logística?
KS
ROC
Logloss
Erro Quadrático Médio

Sobre a máquina de vetores suporte (SVM) podemos afirmar:
O SVM separa os dados utilizando um hiperplano que minimiza a distância entre as margens.
Grandes valores atribuídos ao parâmetro de regularização C implica em aceitar maiores margens e, consequentemente, maiores erros de classificação.
O sucesso da execução do SVM depende do kernel escolhido, dos hiperparâmetros deste kernel e do valor da variável C que controla a margem (soft/hard margin).
Não é possível garantir aprendizado com o algoritmo SVM apesar deste apresentar bons resultados no processo de validação cruzada.

Para um fiscal analisar se as garrafas de cerveja estão saindo com 600 mL, ele retira aleatoriamente 25 garrafas da linha de produção e, com um anemômetro (medidor de volume) de alta precisão, verifica quantos mL têm em cada garrafa. Usando os conceitos de teste de hipóteses, ele deve considerar que sua amostra tem uma curva do tipo:
Logarítmica.
Normal.
Poisson
T-student.

Em Estatística, as medidas centrais de uma variável aleatória são bastante utilizadas para caracterizar uma população. As mais conhecidas são média, moda e mediana. Assinale a alternativa correta:
Quando os dados contêm outlier (observação atípica), a mediana é muito influenciada por este valor e, nestes casos, a média é uma medida mais robusta.
O conceito para a construção da mediana não leva em conta uma ordenação dos dados.
Em distribuições assimétricas, a média e a mediana são diferentes e, quando a concentração dos dados é em valores baixos, a média é maior.
Em distribuições assimétricas a média e a mediana são próximas.

Em relação à amostragem aleatória simples, é INCORRETO afirmar que:
Se os elementos da amostra são tomados com reposição, a variância da média amostral não depende do tamanho da população.
A média amostral é um estimador não viciado da média populacional em ambos os procedimentos, com ou sem reposição dos elementos tomados da população.
Para tamanho de amostra igual a 1 (um), a variância da média amostral é a mesma nos procedimentos com e sem reposição dos elementos tomados da população.
Para tamanho de amostra maior que um, a variância da média amostral é menor quando os elementos da amostra são tomados com reposição do que quando os elementos da amostra são tomados sem reposição.

Assinale a alternativa correta: I - Apache Spark executa computação in-memory para aumentar a velocidade do processamento de dados. II - Resilient Distribution Datasets (ou RDDs) – são como coleções de elementos, tolerantes à falhas que rodam em paralelo. O dado no RDD é imutável. III - Spark DataFrames são coleções de dados que, diferentemente do RDD são mutáveis. Sobre as afirmações acima:
I e III estão corretas.
I e II estão corretas.
II e III estão corretas.
Somente II está correta.

Indique a resposta que contém apenas as afirmações corretas: I - Uma chave primária deve ser utilizada quando queremos identificar um registro de forma única e não nula. II - Uma chave estrangeira pode fazer referência a uma chave única de outra tabela. III - Uma chave composta consiste necessariamente da junção de uma chave primária e uma chave secundária. IV - Uma chave primária pode referenciar mais de um registro ao realizarmos uma consulta. V - Uma chave estrangeira deve referenciar uma chave primária de outra tabela. VI - Uma chave composta permite a identificação de registros de forma única por meio da junção de informações.
I, II e V.
I, II e VI.
II, III e V.
I, IV e V.

Uma estrutura de dados em que o primeiro elemento inserido seja o primeiro elemento a ser retirado é denominada:
Pilha
Matriz
Fila
Lista

São boas práticas de programação: I - Comentários e refatoração. II - Indentação. III - Comentário e versionamento. IV - Criação de classes, documentação, complexidade do código. V - Arquitetura, refatoração, limitação de caracteres por linha. Quais das alternativas representa a opção verdadeira?
I, II e IV.
Apenas V.
II e IV.
I, II, III e V.

Considerando as 3 afirmações sobre como se aplica bagging para regressão usando árvores, assinale a alternativa correta:
I - Construímos N árvores de regressão, cada uma a partir de N amostras obtidas por meio de bootstrapping.
II - Em cada estágio da construção, introduzimos uma nova árvore de regressão que é calculada com o objetivo de compensar os problemas do modelo do passo anterior.
III - A resposta final é a média das respostas individuais de cada uma das N árvores.
Estão corretas I e III.
Estão corretas II e III.
Está correta apenas a afirmação II.
Está correta apenas a afirmação I.

Deseja-se investigar se a venda de refrigerante (Y) por semana é função da temperatura média (T) e da existência de feriado (F) dentro da semana. Após ajustar um modelo de regressão linear múltipla, obteve-se a seguinte saída.
Qual das seguintes expressões representa o modelo ajustado, considerando apenas as variáveis significantes (nível de significância de 5%)?
A única variável estatisticamente significante é a temperatura. O modelo pode ser representado pela seguinte expressão: Y=0,08T.
As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser representado pela seguinte expressão: Y=15,16+0,08T-0,42F.
As variáveis estatisticamente significantes são temperatura e feriado. O modelo pode ser representado pela seguinte expressão: Y=0,08T-0,42F.
A única variável estatisticamente significante é o feriado. O modelo pode ser representado pela seguinte expressão: Y=15,16-0,42F.

Dado um conjunto treinamento (x1, y1) . . . (xN, yN), em que cada xi = (xi1, xi2, . . . , xip)T é um vetor de características para o i-ésimo elemento.
O que significa a expressão a seguir?
É a soma dos quadrados dos resíduos.
É uma regressão polinomial.
É a minimização da soma dos quadrados dos resíduos.
É a função de custo de uma regressão Ridge.

Considerando o parâmetro λ da regressão Ridge, assinale a alternativa correta:
Quando λ aumenta, a variância diminui e o quadrado do viés também diminui.
Quando λ aumenta, a variância aumenta e o quadrado do viés também aumenta.
Quando λ aumenta, a variância aumenta e o quadrado do viés diminui.
Quando λ aumenta, a variância diminui e o quadrado do viés aumenta.