Baixe o app para aproveitar ainda mais
Prévia do material em texto
PERGUNTA 1 Há diferentes formas de se construir um modelo de aprendizado por reforço, entretanto, todos os modelos compartilham alguns componentes em comum. Quais são os principais componentes de um sistema baseado em aprendizado por reforço? Rede neural, sistema de recompensa, sensores e atuadores. Agente, estados, sensores, atuadores e recompensas. Agente, ambiente, estados, ações e recompensas. Rede neural, algoritmo de treinamento e sistema de recompensa. Agente, ambiente, sensores e atuadores. PERGUNTA 2 A grande área de aprendizado de máquina pode ser dividida em três paradigmas principais: aprendizado supervisionado, aprendizado não supervisionado e aprendizado por reforço. Quais das afirmativas abaixo representam, corretamente, as principais diferenças ou semelhanças entre o aprendizado por reforço e o aprendizado supervisionado? I. O aprendizado supervisionado demanda dados rotulados, enquanto o aprendizado por reforço não, pois aprendem ativamente a partir da sua experiência. II. No aprendizado por reforço, o treinamento consiste num processo de atribuição de recompensa ou penalidade para uma dada ação realizada. Por outro lado, no aprendizado supervisionado, o treinamento é responsável pelo mapeamento direto entrada-saída. III. Ambos os tipos de aprendizado de máquina envolvem a otimização de um modelo de aprendizado de máquina. IV. No aprendizado supervisionado, o erro é geralmente medido pela diferença entre a saída prevista e a saída real, enquanto no aprendizado por reforço, o objetivo é maximizar a recompensa cumulativa ao longo do tempo, em vez de minimizar um erro específico. Apenas as afirmativas I, II e IV estão corretas. Apenas as afirmativas II, III e IV estão corretas. Todas as afirmativas estão corretas. Apenas as afirmativas I, II e III estão corretas. Apenas as afirmativas I, III e IV estão corretas. PERGUNTA 3 O aprendizado por reforço consiste em um dos três principais paradigmas de aprendizado de máquina: supervisionado, não supervisionado e por reforço. Assim, com modelos desenvolvidos nos demais paradigmas, o aprendizado por reforço pode ser aplicado como solução de diversas tarefas. Quais das tarefas abaixo podem ser resolvidas utilizando o aprendizado por reforço? I. Treinamento de agentes em jogo de computador. II. Agrupamento de dados semelhantes. III. Sistemas de recomendação personalizados. IV. Otimização de processos. V. Reconhecimento de imagens. Apenas as afirmativas I, II e III estão corretas. Apenas as afirmativas I, II e IV estão corretas. Apenas as afirmativas I, III e V estão corretas. Apenas as afirmativas I, III e IV estão corretas. Apenas as afirmativas II, III e V estão corretas. PERGUNTA 4 O algoritmo Q-learning é um dos principais algoritmos de aprendizado por reforço. Qual é o objetivo central desse algoritmo? Aprender uma política ótima para um agente em um ambiente e maximizar a probabilidade de escolher a ação com a maior recompensa imediata.  Aprender a relação entre as ações do agente e as recompensas recebidas, e minimizar a recompensa cumulativa ao longo do tempo. Aprender uma função de valor para cada estado-ação em um ambiente e maximizar a recompensa cumulativa ao longo do tempo. Aprender a relação entre as ações do agente e as punições recebidas, e minimizar as punições cumulativa ao longo do tempo. Ignorar a recompensa e escolher a ação com base em um modelo prévio do ambiente. PERGUNTA 5 O aprendizado por reforço, embora consista num paradigma de aprendizagem com ampla gama de aplicações, não pode ser utilizado em qualquer cenário. Quais das afirmações abaixo apresentam características pertinentes ao uso de aprendizado por reforço? I. Tentativa e erro: o modelo pode ser melhorado a partir da interação com o ambiente. II. Dados rotulados: para construção do modelo, precisamos de uma grande base de dados rotulados. III. MDP: o problema pode ser modelado por MDP (Processo de Decisão de Markov). Apenas as afirmativas I e II estão corretas. Apenas as afirmativas I e III estão corretas. Apenas a afirmativa I está correta. Todas as afirmativas estão corretas. Apenas as afirmativas II e III estão corretas. PERGUNTA 6 O surgimento da área de aprendizado profundo também contribuiu para o desenvolvimento de novas abordagens de aprendizado por reforço, denominada aprendizado por reforço profundo. Quais das afirmações abaixo estão corretas em relação às diferenças entre o aprendizado por reforço (RL) clássico e o aprendizado por reforço profundo (DRL)? I. O DRL consiste em modelos de RL no qual o número de estados, representado pelas dimensões da tabela Q-Table, é maior. II. A principal diferença entre o RL e o DRL é que o RL geralmente usa uma função de valor ou uma tabela de valores para armazenar a estimativa do valor de cada ação ou estado, enquanto o DRL usa uma rede neural ativa II está correta. III. Apenas a afirm para estimar esses valores. IV. O DRL permite lidar com espaços de estado de alta dimensionalidade e contínuos, que consiste em uma limitação do LR clássico. Apenas a afirmativa III está correta Apenas as afirmativas II e III estão corretas. Apenas as afirmativas I e II estão corretas. Apenas as afirmativas I e III estão corretas. PERGUNTA 7 Há diversos tipos de algoritmos de aprendizado por reforço. Por exemplo, temos os algoritmos de aprendizado por reforço baseados em modelo (model-based) e algoritmos sem modelo (model-free). Quais das afirmações abaixo estão corretas considerando as principais diferenças dessas abordagens? I. Algoritmos sem modelo estimam diretamente a política ótima a partir da experiência observada, enquanto algoritmos com modelo requerem um modelo do ambiente para estimar a política ótima. II. Algoritmos sem modelo são geralmente mais complexos para implementar, porém podem ser mais eficientes do que algoritmos com modelo, pois não requerem que o agente construa e mantenha um modelo explícito do ambiente. III. Algoritmos sem modelo podem lidar com espaços de estado complexos e de alta dimensionalidade, enquanto algoritmos com modelo podem ter dificuldade com tais problemas devido à necessidade de representar explicitamente o ambiente. IV. Algoritmos com modelo podem fornecer desempenho mais robusto e generalização para novos ambientes do que algoritmos sem modelo, pois são baseados em uma compreensão mais completa do ambiente. Apenas as afirmativas I, II e IV estão corretas. Apenas as afirmativas II, III e IV estão corretas. Apenas as afirmativas I, II e III estão corretas. Apenas as afirmativas I, III e IV estão corretas. Há diferentes formas de se construir um modelo Todas as afirmativas estão corretas. PERGUNTA EXTRA Em aprendizado por reforço, o agente aprende a partir da sua iteração com o ambiente. Essa iteração pode ser realizada de duas formas principais: determinística e estocástica. Quais das afirmações abaixo estão corretas em relação a essas duas formas de iteração? I. Ao considerar a forma determinística, o agente sempre irá selecionar a ação que trará a máxima recompensa, como consequência o ambiente será pouco explorado (exploit). II. Ao considerar a forma estocástica (aleatória), o agente irá selecionar a próxima ação de forma aleatória, o que permite uma exploração (explore) mais uniforme do ambiente (espaço de estados). III. Num cenário ideal, o agente pode iniciar a exploração do ambiente de forma aleatória e, conforme sua experiência aumenta, passar gradativamente para a forma determinística. Para isso, pode-se utilizar um parâmetro épsilon que contrata o nível de estocasticidade do agente. Apenas as afirmativas I e II estão corretas. Todas as afirmativas estão corretas. Apenas as afirmativas I e III estão corretas. Apenas as afirmativas II e III estão corretas. Nenhuma afirmativa está correta
Compartilhar