Buscar

AP Sem6 Atv10

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

PERGUNTA 1 
Há diferentes formas de se construir um modelo de aprendizado por reforço, entretanto, 
todos os modelos compartilham alguns componentes em comum. Quais são os principais 
componentes de um sistema baseado em aprendizado por reforço? 
Rede neural, sistema de recompensa, sensores e atuadores. 
Agente, estados, sensores, atuadores e recompensas. 
Agente, ambiente, estados, ações e recompensas. 
Rede neural, algoritmo de treinamento e sistema de recompensa. 
Agente, ambiente, sensores e atuadores. 
 
PERGUNTA 2 
A grande área de aprendizado de máquina pode ser dividida em três paradigmas principais: 
aprendizado supervisionado, aprendizado não supervisionado e aprendizado por reforço. 
Quais das afirmativas abaixo representam, corretamente, as principais diferenças ou 
semelhanças entre o aprendizado por reforço e o aprendizado supervisionado? 
I. O aprendizado supervisionado demanda dados rotulados, enquanto o aprendizado por reforço não, pois 
aprendem ativamente a partir da sua experiência. 
II. No aprendizado por reforço, o treinamento consiste num processo de atribuição de recompensa ou 
penalidade para uma dada ação realizada. Por outro lado, no aprendizado supervisionado, o treinamento 
é responsável pelo mapeamento direto entrada-saída. 
III. Ambos os tipos de aprendizado de máquina envolvem a otimização de um modelo de aprendizado de 
máquina. 
IV. No aprendizado supervisionado, o erro é geralmente medido pela diferença entre a saída prevista e a 
saída real, enquanto no aprendizado por reforço, o objetivo é maximizar a recompensa cumulativa ao 
longo do tempo, em vez de minimizar um erro específico. 
Apenas as afirmativas I, II e IV estão corretas. 
Apenas as afirmativas II, III e IV estão corretas. 
Todas as afirmativas estão corretas. 
Apenas as afirmativas I, II e III estão corretas. 
Apenas as afirmativas I, III e IV estão corretas. 
 
PERGUNTA 3 
O aprendizado por reforço consiste em um dos três principais paradigmas de aprendizado de 
máquina: supervisionado, não supervisionado e por reforço. Assim, com modelos 
desenvolvidos nos demais paradigmas, o aprendizado por reforço pode ser aplicado como 
solução de diversas tarefas. Quais das tarefas abaixo podem ser resolvidas utilizando o 
aprendizado por reforço? 
I. Treinamento de agentes em jogo de computador. 
II. Agrupamento de dados semelhantes. 
III. Sistemas de recomendação personalizados. 
IV. Otimização de processos. 
V. Reconhecimento de imagens. 
Apenas as afirmativas I, II e III estão corretas. 
Apenas as afirmativas I, II e IV estão corretas. 
Apenas as afirmativas I, III e V estão corretas. 
Apenas as afirmativas I, III e IV estão corretas. 
Apenas as afirmativas II, III e V estão corretas. 
 
PERGUNTA 4 
O algoritmo Q-learning é um dos principais algoritmos de aprendizado por reforço. Qual é o 
objetivo central desse algoritmo? 
 
Aprender uma política ótima para um agente em um ambiente e maximizar a probabilidade de 
escolher a ação com a maior recompensa imediata.  
Aprender a relação entre as ações do agente e as recompensas recebidas, e minimizar a 
recompensa cumulativa ao longo do tempo. 
Aprender uma função de valor para cada estado-ação em um ambiente e maximizar a 
recompensa cumulativa ao longo do tempo. 
Aprender a relação entre as ações do agente e as punições recebidas, e minimizar as punições 
cumulativa ao longo do tempo. 
Ignorar a recompensa e escolher a ação com base em um modelo prévio do ambiente. 
 
PERGUNTA 5 
O aprendizado por reforço, embora consista num paradigma de aprendizagem com ampla 
gama de aplicações, não pode ser utilizado em qualquer cenário. Quais das afirmações abaixo 
apresentam características pertinentes ao uso de aprendizado por reforço? 
I. Tentativa e erro: o modelo pode ser melhorado a partir da interação com o ambiente. 
II. Dados rotulados: para construção do modelo, precisamos de uma grande base de dados rotulados. 
III. MDP: o problema pode ser modelado por MDP (Processo de Decisão de Markov). 
Apenas as afirmativas I e II estão corretas. 
Apenas as afirmativas I e III estão corretas. 
Apenas a afirmativa I está correta. 
Todas as afirmativas estão corretas. 
Apenas as afirmativas II e III estão corretas. 
 
 
 
PERGUNTA 6 
O surgimento da área de aprendizado profundo também contribuiu para o desenvolvimento 
de novas abordagens de aprendizado por reforço, denominada aprendizado por reforço 
profundo. Quais das afirmações abaixo estão corretas em relação às diferenças entre o 
aprendizado por reforço (RL) clássico e o aprendizado por reforço profundo (DRL)? 
I. O DRL consiste em modelos de RL no qual o número de estados, representado pelas dimensões da tabela 
Q-Table, é maior. 
II. A principal diferença entre o RL e o DRL é que o RL geralmente usa uma função de valor ou uma tabela de 
valores para armazenar a estimativa do valor de cada ação ou estado, enquanto o DRL usa uma rede 
neural ativa II está correta. 
III. Apenas a afirm para estimar esses valores. 
IV. O DRL permite lidar com espaços de estado de alta dimensionalidade e contínuos, que consiste em uma 
limitação do LR clássico. 
Apenas a afirmativa III está correta 
Apenas as afirmativas II e III estão corretas. 
Apenas as afirmativas I e II estão corretas. 
Apenas as afirmativas I e III estão corretas. 
 
PERGUNTA 7 
Há diversos tipos de algoritmos de aprendizado por reforço. Por exemplo, temos os algoritmos 
de aprendizado por reforço baseados em modelo (model-based) e algoritmos sem modelo 
(model-free). Quais das afirmações abaixo estão corretas considerando as principais diferenças 
dessas abordagens? 
I. Algoritmos sem modelo estimam diretamente a política ótima a partir da experiência observada, 
enquanto algoritmos com modelo requerem um modelo do ambiente para estimar a política ótima. 
II. Algoritmos sem modelo são geralmente mais complexos para implementar, porém podem ser mais 
eficientes do que algoritmos com modelo, pois não requerem que o agente construa e mantenha um 
modelo explícito do ambiente. 
III. Algoritmos sem modelo podem lidar com espaços de estado complexos e de alta dimensionalidade, 
enquanto algoritmos com modelo podem ter dificuldade com tais problemas devido à necessidade de 
representar explicitamente o ambiente. 
IV. Algoritmos com modelo podem fornecer desempenho mais robusto e generalização para novos 
ambientes do que algoritmos sem modelo, pois são baseados em uma compreensão mais completa do 
ambiente. 
Apenas as afirmativas I, II e IV estão corretas. 
Apenas as afirmativas II, III e IV estão corretas. 
Apenas as afirmativas I, II e III estão corretas. 
Apenas as afirmativas I, III e IV estão corretas. Há diferentes formas de se construir um modelo 
Todas as afirmativas estão corretas. 
 
 
PERGUNTA EXTRA 
Em aprendizado por reforço, o agente aprende a partir da sua iteração com o ambiente. Essa 
iteração pode ser realizada de duas formas principais: determinística e estocástica. Quais das 
afirmações abaixo estão corretas em relação a essas duas formas de iteração? 
I. Ao considerar a forma determinística, o agente sempre irá selecionar a ação que trará a máxima 
recompensa, como consequência o ambiente será pouco explorado (exploit). 
II. Ao considerar a forma estocástica (aleatória), o agente irá selecionar a próxima ação de forma aleatória, o 
que permite uma exploração (explore) mais uniforme do ambiente (espaço de estados). 
III. Num cenário ideal, o agente pode iniciar a exploração do ambiente de forma aleatória e, conforme sua 
experiência aumenta, passar gradativamente para a forma determinística. Para isso, pode-se utilizar um 
parâmetro épsilon que contrata o nível de estocasticidade do agente. 
Apenas as afirmativas I e II estão corretas. 
Todas as afirmativas estão corretas. 
Apenas as afirmativas I e III estão corretas. 
Apenas as afirmativas II e III estão corretas. 
Nenhuma afirmativa está correta

Outros materiais