AP Sem6 Atv10

•

UNIVESP

Andre Erbert

11/03/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Aprendizado

430 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

PERGUNTA 1
Há diferentes formas de se construir um modelo de aprendizado por reforço, entretanto,
todos os modelos compartilham alguns componentes em comum. Quais são os principais
componentes de um sistema baseado em aprendizado por reforço?
Rede neural, sistema de recompensa, sensores e atuadores.
Agente, estados, sensores, atuadores e recompensas.
Agente, ambiente, estados, ações e recompensas.
Rede neural, algoritmo de treinamento e sistema de recompensa.
Agente, ambiente, sensores e atuadores.

PERGUNTA 2
A grande área de aprendizado de máquina pode ser dividida em três paradigmas principais:
aprendizado supervisionado, aprendizado não supervisionado e aprendizado por reforço.
Quais das afirmativas abaixo representam, corretamente, as principais diferenças ou
semelhanças entre o aprendizado por reforço e o aprendizado supervisionado?
I. O aprendizado supervisionado demanda dados rotulados, enquanto o aprendizado por reforço não, pois
aprendem ativamente a partir da sua experiência.
II. No aprendizado por reforço, o treinamento consiste num processo de atribuição de recompensa ou
penalidade para uma dada ação realizada. Por outro lado, no aprendizado supervisionado, o treinamento
é responsável pelo mapeamento direto entrada-saída.
III. Ambos os tipos de aprendizado de máquina envolvem a otimização de um modelo de aprendizado de
máquina.
IV. No aprendizado supervisionado, o erro é geralmente medido pela diferença entre a saída prevista e a
saída real, enquanto no aprendizado por reforço, o objetivo é maximizar a recompensa cumulativa ao
longo do tempo, em vez de minimizar um erro específico.
Apenas as afirmativas I, II e IV estão corretas.
Apenas as afirmativas II, III e IV estão corretas.
Todas as afirmativas estão corretas.
Apenas as afirmativas I, II e III estão corretas.
Apenas as afirmativas I, III e IV estão corretas.

PERGUNTA 3
O aprendizado por reforço consiste em um dos três principais paradigmas de aprendizado de
máquina: supervisionado, não supervisionado e por reforço. Assim, com modelos
desenvolvidos nos demais paradigmas, o aprendizado por reforço pode ser aplicado como
solução de diversas tarefas. Quais das tarefas abaixo podem ser resolvidas utilizando o
aprendizado por reforço?
I. Treinamento de agentes em jogo de computador.
II. Agrupamento de dados semelhantes.
III. Sistemas de recomendação personalizados.
IV. Otimização de processos.
V. Reconhecimento de imagens.
Apenas as afirmativas I, II e III estão corretas.
Apenas as afirmativas I, II e IV estão corretas.
Apenas as afirmativas I, III e V estão corretas.
Apenas as afirmativas I, III e IV estão corretas.
Apenas as afirmativas II, III e V estão corretas.

PERGUNTA 4
O algoritmo Q-learning é um dos principais algoritmos de aprendizado por reforço. Qual é o
objetivo central desse algoritmo?

Aprender uma política ótima para um agente em um ambiente e maximizar a probabilidade de
escolher a ação com a maior recompensa imediata.
Aprender a relação entre as ações do agente e as recompensas recebidas, e minimizar a
recompensa cumulativa ao longo do tempo.
Aprender uma função de valor para cada estado-ação em um ambiente e maximizar a
recompensa cumulativa ao longo do tempo.
Aprender a relação entre as ações do agente e as punições recebidas, e minimizar as punições
cumulativa ao longo do tempo.
Ignorar a recompensa e escolher a ação com base em um modelo prévio do ambiente.

PERGUNTA 5
O aprendizado por reforço, embora consista num paradigma de aprendizagem com ampla
gama de aplicações, não pode ser utilizado em qualquer cenário. Quais das afirmações abaixo
apresentam características pertinentes ao uso de aprendizado por reforço?
I. Tentativa e erro: o modelo pode ser melhorado a partir da interação com o ambiente.
II. Dados rotulados: para construção do modelo, precisamos de uma grande base de dados rotulados.
III. MDP: o problema pode ser modelado por MDP (Processo de Decisão de Markov).
Apenas as afirmativas I e II estão corretas.
Apenas as afirmativas I e III estão corretas.
Apenas a afirmativa I está correta.
Todas as afirmativas estão corretas.
Apenas as afirmativas II e III estão corretas.

PERGUNTA 6
O surgimento da área de aprendizado profundo também contribuiu para o desenvolvimento
de novas abordagens de aprendizado por reforço, denominada aprendizado por reforço
profundo. Quais das afirmações abaixo estão corretas em relação às diferenças entre o
aprendizado por reforço (RL) clássico e o aprendizado por reforço profundo (DRL)?
I. O DRL consiste em modelos de RL no qual o número de estados, representado pelas dimensões da tabela
Q-Table, é maior.
II. A principal diferença entre o RL e o DRL é que o RL geralmente usa uma função de valor ou uma tabela de
valores para armazenar a estimativa do valor de cada ação ou estado, enquanto o DRL usa uma rede
neural ativa II está correta.
III. Apenas a afirm para estimar esses valores.
IV. O DRL permite lidar com espaços de estado de alta dimensionalidade e contínuos, que consiste em uma
limitação do LR clássico.
Apenas a afirmativa III está correta
Apenas as afirmativas II e III estão corretas.
Apenas as afirmativas I e II estão corretas.
Apenas as afirmativas I e III estão corretas.

PERGUNTA 7
Há diversos tipos de algoritmos de aprendizado por reforço. Por exemplo, temos os algoritmos
de aprendizado por reforço baseados em modelo (model-based) e algoritmos sem modelo
(model-free). Quais das afirmações abaixo estão corretas considerando as principais diferenças
dessas abordagens?
I. Algoritmos sem modelo estimam diretamente a política ótima a partir da experiência observada,
enquanto algoritmos com modelo requerem um modelo do ambiente para estimar a política ótima.
II. Algoritmos sem modelo são geralmente mais complexos para implementar, porém podem ser mais
eficientes do que algoritmos com modelo, pois não requerem que o agente construa e mantenha um
modelo explícito do ambiente.
III. Algoritmos sem modelo podem lidar com espaços de estado complexos e de alta dimensionalidade,
enquanto algoritmos com modelo podem ter dificuldade com tais problemas devido à necessidade de
representar explicitamente o ambiente.
IV. Algoritmos com modelo podem fornecer desempenho mais robusto e generalização para novos
ambientes do que algoritmos sem modelo, pois são baseados em uma compreensão mais completa do
ambiente.
Apenas as afirmativas I, II e IV estão corretas.
Apenas as afirmativas II, III e IV estão corretas.
Apenas as afirmativas I, II e III estão corretas.
Apenas as afirmativas I, III e IV estão corretas. Há diferentes formas de se construir um modelo
Todas as afirmativas estão corretas.

PERGUNTA EXTRA
Em aprendizado por reforço, o agente aprende a partir da sua iteração com o ambiente. Essa
iteração pode ser realizada de duas formas principais: determinística e estocástica. Quais das
afirmações abaixo estão corretas em relação a essas duas formas de iteração?
I. Ao considerar a forma determinística, o agente sempre irá selecionar a ação que trará a máxima
recompensa, como consequência o ambiente será pouco explorado (exploit).
II. Ao considerar a forma estocástica (aleatória), o agente irá selecionar a próxima ação de forma aleatória, o
que permite uma exploração (explore) mais uniforme do ambiente (espaço de estados).
III. Num cenário ideal, o agente pode iniciar a exploração do ambiente de forma aleatória e, conforme sua
experiência aumenta, passar gradativamente para a forma determinística. Para isso, pode-se utilizar um
parâmetro épsilon que contrata o nível de estocasticidade do agente.
Apenas as afirmativas I e II estão corretas.
Todas as afirmativas estão corretas.
Apenas as afirmativas I e III estão corretas.
Apenas as afirmativas II e III estão corretas.
Nenhuma afirmativa está correta