Ler em voz alta Em um ambiente simulado, como o Frozen Lake do OpenAI Gym, o objetivo do agente é encontrar o caminho até o objetivo sem cair em buracos, recebendo recompensas com base nas suas ações. O aprendizado por reforço envolve a interação do agente com o ambiente, aprendendo a partir das recompensas obtidas após cada ação. Considerando este cenário, qual das afirmações abaixo descreve corretamente um conceito fundamental do aprendizado por reforço aplicado ao Frozen Lake? A No aprendizado por reforço, o agente escolhe suas ações com base em um modelo pré-determinado do ambiente, garantindo que ele sempre atinja o objetivo sem falhar. B O agente em aprendizado por reforço aprende por tentativa e erro, sendo recompensado quando toma uma ação correta, o que influencia suas futuras escolhas. C No ambiente Frozen Lake, o agente nunca precisa explorar novas ações, já que as recompensas são conhecidas desde o início e podem ser previstas com precisão. D O aprendizado por reforço só pode ser aplicado em ambientes onde o agente conhece antecipadamente todas as possíveis recompensas e penalidades.

Question

Ler em voz alta Em um ambiente simulado, como o Frozen Lake do OpenAI Gym, o objetivo do agente é encontrar o caminho até o objetivo sem cair em bu...

Ed · Answer

Vamos analisar as alternativas uma a uma para encontrar a correta:

A) No aprendizado por reforço, o agente escolhe suas ações com base em um modelo pré-determinado do ambiente, garantindo que ele sempre atinja o objetivo sem falhar. 
- Esta afirmação é falsa, pois no aprendizado por reforço, o agente não tem um modelo pré-determinado e aprende a partir da interação com o ambiente.

B) O agente em aprendizado por reforço aprende por tentativa e erro, sendo recompensado quando toma uma ação correta, o que influencia suas futuras escolhas. 
- Esta afirmação é verdadeira. O aprendizado por reforço se baseia na exploração e na aprendizagem a partir das recompensas e punições recebidas.

C) No ambiente Frozen Lake, o agente nunca precisa explorar novas ações, já que as recompensas são conhecidas desde o início e podem ser previstas com precisão. 
- Esta afirmação é falsa, pois o agente precisa explorar novas ações para aprender sobre o ambiente, já que as recompensas não são conhecidas de antemão.

D) O aprendizado por reforço só pode ser aplicado em ambientes onde o agente conhece antecipadamente todas as possíveis recompensas e penalidades. 
- Esta afirmação é falsa, pois o aprendizado por reforço é, na verdade, sobre aprender a partir da interação e não requer conhecimento prévio das recompensas.

Portanto, a alternativa correta é: **B) O agente em aprendizado por reforço aprende por tentativa e erro, sendo recompensado quando toma uma ação correta, o que influencia suas futuras escolhas.**

Inglês

Respostas

Crie sua conta grátis para liberar essa resposta. 🤩

Ainda com dúvidas?

Perguntas dessa disciplina

A aprendizagem por reforço procura perceber os padrões hipotéticos com base na experiência continuada, chamada de estratégia incremental. Com base ...

A avaliação de treinamento é a coleta dos dados referente aos colaboradores que estão envolvidos na experiência de aprendizagem corporativa. Esses ...

1ª) Na gestão do conhecimento, dados, informação e conhecimento são conceitos distintos pois a ligação e compreensão dos dados e informações é que os

PORTFÓLIO Vale 10 pontos ORIENTAÇÕES PARA ENTREGA Use este arquivo modelo para desenvolver o seu trabalho, é nele que você deverá inserir as infor...

Conteúdos escolhidos para você

Questão 1_10 - Introdução à Inteligência Artificial

20 Aprendizado por Reforço

Reinforcement Learning

Algoritmos e Estruturas de Dados-167

Mais conteúdos dessa disciplina