Ed
mês passado
Vamos analisar as alternativas uma a uma para encontrar a correta: A) No aprendizado por reforço, o agente escolhe suas ações com base em um modelo pré-determinado do ambiente, garantindo que ele sempre atinja o objetivo sem falhar. - Esta afirmação é falsa, pois no aprendizado por reforço, o agente não tem um modelo pré-determinado e aprende a partir da interação com o ambiente. B) O agente em aprendizado por reforço aprende por tentativa e erro, sendo recompensado quando toma uma ação correta, o que influencia suas futuras escolhas. - Esta afirmação é verdadeira. O aprendizado por reforço se baseia na exploração e na aprendizagem a partir das recompensas e punições recebidas. C) No ambiente Frozen Lake, o agente nunca precisa explorar novas ações, já que as recompensas são conhecidas desde o início e podem ser previstas com precisão. - Esta afirmação é falsa, pois o agente precisa explorar novas ações para aprender sobre o ambiente, já que as recompensas não são conhecidas de antemão. D) O aprendizado por reforço só pode ser aplicado em ambientes onde o agente conhece antecipadamente todas as possíveis recompensas e penalidades. - Esta afirmação é falsa, pois o aprendizado por reforço é, na verdade, sobre aprender a partir da interação e não requer conhecimento prévio das recompensas. Portanto, a alternativa correta é: B) O agente em aprendizado por reforço aprende por tentativa e erro, sendo recompensado quando toma uma ação correta, o que influencia suas futuras escolhas.
Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade