Ed
há 9 meses
No contexto de aprendizado por reforço, a frase se completa com "final". Portanto, a resposta correta é: "Reforço só no estado final é a classe de funções, as recompensas são todas zero, exceto no estado final, em que o agente recebe uma recompensa real (ex: +1) ou uma penalidade (ex: −1)."
Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade