A alternativa correta é a letra b. Na aprendizagem por reforço ativa, um agente deve assumir um compromisso entre exploração e estimativa de utilidade direta. Isso significa que o agente deve escolher ações que maximizem a recompensa esperada, mas também deve explorar novas ações para aprender mais sobre o ambiente e melhorar sua política de decisão.
Para escrever sua resposta aqui, entre ou crie uma conta
Compartilhar