O aprendizado por reforço é um método de aprendizado de máquina voltado para tratar como os agentes de software devem realizar ações em um ambiente...
O aprendizado por reforço é um método de aprendizado de máquina voltado para tratar como os agentes de software devem realizar ações em um ambiente. Em relação ao aprendizado por reforço, selecione a opção correta.
O agente só é informado sobre a sua recompensa ao final de um número fixo de iterações para evitar desvios sobre sua política de tomada de decisão. Ele dá suporte para maximizar recompensas cumulativas. A escolha das ações é fixa ao longo da execução do algoritmo. Todo o processo de aprendizagem é desenvolvido a partir de ideias baseadas em métodos exatos. O agente é informado por exemplos positivos e negativos.
A opção correta em relação ao aprendizado por reforço é: "Ele dá suporte para maximizar recompensas cumulativas." Nesse método, o agente busca aprender a tomar ações que maximizem a recompensa acumulada ao longo do tempo, através de interações com o ambiente.
0
0
Faça como milhares de estudantes: teste grátis o Passei Direto
Compartilhar