Em relação ao aprendizado por reforço, selecione a opção correta.
Todo o processo de aprendizagem é desenvolvido a partir de ideias baseadas em m...
Em relação ao aprendizado por reforço, selecione a opção correta.
Todo o processo de aprendizagem é desenvolvido a partir de ideias baseadas em métodos exatos. O agente só é informado sobre a sua recompensa ao final de um número fixo de iterações para evitar desvios sobre sua política de tomada de decisão. A escolha das ações é fixa ao longo da execução do algoritmo. O agente é informado por exemplos positivos e negativos. Ele dá suporte para maximizar recompensas cumulativas.
A opção correta em relação ao aprendizado por reforço é: "O agente só é informado sobre a sua recompensa ao final de um número fixo de iterações para evitar desvios sobre sua política de tomada de decisão."
0
0
Faça como milhares de estudantes: teste grátis o Passei Direto