No aprendizado por reforço, é possível acompanhar o exemplo do problema proposto, verificando um feedback positivo ou negativo, acordando com a solução que o algoritmo propõe em uma situação em que a máquina procura aprender a melhor ação a ser tomada, dependendo das situações nas quais a ação será executada. Isso é feito através de um processo de tentativa e erro, onde o algoritmo recebe recompensas ou penalidades com base em suas ações, permitindo assim que ele aprenda a melhor estratégia a ser adotada em determinadas situações.
Para escrever sua resposta aqui, entre ou crie uma conta
Compartilhar