Prévia do material em texto
∗ Inicialize todos os valores Q na tabela Q arbitrariamente, e o valor Q, do estado terminal, para 0 Repita (para cada geração) Inicialize o estado s enquanto Q (s, ·) = 0 Escolha a ação S, do conjunto de ações definidas para aquele estado A(S) definido pela política π. Execute a ação A Observe a recompensa R e o próximo estado s’ Para todas as ações possíveis do estado s’, selecione aquela com o valor Q mais alto - a'. // Atualize o valor para o estado Q (s, a) ← Q (s, a) + α [R + γQ (s’, a’) - Q (s, a)] s = s’ https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning https://github.com/kuz/DeepMind-Atari-Deep-Q-Learner https://integrada.minhabiblioteca.com.br/books/9788521637509 https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/1047085414&color=%23ff5500&auto_play=false&hide_related=false&show_comments=true&show_user=true&show_reposts=false&show_teaser=true https://playground.tensorflow.org/ https://player.vimeo.com/video/548098364 https://medium.com/@isnardgurgel/guia-de-bolso-para-ensemble-methods-a97700c66622 https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/1047089017&color=%23ff5500&auto_play=false&hide_related=false&show_comments=true&show_user=true&show_reposts=false&show_teaser=true