A maior rede de estudos do Brasil

Grátis
53 pág.
RL-Introducao_1aula

Pré-visualização | Página 1 de 3

Reinforcement Learning 
(Aprendizado por Reforço) 
Karla Figueiredo 
DEE/PUC-Rio 
1 
Sumário 
 Introdução 
– Motivação 
– Histórico 
– Conceitos básicos 
 Fundamentos Teóricos 
– Processos de Decisão de Markov 
– Propriedade de Markov 
– Funções de Valor 
– Aprendizado RL 
 Métodos para a solução do problema de RL 
– Programação Dinâmica 
– Monte Carlo 
– Diferenças Temporais 
 TD 
 Aprendizado on-policy e off-policy 
– Q-Learning 
– SARSA 
 Eligibility Traces 
 Estudo de Casos 
2 
Bibliografia 
 SUTTON, R.S., BARTO, A.G., Reinforcement Learning: An Introduction, 1998. 
 http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html 
 KAELBLING, L.P.; LITTMAN M. L.; MOORE, W.A. Reinforcement Learning: A Survey, 
JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH 4, May 1996, p. 237-285. 
http://www.jair.org/media/301/live-301-1562-jair.pdf 
 RIBEIRO, C.H.C. A Tutorial on Reinforcement Learning Techniques In: International 
Joint Conference on Neural Networks ed. : INNS Press, 1999. 
http://student.vub.ac.be/~aackerma/rlearn2.pdf 
 SINGH, S.P.; SUTTON, R.S. Reinforcement learning with replacing eligibility traces, 
Machine Learning, vol. 22, no. 1, 1996, p. 123-158. 
 SUTTON, R.S. Temporal Credit Assignment in Reinforcement Learning, Ph.D. thesis, 
University Massachusetts, Amherst, MA., 1984. 
 BERTSEKAS, D.P. Dynamic Programming: Deterministic and Stochastic Models. 
Prentice Hall, Englewood Cliffs, NJ, 1987 
 BELLMAN, R.E. Dynamic Programming, Princeton, NJ, Princeton University Press, 
1957. 
 
 
3 
• BARTO, A.G. Reinforcement Learning and Adaptive Critic Methods, HANDBOOK OF 
INTELLIGENT CONTROL: NEURAL, FUZZY, AND ADAPTIVE APPROACHES, NY, 
White, D.A.; Sofge, D.A. (eds), Van Nostrand, Reinhold, 1992. p.469-491. 
• Boyan, J.A.; Moore, A.W. Generalization in reinforcement learning: Safely 
approximating the value function, G. Tesauro, D. S. Touretzky, and T. K. Leen, editors, 
ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 7, Cambridge, 
MA, The MIT Press, 1995. 
• BAIRD, L. Residual algorithms: Reinforcement learning with function approximation, 
Armand Prieditis and Stuart Russell, editors, Proceedings of the Twelfth International 
Conference on Machine Learning, San Francisco, CA, 1995, Morgan Kaufmann., p 30-
37. 
 
 
Bibliografia 
4 
Reinforcement Learning 
Conceitos Básicos 
5 
Motivação 
Exemplo: 
Criança adquirindo coordenação motora 
Robô interagindo com um ambiente para atingir objetivo(s) 
 
6 
• Como se aprende a escolher ações apenas interagindo 
com o ambiente? 
Muitas vezes é impraticável o uso de aprendizagem 
supervisionada 
 
• Como obter exemplos do comportamento correto e 
representativo para qualquer situação ? 
• E se o agente for atuar em um ambiente desconhecido? 
 
 Teste de Turing: Alan Turing (1950) propôs 
um teste operacional como definição de 
Inteligência Artificial 
Motivação 
7 
“um agente artificial é dito inteligente se obtém 
desempenho equivalente ao humano em todas as 
tarefas cognitivas, de forma a enganar um 
interrogador” 
 
8 
 Para Passar no Teste de Turing- 
“Habilidades” necessárias: 
 
Motivação 
8 
– processamento de linguagem natural:- comunicação 
eficaz na língua falada; 
 
– representação do conhecimento: armazenar informação 
suprida antes e durante a interrogação; 
 
– raciocínio automatizado: usar a informação 
armazenada para responder questões e chegar a conclusões; 
 
– aprendizagem de máquina: se adaptar a novas 
circunstâncias, bem como detectar e extrapolar padrões; 
9 
● Busca por métodos automáticos, capazes de 
operar sistemas complexos; 
● Convergência para solução ótima global; 
● Variedade de aplicações em diversos domínios; 
 
9 
Motivação 
Histórico 
Reinforcement 
Learning 
Moderno 
Psicologia Controle 
Bellman, 1950s 
Thorndike, 1910s 
Lei do Efeito 
seleção e associação 
10 
Histórico 
Lei do efeito (Thorndike, 1910s) 
• todo e qualquer ato que produz satisfação associa-se a 
esta situação que, quando ela se reproduz, a 
probabilidade de repetição do ato é maior do que antes; 
11 
• a punição e o desprazer não se comparam em absoluto ao 
efeito positivo da recompensa a uma determinada resposta; 
• o efeito de prazer é, portanto, o que fixa o acerto 
(resposta) acidental; 
• em termos pedagógicos, o agradável é o sucesso do 
ensaio realizado pelo sujeito e o desagradável é o 
fracasso decorrente de obstáculos; 
 
12 
Sob idênticas condições: 
• a associação exercitada com maior freqüência será a 
mais utilizada pelo sujeito; 
12 
Histórico 
Lei do exercício (Thorndike, 1910s) 
• a associação exercitada com menor freqüência será a 
menos utilizada pelo sujeito; 
• a associação exercitada mais recentemente será mais 
forte no conjunto de repertório de respostas do sujeito; 
Conceitos Básicos 
Reinforcement Learning: Aprender por meio de interações 
 com o ambiente 
 
 – Uma criança não tem um professor, mas possui 
habilidades cognitivas; 
 – Através das interações, a criança descobre as relações 
de causa e efeito; 
 – Aprender por meio de interações é uma idéia fundamental 
de quase todas as teorias de aprendizagem e inteligência 
13 
O que é aprendizagem por reforço? 
14 
 Uma classe de problemas de aprendizagem para a qual 
existe uma grande diversidade de técnicas 
 Aprendizagem: 
– da utilidade dos estados do ambiente com respeito a 
esse(s) objetivo(s) 
– ou de uma política de ação maximizando o grau de 
satisfação desse(s) objetivo(s) 
– indiretamente via recepção de reforço (ou dica) positivo ou 
negativo quando se encontra em alguns estados 
– ou como resultado da execução de uma ação ou uma serie 
de ações 
 
Conceitos Básicos 
 Reinforcement Learning Supervised Learning 
 Aprendizado a partir da 
interação “learner –
environment” 
 Baseado em “tentativa e 
erro” 
 Existe processo de busca 
(exploration) no espaço 
 Orientado a objetivo 
 Aprendizado a partir de 
padrões entrada - saída. 
 Baseado em minimizar um 
erro. 
 Busca limitada ao valores 
dos padrões padrões 
entrada-saída 
 Orientado a aproximação 
de função 
15 
Conceitos Básicos 
• O agente recebe do ambiente um valor de resposta (recompensa). 
• Esta recompensa avalia o desempenho do agente durante o processo 
de aprendizado. 
st+1 
Ambiente 
Estado 
st S 
Reforço 
rt 
rt+1 
ação at  A(st) 
 
Agente 
 
Reinforcement Learning 
16 
Algumas aplicações 
 [Tesauro, 1995] Modelagem do jogo de gamão como 
um problema de aprendizagem por reforço: 
– Vitória: +100 
– Derrota: – 100 
– Zero para os demais estados do jogo (delayed reward) 
– Após 1 milhão de partidas contra ele mesmo, joga tão bem 
quanto o melhor jogador humano 
17 
Algumas aplicações 
 Time Brainstormers da Robocup (entre os 3 
melhores nos 3 últimos anos) 
– Objetivo: Time cujo conhecimento é obtido 100% por 
técnicas de aprendizagem por reforço 
– RL em situações específicas 
 2 atacantes contra 2 defensores 
 habilidades básicas 
 Inúmeras aplicações em problemas de otimização, 
de controle, jogos e outros... 
18 
Reinforcement Learning 
Model-Based Model-Free 
off-policy on-policy 
Diferença Temporal 
SARSA 
Q-learning 
 
R-learning 
Qyna 
Programação Dinâmica + Monte Carlo 
AHC (Actor Heuristic Critic ou Actor-Critic Method) 
Markov 
19 
Aprendizado por reforço

Crie agora seu perfil grátis para visualizar sem restrições.