A maior rede de estudos do Brasil

Grátis
53 pág.
RL-Introducao_1aula

Pré-visualização | Página 2 de 3

Agente 
Percepções 
(sensores) 
Estado (modelo do mundo) 
Ambiente 
Ação 
Reforço 
 (+/-) 
20 
Conceitos Básicos 
Reinforcement Learning 
 Ao aprendiz não é dito que ação tomar - ele deve 
aprender quais ações produzem maior ganho por 
meio de interações; 
21 
 Aprendizagem por reforço consiste em aprender o 
que fazer— como mapear situações em ações de 
maneira a maximizar um sinal de ganho; 
 Nas situações mais desafiadores, o ganho não é 
imediato, mas futuro; 
Sumário 
 Introdução 
– Motivação 
– Histórico 
– Conceitos básicos 
 Fundamentos Teóricos 
– Processos de Decisão de Markov 
– Propriedade de Markov 
– Funções de Valor 
– Aprendizado RL 
 Métodos para a solução do problema de RL 
– Programação Dinâmica 
– Monte Carlo 
– Diferenças Temporais 
 TD 
 Aprendizado on-policy e off-policy 
– Q-Learning 
– SARSA 
 Eligibility Traces 
 Estudo de Casos 
22 
Reinforcement Learning 
Fundamentos Teóricos 
23 
Propriedade de Markov 
 00111111 ,,,,,,,,,'Pr asrrasrasrrss tttttttt  
No caso mais geral, se a resposta do ambiente em t+1, 
para uma ação em t depende de todo o histórico de ações 
até o momento atual, a dinâmica do ambiente é definida 
pela especificação completa da distribuição de 
probabilidades: 
24 
25 
Propriedade de Markov 
Quando a probabilidade de transição de um estado s para 
um estado s’ depende apenas do estado s e da ação a 
adotada em s, isso significa que o estado corrente fornece 
informação suficiente para o sistema de aprendizado 
decidir que ação deve ser tomada. 
 
Quando o sistema possui esta característica, diz-se que 
ele satisfaz a propriedade de Markov (Bellman, 1957). 
 
Propriedade de Markov 
Se a resposta do ambiente em t+1 depende apenas do 
estado atual, pela propriedade de Markov, o estado atual 
contém a informação dos estados anteriores. 
 tttt asrrss ,|,'Pr 11  
Se o ambiente tem propriedade de Markov, então ele pode 
prever o próximo estado e o valor esperado para o retorno 
dado o estado e a ação atual. 
É possível criar soluções incrementais, facilitando a 
implementação computacional. 
26 
Assim, a decisão de que ação tomar não pode depender 
da seqüência de estados anteriores 
 
Exemplo: 
 
Um tabuleiro de dama satisfaz esta propriedade 
Propriedade de Markov 
27 
Processos de Decisão de Markov 
– PDM 
 Em RL, o ambiente deve ser modelado como um Processo de 
Decisão de Markov (Markovian Decision Process MDP) 
 
 Um MDP : 
 Um conjunto de estados S 
 Um conjunto de ações A(s) 
 Uma função de reforço R(s, s’,a), onde R = S × A → R, 
 Uma função de probabilidade P(s, s’,a), onde P = S × A → P 
de transição entre estados 
 
 Se o espaço de estados e ações é finito PDM – 90% dos 
 problemas RL 
 
ts 2t
s
1ts 3ts
ta 1ta 2ta 3ta
1tr 2tr 3tr
... ... 
28 
Características: 
• ambiente evolui probabilisticamente baseado num 
conjunto finito e discreto de estados; 
• o estado possui conjunto finito de ações, onde a mais 
adequada deve ser aprendida; 
• cada ação executada deve ser avaliada; 
• os estados são observados, ações são executadas e 
reforços são relacionados; 
Processos de Decisão de Markov 
– PDM 
29 
Exemplos de PDMs 
Problema Estados Ações Recompensas 
Agente jogador de 
damas 
Configurações do 
tabuleiro 
Mover uma 
determinada peça 
#capturas –
#perdas 
Agente em jogo de 
luta 
Posições/energia 
dos lutadores, 
tempo, se está 
sendo atacado ou 
não, etc... 
Mover-se em uma 
determinada 
direção, lançar 
magia, bater, etc... 
(Sangue tirado – 
sangue perdido) 
Agente patrulhador Posição no mapa 
(atual e passadas) 
Ir para algum lugar 
vizinho do mapa 
Ociosidade (tempo 
sem visitas) do 
lugar visitado 
atualmente 
30 
Processos de Decisão de Markov 
– PDM 
Probabilidades de Transição 
Valor Esperado do Reforço 
31 
Exemplo: Robô Reciclador 
Lixo 
Obstáculo 
Domínio 
robô 
Exemplo: Robô Reciclador 
As decisões devem ser tomadas periodicamente ou 
quando um evento ocorre: 
 
 Estado: O agente toma decisões com base no nível de 
energia da bateria 
– S = {high, low}. 
 
 Ações: 
– A(high) = {search, wait} 
– A(low) = {search, wait, recharge} 
32 
Tabela de Transições 
33 
Grafo de Transições 
34 
-3 
35 
Para os problemas de Reinforcement Learning é 
suposto que o ambiente tenha a forma de um 
Processo de Decisão de Markov, desde que seja 
satisfeita no ambiente a Propriedade de Markov 
Obs: Nem todos os algoritmos de RL necessitam de uma 
modelagem PDM completa do ambiente, mas é necessário 
ter-se pelo menos a visão do ambiente como um conjunto 
de estados e ações. 
Processos de Decisão de Markov 
– PDM 
35 
Elementos de um sistema RL 
 Agente 
 Estado 
 Ambiente 
 Política 
 Função de Reforço 
36 
Elementos RL: Agente e Estado 
 Estado (s): A condição atual do ambiente especificada 
por um conjunto de variáveis adequadas ao problema 
– Tipicamente, estados podem agregar muitas informações 
além dos sinais sensoriais 
– Formado pelas percepções do agente + modelo do mundo; 
– Deve prover informação para o agente de quais ações 
podem ser executadas; 
37 
A representação deste estado deve ser suficiente para que o 
agente tome suas decisões (satisfaz a propriedade de Markov) 
 Agente: É o aprendiz que inserido no ambiente, toma 
ações que mudam o ambiente. 
 
 
 
 
38 
 Modelo perceptivo: 
 mapeia percepções para representação interna do estado 
do ambiente 
– mp: (percepção(t), modelo(estado(ambiente(t-1)))) 
  modelo(estado(ambiente(t))) 
Elementos RL: Modelo do ambiente 
 Modelo efetivo: 
 mapeia ação a efetuar para representação interna do 
estado do ambiente resultando dessa ação 
– me: (ação(t), modelo(estado(ambiente(t)))) 
  modelo(estado(ambiente(t+1))) 
39 39 
 Cada um desses modelos pode ser: 
– representado em extensão por uma tabela, ou 
– representado em intenção por algum formalismo de 
representação do conhecimento como: 
– operadores de próximo estado, regras, lógica, 
operadores de planejamento 
– manualmente codificado, ou 
– aprendido com aprendizagem supervisionada 
Elementos RL: Modelo do ambiente 
 Imita o comportamento do ambiente 
40 
• Modelos do ambiente são usados para planejamento: 
― Planejamento é qualquer método de decidir um 
curso de ação ao considerarmos futuras situações 
antes de encontrá-las. 
 
Elementos RL: Modelo do ambiente 
 Dados um estado e uma ação, o modelo antecipa o 
próximo estado e o ganho 
– Estado corrente no instante t: st 
– Ação a ser tomada: at 
– Modelo antecipa o próximo estado: 
– P(st+1=s | st, at) 
 
Elementos RL: com x sem modelo 
prévio do ambiente 
41 
Com modelo prévio do ambiente 
 Agente possui modelo do 
ambiente para prever 
transições de estado do 
ambiente causada pelas suas 
ações 
 Em ambiente não 
determinista, o modelo pode 
ser apenas estocástico 
 
Sem modelo prévio do ambiente 
 Agente ignora a priori: 
– tanto o valor de cada estado do 
ambiente com respeito a seus 
objetivos 
– quanto as transições de estado 
do ambiente que suas ações 
podem causar 
Elementos RL: sem modelo prévio 
do ambiente 
42 
 Dois tipos de técnicas: 
– As que permitem ao agente aprender o valor de 
ação

Crie agora seu perfil grátis para visualizar sem restrições.