A maior rede de estudos do Brasil

Grátis
53 pág.
RL-Introducao_1aula

Pré-visualização | Página 3 de 3

para a realização dos seus objetivos sem 
conhecer o estado do ambiente 
– As que permitem aprender ambas a função valor e a 
função de transição de estado 
 
43 
Mapeia estados do ambiente ou transição do ambiente de 
um estado para um outro, indicando a satisfação imediata do 
agente no estado resultando da transição em relação aos 
seus objetivos 
 
• R: estado(ambiente)  real, ou 
• R: (estado1(ambiente), estado2(ambiente))  real 
• R: codifica os objetivos do agente de maneira imediata local 
• R: pode ser determinista ou estocástica 
43 
Elementos RL: Função de Reforço 
 O uso de um sinal de reforço é uma da características mais 
importantes de RL; 
44 
• Em geral não se penaliza um agente por não ter acesso a 
alguma informação relevante, mas por ter tido conhecimento e 
depois esquecido. 
 Reforço(r): É um valor escalar, resposta do ambiente 
dada uma ação executada pelo agente; é a qualidade 
imediata da ação tomada para o estado atual. 
Elementos RL: Função de Reforço 
 O sinal de reforço é a maneira de se comunicar ao agente o 
que desejamos que ele faça, não como ele deve executar a 
tarefa; 
O objetivo do agente é maximizar a seqüência de 
recompensas recebidas, ou seja, maximizar o Reforço 
esperado. 
Ttttt rrrrR   321
Elementos RL: Função de Reforço 
45 
A função acima faz sentido quando a interação agente-
ambiente pode ser quebrada em subseqüências 
chamadas episódios. 
46 46 
O fim de um episódio é um estado terminal 
– Em tarefas episódicas, distingue-se estados não 
terminais, S, dos estados terminais, S+ . 
Elementos RL: Função de Reforço 
Quando a interação agente-ambiente não pode ser 
quebrada naturalmente em episódios, dizemos que a 
tarefa é contínua. 
 
47 47 
Funções de reforço adequadas a cada um dos 3 tipos de problemas: 
Elementos RL: Função de Reforço 
• Reforços no estado final: em geral as recompensas são todas zero, 
exceto no estado final. 
• Como o objetivo é maximizar o reforço, o agente aprende que os estados 
correspondentes a uma recompensa são bons, e os que levaram a uma 
penalidade devem ser evitados. 
•Tempo mínimo ao objetivo: nesta classe fazem com que o agente realize 
ações que produzam o caminho ou trajetória mais curta para um estado 
objetivo. 
• Toda transição tem penalidade (−1) exceto aquela que leva ao estado 
terminal (0). 
• O Agente aprende a maximizar valores de reforço, escolhendo ações que 
minimizam o tempo que leva a alcançar o estado final. 
 
• Minimizar reforços: nem sempre o agente precisa ou deve tentar maximizar a 
função de reforço. 
• Útil quando o reforço é uma função para recursos limitados e o agente 
deve aprender a conservá-los ao mesmo tempo em que alcança o 
objetivo. 
 
 
48 
Reforço em todos os estados 
 Agente recebe reforço em 
todos os estados 
 Pode facilmente atribuir esse 
reforço a esse estado ou a 
última ação que executou 
 Simplifica a atualização da 
estimativa do valor desse 
estado ou ação 
 
Reforço em poucos estados 
 Agente recebe reforço 
apenas em poucos estados 
 Enfrenta o problema da 
distribuição desse reforço 
entre as várias ações que 
executou desde o último 
reforço 
 Dificulta atualização da 
estimativa do valor dos 
estados ou das ações 
Elementos RL: Função de Reforço 
• As ações são escolhas feitas pelos agentes; 
• As recompensas são a base para avaliação das 
escolhas; 
• Os estados são a base para se fazer as escolhas; 
Elementos de um sistema RL 
49 
 Enquanto a função de reforço indica os movimento 
promissores imediatos, a função valor indica o 
ganho total que pode ser acumulado no futuro se 
iniciarmos no estado em consideração. 
 
50 
Elementos RL: Função de Valor 
 A função valor indica o ganho potencial de longo 
termo de um estado, levando em conta os estados 
que sucedem o estado em consideração. 
 
 Função de Valor: Valor esperado condicional da função de 
reforço para um estado e uma ação, seguindo uma política 
 
 
 






 



0
1)(
k
tkt
k
tt ssrEssREsV 
 






 



0
1 ,,),(
k
ttkt
k
ttt aassrEaassREasQ 
A função de valor representa o reforço esperado a longo prazo. 
Função de valor do estado para  
Função de valor da ação para  
Elementos RL: Função de Valor 
51 
Reforços futuros mantêm dependências das ações futura 
As funções valor dependem também da política π que o agente adota 
Elementos RL: Política de ações () 
 
A política Πt (s,a) é a probabilidade da ação at= a se st=s 
52 
 Função que modela o comportamento do agente 
– Mapeia estados em ações 
 
 Pode ser vista como um conjunto de regras do tipo 
 sn  am 
 
– Exemplo: 
 Se estado s = (inimigo próximo, estou 
perdendo e tempo acabando) então 
 ação a = (usar magia); 
 Se estado s =(outro estado) então 
 ... 
 
Objetivo do RL 
 O objetivo do RL é maximizar o reforço total (função 
valor) obtido a longo prazo 
 
 Através a busca de uma política 
que maximize o valor esperado de reforço para cada 
estado s do conjunto S. 
 
 
 
 
 
)(: sAaSs 
53

Crie agora seu perfil grátis para visualizar sem restrições.