Grátis
53 pág.

Denunciar
Pré-visualização | Página 3 de 3
para a realização dos seus objetivos sem conhecer o estado do ambiente – As que permitem aprender ambas a função valor e a função de transição de estado 43 Mapeia estados do ambiente ou transição do ambiente de um estado para um outro, indicando a satisfação imediata do agente no estado resultando da transição em relação aos seus objetivos • R: estado(ambiente) real, ou • R: (estado1(ambiente), estado2(ambiente)) real • R: codifica os objetivos do agente de maneira imediata local • R: pode ser determinista ou estocástica 43 Elementos RL: Função de Reforço O uso de um sinal de reforço é uma da características mais importantes de RL; 44 • Em geral não se penaliza um agente por não ter acesso a alguma informação relevante, mas por ter tido conhecimento e depois esquecido. Reforço(r): É um valor escalar, resposta do ambiente dada uma ação executada pelo agente; é a qualidade imediata da ação tomada para o estado atual. Elementos RL: Função de Reforço O sinal de reforço é a maneira de se comunicar ao agente o que desejamos que ele faça, não como ele deve executar a tarefa; O objetivo do agente é maximizar a seqüência de recompensas recebidas, ou seja, maximizar o Reforço esperado. Ttttt rrrrR 321 Elementos RL: Função de Reforço 45 A função acima faz sentido quando a interação agente- ambiente pode ser quebrada em subseqüências chamadas episódios. 46 46 O fim de um episódio é um estado terminal – Em tarefas episódicas, distingue-se estados não terminais, S, dos estados terminais, S+ . Elementos RL: Função de Reforço Quando a interação agente-ambiente não pode ser quebrada naturalmente em episódios, dizemos que a tarefa é contínua. 47 47 Funções de reforço adequadas a cada um dos 3 tipos de problemas: Elementos RL: Função de Reforço • Reforços no estado final: em geral as recompensas são todas zero, exceto no estado final. • Como o objetivo é maximizar o reforço, o agente aprende que os estados correspondentes a uma recompensa são bons, e os que levaram a uma penalidade devem ser evitados. •Tempo mínimo ao objetivo: nesta classe fazem com que o agente realize ações que produzam o caminho ou trajetória mais curta para um estado objetivo. • Toda transição tem penalidade (−1) exceto aquela que leva ao estado terminal (0). • O Agente aprende a maximizar valores de reforço, escolhendo ações que minimizam o tempo que leva a alcançar o estado final. • Minimizar reforços: nem sempre o agente precisa ou deve tentar maximizar a função de reforço. • Útil quando o reforço é uma função para recursos limitados e o agente deve aprender a conservá-los ao mesmo tempo em que alcança o objetivo. 48 Reforço em todos os estados Agente recebe reforço em todos os estados Pode facilmente atribuir esse reforço a esse estado ou a última ação que executou Simplifica a atualização da estimativa do valor desse estado ou ação Reforço em poucos estados Agente recebe reforço apenas em poucos estados Enfrenta o problema da distribuição desse reforço entre as várias ações que executou desde o último reforço Dificulta atualização da estimativa do valor dos estados ou das ações Elementos RL: Função de Reforço • As ações são escolhas feitas pelos agentes; • As recompensas são a base para avaliação das escolhas; • Os estados são a base para se fazer as escolhas; Elementos de um sistema RL 49 Enquanto a função de reforço indica os movimento promissores imediatos, a função valor indica o ganho total que pode ser acumulado no futuro se iniciarmos no estado em consideração. 50 Elementos RL: Função de Valor A função valor indica o ganho potencial de longo termo de um estado, levando em conta os estados que sucedem o estado em consideração. Função de Valor: Valor esperado condicional da função de reforço para um estado e uma ação, seguindo uma política 0 1)( k tkt k tt ssrEssREsV 0 1 ,,),( k ttkt k ttt aassrEaassREasQ A função de valor representa o reforço esperado a longo prazo. Função de valor do estado para Função de valor da ação para Elementos RL: Função de Valor 51 Reforços futuros mantêm dependências das ações futura As funções valor dependem também da política π que o agente adota Elementos RL: Política de ações () A política Πt (s,a) é a probabilidade da ação at= a se st=s 52 Função que modela o comportamento do agente – Mapeia estados em ações Pode ser vista como um conjunto de regras do tipo sn am – Exemplo: Se estado s = (inimigo próximo, estou perdendo e tempo acabando) então ação a = (usar magia); Se estado s =(outro estado) então ... Objetivo do RL O objetivo do RL é maximizar o reforço total (função valor) obtido a longo prazo Através a busca de uma política que maximize o valor esperado de reforço para cada estado s do conjunto S. )(: sAaSs 53