Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 1 - Introdução Thiago A.O. Silva 1 1LASOS - DEENP - ICEA Junho de 2021 Apresentação da Disciplina Seção 1 Apresentação da Disciplina 2 / 22 Apresentação da Disciplina Contatos ▶ Prof. Thiago Silva ▶ Email: thiago@ufop.edu.br ▶ Tel: (31) 98823 8585 3 / 22 Apresentação da Disciplina Plano de ensino ▶ Plano de Ensino: disponibilizado no Moodle ▶ Tópicos das aulas ▶ Método de ensino ▶ Formação de grupo ▶ Avaliação 4 / 22 Introdução Seção 2 Introdução 5 / 22 Introdução O que é o Aprendizado por Reforço? ▶ Terceira categoria de ML ▶ Interface agente-ambiente ▶ Objetivo: aprender a decidir ▶ Similar ao adestramento de animais 6 / 22 Introdução O que é o Aprendizado por Reforço? O foco não é ensinar o algoritmo ”como fazer as coisas”. O foco do RL é especificar qual o resultado que se deseja obter através do algoritmo e esperar que ele aprenda, por meio da interação com ambiente, formas de alcançar este objetivo. (RASCHKA; MIRJALILI, 2019) 7 / 22 Interface Agente-Ambiente Seção 3 Interface Agente-Ambiente 8 / 22 Interface Agente-Ambiente Ambiente ▶ Sistema onde se deseja atuar ▶ Caracteriza o estado ▶ Define recompensa ▶ Complexo, Incerto ▶ pode ser de grande porte 9 / 22 Interface Agente-Ambiente Agente ▶ Tomador de decisão ▶ Recebe e interpreta a recompensa ▶ Poĺıtica ▶ Algoritmo de aprendizado 10 / 22 Interface Agente-Ambiente Processo de Decisão Sequencial Estágio: É definido como um instante de tempo onde o sistema pode ser avaliado e onde o agente realizará a ação. 11 / 22 Interface Agente-Ambiente Processo de Decisão Sequencial Estado: Em todos os estágios, as informações do ambiente necessárias para descrevê-lo e, portanto, avaliá-lo definem o estado do sistema no instante corrente. 11 / 22 Interface Agente-Ambiente Processo de Decisão Sequencial Ações: São as posśıveis decisões a serem tomadas pelos agentes em cada um dos estágios do processo. 11 / 22 Interface Agente-Ambiente Processo de Decisão Sequencial Informações Exógenas: São informações que não são conhecidas à priori e representam as incertezas do processo. 11 / 22 Interface Agente-Ambiente Processo de Decisão Sequencial Retorno: é o custo ou benef́ıcio recebido pelo agente por executar a ação em um determinado estágio. O retorno pode não ser recebido de forma imediata. 11 / 22 Interface Agente-Ambiente Processo de Decisão Sequencial Transição: Determina como o sistema evolui ao longo dos estágios de decisão, em outras palavras, determina a dinâmica do processo. 11 / 22 Interface Agente-Ambiente Exemplos: GESTÃO DE ESTOQUE DE UM ITEM ▶ Agente: Gestor do estoque. ▶ Ambiente: Sistema formado pelos fornecedores, consumidores e infraestrutura de armazenagem do item. ▶ Estágio: Momento em que o gestor realiza uma ação. ▶ Estado: Quantidade de item em estoque. ▶ Ações: Em uma poĺıtica de revisão periódica, o gestor deve definir quanto comprar de um determinado item. ▶ Informações Exógenas: São as incertezas do processo como, por exemplo, a demanda pelo item, o tempo de reposição e o preço do item. ▶ Retorno: Custo total de gerir o estoque. ▶ Transição: A realização de um pedido, a chegada do item e o consumo do item definem o estado seguinte. 12 / 22 Interface Agente-Ambiente Exemplos: COMPRA E VENDA DE UM ATIVO FINANCEIRO ▶ Agente: Gestor do estoque. ▶ Ambiente: Sistema formado pelos fornecedores, consumidores e infraestrutura de armazenagem do item. ▶ Estágio: Momento em que o gestor realiza uma ação. ▶ Estado: Quantidade de item em estoque. ▶ Ações: Em uma poĺıtica de revisão periódica, o gestor deve definir quanto comprar de um determinado item. ▶ Informações Exógenas: São as incertezas do processo como, por exemplo, a demanda pelo item, o tempo de reposição e o preço do item. ▶ Retorno: Custo total de gerir o estoque. ▶ Transição: A realização de um pedido, a chegada do item e o consumo do item definem o estado seguinte. 13 / 22 Interface Agente-Ambiente Exemplos: JOGO DE XADREZ ▶ Agente: Jogador. ▶ Ambiente: Sistema formado pelo oponente e pelas regras do jogo. ▶ Estágio: Turno de jogada do agente. ▶ Estado: Configuração das peças no tabuleiro. ▶ Ações: Definição da peça e seu respectivo movimento. ▶ Informações Exógenas: Ação do oponente. ▶ Retorno: Definido ao final do jogo, o retorno é positivo se o agente vencer e negativo em caso contrário. ▶ Transição: O movimento do agente e o movimento do oponente definem o estado seguinte. 14 / 22 Processo de Decisão de Markov Seção 4 Processo de Decisão de Markov 15 / 22 Processo de Decisão de Markov Processo de Decisão de Markov E1 E2 E3 0.5 0.4 0.1 0.3 0.4 0.3 0.3 0.7 Figura: Cadeia de Markov de três estados ▶ É um processo de decisão sequencial onde a dinâmica do sistema pode ser representada por uma Cadeia de Markov ▶ Uma Cadeia de Markov é um processo estocástico onde a transição para o estado seguinte depende apenas do estado atual. ▶ Portanto, a probabilidade de transição é independente do caminho de estados anteriores realizado até o estado atual. 16 / 22 Processo de Decisão de Markov Processo de Decisão de Markov Agente: Tomador de decisão. Ambiente: Sistema apresentado na Figura. Estágio: Rodada de decisão. Estado: Nó corrente dentro do conjunto de nós da rede N = {1, 2, 3, 4} que determina os posśıveis estados do sistema. Ações: Retornar ao nó inicial ou aguardar a transição do sistema. Informações Exógenas: Definição da transição do sistema quando o agente decide aguardar. Retorno: Valor recebido por retornar ao Estado 1. Transição: A decisão do agente ou a incerteza definirá o estado seguinte. 17 / 22 Processo de Decisão de Markov Algoritmos Algoritmos MDP model-based Exatos Backward DP VIA PIA Heuŕısticos model-free Monte Carlo APIA Dif. Temporal SARSA Q-learning Deep Q-learning 18 / 22 Exemplos Seção 5 Exemplos 19 / 22 Exemplos Exemplo de Aplicação na Indústria Movimentação do Carro Tripper ▶ Problema de Controle Ótimo ▶ Restrições de Movimentação ▶ Incerteza nas taxas de alimentação ▶ Trabalho do Prof. Alexandre Martins (LASOS) ▶ Estudo real em uma empresa de mineração ▶ Trabalho ganhou prêmio de melhor artigo na ICEIS(2018) Figura: Problema do Tripper - Fonte: Caldas e Martins (2018) 20 / 22 Exemplos Exemplo de Aplicação em Serviços Sequenciamento de Cirurgias ▶ Alocação ótima de múltiplos recursos ▶ Restrições de agenda e compatibilidade de recursos ▶ Incerteza na chegada, duração e urgência das cirurgias ▶ Aplicações reais em maternidade de pequeno porte e hospital de grande porte ▶ Silva e Souza (2019), Silva et al. (2015) 21 / 22 Exemplos Referências I CALDAS, F. N.; MARTINS, A. X. Proposed solutions to the tripper car positioning problem. In: ICEIS (1). [S.l.: s.n.], 2018. p. 344–352. RASCHKA, S.; MIRJALILI, V. Python Machine Learning: Machine Learning and Deep Learning with Python. Birmingham, UK: Packt Publishing, 2019. SILVA, T. A.; SOUZA, M. C. de. Surgical scheduling under uncertainty by approximate dynamic programming. Omega, Elsevier, p. 102066, 2019. SILVA, T. A. et al. Surgical scheduling with simultaneous employment of specialised human resources. European Journal of Operational Research, Elsevier, v. 245, n. 3, p. 719–730, 2015. 22 / 22 Apresentação da Disciplina Introdução Interface Agente-Ambiente Processo de Decisão de Markov Exemplos
Compartilhar