Buscar

CDD015___AULA_1

Prévia do material em texto

Aula 1 - Introdução
Thiago A.O. Silva 1
1LASOS - DEENP - ICEA
Junho de 2021
Apresentação da Disciplina
Seção 1
Apresentação da Disciplina
2 / 22
Apresentação da Disciplina
Contatos
▶ Prof. Thiago Silva
▶ Email: thiago@ufop.edu.br
▶ Tel: (31) 98823 8585
3 / 22
Apresentação da Disciplina
Plano de ensino
▶ Plano de Ensino: disponibilizado no Moodle
▶ Tópicos das aulas
▶ Método de ensino
▶ Formação de grupo
▶ Avaliação
4 / 22
Introdução
Seção 2
Introdução
5 / 22
Introdução
O que é o Aprendizado por Reforço?
▶ Terceira categoria de
ML
▶ Interface
agente-ambiente
▶ Objetivo: aprender a
decidir
▶ Similar ao adestramento
de animais
6 / 22
Introdução
O que é o Aprendizado por Reforço?
O foco não é ensinar o algoritmo ”como fazer as coisas”. O foco do RL é especificar
qual o resultado que se deseja obter através do algoritmo e esperar que ele aprenda,
por meio da interação com ambiente, formas de alcançar este objetivo. (RASCHKA;
MIRJALILI, 2019)
7 / 22
Interface Agente-Ambiente
Seção 3
Interface Agente-Ambiente
8 / 22
Interface Agente-Ambiente
Ambiente
▶ Sistema onde se deseja
atuar
▶ Caracteriza o estado
▶ Define recompensa
▶ Complexo, Incerto
▶ pode ser de grande
porte
9 / 22
Interface Agente-Ambiente
Agente
▶ Tomador de decisão
▶ Recebe e interpreta a
recompensa
▶ Poĺıtica
▶ Algoritmo de
aprendizado
10 / 22
Interface Agente-Ambiente
Processo de Decisão Sequencial
Estágio: É definido como um instante de tempo onde o sistema pode ser avaliado e
onde o agente realizará a ação.
11 / 22
Interface Agente-Ambiente
Processo de Decisão Sequencial
Estado: Em todos os estágios, as informações do ambiente necessárias para
descrevê-lo e, portanto, avaliá-lo definem o estado do sistema no instante corrente.
11 / 22
Interface Agente-Ambiente
Processo de Decisão Sequencial
Ações: São as posśıveis decisões a serem tomadas pelos agentes em cada um dos
estágios do processo.
11 / 22
Interface Agente-Ambiente
Processo de Decisão Sequencial
Informações Exógenas: São informações que não são conhecidas à priori e
representam as incertezas do processo.
11 / 22
Interface Agente-Ambiente
Processo de Decisão Sequencial
Retorno: é o custo ou benef́ıcio recebido pelo agente por executar a ação em um
determinado estágio. O retorno pode não ser recebido de forma imediata.
11 / 22
Interface Agente-Ambiente
Processo de Decisão Sequencial
Transição: Determina como o sistema evolui ao longo dos estágios de decisão, em
outras palavras, determina a dinâmica do processo.
11 / 22
Interface Agente-Ambiente
Exemplos:
GESTÃO DE ESTOQUE DE UM ITEM
▶ Agente: Gestor do estoque.
▶ Ambiente: Sistema formado pelos fornecedores, consumidores e
infraestrutura de armazenagem do item.
▶ Estágio: Momento em que o gestor realiza uma ação.
▶ Estado: Quantidade de item em estoque.
▶ Ações: Em uma poĺıtica de revisão periódica, o gestor deve definir
quanto comprar de um determinado item.
▶ Informações Exógenas: São as incertezas do processo como, por
exemplo, a demanda pelo item, o tempo de reposição e o preço do item.
▶ Retorno: Custo total de gerir o estoque.
▶ Transição: A realização de um pedido, a chegada do item e o consumo
do item definem o estado seguinte.
12 / 22
Interface Agente-Ambiente
Exemplos:
COMPRA E VENDA DE UM ATIVO FINANCEIRO
▶ Agente: Gestor do estoque.
▶ Ambiente: Sistema formado pelos fornecedores, consumidores e
infraestrutura de armazenagem do item.
▶ Estágio: Momento em que o gestor realiza uma ação.
▶ Estado: Quantidade de item em estoque.
▶ Ações: Em uma poĺıtica de revisão periódica, o gestor deve definir
quanto comprar de um determinado item.
▶ Informações Exógenas: São as incertezas do processo como, por
exemplo, a demanda pelo item, o tempo de reposição e o preço do item.
▶ Retorno: Custo total de gerir o estoque.
▶ Transição: A realização de um pedido, a chegada do item e o consumo
do item definem o estado seguinte.
13 / 22
Interface Agente-Ambiente
Exemplos:
JOGO DE XADREZ
▶ Agente: Jogador.
▶ Ambiente: Sistema formado pelo oponente e pelas regras do jogo.
▶ Estágio: Turno de jogada do agente.
▶ Estado: Configuração das peças no tabuleiro.
▶ Ações: Definição da peça e seu respectivo movimento.
▶ Informações Exógenas: Ação do oponente.
▶ Retorno: Definido ao final do jogo, o retorno é positivo se o agente
vencer e negativo em caso contrário.
▶ Transição: O movimento do agente e o movimento do oponente definem
o estado seguinte.
14 / 22
Processo de Decisão de Markov
Seção 4
Processo de Decisão de Markov
15 / 22
Processo de Decisão de Markov
Processo de Decisão de Markov
E1
E2
E3
0.5
0.4
0.1
0.3 0.4
0.3
0.3
0.7
Figura: Cadeia de Markov de três
estados
▶ É um processo de decisão
sequencial onde a dinâmica
do sistema pode ser
representada por uma Cadeia
de Markov
▶ Uma Cadeia de Markov é um
processo estocástico onde a
transição para o estado
seguinte depende apenas do
estado atual.
▶ Portanto, a probabilidade de
transição é independente do
caminho de estados anteriores
realizado até o estado atual.
16 / 22
Processo de Decisão de Markov
Processo de Decisão de Markov
Agente: Tomador de decisão.
Ambiente: Sistema apresentado na
Figura.
Estágio: Rodada de decisão.
Estado: Nó corrente dentro do
conjunto de nós da rede
N = {1, 2, 3, 4} que determina os
posśıveis estados do sistema.
Ações: Retornar ao nó inicial ou
aguardar a transição do sistema.
Informações Exógenas: Definição da
transição do sistema quando o
agente decide aguardar.
Retorno: Valor recebido por retornar
ao Estado 1.
Transição: A decisão do agente ou a
incerteza definirá o estado seguinte.
17 / 22
Processo de Decisão de Markov
Algoritmos
Algoritmos MDP
model-based
Exatos
Backward DP
VIA
PIA
Heuŕısticos
model-free
Monte Carlo
APIA
Dif. Temporal
SARSA
Q-learning
Deep Q-learning
18 / 22
Exemplos
Seção 5
Exemplos
19 / 22
Exemplos
Exemplo de Aplicação na Indústria
Movimentação do Carro
Tripper
▶ Problema de Controle Ótimo
▶ Restrições de Movimentação
▶ Incerteza nas taxas de
alimentação
▶ Trabalho do Prof. Alexandre
Martins (LASOS)
▶ Estudo real em uma empresa
de mineração
▶ Trabalho ganhou prêmio de
melhor artigo na ICEIS(2018)
Figura: Problema do Tripper -
Fonte: Caldas e Martins (2018)
20 / 22
Exemplos
Exemplo de Aplicação em Serviços
Sequenciamento de Cirurgias
▶ Alocação ótima de múltiplos
recursos
▶ Restrições de agenda e
compatibilidade de recursos
▶ Incerteza na chegada, duração
e urgência das cirurgias
▶ Aplicações reais em
maternidade de pequeno
porte e hospital de grande
porte
▶ Silva e Souza (2019), Silva et
al. (2015)
21 / 22
Exemplos
Referências I
CALDAS, F. N.; MARTINS, A. X. Proposed solutions to the
tripper car positioning problem. In: ICEIS (1). [S.l.: s.n.], 2018.
p. 344–352.
RASCHKA, S.; MIRJALILI, V. Python Machine Learning:
Machine Learning and Deep Learning with Python. Birmingham,
UK: Packt Publishing, 2019.
SILVA, T. A.; SOUZA, M. C. de. Surgical scheduling under
uncertainty by approximate dynamic programming. Omega,
Elsevier, p. 102066, 2019.
SILVA, T. A. et al. Surgical scheduling with simultaneous
employment of specialised human resources. European Journal
of Operational Research, Elsevier, v. 245, n. 3, p. 719–730,
2015.
22 / 22
	Apresentação da Disciplina
	Introdução
	Interface Agente-Ambiente
	Processo de Decisão de Markov
	Exemplos

Continue navegando