CDD015___AULA_1

•

ESTÁCIO

0

thiago silva

09/03/2023

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Machine Learning

1.263 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Aula 1 - Introdução
Thiago A.O. Silva 1
1LASOS - DEENP - ICEA
Junho de 2021
Apresentação da Disciplina
Seção 1
Apresentação da Disciplina
2 / 22
Apresentação da Disciplina
Contatos
▶ Prof. Thiago Silva
▶ Email: thiago@ufop.edu.br
▶ Tel: (31) 98823 8585
3 / 22
Apresentação da Disciplina
Plano de ensino
▶ Plano de Ensino: disponibilizado no Moodle
▶ Tópicos das aulas
▶ Método de ensino
▶ Formação de grupo
▶ Avaliação
4 / 22
Introdução
Seção 2
Introdução
5 / 22
Introdução
O que é o Aprendizado por Reforço?
▶ Terceira categoria de
ML
▶ Interface
agente-ambiente
▶ Objetivo: aprender a
decidir
▶ Similar ao adestramento
de animais
6 / 22
Introdução
O que é o Aprendizado por Reforço?
O foco não é ensinar o algoritmo ”como fazer as coisas”. O foco do RL é especificar
qual o resultado que se deseja obter através do algoritmo e esperar que ele aprenda,
por meio da interação com ambiente, formas de alcançar este objetivo. (RASCHKA;
MIRJALILI, 2019)
7 / 22
Interface Agente-Ambiente
Seção 3
Interface Agente-Ambiente
8 / 22
Interface Agente-Ambiente
Ambiente
▶ Sistema onde se deseja
atuar
▶ Caracteriza o estado
▶ Define recompensa
▶ Complexo, Incerto
▶ pode ser de grande
porte
9 / 22
Interface Agente-Ambiente
Agente
▶ Tomador de decisão
▶ Recebe e interpreta a
recompensa
▶ Poĺıtica
▶ Algoritmo de
aprendizado
10 / 22
Interface Agente-Ambiente
Processo de Decisão Sequencial
Estágio: É definido como um instante de tempo onde o sistema pode ser avaliado e
onde o agente realizará a ação.
11 / 22
Interface Agente-Ambiente
Processo de Decisão Sequencial
Estado: Em todos os estágios, as informações do ambiente necessárias para
descrevê-lo e, portanto, avaliá-lo definem o estado do sistema no instante corrente.
11 / 22
Interface Agente-Ambiente
Processo de Decisão Sequencial
Ações: São as posśıveis decisões a serem tomadas pelos agentes em cada um dos
estágios do processo.
11 / 22
Interface Agente-Ambiente
Processo de Decisão Sequencial
Informações Exógenas: São informações que não são conhecidas à priori e
representam as incertezas do processo.
11 / 22
Interface Agente-Ambiente
Processo de Decisão Sequencial
Retorno: é o custo ou benef́ıcio recebido pelo agente por executar a ação em um
determinado estágio. O retorno pode não ser recebido de forma imediata.
11 / 22
Interface Agente-Ambiente
Processo de Decisão Sequencial
Transição: Determina como o sistema evolui ao longo dos estágios de decisão, em
outras palavras, determina a dinâmica do processo.
11 / 22
Interface Agente-Ambiente
Exemplos:
GESTÃO DE ESTOQUE DE UM ITEM
▶ Agente: Gestor do estoque.
▶ Ambiente: Sistema formado pelos fornecedores, consumidores e
infraestrutura de armazenagem do item.
▶ Estágio: Momento em que o gestor realiza uma ação.
▶ Estado: Quantidade de item em estoque.
▶ Ações: Em uma poĺıtica de revisão periódica, o gestor deve definir
quanto comprar de um determinado item.
▶ Informações Exógenas: São as incertezas do processo como, por
exemplo, a demanda pelo item, o tempo de reposição e o preço do item.
▶ Retorno: Custo total de gerir o estoque.
▶ Transição: A realização de um pedido, a chegada do item e o consumo
do item definem o estado seguinte.
12 / 22
Interface Agente-Ambiente
Exemplos:
COMPRA E VENDA DE UM ATIVO FINANCEIRO
▶ Agente: Gestor do estoque.
▶ Ambiente: Sistema formado pelos fornecedores, consumidores e
infraestrutura de armazenagem do item.
▶ Estágio: Momento em que o gestor realiza uma ação.
▶ Estado: Quantidade de item em estoque.
▶ Ações: Em uma poĺıtica de revisão periódica, o gestor deve definir
quanto comprar de um determinado item.
▶ Informações Exógenas: São as incertezas do processo como, por
exemplo, a demanda pelo item, o tempo de reposição e o preço do item.
▶ Retorno: Custo total de gerir o estoque.
▶ Transição: A realização de um pedido, a chegada do item e o consumo
do item definem o estado seguinte.
13 / 22
Interface Agente-Ambiente
Exemplos:
JOGO DE XADREZ
▶ Agente: Jogador.
▶ Ambiente: Sistema formado pelo oponente e pelas regras do jogo.
▶ Estágio: Turno de jogada do agente.
▶ Estado: Configuração das peças no tabuleiro.
▶ Ações: Definição da peça e seu respectivo movimento.
▶ Informações Exógenas: Ação do oponente.
▶ Retorno: Definido ao final do jogo, o retorno é positivo se o agente
vencer e negativo em caso contrário.
▶ Transição: O movimento do agente e o movimento do oponente definem
o estado seguinte.
14 / 22
Processo de Decisão de Markov
Seção 4
Processo de Decisão de Markov
15 / 22
Processo de Decisão de Markov
Processo de Decisão de Markov
E1
E2
E3
0.5
0.4
0.1
0.3 0.4
0.3
0.3
0.7
Figura: Cadeia de Markov de três
estados
▶ É um processo de decisão
sequencial onde a dinâmica
do sistema pode ser
representada por uma Cadeia
de Markov
▶ Uma Cadeia de Markov é um
processo estocástico onde a
transição para o estado
seguinte depende apenas do
estado atual.
▶ Portanto, a probabilidade de
transição é independente do
caminho de estados anteriores
realizado até o estado atual.
16 / 22
Processo de Decisão de Markov
Processo de Decisão de Markov
Agente: Tomador de decisão.
Ambiente: Sistema apresentado na
Figura.
Estágio: Rodada de decisão.
Estado: Nó corrente dentro do
conjunto de nós da rede
N = {1, 2, 3, 4} que determina os
posśıveis estados do sistema.
Ações: Retornar ao nó inicial ou
aguardar a transição do sistema.
Informações Exógenas: Definição da
transição do sistema quando o
agente decide aguardar.
Retorno: Valor recebido por retornar
ao Estado 1.
Transição: A decisão do agente ou a
incerteza definirá o estado seguinte.
17 / 22
Processo de Decisão de Markov
Algoritmos
Algoritmos MDP
model-based
Exatos
Backward DP
VIA
PIA
Heuŕısticos
model-free
Monte Carlo
APIA
Dif. Temporal
SARSA
Q-learning
Deep Q-learning
18 / 22
Exemplos
Seção 5
Exemplos
19 / 22
Exemplos
Exemplo de Aplicação na Indústria
Movimentação do Carro
Tripper
▶ Problema de Controle Ótimo
▶ Restrições de Movimentação
▶ Incerteza nas taxas de
alimentação
▶ Trabalho do Prof. Alexandre
Martins (LASOS)
▶ Estudo real em uma empresa
de mineração
▶ Trabalho ganhou prêmio de
melhor artigo na ICEIS(2018)
Figura: Problema do Tripper -
Fonte: Caldas e Martins (2018)
20 / 22
Exemplos
Exemplo de Aplicação em Serviços
Sequenciamento de Cirurgias
▶ Alocação ótima de múltiplos
recursos
▶ Restrições de agenda e
compatibilidade de recursos
▶ Incerteza na chegada, duração
e urgência das cirurgias
▶ Aplicações reais em
maternidade de pequeno
porte e hospital de grande
porte
▶ Silva e Souza (2019), Silva et
al. (2015)
21 / 22
Exemplos
Referências I
CALDAS, F. N.; MARTINS, A. X. Proposed solutions to the
tripper car positioning problem. In: ICEIS (1). [S.l.: s.n.], 2018.
p. 344–352.
RASCHKA, S.; MIRJALILI, V. Python Machine Learning:
Machine Learning and Deep Learning with Python. Birmingham,
UK: Packt Publishing, 2019.
SILVA, T. A.; SOUZA, M. C. de. Surgical scheduling under
uncertainty by approximate dynamic programming. Omega,
Elsevier, p. 102066, 2019.
SILVA, T. A. et al. Surgical scheduling with simultaneous
employment of specialised human resources. European Journal
of Operational Research, Elsevier, v. 245, n. 3, p. 719–730,
2015.
22 / 22
	Apresentação da Disciplina
	Introdução
	Interface Agente-Ambiente
	Processo de Decisão de Markov
	Exemplos