Redes Neurais3

•

ESTÁCIO

Áquila Tavares

15/06/2018

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Protocolos de Redes e de Computadores
AULA 02
INTELIGÊNCIA ARTIFICIAL – AULA 08
Prof. Msc. Alexandre José Braga da Silva
alex.professor@gmail.com
CCT0452 – Inteligência Articial
Objetvos da Aula:
• Aprendizado por Reforço;
• Algoritmo Q-Learning;
• Exemplo Prátco usando Redes Neurais;
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Aprendizagem por Reforço (reinforcement Learning) → paradigma
computacional de aprendizagem que um agente aprendiz procura
maximizar uma medida de desempenho baseada nos reforços que
recebe ao interagir com um ambiente desconhecido.
O agente tem como objetvo aprender de maneira autônoma uma
polítca ótma de atuação, por experimentação direta sem a presença
de um tutor.
Este modelo se baseia nos Processos de Decisão de Markov
(PDM)
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Em PDM se o espaço de estados e ações for inito, será considerado
um Processo de Decisão de Markov inito. PDM Possibilita que
decisões sejam tomadas em função do estado atual, ou seja, o estado
do processo no futuro depende apenas do estado e da decisão
tomada no presente.
Isto torna possível a utlização de métodos incrementais onde a partr
do estado corrente pode-se obter soluções para cada um dos estados
futuros.
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Em um ambiente de aprendizado por reforço, um agente está
inserido em um ambiente T e interage com ele através de percepções
e ações. A cada passo, o agente recebe como entrada e, uma
indicação do estado (s) atual do ambiente. O agente escolhe, então,
uma ação a a tomar, e gera sua saída. A ação altera então o estado do
ambiente, e uma medida dessa mudança de estado é informada ao
agente através de um valor de sinal de reforço (r).
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Em um ambiente de aprendizado por reforço, um agente está
inserido em um ambiente T e interage com ele através de percepções
e ações. A cada passo, o agente recebe como entrada e, uma
indicação do estado (s) atual do ambiente. O agente escolhe, então,
uma ação a a tomar, e gera sua saída. A ação altera então o estado do
ambiente, e uma medida dessa mudança de estado é informada ao
agente através de um valor de sinal de reforço (r).
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Formalmente, o modelo é consttuído por:
 Um conjunto discreto de estados que o ambiente pode assumir;
 Um conjunto discreto de ações que o agente pode tomar sobre o
 ambiente;
 Um conjunto de valores escalares de reforço; geralmente , ou os
números reais.
 Uma função de entrada (e), que é a maneira como o agente “lê” o
estado atual do ambiente.
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Quando o sistema encontra-se em determinado estado s, o valor
recebido Vπ(s) como recompensa, após a execução das ações
seguindo uma polítca π, é deinido como as soma das recompensas
recebidas a cada ação tomada. Ações tomadas mais tarde podem ter
peso menor, e isso é compensado com um fator de desconto
temporal, Ύ
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Em síntese, este método consiste no aprendizado do mapeamento de
estados em ações de modo que um valor numérico de retorno seja
maximizado.
A princípio, o agente não precisa ter conhecimento das ações que
deve tomar, mas deve descobrir quais ações o levam a obter maiores
valores de retorno.
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Aprendizado Supervisionado → São apresentadas ao computador
exemplos de entradas e saídas desejadas, fornecidas por um "tutor".
O objetvo é aprender uma regra geral que mapeia as entradas para
as saídas.
Aprendizado Não Supervisionado → Nenhum tpo de treino é dado
ao algoritmo de aprendizado, deixando-o sozinho para encontrar
estrutura nas entradas fornecidas. O aprendizado não supervisionado
pode ser um objetvo em si mesmo (descobrir novos padrões nos
dados) ou um meio para atngir um im.
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Aprendizado Semi-Supervisionado → O tutor fornece um sinal de
treinamento incompleto: um conjunto de dados de treinamento com
algumas (muitas vezes várias) das saídas desejadas ausentes. A
transdução é um caso especial deste princípio, em que o conjunto
inteiro das instâncias do problema é conhecido no momento do
aprendizado, mas com parte dos objetvos ausente.
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Algumas técnicas que utlizam Aprendizado por Reforço:
 Árvore de Decisão;
 Regras de Associação;
 Rede Neural Articial;
 Aprendizado Profundo (Deep Learning);
 Lógica de Programação Indutva (LPI);
 Clustering;
 Redes Bayesianas;
 Algoritmos Genétcos.
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
O algoritmo Q-Learning é usado em aprendizado por reforço para
encontrar a melhor ação a se tomar por um agente em um ambiente
com espaço discreto (inito). Ele funciona através de uma função de
ação-valor representada por Q(s,a), que retorna ação a, mediante o
estado s.
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
Vejamos o Algoritmo:
while(i < iteracao){
while(comodo_atual != cozinha){
acao = acoes_possiveis
Q[comodo_atual, acao] = recompensa[comodo_atual, acao] +
alpha*max[Q[acao, todas_acoes]]
comodo_atual = acao
}
i++;
}
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
Vamos entender o algoritmo através de um exemplo:
Imagine um agente e uma casa com 6 cômodos. A tarefa do agente é chegar
até a sala da casa partndo da cozinha. É desejável que o agente aprenda o
caminho mais curto deste trajeto. Para isso, teremos uma matriz de
recompensa, onde -1 representa paredes (não pode passar), 0 representa
caminho livre e um número alto para cada passo que leve mais perto do
objetvo. Esta matriz será: recompensa[x,y]; onde x é o número que
representa o cômodo atual e y é a recompensa. Então, se houver passagem, y
será 0 (enquanto x não for o cômodo objetvo, caso contrário y será 100), Se
não houver passagem y será -1. Precisamos de uma matriz de aprendizado
(Q) que será inicializada com zeros com a mesma dimensão da matriz de
recompensa.
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
Suponha que o agente está no estado 2. A partir do estado 2, ele pode ir ao estado 3
pois está conectado ao estado 3. A partir do estado 2, o agente não pode ir
diretamente ao estado 1 pois não tem porta conectando a sala 1 e a 2. A partir do
estado 3, ele pode tanto ir ao estado 1 ou 4 ou de volta ao 2. Se o agente está no
estado 4, então as três ações possíveis são ir ao estado 0, 5 ou 3. Se o agente está
no estado 1, ele pode tanto ir ao estado 5 ou 3. A partir do estado 0, ele pode
apenas ir ao estado 4.
A partir dai podemos montar a matriz de recompensas R.
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20