Buscar

Redes Neurais3

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Protocolos de Redes e de Computadores
AULA 02
INTELIGÊNCIA ARTIFICIAL – AULA 08
Prof. Msc. Alexandre José Braga da Silva
alex.professor@gmail.com
CCT0452 – Inteligência Articial
Objetvos da Aula:
• Aprendizado por Reforço;
• Algoritmo Q-Learning;
• Exemplo Prátco usando Redes Neurais;
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Aprendizagem por Reforço (reinforcement Learning) → paradigma 
computacional de aprendizagem que um agente aprendiz procura 
maximizar uma medida de desempenho baseada nos reforços que 
recebe ao interagir com um ambiente desconhecido.
O agente tem como objetvo aprender de maneira autônoma uma 
polítca ótma de atuação, por experimentação direta sem a presença 
de um tutor.
Este modelo se baseia nos Processos de Decisão de Markov 
(PDM)
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Em PDM se o espaço de estados e ações for inito, será considerado 
um Processo de Decisão de Markov inito. PDM Possibilita que 
decisões sejam tomadas em função do estado atual, ou seja, o estado 
do processo no futuro depende apenas do estado e da decisão 
tomada no presente.
Isto torna possível a utlização de métodos incrementais onde a partr 
do estado corrente pode-se obter soluções para cada um dos estados 
futuros.
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Em um ambiente de aprendizado por reforço, um agente está 
inserido em um ambiente T e interage com ele através de percepções 
e ações. A cada passo, o agente recebe como entrada e, uma 
indicação do estado (s) atual do ambiente. O agente escolhe, então, 
uma ação a a tomar, e gera sua saída. A ação altera então o estado do 
ambiente, e uma medida dessa mudança de estado é informada ao 
agente através de um valor de sinal de reforço (r).
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Em um ambiente de aprendizado por reforço, um agente está 
inserido em um ambiente T e interage com ele através de percepções 
e ações. A cada passo, o agente recebe como entrada e, uma 
indicação do estado (s) atual do ambiente. O agente escolhe, então, 
uma ação a a tomar, e gera sua saída. A ação altera então o estado do 
ambiente, e uma medida dessa mudança de estado é informada ao 
agente através de um valor de sinal de reforço (r).
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Formalmente, o modelo é consttuído por:
 Um conjunto discreto de estados que o ambiente pode assumir;
 Um conjunto discreto de ações que o agente pode tomar sobre o
 ambiente;
 Um conjunto de valores escalares de reforço; geralmente , ou os 
números reais.
 Uma função de entrada (e), que é a maneira como o agente “lê” o 
estado atual do ambiente.
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Quando o sistema encontra-se em determinado estado s, o valor 
recebido Vπ(s) como recompensa, após a execução das ações 
seguindo uma polítca π, é deinido como as soma das recompensas 
recebidas a cada ação tomada. Ações tomadas mais tarde podem ter 
peso menor, e isso é compensado com um fator de desconto 
temporal, Ύ
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Em síntese, este método consiste no aprendizado do mapeamento de 
estados em ações de modo que um valor numérico de retorno seja 
maximizado. 
A princípio, o agente não precisa ter conhecimento das ações que 
deve tomar, mas deve descobrir quais ações o levam a obter maiores 
valores de retorno.
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Aprendizado Supervisionado → São apresentadas ao computador 
exemplos de entradas e saídas desejadas, fornecidas por um "tutor". 
O objetvo é aprender uma regra geral que mapeia as entradas para 
as saídas.
Aprendizado Não Supervisionado → Nenhum tpo de treino é dado 
ao algoritmo de aprendizado, deixando-o sozinho para encontrar 
estrutura nas entradas fornecidas. O aprendizado não supervisionado 
pode ser um objetvo em si mesmo (descobrir novos padrões nos 
dados) ou um meio para atngir um im.
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Aprendizado Semi-Supervisionado → O tutor fornece um sinal de 
treinamento incompleto: um conjunto de dados de treinamento com 
algumas (muitas vezes várias) das saídas desejadas ausentes. A 
transdução é um caso especial deste princípio, em que o conjunto 
inteiro das instâncias do problema é conhecido no momento do 
aprendizado, mas com parte dos objetvos ausente.
CCT0452 – Inteligência Articial
Aprendizado por Reforço
Algumas técnicas que utlizam Aprendizado por Reforço:
 Árvore de Decisão;
 Regras de Associação;
 Rede Neural Articial;
 Aprendizado Profundo (Deep Learning);
 Lógica de Programação Indutva (LPI);
 Clustering;
 Redes Bayesianas;
 Algoritmos Genétcos.
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
O algoritmo Q-Learning é usado em aprendizado por reforço para 
encontrar a melhor ação a se tomar por um agente em um ambiente 
com espaço discreto (inito). Ele funciona através de uma função de 
ação-valor representada por Q(s,a), que retorna ação a, mediante o 
estado s.
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
Vejamos o Algoritmo:
while(i < iteracao){ 
 while(comodo_atual != cozinha){ 
 acao = acoes_possiveis
 Q[comodo_atual, acao] = recompensa[comodo_atual, acao] + 
 alpha*max[Q[acao, todas_acoes]]
 comodo_atual = acao
 }
 i++;
}
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
Vamos entender o algoritmo através de um exemplo:
Imagine um agente e uma casa com 6 cômodos. A tarefa do agente é chegar 
até a sala da casa partndo da cozinha. É desejável que o agente aprenda o 
caminho mais curto deste trajeto. Para isso, teremos uma matriz de 
recompensa, onde -1 representa paredes (não pode passar), 0 representa 
caminho livre e um número alto para cada passo que leve mais perto do 
objetvo. Esta matriz será: recompensa[x,y]; onde x é o número que 
representa o cômodo atual e y é a recompensa. Então, se houver passagem, y 
será 0 (enquanto x não for o cômodo objetvo, caso contrário y será 100), Se 
não houver passagem y será -1. Precisamos de uma matriz de aprendizado 
(Q) que será inicializada com zeros com a mesma dimensão da matriz de 
recompensa. 
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
Suponha que o agente está no estado 2. A partir do estado 2, ele pode ir ao estado 3 
pois está conectado ao estado 3. A partir do estado 2, o agente não pode ir 
diretamente ao estado 1 pois não tem porta conectando a sala 1 e a 2. A partir do 
estado 3, ele pode tanto ir ao estado 1 ou 4 ou de volta ao 2. Se o agente está no 
estado 4, então as três ações possíveis são ir ao estado 0, 5 ou 3. Se o agente está 
no estado 1, ele pode tanto ir ao estado 5 ou 3. A partir do estado 0, ele pode 
apenas ir ao estado 4.
A partir dai podemos montar a matriz de recompensas R.
CCT0452 – Inteligência Articial
Algoritmo Q-Learning
	Slide 1
	Slide 2
	Slide 3
	Slide 4
	Slide 5
	Slide 6
	Slide 7
	Slide 8
	Slide 9
	Slide 10
	Slide 11
	Slide 12
	Slide 13
	Slide 14
	Slide 15
	Slide 16
	Slide 17
	Slide 18
	Slide 19
	Slide 20

Continue navegando