Prévia do material em texto
Protocolos de Redes e de Computadores AULA 02 INTELIGÊNCIA ARTIFICIAL – AULA 08 Prof. Msc. Alexandre José Braga da Silva alex.professor@gmail.com CCT0452 – Inteligência Articial Objetvos da Aula: • Aprendizado por Reforço; • Algoritmo Q-Learning; • Exemplo Prátco usando Redes Neurais; CCT0452 – Inteligência Articial Aprendizado por Reforço Aprendizagem por Reforço (reinforcement Learning) → paradigma computacional de aprendizagem que um agente aprendiz procura maximizar uma medida de desempenho baseada nos reforços que recebe ao interagir com um ambiente desconhecido. O agente tem como objetvo aprender de maneira autônoma uma polítca ótma de atuação, por experimentação direta sem a presença de um tutor. Este modelo se baseia nos Processos de Decisão de Markov (PDM) CCT0452 – Inteligência Articial Aprendizado por Reforço Em PDM se o espaço de estados e ações for inito, será considerado um Processo de Decisão de Markov inito. PDM Possibilita que decisões sejam tomadas em função do estado atual, ou seja, o estado do processo no futuro depende apenas do estado e da decisão tomada no presente. Isto torna possível a utlização de métodos incrementais onde a partr do estado corrente pode-se obter soluções para cada um dos estados futuros. CCT0452 – Inteligência Articial Aprendizado por Reforço Em um ambiente de aprendizado por reforço, um agente está inserido em um ambiente T e interage com ele através de percepções e ações. A cada passo, o agente recebe como entrada e, uma indicação do estado (s) atual do ambiente. O agente escolhe, então, uma ação a a tomar, e gera sua saída. A ação altera então o estado do ambiente, e uma medida dessa mudança de estado é informada ao agente através de um valor de sinal de reforço (r). CCT0452 – Inteligência Articial Aprendizado por Reforço Em um ambiente de aprendizado por reforço, um agente está inserido em um ambiente T e interage com ele através de percepções e ações. A cada passo, o agente recebe como entrada e, uma indicação do estado (s) atual do ambiente. O agente escolhe, então, uma ação a a tomar, e gera sua saída. A ação altera então o estado do ambiente, e uma medida dessa mudança de estado é informada ao agente através de um valor de sinal de reforço (r). CCT0452 – Inteligência Articial Aprendizado por Reforço Formalmente, o modelo é consttuído por: Um conjunto discreto de estados que o ambiente pode assumir; Um conjunto discreto de ações que o agente pode tomar sobre o ambiente; Um conjunto de valores escalares de reforço; geralmente , ou os números reais. Uma função de entrada (e), que é a maneira como o agente “lê” o estado atual do ambiente. CCT0452 – Inteligência Articial Aprendizado por Reforço Quando o sistema encontra-se em determinado estado s, o valor recebido Vπ(s) como recompensa, após a execução das ações seguindo uma polítca π, é deinido como as soma das recompensas recebidas a cada ação tomada. Ações tomadas mais tarde podem ter peso menor, e isso é compensado com um fator de desconto temporal, Ύ CCT0452 – Inteligência Articial Aprendizado por Reforço Em síntese, este método consiste no aprendizado do mapeamento de estados em ações de modo que um valor numérico de retorno seja maximizado. A princípio, o agente não precisa ter conhecimento das ações que deve tomar, mas deve descobrir quais ações o levam a obter maiores valores de retorno. CCT0452 – Inteligência Articial Aprendizado por Reforço Aprendizado Supervisionado → São apresentadas ao computador exemplos de entradas e saídas desejadas, fornecidas por um "tutor". O objetvo é aprender uma regra geral que mapeia as entradas para as saídas. Aprendizado Não Supervisionado → Nenhum tpo de treino é dado ao algoritmo de aprendizado, deixando-o sozinho para encontrar estrutura nas entradas fornecidas. O aprendizado não supervisionado pode ser um objetvo em si mesmo (descobrir novos padrões nos dados) ou um meio para atngir um im. CCT0452 – Inteligência Articial Aprendizado por Reforço Aprendizado Semi-Supervisionado → O tutor fornece um sinal de treinamento incompleto: um conjunto de dados de treinamento com algumas (muitas vezes várias) das saídas desejadas ausentes. A transdução é um caso especial deste princípio, em que o conjunto inteiro das instâncias do problema é conhecido no momento do aprendizado, mas com parte dos objetvos ausente. CCT0452 – Inteligência Articial Aprendizado por Reforço Algumas técnicas que utlizam Aprendizado por Reforço: Árvore de Decisão; Regras de Associação; Rede Neural Articial; Aprendizado Profundo (Deep Learning); Lógica de Programação Indutva (LPI); Clustering; Redes Bayesianas; Algoritmos Genétcos. CCT0452 – Inteligência Articial Algoritmo Q-Learning O algoritmo Q-Learning é usado em aprendizado por reforço para encontrar a melhor ação a se tomar por um agente em um ambiente com espaço discreto (inito). Ele funciona através de uma função de ação-valor representada por Q(s,a), que retorna ação a, mediante o estado s. CCT0452 – Inteligência Articial Algoritmo Q-Learning Vejamos o Algoritmo: while(i < iteracao){ while(comodo_atual != cozinha){ acao = acoes_possiveis Q[comodo_atual, acao] = recompensa[comodo_atual, acao] + alpha*max[Q[acao, todas_acoes]] comodo_atual = acao } i++; } CCT0452 – Inteligência Articial Algoritmo Q-Learning Vamos entender o algoritmo através de um exemplo: Imagine um agente e uma casa com 6 cômodos. A tarefa do agente é chegar até a sala da casa partndo da cozinha. É desejável que o agente aprenda o caminho mais curto deste trajeto. Para isso, teremos uma matriz de recompensa, onde -1 representa paredes (não pode passar), 0 representa caminho livre e um número alto para cada passo que leve mais perto do objetvo. Esta matriz será: recompensa[x,y]; onde x é o número que representa o cômodo atual e y é a recompensa. Então, se houver passagem, y será 0 (enquanto x não for o cômodo objetvo, caso contrário y será 100), Se não houver passagem y será -1. Precisamos de uma matriz de aprendizado (Q) que será inicializada com zeros com a mesma dimensão da matriz de recompensa. CCT0452 – Inteligência Articial Algoritmo Q-Learning CCT0452 – Inteligência Articial Algoritmo Q-Learning CCT0452 – Inteligência Articial Algoritmo Q-Learning CCT0452 – Inteligência Articial Algoritmo Q-Learning Suponha que o agente está no estado 2. A partir do estado 2, ele pode ir ao estado 3 pois está conectado ao estado 3. A partir do estado 2, o agente não pode ir diretamente ao estado 1 pois não tem porta conectando a sala 1 e a 2. A partir do estado 3, ele pode tanto ir ao estado 1 ou 4 ou de volta ao 2. Se o agente está no estado 4, então as três ações possíveis são ir ao estado 0, 5 ou 3. Se o agente está no estado 1, ele pode tanto ir ao estado 5 ou 3. A partir do estado 0, ele pode apenas ir ao estado 4. A partir dai podemos montar a matriz de recompensas R. CCT0452 – Inteligência Articial Algoritmo Q-Learning Slide 1 Slide 2 Slide 3 Slide 4 Slide 5 Slide 6 Slide 7 Slide 8 Slide 9 Slide 10 Slide 11 Slide 12 Slide 13 Slide 14 Slide 15 Slide 16 Slide 17 Slide 18 Slide 19 Slide 20