Baixe o app para aproveitar ainda mais
Prévia do material em texto
Algoritmos de Aprendizado •Regra de Hebb •Perceptron •Delta Rule (Least Mean Square) •Multi-Layer Perceptron (Back Propagation) •Competitive Learning •Radial Basis Functions (RBFs) Delta Rule • Também conhecida como: – Algoritmo Least Mean Square (LMS) – Regra de Widrow-Hoff – Regra de Adaline (Adaptive Linear Neuron) • É uma generalização do Perceptron, estendendo a técnica para entradas e saídas contínuas Delta Rule Modelo Básico do Neurônio Artificial: Padrão de Entrada: vetor X x1 x2 xi sj netj wj1 wj2 wji Bias = j +1 Delta Rule • Características Básicas: – Regra de Propagação netj = xi.wji + j – Função de Ativação Linear: sj = k netj – Topologia Uma única camada de processadores. – Algoritmo de Aprendizado Supervisionado: wji = .xi.(tj - sj) – Valores de Entrada/Saída Contínuos Delta Rule wji = .xi.(tj - sj) sj xi wji PEj tj Esta equação é obtida usando-se o método do Gradiente Decrescente sobre o Erro Médio Quadrático (“Least Mean Square Error”) Taxa de Aprendizado 0 < < 1 Ao se apresentar um certo padrão p: Delta Rule ESSE Sum of Squared Errors ESSE = 1 p j (t p j – s p j) 2 2 • tpj = valor desejado de saída do padrão p para o processador j da camada de saída • spj = estado de ativação do processador j da camada de saída quando apresentado o padrão p Delta Rule Método do Gradiente Decrescente (GD) Cada peso sináptico i do elemento processador j é atualizado proporcionalmente ao negativo da derivada parcial do erro deste processador com relação ao peso sináptico i. ji SSE ji w E w Delta Rule Método do Gradiente Decrescente (GD) Cada peso sináptico i do elemento processador j é atualizado proporcionalmente ao negativo da derivada parcial do erro deste processador com relação ao peso sináptico i. ji SSE ji w E w Ivan Nunes da Silva, D. H. Spatti, R. A. Flauzino, Redes Neurais Artificiais para Engenharia e Ciências Aplicadas: Curso Prático, Artliber Editora, 2010. Delta Rule Método do Gradiente Decrescente (GD) Como os erros gerados por cada padrão e os erros de cada processador j são independentes, podemos calcular: ji p j p j p j ji SSE ji w st w E w 2)( 2 1 p p ji p ji p ji w w E w Delta Rule Logo: wji p = - Ej p = - Ej p sj wji sj wji Ej = 1 (tj - sj) 2 2 sj = k( xi.wji + j) wji p = - .[ 2 . 1 (tj - sj).(-1)] . kxi 2 = - k .[-(tj - sj)] . xi = xi (tj - sj) Visualização do GD Superfície de Erro Processo de Minimização A direção do gradiente negativo é a de descida mais íngreme (“steepest descent”) Algoritmo de Aprendizado Inicialização: pesos iniciados com valores aleatórios e pequenos (w0.1) Treinamento: Loop1 até que o erro de cada processador de saída seja tolerância, para todos os padrões do conjunto de treinamento. Loop2 até terminar de apresentar todos os padrões Aplica-se um padrão de entrada Xp com o respectivo vetor de saída Tp desejado. Calcula-se as saídas dos processadores (sj p = k xi p .wji p ); Calcula-se o erro para cada processador da camada de saída (ej p = tj p –sj p ). Calcula a variação dos pesos de cada processador wji p = .xi p .ej p . Acumula wji = wji + wji p Volta ao passo wji = wji + wji Fim Loop1 Functional Link Networks • Aumenta a dimensão do espaço de entrada (inserindo entradas combinadas), tornando um problema linearmente não-separável (no espaço de entrada original) tratável por uma rede de uma única camada. • O ponto chave é descobrir os valores destas novas entradas da rede! Functional Link Networks PE1 PEi Padrão de entrada original (j valores) Entradas auxiliares (h valores) J H Entradas Adicionais 2 1 x1 x2 - 3 4 x1 x2, x1 x2, x2 x3 x1 x2 x3 4 10 x1 x2, x1 x3, x1 x4, x2 x3, x2 x4, x3 x4 x1 x2 x3, x1 x2 x4, x1 x3 x4, x2 x3 x4 Functional Link Networks • Exemplo do OU-EXCLUSIVO: – J = 2 (número de entradas originais - x1,x2) – H = 1 (número de entradas adicionais - x1.x2) Pontos Entradas Saída A -1 -1 1 -1 B -1 1 -1 1 C 1 -1 -1 1 D 1 1 1 -1 x1.x2 x1 x2 A C B D Problema Linearmente Separável
Compartilhar