Delta Rule

•

PUC-RIO

2

0

2

0

Daniel Costa

11/09/2014

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Redes Neurais I

282 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Algoritmos de Aprendizado 
•Regra de Hebb 
•Perceptron 
•Delta Rule (Least Mean Square) 
•Multi-Layer Perceptron (Back Propagation) 
•Competitive Learning 
•Radial Basis Functions (RBFs) 
 
Delta Rule 
• Também conhecida como: 
– Algoritmo Least Mean Square (LMS) 
– Regra de Widrow-Hoff 
– Regra de Adaline (Adaptive Linear Neuron) 
 
• É uma generalização do Perceptron, 
estendendo a técnica para entradas e 
saídas contínuas 
Delta Rule 
 
 Modelo Básico do Neurônio Artificial: 
 
 Padrão 
de 
 Entrada: 
vetor X 
x1 
x2 
 xi 
sj 
netj 
wj1 
wj2 
wji 
Bias = j 
+1 
Delta Rule 
• Características Básicas: 
– Regra de Propagação  netj =  xi.wji + j 
– Função de Ativação  Linear: sj = k netj 
– Topologia  Uma única camada de 
 processadores. 
– Algoritmo de Aprendizado  Supervisionado: 
 wji = .xi.(tj - sj) 
– Valores de Entrada/Saída  Contínuos 
Delta Rule 
wji = .xi.(tj - sj) 
sj 
xi 
wji 
PEj 
tj 
Esta equação é obtida usando-se o método do 
Gradiente Decrescente sobre o Erro Médio Quadrático 
(“Least Mean Square Error”) 
Taxa de Aprendizado  0 <  < 1 
Ao se apresentar um certo padrão p: 
Delta Rule 
 ESSE  Sum of Squared Errors 
 
ESSE = 1 p j (t
p
j – s
p
j)
2 
 2 
 
• tpj = valor desejado de saída do padrão p para o 
 processador j da camada de saída 
• spj = estado de ativação do processador j da camada 
 de saída quando apresentado o padrão p 
Delta Rule 
Método do Gradiente Decrescente (GD) 
Cada peso sináptico i do elemento processador j é 
atualizado proporcionalmente ao negativo da 
derivada parcial do erro deste processador com 
relação ao peso sináptico i. 
ji
SSE
ji
w
E
w


 
Delta Rule 
Método do Gradiente Decrescente (GD) 
Cada peso sináptico i do 
elemento processador j é 
atualizado proporcionalmente 
ao negativo da derivada parcial 
do erro deste processador com 
relação ao peso sináptico i. 
ji
SSE
ji
w
E
w


 
Ivan Nunes da Silva, D. H. Spatti, R. A. Flauzino, Redes Neurais Artificiais para 
Engenharia e Ciências Aplicadas: Curso Prático, Artliber Editora, 2010. 
Delta Rule 
Método do Gradiente Decrescente (GD) 
Como os erros gerados por cada padrão e os erros de 
cada processador j são independentes, podemos 
calcular: 
ji
p j
p
j
p
j
ji
SSE
ji
w
st
w
E
w

 




2)(
2
1
 



p
p
ji
p ji
p
ji w
w
E
w 
Delta Rule 
Logo: 
wji
p = - Ej
p = - Ej
p sj 
 wji sj wji 
Ej = 1 (tj - sj)
2 
 2 
sj = k( xi.wji + j) 
 
wji
p = -  .[ 2 . 1 (tj - sj).(-1)] . kxi 
 2 
 = - k .[-(tj - sj)] . xi =  xi (tj - sj) 
 
Visualização do GD 
Superfície de Erro Processo de Minimização 
A direção do gradiente negativo é a de descida 
mais íngreme (“steepest descent”) 
Algoritmo de Aprendizado 
Inicialização: 
 pesos iniciados com valores aleatórios e pequenos (w0.1) 
Treinamento: 
 Loop1 até que o erro de cada processador de saída seja  tolerância, 
para todos os padrões do conjunto de treinamento. 
 Loop2 até terminar de apresentar todos os padrões 
  Aplica-se um padrão de entrada Xp com o respectivo vetor de saída Tp 
desejado. 
  Calcula-se as saídas dos processadores (sj
p
 = k  xi
p
.wji
p
); 
  Calcula-se o erro para cada processador da camada de saída (ej
p
 = tj
p
–sj
p
). 
  Calcula a variação dos pesos de cada processador wji
p
 = .xi
p
.ej
p
. 
  Acumula wji = wji + wji
p 
  Volta ao passo  
 wji = wji + wji 
 Fim Loop1 
Functional Link Networks 
• Aumenta a dimensão do espaço de 
entrada (inserindo entradas 
combinadas), tornando um problema 
linearmente não-separável (no espaço 
de entrada original) tratável por uma 
rede de uma única camada. 
 
• O ponto chave é descobrir os valores 
destas novas entradas da rede! 
Functional Link Networks 
PE1 
PEi 
Padrão de 
entrada 
original 
(j valores) 
Entradas 
auxiliares 
(h valores) J H Entradas Adicionais
2 1 x1 x2 -
3 4 x1 x2, x1 x2, x2 x3 x1 x2 x3
4 10 x1 x2, x1 x3, x1 x4,
x2 x3, x2 x4, x3 x4
x1 x2 x3, x1 x2 x4,
x1 x3 x4, x2 x3 x4
Functional Link Networks 
• Exemplo do OU-EXCLUSIVO: 
– J = 2 (número de entradas originais - x1,x2) 
– H = 1 (número de entradas adicionais - x1.x2) 
Pontos Entradas Saída
A -1 -1 1  -1
B -1 1 -1  1
C 1 -1 -1  1
D 1 1 1  -1
x1.x2 
x1 
x2 
A 
C 
B 
D 
Problema 
Linearmente 
Separável