Prévia do material em texto
2
© Prof. Emilio Del Moral – EPUSP
PSI2672 – Práticas em
Reconhecimento de Padrões,
Modelagem e Neurocomputação
Prof. Emilio Del Moral Hernandez
Escola Politécnica da Universidade de São Paulo
Departamento de Eng. De Sistemas Eletrônicos
emilio_del_moral@ieee.org
www.lsi.usp.br/~emilio
3
© Prof. Emilio Del Moral – EPUSP
Nestes slides, dois tópicos
importantes:
1- Aproximação universal de Cybenko ( &
Kolmogorov )
2- Aprendizado Supervisionado em RNAs
do tipo MLP pelo método do gradiente
4
© Prof. Emilio Del Moral – EPUSP
Cybenko – Enunciado da Prova ... (premissas + resultado)
5
© Prof. Emilio Del Moral – EPUSP
Entendamos, discutindo em lousa e com os colegas da sala de aula ...
- as premissas da demonstração de Cybenko
- a notação não muito familiar a nós que ele usou
- o quão poderoso é o resultado que ele obteve
- também discutamos como passos simples podem estender a sua
aplicação ... Ou ... Discutamos em sala de aula, após entendermos as premissas e
resultado, como muito facilmente podemos relaxar algumas das limitações (ou seja,
algumas são limitações apenas na aparência de primeira análise) impostas nas premissas.
6
© Prof. Emilio Del Moral – EPUSP
7
© Prof. Emilio Del Moral – EPUSP
Cybenko – Enunciado da Prova ... (premissas + resultado)
yrede(X) X
Wi : vetor de pesos do nó escondido i
viési : viés do nó escondido i
sigmoidal
elementos do vetor de pesos do nó linear de saída Ws
número de nós escondidos
8
© Prof. Emilio Del Moral – EPUSP
yrede(X) Fescondida_sistema(X)
Limite de erro
9
© Prof. Emilio Del Moral – EPUSP
Cybenko – a prova matemática, disponível para
download na internet, é bastante complexa
10
© Prof. Emilio Del Moral – EPUSP
Discutindo em lousa um pouco sobre as
premissas da prova de Cybenko para
aproximação universal com RNAs ...
Características dos X, do y e das funções fT
dos diversos nós que compõem a rede
Ilustração em lousa da viabilidade da
prova em caso simples de 1 variável de
entrada e 1 variável de saída:
y(x1)
11
© Prof. Emilio Del Moral – EPUSP
O que conseguimos fazer com um único neurônio
sigmoidal, no caso de regressões (“y contínuo”)?
12
© Prof. Emilio Del Moral – EPUSP
O que conseguimos fazer com um único neurônio
sigmoidal, no caso de regressões (“y(x1) contínuo”)?
x1
y = tgh (w1.x1 + viés)
x1
x1
13
© Prof. Emilio Del Moral – EPUSP
Que tipo de dados empíricos modelamos com um único
neurônio sigmoidal em regressões (“y(x1) contínuo”)?
x1
Os pontos
pretos são pares
empíricos (xµ,yµ);
As curvas coloridas,
são regressões
sigmoidais
aderentes a tais
pares.
x1
x1
14
© Prof. Emilio Del Moral – EPUSP
Regressão univariada com Cybenko “café
com leite” de 3 nós na primeira camada ...
15
© Prof. Emilio Del Moral – EPUSP
Cybenko “café com leite” (regressão genérica univariada), para
aproximação universal de funções de 1 variável x1 apenas?
... superposição de várias sigmóides deslocadas e escaladas
x1
Vocês enxergam acima 3 nós “tgh” na primeira
camada, com com 3 viéses distintos e 3
escaladores de x1 distintos, e mais um 4o nó
combinador (somatória simples de 3 entradas) na
camada de saída?
17
© Prof. Emilio Del Moral – EPUSP
Cybenko “café com leite”, para aproximação universal de funções
de 1 variável x apenas?
... superposição de várias sigmóides deslocadas e escaladas em x
e em y ...
x
... Ponderadores das 3 tgh’s da primeira camada,
que são implemantados nos pesos sinápticos do
4o nó, não são mais unitários nem
necessariamente positivos
y
18
© Prof. Emilio Del Moral – EPUSP
Cybenko “café com leite”, para aproximação universal de funções
de 1 variável x apenas?
... superposição de várias sigmóides deslocadas e escaladas em x
e em y ...
x
... Efeito do viés do 4o nó não ser nulo,
exemplificado em dois valores distintos de viés
y
20
© Prof. Emilio Del Moral – EPUSP
Aproximação Universal …
Qualquer F pode ser aproximada por um MLP – O que é
bom para Estimação / Regressão Contínua
(um de nossos alvos neste curso) !!!
E …
É também bom para o Reconhecimento de Padrões
(nosso segundo alvo de modelagem) com o MLP …
Trata-se de um caso específico de F binária na saída !!!
21
© Prof. Emilio Del Moral – EPUSP
Resumindo … Segundo
Kolmogorov & Cybenko, a
estrutura MLP Permite
Aproximação universal …
Classificação universal …
Nas próximas discussões:
Isto quer dizer que quando precisamos aproximar uma
função ou realizar uma classificação, basta “comprar”
um MLP e o trabalho já está todo feito?? …..
22
© Prof. Emilio Del Moral – EPUSP
Não … O MLP é uma
estrutura com muitas
constantes a determinar
( pesos wij )
Temos que escolher os pesos adequados
para atingir uma aproximação ou
classificação desejada – Kolmogorov e
Cybenko não nos dizem como fazer tal
APRENDIZADO ou ADAPTAÇÂO
SINÀPTICA!
23
© Prof. Emilio Del Moral – EPUSP
Avancemos nisso então ...
24
© Prof. Emilio Del Moral – EPUSP
2 - O Aprendizado no MLP:
Conceitos de otimização de parâmetros
num modelo flexivel / ajustável, e o papel
do Método do Gradiente nesse ajuste e
otimização de parâmetros
25
© Prof. Emilio Del Moral – EPUSP
A função saídarede (entradas1 , e2, …) só é completamente
definida com a escolha dos pesos sinápticos
� A saída (em verde) depende das funções de transferência dos nós
(tangente hiperbólica) e dos valores dos pesos sinápticos, “wij”
� Os valores wij são escolhidos por um algoritmo de aprendizado,
buscando um mapeamento “Entrada => Saída” desejado
yrede
pesos a otimizar
26
© Prof. Emilio Del Moral – EPUSP
Caso particular de uma rede de uma camada de
neurônios escondidos e um neurônio na saída
� lembrete … Segundo Kolmogorov e Cybenko, esta estrutura simples
é suficiente (é um aproximador universal de funções de x1, x2, x3, …)
� Temos nesse caso duas camadas de pesos a otimizar
X yrede
pesos a otimizar
27
© Prof. Emilio Del Moral – EPUSP
Pensando complementar ... O conceito de Erro da Rede com relação a
uma função alvo, como dependente dos valores dos w’s escolhidos
W
erro em aproximar f1 através
do mapeamento X→→→→ yrede
qualidade do MLP em aproximar f1
através do mapeamento X→→→→ yrede
Aderência(W)
(“= qualidade(W)”)
(“=1 – erro(W)”) Aqui não entramos no mérito de como é
medido / como é quantificado o valor exato
da aderência (ou qualidade).
Trata-se de um gráfico conceitual por
enquanto.
28
© Prof. Emilio Del Moral – EPUSP
O Conjunto de treinamento como amostragem
do universo (infinito) de possibilidades (X ; y)
X y
RNAX yrede
O sistema a modelar na prática não
pode ser observado em todas as
infinitas situações possíveis para as
entradas X.
Somente o observamos em “casos”,
ou seja, valores isolados de Xµ e os
correspondentes y µ.
Esses casos isolados, que
supostamente são muitos e
representativos, formam o conjunto
de treinamento, ou seja, um retrato
resumido (possível) do sistema real.
Tabela
de
amostras
(Xµµµµ ; y µµµµ)
OS PESOS DA REDE PODEM SER DEFINIDOS
“MIRANDO” ESSA TABELA!!
sistema a
modelar
29
© Prof. Emilio Del Moral – EPUSP
Conjunto de treino ... Composto de amostragens
discretas do universo contínuo (X ; y)
Treino:
Tabela de
amostras
(X ; y)
Universo contínuo (X ; y): amostras (X ; y):
sistema a
modelar
amostragem
30
© Prof. Emilio Del Moral – EPUSP
Sistema ... Amostras de treino ... Modelo via RNA ...
sistema a
modelar
Tabela de
amostras
(X ; y)
Informação
sobre
o
sistema
diminui
neste
sentido
RNA
(modelo do sistema)
Informação
+
completa
aumentaneste
sentido
31
© Prof. Emilio Del Moral – EPUSP
(na lousa) ... definição da função erro da RNA face ao Cjt.Tr.;
tal erro dependente da escolha dos w’s ... a idéia é minimizar a função;
o domínio da minimização são os w’s ... ou o vetor W (ou a matriz W)!!
Resumo de principais resultados em lousa ...
yrede depende dos valores dos x e dos valores dos w
No caso do cálculo de Eqm,
os x são constantes, já
que nesse cálculo X = Xµ
As únicas variáveis são os valores de w, visto
que os yµ também são constantes
Podemos pois encarar Eqm como sendo Eqm(w’s)
∑
=
−=
M
rede yWXy
M
Eqm
1
2)),((1
µ
µµρ
32
© Prof. Emilio Del Moral – EPUSP
Aderência do modelo aos
pares (X,y) empíricos
A forma do gráfico não é precisa,
apenas ilustra o conceito
valor do Eqm
100% aderente
baixa aderência
Interpretando o Eqm como um indicador da aderência do
modelo aos dados empíricos disponíveis ...
33
© Prof. Emilio Del Moral – EPUSP
O que devemos mirar quando exploramos o espaço de
pesos W buscando que a RNA seja um bom modelo?
Devemos buscar Maximização da aderência = Minimo Eqm possível
Aderência do modelo aos
pares (X,y) empíricos
valor do Eqm
100% aderente
baixa aderência
W
Eqm(W)
As Setas Verdes
Indicam Situações que
Devem ser Procuradas
34
© Prof. Emilio Del Moral – EPUSP
sistema a
modelar
RNA
Tabela de
amostras
(X ; y) Eqm =
∫ ∫ ∫ [ yRNA(X) - ysistema(X) ]2 . fdp(X) dX
( ∫ ∫ ∫ dX )
(modelo do sistema)
Mas afinal, o modelo neural quando treinado
otimiza qual desses dois Eqms?
Não disponível
∑µµµµ [ yRNA(Xµµµµ) - ysistemaµµµµ ]2 / M
35
© Prof. Emilio Del Moral – EPUSP
sistema a
modelar
RNA
Tabela de
amostras
(X ; y) Eqm =
(modelo do sistema)
O treinamento mira minimizar o Eqm das
amostras (X ; y) de treino. (exclusivamente!)
Relação de amostragem ...
... E lembremos que as amostras
sempre são uma representação
parcial do comportamento
mais
geral do sistema que está sendo
modelado.
∑µµµµ [ yRNA(Xµµµµ) - ysistemaµµµµ ]2 / M
36
© Prof. Emilio Del Moral – EPUSP
Aderência do modelo aos
pares (X,y) empíricos
Tabela de
amostras
(X ; y)
sistema a
modelar
valor do Eqm
Aderência
do modelo
ao sistema
modelado
100% aderente
baixa aderência
Interpretando o Eqm como um indicador da aderência do
modelo aos dados empíricos disponíveis ...
... A aderência ao sistema modelado ocorre indiretamente
A forma dos gráficos não é precisa, apenas
ilustra-se aqui o conceito de que Erro e
Aderência são complementares
37
© Prof. Emilio Del Moral – EPUSP
Um Exemplo Ilustrativo
para o Conceito de
Conjunto de
Treinamento e dos M
pares (X,y)…
38
© Prof. Emilio Del Moral – EPUSP
Exemplo de regressão multivariada para
estimação contínua usando MLP
� O valor do y contínuo ... neste exemplo corresponde ao volume de consumo
futuro num dado tipo de produto “A” a ser ofertado pela empresa a um cliente
corrente já consumidor de outros produtos da empresa (“B” e “C”), volume
esse previsto com base em várias medidas quantitativas que caracterizam tal
indivíduo. ... Assim, y = Consumo do Produto A = F(x1,x2, x3, x4, x5).
� Consideremos 4 variáveis de entrada no modelo preditivo neural, ou seja,
temos 5 medidas em X:
– x1: Idade do indivíduo
– x2: Renda mensal do indivíduo
– x3: Volume de clicks do indivído no website de exibição de produtos
oferecidos pela empresa
– x4: Volume de consumo desse cliente observado para outro Produto B
da mesma empresa
– x5: Volume de consumo desse cliente Produto C da mesma empresa
� Problema: desenvolver uma MLP para regressão contínua multivariada que
permita estimar esse volume de consumo futuro y com base no conhecimento
dos X e numa base de dados de aprendizado com esses dados X e y para 350
já clientes de universo populacional similar ao do novo consumidor potencial.
39
© Prof. Emilio Del Moral – EPUSP
Em termos de Excel, teriamos ...
M
M-1
M-2
.....
3
2
1
Cliente
(µµµµ)
285
29
707
.....
1093
985
958
Consumo do
Produto B (x
4
)
Idade
(x
1
)
Renda
(x
2
)
Clics
(x
3
)
Consumo do
Produto C (x
5
)
Consumo do
Produto A (y)
50 78 302 136 9800
65 128 186 196 8760
57 150 221 35 520
..... ..... ..... ..... .....
16 19 51 131 11640
30 75 7 78 9640
19 47 116 124 5320
40
© Prof. Emilio Del Moral – EPUSP
Equivalente em txt
Para uso do MBP
41
© Prof. Emilio Del Moral – EPUSP
Aprendizado para o MLP por
Error Back Propagation (EBP)
(Propagação Reversa de Erro)
É o Método do Gradiente personalizado
ao Eqm(W) do MLP, Eqm esse avaliado
para um dado conjunto de treino
42
© Prof. Emilio Del Moral – EPUSP
Entendamos PRIMEIRO
o que é o método numérico do
gradiente ascendente /
gradiente descendente
genérico,
que pode ser aplicado tanto para se
chegar paulatinamente ao máximo de
uma função quanto para se chegar ao
mínimo de uma função
(ascendente / descendente)
43
© Prof. Emilio Del Moral – EPUSP
Chamada oral sobre a lição de casa: estudar / reestudar
os conceitos e a parte operacional de derivadas parciais,
do vetor Gradiente, e da regra da cadeia ...
�Derivadas parciais (que são as componentes do
gradiente):
ex: http://en.wikipedia.org/wiki/Partial_derivative
�Vetor Gradiente, útil ao método do máximo declive:
ex: http://en.wikipedia.org/wiki/Gradient
�Regra da cadeia, necessária ao cálculo de derivadas
quando há encadeamento de funções:
ex: http://en.wikipedia.org/wiki/Chain_rule
∂f(a,b,c)/∂a ∂f(a,b,c)/∂b ∂f(a,b,c)/∂c
(∂Eqm(W)/∂w1 , ∂Eqm(W)/∂w2 , ∂Eqm(W)/∂w3 , ... )
∂f( g( h(a) ) )/∂a = ∂f/∂g . ∂g/∂h . ∂h/∂a
_. EqmW ∇−=∆ η
44
© Prof. Emilio Del Moral – EPUSP
Formação do vetor gradiente a partir de duas derivadas parciais
A visual model of the partial derivative
45
© Prof. Emilio Del Moral – EPUSP
http://en.wikipedia.org/wiki/Gradient
... O vetor gradiente indica a direção ascendente e seu
módulo a magnitude de crescimento da função escalar –
ilustração p/ função de 2 variáveis apenas
46
© Prof. Emilio Del Moral – EPUSP
Conjunto de treino em arquiteturas supervisionadas (ex.
clássico: MLP com Error Back Propagation)
X y
RNAX yrede
A computação desejada da rede
pode ser definida simplesmente
através de amostras / exemplos do
comportamento requerido
Conjunto
de
Amostras
(Xµµµµ ; y µµµµ)
Aprendizado: Espaço de pesos W é explorado
visando aproximar ao máximo a computação da
rede da computação desejada
_. EqmW ∇−=∆ η
Sistema Físico,
Econômico,
Biológico ...
S
∑
=
−=
M
rede yWXy
M
Eqm
1
2)),((1
µ
µµρ
Loop de adaptações successivas dos pesos ...
47
© Prof. Emilio Del Moral – EPUSP
............
DeltaW#k =
- n.GradEqm(W#4)
GradEqm(W#k)Eqm#k
( < Eqm#k-1)
W#k
( = W#k-1 + DeltaW#k-1)
............
DeltaW#4 =
- n.GradEqm(W#4)
GradEqm(W#4)Eqm#4
( < Eqm#3)
W#4
( = W#3 + DeltaW#3)
DeltaW#3 =
- n.GradEqm(W#3)
GradEqm(W#3)Eqm#3
( < Eqm#2)
W#3
( = W#2 + DeltaW#2)
DeltaW#2 =
- n.GradEqm(W#2)
GradEqm(W#2)Eqm#2
( < Eqm#1)
W#2
( = W#1 + DeltaW#1)
DeltaW#1 =
- n.GradEqm(W#1)
GradEqm(W#1)Eqm#1
( < Eqm#0)
W#1
( = W#0 + DeltaW#0)
DeltaW#0 =
- n.GradEqm(W#0)
GradEqm(W#0)Eqm#0W#0
Processo de refinamentos graduais a cada iteração ...
48
© Prof. Emilio Del Moral – EPUSP
A estratégia do EBP / Gradiente Descendente no
aprendizado do MLP
W
Eqm(W)
erro do mapeamento X→→→→ yrede
em aproximar f “M amostrada”,
representada por {(Xµµµµ ; y µµµµ)}.
W#0
Eqm#0
W#1
Eqm#1
( < Eqm#0 )
W#2
Eqm#2
(< Eqm#1 )
W#3
Eqm#3
( < Eqm#2 )
W#4
∇
Quero
chegar ao
W que leve
ao Menor
Eqm
49
© Prof. Emilio Del Moral – EPUSP
Gráfico fornecido pelo ambiente MBP da evolução do Eqm com o
número de repetidos usos da “bússola do gradiente descendente”:
isto conecta o MBP com o gráfico apresentado no slide anterior
Gráfico mostrando as primeiras 47 iterações do
processo de refinamentos sucessivos do modelo ...
Nota: o RMS
do eixo vertical
deste gráfico
significa Root
Mean Square,
e é a raiz
quadrada do
nosso
conhecido
Eqm