Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Tópicos em Computação Aplicada
PPGCC002 - 2020.2
Respostas Capítulo IV
Aluno: Ênio Rodrigues Viana
Dezembro 2020
1 Considerando-se que um problema a ser mapeado pelo Adaline
não seja linearmente separável, explique então se para esta si-
tuação o processo de treinamento (por meio do algoritmo regra
Delta) também convergirá.
R → Considerando-se a variação do erro entre duas épocas sucessivas, a resposta é afirmativa, a rede
convergirá. Considerando-se o fato de que um hiperplano seja capaz de separar 2 classe não-linearmente
separáveis em sua plenitude, não haverá convergência do processo de treinamento para um ponto ótimo, uma
vez que, assim como o Perceptron, a rede Adaline é capaz de trabalhar apenas com problemas linearmente
separáveis. O que pode ocorrer é um menor erro cumulativo final, computado pelo LMS (Least Mean Square),
entre as amostras e a fronteira/reta gerada ao final do processo de treinamento.[1].
2 Explique por que o treinamento do Adaline se processa normal-
mente de forma mais rápido que aquele do Perceptron. Considere
que ambas as redes foram aplicadas no mesmo tipo de problema,
tendo-se ainda seus vetores de pesos iniciados com valores iguais.
R → A rede Adalinem, diferentemente da rede Perceptron, não depende fortemente dos valores dos pesos
iniciais e tem o cálculo do erro empregado para o treinamento da rede, o método dos mínimos quadrados,
que é mais robusto e menos imune a ruídos, daí a possíbilidade de uma convergência mais rápida.
3 Para o exercício anterior, discorra sobre uma eventual estratégia
que se poderia utilizar, fazendo-se uso do Adaline já treinado,
para verificar se as classes do problema mapeado são linearmente
separáveis.
R → Caso o erro cumulativo entre todas as amostras e a reta ótima gerada seja 0(zero) o problema é
linearmente separável uma vez que sempre se terá a mesma reta no processo de treinamento utilizando o
Adaline.
1
4 Explique as principais diferenças existentes entre o Perceptron e
o Adaline.
R → Adaline é capaz de convergir mesmo em problemas não-linearmente separáveis, ao contrário do Per-
ceptron. A fronteira de decisão gerada pelo Adaline é ótima e única, enquanto no Perceptron não (podem
ser várias) e estão fortemente ligadas aos pesos iniciais. As regras de treinamento são distintas, para o
Perceptron é a regra de Hebb e para o Adaline é a regra Delta. Na rede Adaline existe a figura do bloco
associador não existente na rede Perceptron, sua função é a de auxiliar no processo de treinamento da rede.
5 Considerando-se a aplicação de redes neurais artificiais em um
processo de classificação de padrões que necessite de treinamento
on-line, explique que tipo de rede (Perceptron ou Adaline) seria
a mais apropriada para tal condição.
R→ Adaline seria a rede mais aconselhável uma vez que o treinamento da rede é dado pela alteração do peso
w ao longo das épocas de apresentação dos padrões xi; Um método de treinamento que requer a apresentação
de todos os padrões (uma época) para só depois calcular a mudança nos pesos da rede, é chamado batch ou
off-line, entretanto a regra Delta é do tipo on-line.
Com isso, a regra Delta desconsidera a somatória de todos os quadrados dos erros no cálculo do gradiente
da função custo E e leva em consideração apenas o quadrado do valor atual do erro, ou seja, aproxima o
gradiente da função custo pelo gradiente do erro instantâneo cometido pela rede. Matematicamente, isso
implica em usar a Equação 1 para calcular o gradiente no passo t do algoritmo (quando o peso tem o valor
w(t) e o padrão sendo apresentado à rede é x(t).
∇E(t) = dE
dw(t)
=
d
dw(t)
(
1
2N
N∑
i=1
ei
2
)
� d
dw(t)
(
1
2
e2(t)
)
= e(t)
de(t)
dw
= −e(t)x(t) (1)
A alteração no peso da rede feita no passo t é dada pela Equação 2 e a regra de alteração dos pesos
(LMS) (regra Delta) é dada pela Equação 3, com e(t) = d(k) − u.
∆w = ηe(t)x(t) (2)
w(t+ 1) = w(t) + ηe(t)x(t) (3)
Para efeito de contextualização entre os métodos on-line ou padrão por padrão e offline ou batch, o
método batch faz uma atualização dos pesos a cada época enquanto que o on-line faz uma atualização a
cada apresentação, sendo as atualizações dos dois métodos relacionadas pela Equação 4.
atualizações pela regra delta = atualização por batch) ∗ nº de padrões de treinamento) (4)
6 Baseando-se no processo de treinamento utilizando a regra Delta,
explique as eventuais instabilidades que se podem verificar quando
da adoção de valores elevados para a taxa de aprendizado. Expli-
que também se há eventuais inconvenientes quando, se assumem
valores extremamente pequenos para a taxa de aprendizagem.
R→ Como no caso da rede Adaline a função custo E é um parabolóide e existe um único mínimo, a repetição
deste algoritmo por um número suficientemente grande de passos t levará a rede a atingir o valor mínimo
Page 2
w∗, desde que o parâmetro de aprendizagem η seja suficientemente pequeno (se η for muito grande o sistema
pode divergir).
Porém, se o parâmetro η for muito pequeno, a convergência para o mínimo pode ser muito lenta (levar
muitas iterações). Um artifício usado na prática é começar com um valor muito grande de η (mas não tão
grande a ponto de levar á uma divergência) e ir decrescendo o valor de η com o número de passos t.Dessa
maneira, quando o sistema estiver bem perto do ponto de mínimo, a atualização do peso com passos cada
vez menores fará com que ele oscile menos e se estabilize no mínimo. Uma possível regra para a redução do
parâmetro η com o número de passos pode ser verificada na Equação 5.
η(t+ 1) = η(t)− β (5)
Sendo β um parâmetro ajustado empiricamente.
7 Considerando-se os procedimentos de derivação do processo de
aprendizagem do Adaline, explique se seria possível utilizar na
expressão (4.5) a saída do neurônio {y} ao invés do valor do com-
binador linear {u}.
R→ Comportando-se da forma relatada na questão o cálculo do erro seria semelhante ao do Perceptron, fato
que não ocorre aqui. Na rede Adaline os ajustes dos pesos são realizados através dos valores obtidos antes
da função de ativação g(.). Em termos de derivação u representa
∑n
i=1 wi ∗ xi− θ que ,ao ser substituído na
Equação 4.5 será 0 apenas se: d2 6= 1 ∧ |d| < 1. O valor sendo uma constante, no caso o y, ao derivá-lo na
forma ∇E(t) = dEdw(t) o mesmo desapareceria pois a derivada de uma constante é 0 (zero).
8 Discorra se a afirmação seguinte é verdadeira ou falsa. Indepen-
dentemente dos valores iniciais assumidos para o vetor de pesos
do Adaline, uma mesma configuração final para w* será sempre
obtida após a sua convergência.
R → A afirmação é verdadeira uma vez que, ao contrário do Perceptron, a rede Adaline não tem relação
forte com o vetor de inicialização dos pesos à luz dos valores finais do hiperplano ótimo. Entretanto, há de
se considerar uma relação entre a variação do número de épocas e os valores dos pesos iniciais.
9 Explique, considerando a questão anterior, se o número de épocas
de treinamento será também igual, independentemente do seu
vetor de pesos iniciais.
R → Como citado no fim da resposta da questão anterior, existe sim uma relação entre o valor dos pesos
inicializados aleatoriamente no início do treinamento da rede e o número de épocas, uma vez que, pesos
diferentes geram retas inicias, de separabilidade das classes, distintas. Podendo ser, tais retas, mais próximas
ou não da fronteira ótima.
Page 3
10 Em relação ao critério de parada para o processo de convergên-
cia do Adaline, fornecido em (4.17), discorra se há realmente
a necessidade de atualização do operador módulo sobre a dife-
rença do erro quadrático médio entre duas épocas sucessivas.
R → Sim, pois essa variação é que irá fornecer um indicativo do quão bem o processo de treinamento está
sendo realizado, ou seja, se o error está evoluindo de forma decrescente no decorrer das épocas.
11 Projeto Prático
11.1 Questões 01 e 02
Tabela 1: Resultado dos treinamento Adaline
Treinameto Vetor de pesos iniciais Vetor de pesos finais Épocas
w0 w1 w2 w3 w4 w0 w1 w2 w3 w4
1 0,578992 0,472846-0,325784 0,807692 -0,804958 1,815562 1,312348 1,648170 -0,433841 -1,188847 938
2 -0,17148503 0,90809353 0,96991802 -0,89376201 0,83233448 1,815511 1,312203 1,647968 -0,434079 -1,188729 896
3 -0,62512634 -0,21733655 -0,92007288 0,14118172 0,20708586 1,81560505 1,31232475 1,64815281 -0,43393146 -1,1888409 1018
4 0,13656541 -0,50594489 0,8077595 -0,78782889 0,96540447 1,81559794 1,3121684 1,64794963 -0,43423772 -1,18872571 906
5 -0,01637747 0,21608251 0,96690983 -0,67365815 0,99428768 1,81552515 1,31220977 1,64798099 -0,43407965 -1,18873777 909
11.2 Questão 03
ATENÇÃO: O erro refere-se ao valor absoluto do erro em si e não há diferença entre duas épocas.
Figura 1: Evolução do erro ao longo das épocas. Autoria própria.
ATENÇÃO: O erro refere-se ao valor absoluto do erro em si e não há diferença entre duas épocas.
11.3 Questão 04
ATENÇÃO: Para y = -1 entende-se válvula A, para y = 1 entenda-se válvula B.
Page 4
Figura 2: Evolução do erro ao longo das épocas. Autoria própria.
Tabela 2: Amostras de sinais para classificação pelo Adaline
Amostra x1 x2 x3 x4 T1 T2 T3 T4 T5y y y y y
1 0,9694 0,6909 0,4334 3,4965 -1 -1 -1 -1 -1
2 0,5427 1,3832 0,639 4,0352 -1 -1 -1 -1 -1
3 0,6081 -0,9196 0,5925 0,1016 1 1 1 1 1
4 -0,1618 0,4694 0,203 3,0117 -1 -1 -1 -1 -1
5 0,187 -0,2578 0,6124 1,7749 -1 -1 -1 -1 -1
6 0,4891 -0,5276 0,4378 0,6439 1 1 1 1 1
7 0,3777 2,0149 0,7423 3,3932 1 1 1 1 1
8 1,1498 -0,4067 0,2469 1,5866 1 1 1 1 1
9 0,9325 1,0954 1,0359 3,3591 1 1 1 1 1
10 0,506 1,3317 0,9222 3,7174 -1 -1 -1 -1 -1
11 0,0497 -2,0656 0,6124 -0,6585 -1 -1 -1 -1 -1
12 0,4004 3,5369 0,9766 5,3532 1 1 1 1 1
13 -0,1874 1,3343 0,5374 3,2189 -1 -1 -1 -1 -1
14 0,506 1,3317 0,9222 3,7174 -1 -1 -1 -1 -1
15 1,6375 -0,7911 0,7537 0,5515 1 1 1 1 1
11.4 Questão 05
Os pesos se mantém praticamente inalterados devido ao fato da regra Delta não estar fortemente relacionada à
inicialização dos pesos, sendo o cálculo do erro é feito por meio do métodos dos mínimos quadrados, conforme
já elucidado na Questão 2 do exercício teórico.
Referências
[1] Ivan Nunes Da Silva, Danilo Hernane Spatti, and Rogério Andrade Flauzino. Redes neurais artificiais
para engenharia e ciências aplicadas curso prático. São Paulo: Artliber, 2010.
Page 5

Mais conteúdos dessa disciplina