Prévia do material em texto
Tópicos em Computação Aplicada PPGCC002 - 2020.2 Respostas Capítulo IV Aluno: Ênio Rodrigues Viana Dezembro 2020 1 Considerando-se que um problema a ser mapeado pelo Adaline não seja linearmente separável, explique então se para esta si- tuação o processo de treinamento (por meio do algoritmo regra Delta) também convergirá. R → Considerando-se a variação do erro entre duas épocas sucessivas, a resposta é afirmativa, a rede convergirá. Considerando-se o fato de que um hiperplano seja capaz de separar 2 classe não-linearmente separáveis em sua plenitude, não haverá convergência do processo de treinamento para um ponto ótimo, uma vez que, assim como o Perceptron, a rede Adaline é capaz de trabalhar apenas com problemas linearmente separáveis. O que pode ocorrer é um menor erro cumulativo final, computado pelo LMS (Least Mean Square), entre as amostras e a fronteira/reta gerada ao final do processo de treinamento.[1]. 2 Explique por que o treinamento do Adaline se processa normal- mente de forma mais rápido que aquele do Perceptron. Considere que ambas as redes foram aplicadas no mesmo tipo de problema, tendo-se ainda seus vetores de pesos iniciados com valores iguais. R → A rede Adalinem, diferentemente da rede Perceptron, não depende fortemente dos valores dos pesos iniciais e tem o cálculo do erro empregado para o treinamento da rede, o método dos mínimos quadrados, que é mais robusto e menos imune a ruídos, daí a possíbilidade de uma convergência mais rápida. 3 Para o exercício anterior, discorra sobre uma eventual estratégia que se poderia utilizar, fazendo-se uso do Adaline já treinado, para verificar se as classes do problema mapeado são linearmente separáveis. R → Caso o erro cumulativo entre todas as amostras e a reta ótima gerada seja 0(zero) o problema é linearmente separável uma vez que sempre se terá a mesma reta no processo de treinamento utilizando o Adaline. 1 4 Explique as principais diferenças existentes entre o Perceptron e o Adaline. R → Adaline é capaz de convergir mesmo em problemas não-linearmente separáveis, ao contrário do Per- ceptron. A fronteira de decisão gerada pelo Adaline é ótima e única, enquanto no Perceptron não (podem ser várias) e estão fortemente ligadas aos pesos iniciais. As regras de treinamento são distintas, para o Perceptron é a regra de Hebb e para o Adaline é a regra Delta. Na rede Adaline existe a figura do bloco associador não existente na rede Perceptron, sua função é a de auxiliar no processo de treinamento da rede. 5 Considerando-se a aplicação de redes neurais artificiais em um processo de classificação de padrões que necessite de treinamento on-line, explique que tipo de rede (Perceptron ou Adaline) seria a mais apropriada para tal condição. R→ Adaline seria a rede mais aconselhável uma vez que o treinamento da rede é dado pela alteração do peso w ao longo das épocas de apresentação dos padrões xi; Um método de treinamento que requer a apresentação de todos os padrões (uma época) para só depois calcular a mudança nos pesos da rede, é chamado batch ou off-line, entretanto a regra Delta é do tipo on-line. Com isso, a regra Delta desconsidera a somatória de todos os quadrados dos erros no cálculo do gradiente da função custo E e leva em consideração apenas o quadrado do valor atual do erro, ou seja, aproxima o gradiente da função custo pelo gradiente do erro instantâneo cometido pela rede. Matematicamente, isso implica em usar a Equação 1 para calcular o gradiente no passo t do algoritmo (quando o peso tem o valor w(t) e o padrão sendo apresentado à rede é x(t). ∇E(t) = dE dw(t) = d dw(t) ( 1 2N N∑ i=1 ei 2 ) � d dw(t) ( 1 2 e2(t) ) = e(t) de(t) dw = −e(t)x(t) (1) A alteração no peso da rede feita no passo t é dada pela Equação 2 e a regra de alteração dos pesos (LMS) (regra Delta) é dada pela Equação 3, com e(t) = d(k) − u. ∆w = ηe(t)x(t) (2) w(t+ 1) = w(t) + ηe(t)x(t) (3) Para efeito de contextualização entre os métodos on-line ou padrão por padrão e offline ou batch, o método batch faz uma atualização dos pesos a cada época enquanto que o on-line faz uma atualização a cada apresentação, sendo as atualizações dos dois métodos relacionadas pela Equação 4. atualizações pela regra delta = atualização por batch) ∗ nº de padrões de treinamento) (4) 6 Baseando-se no processo de treinamento utilizando a regra Delta, explique as eventuais instabilidades que se podem verificar quando da adoção de valores elevados para a taxa de aprendizado. Expli- que também se há eventuais inconvenientes quando, se assumem valores extremamente pequenos para a taxa de aprendizagem. R→ Como no caso da rede Adaline a função custo E é um parabolóide e existe um único mínimo, a repetição deste algoritmo por um número suficientemente grande de passos t levará a rede a atingir o valor mínimo Page 2 w∗, desde que o parâmetro de aprendizagem η seja suficientemente pequeno (se η for muito grande o sistema pode divergir). Porém, se o parâmetro η for muito pequeno, a convergência para o mínimo pode ser muito lenta (levar muitas iterações). Um artifício usado na prática é começar com um valor muito grande de η (mas não tão grande a ponto de levar á uma divergência) e ir decrescendo o valor de η com o número de passos t.Dessa maneira, quando o sistema estiver bem perto do ponto de mínimo, a atualização do peso com passos cada vez menores fará com que ele oscile menos e se estabilize no mínimo. Uma possível regra para a redução do parâmetro η com o número de passos pode ser verificada na Equação 5. η(t+ 1) = η(t)− β (5) Sendo β um parâmetro ajustado empiricamente. 7 Considerando-se os procedimentos de derivação do processo de aprendizagem do Adaline, explique se seria possível utilizar na expressão (4.5) a saída do neurônio {y} ao invés do valor do com- binador linear {u}. R→ Comportando-se da forma relatada na questão o cálculo do erro seria semelhante ao do Perceptron, fato que não ocorre aqui. Na rede Adaline os ajustes dos pesos são realizados através dos valores obtidos antes da função de ativação g(.). Em termos de derivação u representa ∑n i=1 wi ∗ xi− θ que ,ao ser substituído na Equação 4.5 será 0 apenas se: d2 6= 1 ∧ |d| < 1. O valor sendo uma constante, no caso o y, ao derivá-lo na forma ∇E(t) = dEdw(t) o mesmo desapareceria pois a derivada de uma constante é 0 (zero). 8 Discorra se a afirmação seguinte é verdadeira ou falsa. Indepen- dentemente dos valores iniciais assumidos para o vetor de pesos do Adaline, uma mesma configuração final para w* será sempre obtida após a sua convergência. R → A afirmação é verdadeira uma vez que, ao contrário do Perceptron, a rede Adaline não tem relação forte com o vetor de inicialização dos pesos à luz dos valores finais do hiperplano ótimo. Entretanto, há de se considerar uma relação entre a variação do número de épocas e os valores dos pesos iniciais. 9 Explique, considerando a questão anterior, se o número de épocas de treinamento será também igual, independentemente do seu vetor de pesos iniciais. R → Como citado no fim da resposta da questão anterior, existe sim uma relação entre o valor dos pesos inicializados aleatoriamente no início do treinamento da rede e o número de épocas, uma vez que, pesos diferentes geram retas inicias, de separabilidade das classes, distintas. Podendo ser, tais retas, mais próximas ou não da fronteira ótima. Page 3 10 Em relação ao critério de parada para o processo de convergên- cia do Adaline, fornecido em (4.17), discorra se há realmente a necessidade de atualização do operador módulo sobre a dife- rença do erro quadrático médio entre duas épocas sucessivas. R → Sim, pois essa variação é que irá fornecer um indicativo do quão bem o processo de treinamento está sendo realizado, ou seja, se o error está evoluindo de forma decrescente no decorrer das épocas. 11 Projeto Prático 11.1 Questões 01 e 02 Tabela 1: Resultado dos treinamento Adaline Treinameto Vetor de pesos iniciais Vetor de pesos finais Épocas w0 w1 w2 w3 w4 w0 w1 w2 w3 w4 1 0,578992 0,472846-0,325784 0,807692 -0,804958 1,815562 1,312348 1,648170 -0,433841 -1,188847 938 2 -0,17148503 0,90809353 0,96991802 -0,89376201 0,83233448 1,815511 1,312203 1,647968 -0,434079 -1,188729 896 3 -0,62512634 -0,21733655 -0,92007288 0,14118172 0,20708586 1,81560505 1,31232475 1,64815281 -0,43393146 -1,1888409 1018 4 0,13656541 -0,50594489 0,8077595 -0,78782889 0,96540447 1,81559794 1,3121684 1,64794963 -0,43423772 -1,18872571 906 5 -0,01637747 0,21608251 0,96690983 -0,67365815 0,99428768 1,81552515 1,31220977 1,64798099 -0,43407965 -1,18873777 909 11.2 Questão 03 ATENÇÃO: O erro refere-se ao valor absoluto do erro em si e não há diferença entre duas épocas. Figura 1: Evolução do erro ao longo das épocas. Autoria própria. ATENÇÃO: O erro refere-se ao valor absoluto do erro em si e não há diferença entre duas épocas. 11.3 Questão 04 ATENÇÃO: Para y = -1 entende-se válvula A, para y = 1 entenda-se válvula B. Page 4 Figura 2: Evolução do erro ao longo das épocas. Autoria própria. Tabela 2: Amostras de sinais para classificação pelo Adaline Amostra x1 x2 x3 x4 T1 T2 T3 T4 T5y y y y y 1 0,9694 0,6909 0,4334 3,4965 -1 -1 -1 -1 -1 2 0,5427 1,3832 0,639 4,0352 -1 -1 -1 -1 -1 3 0,6081 -0,9196 0,5925 0,1016 1 1 1 1 1 4 -0,1618 0,4694 0,203 3,0117 -1 -1 -1 -1 -1 5 0,187 -0,2578 0,6124 1,7749 -1 -1 -1 -1 -1 6 0,4891 -0,5276 0,4378 0,6439 1 1 1 1 1 7 0,3777 2,0149 0,7423 3,3932 1 1 1 1 1 8 1,1498 -0,4067 0,2469 1,5866 1 1 1 1 1 9 0,9325 1,0954 1,0359 3,3591 1 1 1 1 1 10 0,506 1,3317 0,9222 3,7174 -1 -1 -1 -1 -1 11 0,0497 -2,0656 0,6124 -0,6585 -1 -1 -1 -1 -1 12 0,4004 3,5369 0,9766 5,3532 1 1 1 1 1 13 -0,1874 1,3343 0,5374 3,2189 -1 -1 -1 -1 -1 14 0,506 1,3317 0,9222 3,7174 -1 -1 -1 -1 -1 15 1,6375 -0,7911 0,7537 0,5515 1 1 1 1 1 11.4 Questão 05 Os pesos se mantém praticamente inalterados devido ao fato da regra Delta não estar fortemente relacionada à inicialização dos pesos, sendo o cálculo do erro é feito por meio do métodos dos mínimos quadrados, conforme já elucidado na Questão 2 do exercício teórico. Referências [1] Ivan Nunes Da Silva, Danilo Hernane Spatti, and Rogério Andrade Flauzino. Redes neurais artificiais para engenharia e ciências aplicadas curso prático. São Paulo: Artliber, 2010. Page 5