Baixe o app para aproveitar ainda mais
Prévia do material em texto
Redes Neurais Artificiais IntroduçãoIntrodução Capítulos 1 e 2p Redes Neurais Artificiais (RNA) • São modelos computacionais inspirados nos • São modelos computacionais inspirados nos mecanismos de aprendizagem do cérebro humanohumano. • São modelos computacionais que tentam emular • São modelos computacionais que tentam emular a forma com que o cérebro resolve problemas. RNARNA Inspiração no cérebro humano O processamento de informações no cérebro • O processamento de informações no cérebro humano é altamente complexo, não-linear e paralelo. ▫ O cérebro é constituído por aproximadamente 100 bilhões de neurônios (1011) ▫ Cada neurônio é interligado em média com outros 6.000 neurônios (60 trilhões de sinapses). ▫ Número de neurônios equivale à quantidade de estrelas de via Láctea. ▫ É um dos sistemas mais complexos que é atualmente conhecido pelo ser humano RNARNA Comparação entre o computador e o cérebrop ç p Computador Cérebro Tipo de Sequencial (serial) Paralelop processamento q ( ) Quantidade e l id d Um ou poucos d 1010 neurônios; 10 complexidade processadores 1010 conexões/neurônio. Velocidade de 10-9 segundos 10-6 segundos processamento g g Eficiência energética 10-16 Joules (por ã / d ) 10-6 Joules (por ã / d ) operação/segundo) operação/segundo) RNA: Principais característicasRNA: Principais características • Adaptação por experiênciaAdaptação por experiência ▫ Parâmetros internos da rede, tipicamente seus pesos sinápticos, são ajustados a partir da apresentação sucessiva de exemplos (amostras e medidas) relacionados ao comportamento do processo • Capacidade de Aprendizado ▫ Aplicação de método de treinamento possibilita a rede extrair o relacionamento existente entre variáveis que compõem a aplicação.relacionamento existente entre variáveis que compõem a aplicação. • Habilidade de generalização ▫ Após o processo de treinamento, a rede é capaz de generalizar o h i d i id ibili d i ã d l õconhecimento adquirido, possibilitando a estimação de soluções que eram até então desconhecidas. • Organização de dados• Organização de dados ▫ Baseada em características marcantes de um conjunto de dados a respeito do processo, a rede é capaz de realizar sua organização interna para agrupamento de amostras que são similares/comuns. RNA: Principais características • Tolerância a falhas d l d l d f▫ Devido ao elevado nível de interconexões entre neurônios artificiais, a rede torna-se um sistema tolerante a falhas quando parte de sua estrutura interna for sensivelmente corrompida. • Armazenamento distribuído ▫ O conhecimento dentro da rede é realizado de forma distribuída entre as sinapses dos neurônios artificiais, permitindo-se então robustez frente a i ô i ieventuais neurônios que se tornaram inoperantes. • Facilidade de Prototipagem A i l t ã d i i d it t i d ▫ A implementação da maioria das arquiteturas neurais pode ser facilmente prototipadas em hardware ou em software ▫ Após o processo de treinamento, os seus resultados são normalmente obtidos por algumas operações matemáticas elementares.p g p ç Histórico das RNAHistórico das RNA • 1943 McCulloch e Pitts• 1943 – McCulloch e Pitts ▫ Primeiro modelamento matemático inspirado no neurônio biológico • 1949 – Hebb ▫ Primeiro método de treinamento para redes neurais artificiais (regra de aprendizado de neurais artificiais (regra de aprendizado de Hebb) ▫ Baseada em hipóteses e observações de caráter neurofisiológico • 1957-1958 – Frank Rosenblatt ▫ Desenvolvimento do primeirop neurocomputador: Mark I – Perceptron ▫ o modelo Perceptron despertou interesse devido à sua capacidade em reconhecer padrões simplessimples Histórico das RNAHistórico das RNA • 1960 – Widrow & Hoff• 1960 – Widrow & Hoff ▫ Rede Adaline (ADAptive LINear Element) ▫ Madaline Adaline múltipla, que é uma rede cujo aprendizado é fundamentado na regra Delta ou LMS (least mean square) • 1969 – Publicação do livro Perceptron (Minsky & Papert) ▫ Limitação de RNA constituídas por apenas uma única camada em d l i t t t d íd d f õ aprender o relacionamento entre as entradas e saídas de funções lógicas bem simples como o XOR (ou-exclusivo). ▫ Impossibilidade das RNAs realizarem a correta classificação de p ç padrões para classes não lineamente separáveis. Histórico das RNA • De 1970 a 198697 9 ▫ Trabalhos de Werbos (gradiente reverso), Grossberg(ART), Kohonen (mapas auto-organizáveis), Hopfield (redes recorrentes baseadas em funções de energia)baseadas em funções de energia) • 1986 – livro de Rumelhart, Hinton e Williams ▫ Processamento paralelo distribuído ▫ Resolvia o problema do XOR ▫ Algoritmo Backpropagation▫ Algoritmo Backpropagation Potenciais áreas de aplicações de RNA • Aproximador unirversal de funçõesp ç ▫ Mapeiam o relacionamento entre variáveis de um sistema a partir de um conjunto conhecido de seus valores representativos ▫ Envolvem normalmente o mapeamento de processos cuja ▫ Envolvem normalmente o mapeamento de processos cuja modelagem por técnicas convencionais são de difícil obtenção ▫ Necessitam de domínio específico para variáveis de entrada • Controle de processos ▫ Consistem em identificar ações de controle que permitam o ▫ Consistem em identificar ações de controle que permitam o alcance dos requisitos de qualidade, de eficiência e de segurança do processo. E l li d bó i l d ▫ Ex: controles aplicados em robótica, aeronaves, elevadores, eletrodomésticos, satélites, etc. Potenciais áreas de aplicações de RNA • Classificação de Padrõesç ▫ Associar um padrão de entrada (amostra) para uma das classes previamente definidas. ▫ O problema pode ser tratado possui um conjunto discreto e p p p j conhecido das possíveis saídas desejadas. ▫ Ex: reconhecimento de imagens, voz, escrita, etc. • Agrupamento de dados (clusterização) ▫ Identificação e detecção de similaridades e particularidades entre os diversos padrões de entrada a fim de possibilitarentre os diversos padrões de entrada a fim de possibilitar seu agrupamento. ▫ Ex: identificação automática de classes (como em problemas de diagnóstico médico) compressão de dados e problemas de diagnóstico médico), compressão de dados e mineração de dados (data mining) Potenciais áreas de aplicações de RNA • Sistemas de Previsão ▫ Estimar valores futuros de um processo levando-se em consideração diversas medidas prévias observadas em seu domínio.seu domínio. ▫ Ex: previsão de séries temporais, mercados financeiros, climáticas, etc. • Otimização de Sistemas ▫ Minimizar ou maximizar uma função custo (objetivo) ç ( j ) obedecendo também eventuais restrições que são impostas para o correto mapeamento do problema. ▫ Ex: problemas de otmização restrita, otimizaçãoEx: problemas de otmização restrita, otimização combinatorial, programação dinâmica, etc. Potenciais áreas de aplicações de RNA • Memórias Associativas• Memórias Associativas ▫ Recuperar padrões corretos mesmo se os seus elementos constituintes forem apresentados de elementos constituintes forem apresentados de forma incerta ou imprecisa. ▫ Ex: processamento de imagens, transmissão de Ex: processamento de imagens, transmissão de sinais, identificação de caracteres manuscritos, etc. Neurônio biológicoNeurônio biológico Características da célula nervosa • O processamento de informações no cérebro humano é regido por elementos processadores bológicos que operam em paralelo T bj ti d ã d õ i d d• Tem como objetivo a produção de ações apropriadas para cada uma de suas funcionalidades, como o pensar e o memorizar. Neurônio biológicog Características da célula nervosa Neurônio biológicoNeurônio biológico Característicasda célula nervosa Neurônio biológicog Variação do potencial de ação do neurônio • Etapas de variação (potencial de ação):Etapas de variação (potencial de ação): Característica Dimensão Massa do cérebro 1,5 kg,5 g Energia consumida 20% Comprimento do neurônio 100μm Potencial de repouso -70 mV Potencial de ativação -55 mV Potencial de ação (máximo) 35 mV Representação do neurônio artificialRepresentação do neurônio artificial • Modelo matemático do neurônio artificialModelo matemático do neurônio artificial • Sinais de entrada: {x1, x2, …, x }xn} • Pesos sinápticos: {w1, w2, …, wn} bi d li { } xwu n • Combinador linear: {Ʃ} •Limiar de ativação: {θ} • Potencial de ativação: {u} )( 1 ugy xwu i ii Potencial de ativação: {u} • Função de ativação: {g} • Sinal de saída: {y} )(ugy Neurônio artificial – resumo do Neurônio artificial resumo do funcionamento 1. Apresentação de um conjunto de valores que representam as variáveis de entrada do neurônio; 2 Multiplicação de cada entrada do neurônio pelo seu respectivo 2. Multiplicação de cada entrada do neurônio pelo seu respectivo peso sináptico 3. Obtenção do potencial de ativação produzido pela soma ponderada d i i d d b i d li i d i ãdos sinais de entrada, subtraindo-se o limiar de ativação 4. Aplicação de uma função de ativação apropriada, tendo-se como objetivo limitar a saída do neurônioobje o a a sa da do eu ô o 5. Compilação da saída a partir da aplicação da função de ativação neural em relação ao seu potencial de ativação 1 xwu n i ii )( 1 ugy i Funções de ativação neural parcialmenteç ç diferenciáveis • São aquelas que possuem pontos cujas derivadas de q q p p j primeira ordem são inexistentes. a) Função degrau (heavyside) b) F ã d bi l f ã i lb) Função degrau bipolar ou função sinal Classifcação de padrões Funções de ativação neural parcialmenteFunções de ativação neural parcialmente diferenciáveis c) Função rampa simétrica Os valores retornados são iguais aos próprios valores dos Os valores retornados são iguais aos próprios valores dos potenciais de ativação quando estes estão definidos no intervalo [-a,a], restingindo-se aos valores limites em[ , ], g caso contrário. Funções de ativação neural totalmenteç ç diferenciáveis • São aquelas cujas derivadas de primeira ordem• São aquelas cujas derivadas de primeira ordem existem e são conhecidas em todos os pontos de seu domínio de definiçãoseu domínio de definição • São quatro as principais funções• São quatro as principais funções. Funções de ativação neural totalmenteç ç diferenciáveis a) Função logística) ç g ▫ Saída: valores entre 0 e 1. • β é uma constante real associada ao nível de inclinação da função logística frente ao seu ponto de inflexão • Formato geométrico tende a ser similar ao da função degrau quando β for muito elevado (tender ao infinito) Funções de ativação neural totalmenteç ç diferenciáveis b) F ã t t hi bólib) Função tangente hiperbólica Saída: valores reais entre -1 e 1 Saída: valores reais entre 1 e 1 β também está associado ao nível de inclinação da função em relação ao seu ponto de inflexão Formato geométrico tende a ser similar ao da função degrau bipolar quando β for muito elevado (tender ao infinito). Funções de ativação neural totalmenteç ç diferenciáveis c) Função gaussiana d) Função linear c) Função gaussiana d) Função linear (identidade) c define o centro (média) da função ifi iâ i Produz resultados idênticos aos valores do σ2 especifica a variância (espalhamento) idênticos aos valores do potencial de ativação {u} Arquiteturas de RNA’sq • Arquitetura de RNA’s ▫ Define a forma como os seus diversos neurônios estão arranjados, ou dispostos, uns em relação aos outros. ▫ Os arranjos são estruturados através do direcionamento do fluxo sináptico.p • Topologia de RNA’s D fi dif f d i õ i d▫ Define as diferentes formas de composições estruturais que uma rede pode assumir, dada uma determinada arquitetura. ▫ Ex: dada uma determinada arquitetura, uma das redes pode ser composta por 10 neurônios e a outra por 20 neurônios • Processo de treinamentoProcesso de treinamento ▫ Consiste na aplicação de um conjunto de passos ordenados com o intuito de ajustar os pesos e os limiares de seus neurônios. ▫ Visa sintonizar a rede para que as suas respostas estejam próximas dos valores▫ Visa sintonizar a rede para que as suas respostas estejam próximas dos valores desejados. ▫ Conhecido como algoritmo de aprendizagem Partes da RNAPartes da RNA • Camada de entrada• Camada de entrada ▫ Responsável pelo recebimento de informações (dados) advindas do meio externo ▫ Entradas são normalizadas em relação aos valores limites produzidos pelas funções de ativação • Camadas escondidas, intermediárias, ocultas ou invisíveis ▫ Compostas de neurônios que possuem a responsabilidade de extrair as características associadas ao processo ou sistema a ser extrair as características associadas ao processo ou sistema a ser inferido. • Camada de saída ▫ Também é constituida de neurônios, sendo responsável por produzir/apresentar os resultados finais da redeproduzir/apresentar os resultados finais da rede Arquiteturas • As principais arquiteturas consideram• As principais arquiteturas, consideram ▫ Disposição de seus neurônios ▫ Formas de interligação entre os neurônios ▫ Constituição de suas camadas 1. Arquitetura feedforward (alimentação à frente) Camada simplesCamada simples • Constituída de uma camada de entrada e única camada de neurônios, que é a própria saída. • Fluxo de informações segue • Fluxo de informações segue sempre numa única direção (unidirecional). • Ex: Perceptron, Adaline • Aplicações: classificação de padrões, filtragem linear 2. Arquitetura feedforward (alimentação à q f f ( ç frente) C d úl i lCamadas múltiplas • Presença de uma ou mais camadas neurais escondidasneurais escondidas • Quantidade de camadas escondidas e de neurônios dependem e de neurônios dependem, sobreturo, do tipo e complexidade do problema. • Ex: Perceptron multicamadas, redes de base radial (RBF). • Aplicações: aproximação de funções, classificação de padrões, controle de processos otimização controle de processos, otimização, etc. 3 Arquitetura recorrente3. Arquitetura recorrente íd d ô i• Saídas dos neurônios são realimentadas como sinais de entrada para outros neurônios. • Realimentação as qualificam para processamento dinâmico de informações. • Ex: Hopfield, Perceptronp , p multicamadas com realimentação • Aplicações sistemas de previsão, otimização, controle de processos, etc.p , 4 Arq itet ra retic lada4. Arquitetura reticulada • Levam em consideração a ç forma em que a disposição espacial dos neurônios está organizadaorganizada. • Visa propósitos de extração de í icaracterísticas. • Ex: Kohonen.Ex: Kohonen. • Aplicações: problemas de t l ifi ã d Rede de Kohonen em que osagrupamento, classificação de padrões, otimização de sistemas, etc. Rede de Kohonen em que os neurônios estão dispostos no espaço bidimensional Processos de treinamento Aprender a partir da t ã d t Exprimem o comportamento do sistemaapresentação de amostras (padrões) Exprimem o comportamento do sistema Generalizar soluções Produzir uma saída próxima da esperada Processos de treinamentoProcessos de treinamento • Processo de treinamento• Processo de treinamento ▫ Consiste da aplicação de passos ordenados a fim de ajustar (sintonizar) os parâmetros livre (pesos de ajustar (sintonizar) os parâmetros livre (pesos sinápticos e limiares)dos neurônios. ▫ Objetivo final: generalização de soluções (as quais não eram conhecidas)não eram conhecidas) Divisão das amostras Representa todos os dados disponíveis sobre o d d Conjunto total de amostras comportamento do processo a ser mapeado. amostras 60 a 90% 10 a 40% Subconjunto de treinamento Subconjunto de testetreinamento teste Usado para o processo de aprendizado da rede Usado para verificar se a li ã d l õ t daprendizado da rede. generalização de soluções por parte da rede já estã em patamares aceitáveis. Não participam do treinamento da rededa rede Treinamento supervisionado • Consiste em se ter disponível considerando cada amostra dos sinais• Consiste em se ter disponível, considerando cada amostra dos sinais de entrada, as respectivas saídas desejadas. • Cada amostra de treinamento é então composta pelos sinais de entradas e suas correpondentes saídas. • Comporta como se houvesse um “professor” ensinando para a rede qual seria a resposta correta para cada amostra apresentada Passos do treinamento supervisionado 1. Apresente uma amostra de treinamento. 2 Calcule a saída produzida pela rede2. Calcule a saída produzida pela rede. 3. Compare com a saída desejada. 4. Se estiver dentro de valores aceitáveis: E ã T i d di dEntão Termine o processo de aprendizado Senão Ajuste os pesos sinápticos e limiares dos neurônios e volte ao passo 1dos neurônios e volte ao passo 1. Treinamento não supervisionadoTreinamento não-supervisionado • Diferentemente do supervisionado, as respectivas saídas desejadas são inexistentessaídas desejadas são inexistentes. • A rede deve se auto-organizar em relação às particularidades existentes entre os elementos do conjunto total de amostras, identificado subconjuntos (clusters) que contenham similaridades.( ) q Passos do treinamento não supervisionado: 1 A t t d t d t i t1. Apresente todas as amostras de treinamento. 2. Obtenha as características que marcam as amostras de treinamento. 3. Agrupe todas as amostras com características em comum. 4 Coloque as amostras comuns em classes4. Coloque as amostras comuns em classes. Aprendizagem off-line e on-line • Off-line (usando lote de padrões) ▫ Os ajustes efetuados nos pesos e limiares dos neurônios só sãoOs ajustes efetuados nos pesos e limiares dos neurônios só são efetivados após a apresentação de todo o conjunto de treinamento. ▫ Cada passo de ajuste leva em consideração o total de desvios observados nas amostras de treinamento frentes aos respectivos valores desejados para as usas saídas. • On-line (usando padrão-por-padrão) l d ô f d ó▫ Os ajustes nos pesos e limiares dos neurônios são efetuados após a apresentação de cada amostra de treinamento. É l t tili d d t t d i t ▫ É normalmente utilizada quando o comportamento do sistema a ser mapeado varia de forma bastante rápida. Exercícios • P 43-44; 54-55• P. 43 44; 54 55 Bibliografia • Livro: Redes Neurais Artificiais: para engenharia• Livro: Redes Neurais Artificiais: para engenharia e ciências aplicadas – curso prático Autores: Ivan Nunes da SilvaAutores: Ivan Nunes da Silva Danilo Hernane Spatti Rogério Andrade Fla inoRogério Andrade Flauzino Artliber: 2010.
Compartilhar