Buscar

Redes Neurais Artificiais - Resumo

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Redes Neurais Artificiais – Teoria e Aplicações
Resumo: Capítulos de I a III 
Livro Russell, Stuart J. (Stuart Jonathan), 1962- Inteligência artificial / Stuart Russell, Peter Norvig; tradução Regina Célia Simille. – Rio de Janeiro: Elsevier, 2013.
1 – Introdução
1.1 Histórico
As RNAs - Surgiram na década de 40, mais precisamente em 1943, neurofisiologista McCulloch e o matemático Walter Pitts, fizeram uma analogia entre as células nervosas e o processo eletrônico.
1949, Donald Hebb, mostrou como a plasticidade da aprendizagem de redes neurais é conseguida através da variação dos pesos de entrada dos neurônios. Propôs uma teoria para explicar o aprendizado em neurônios biológicos baseada no reforço das ligações sinápticas entre neurônios excitados.
1958, Frank Rosenblatt – Propôs um algoritmo para treinar a rede para executar determinados tipos de funções. O perceptron dele possui três camadas.
1969, Minsky e Papert lançaram em uma obra chamada Perceptron, a qual demonstrava que o modelo apresentado por Rosenblatt não era muito promissor, devido ao uso de uma única camada não era capaz de executar, este modelo está limitado a resolver problemas linearmente separáveis. A publicação de Minsky e Papert acabou esfriando as pesquisas e praticamente todo o investimento financeiro nesta área. Mais adiante com os novos avanços na área mostraram que a visão deles era bem pessimista.
Nos anos 70 a abordagem conexionista ficou meio adormecida.
1982, Retomada das pesquisas na área, Hopfield chamou a atenção para as propriedades associativas das RNAs.
1986, descrição do algoritmo de treinamento back-propagation. As RNAs de múltiplas camadas, são capazes de resolver “problemas difíceis de aprender”
Depois de meados de 80 aumentou o interesse nas RNAs, dois fatores contribuíram pra isso: O avanço da tecnologia, sobretudo da microeletrônica, e a simbólica não ter conseguido avanços para resolver problemas simples para o ser humano, abrindo espaço então para a IA conexionista.
Da década de 80 até os dias atuais as pesquisas se concentraram em propor variações do algoritmo de back-propagation para tentar obter maior velocidade de convergência.
Os trabalhos que devem surgir nos próximos anos tendem a focar em problemas semelhantes aos do final da década de 80, como a busca de algoritmos eficientes e a implementação física das novas RNAs. Desenvolvimento de algoritmos com maior controle de generalização e integração de outros paradigmas de IA. É ainda um campo muito fértil para pesquisas.
1.2 Motivação para as RNAs: redes biológicas
A estrutura individual dos neurônios humanos, a topologia de suas conexões e o comportamento conjunto desses elementos de processamento naturais formam a base para o estudo das RNAs.
As RNAs se baseiam no comportamento individual dos neurônios biológicos, sendo estes bem entendidos do ponto de vista funcional.
Elas tentam reproduzir as funções dessas redes biológicas, seu comportamento funcional e sua dinâmica.
As características comuns permitem às RNAs reproduzir com fidelidade, várias funções cognitivas e motoras dos seres humanos.
No futuro da neurocomputação acredita-se que estruturas encontradas nos sistemas biológicos podem inspirar o desenvolvimento de novas arquiteturas para modelos de RNAs.
Neurônios Biológicos
Um neurônio se comunica com outros neurônios por meio de sinapses, estas sinapses são reações eletroquímicas geradas dentro do corpo do neurônio.
A comunicação entre neurônios
Uma das funções básicas executadas por um neurônio é a combinação de sinais recebidos dos neurônios anteriores, conectados em grande parte aos dendritos. Caso a combinação dos sinais recebidos esteja acima do limiar de excitação do neurônio, um impulso elétrico é produzido e propagado através do axônio para os neurônios seguintes.
1.3 Neurônios artificiais modelo MCP
Neurônio de McCulloch e Pitts, no qual ∑ representa a soma ponderada das entradas e f (u) a função de ativação.
Representa o neurônio como uma unidade de limite binário que pode executar operações lógicas básicas, por meio do ajuste adequado dos pesos. Apesar de cada neurônio possuir apenas uma entrada e uma saída, a interligação de várias unidades forma uma rede capaz de executar ações complexas.
1.4 Funções de ativação
A função de ativação é responsável por gerar a saída y do neurônio a partir dos valores dos vetores de peso w.
1.5 Principais arquiteturas de RNAs
Independentemente da função de ativação escolhida, neurônios individuais possuem capacidade computacional limitada. No entanto, um conjunto de neurônios artificiais conectados na forma de uma rede (neural) é capaz de resolver problemas de capacidade elevada.
A definição da estrutura de uma RNA para resolução de um determinado problema depende de vários fatores, entre eles:
· Complexidade do problema;
· Dimensionalidade do espaço de entrada;
· Características dinâmicas ou estáticas;
· Conhecimento a priori sobre o problema;
· Representatividade dos dados.
1.6 Aprendizado
Uma das características mais importantes das RNAs é a sua capacidade de aprender por meio de exemplos. Na abordagem conexionista o conhecimento não é adquirido através de regras explícitas, como na IA simbólica, mas através do ajuste das intensidades das conexões entre os neurônios. A etapa de aprendizagem de uma RNA consiste em um processo interativo de ajuste de parâmetros da rede, os pesos das conexões, que guardam, ao final do processo, o conhecimento que a rede adquiriu do ambiente externo.
1.7 Aprendizado supervisionado
Implica na existência de um supervisor ou professor externo, responsável por estimular as entradas da rede por meio de padrões de entrada e observar a saída calculada pela mesma, comparando com a saída desejada. A resposta da rede é função dos valores atuais do seu conjunto de pesos, estes são ajustados para aproximar a saída da rede da saída desejada.
O conjunto de treinamento possui pares de entrada e saída.
Se aplica a problemas em que se deseja obter um mapeamento entre padrões de entrada e saída.
Exemplo: Problemas de classificação – Deve-se ou não conceder um empréstimo bancário.
Correção de erros
Procura-se minimizar o erro da resposta atual da rede em relação à saída desejada.
Aprendizado por reforço
É por vezes considerado como um caso particular de aprendizado supervisionado. O crítico externo procura maximizar o reforço das boas ações executadas pela rede. Se caracteriza como um processo de tentativa e erro, que visa maximizar o índice de desempenho chamado de sinal de reforço. É aplicado principalmente a problemas de aprendizado envolvendo tarefas de controle nas quais é permitido à rede errar durante o processo de interação com o sistema a ser controlado.
1.8 Aprendizado não supervisionado
Não há um professor ou supervisor externo para acompanhar o processo de aprendizado. Somente os padrões de entrada estão disponíveis para a rede. Regularidade e redundância nas entradas são características essenciais para haver aprendizado não-supervisionado. Se aplica a problemas que visam a descoberta de características estatisticamente relevantes nos dados da entrada. Exemplo: descoberta de agrupamentos ou classes.
Os ajustes dos pesos é feito independentemente de qualquer critério de desempenho de resposta da rede.
Aprendizado hebbiano
Propõe que o peso de uma conexão sináptica deve ser ajustado se houver sincronismo entre os “níveis de atividade” da entrada e saída.
Aprendizado por competição
Dado um padrão de entrada, faz com que as unidades de saída disputem entre si para serem ativadas. Existe uma competição entre as unidades de saída para ver qual delas será vencedora e, que terá sua função ativada. A unidade vencedora tem seus pesos atualizados no treinamento.
1.9 O que podemos fazer com RNAs?
Se aplicam a problemas onde existam dados que serão utilizados no treinamento.
As tarefas principais que as RNAs se aplicam são: Classificação, Categorização, Aproximação, Previsão e Otimização.
Classificação: A resolução de problemas se dá por meio de RNAs que se caracteriza basicamentepor aprendizado supervisionado, em que exemplos de padrões são apresentados as entradas e as classes correspondentes são apresentadas às saídas da rede durante o processo de aprendizado. A rede deverá então adaptar os seus pesos de forma a mapear as relações entre os padrões de entrada e classes correspondentes de saída, tendo por base os dados do conjunto de treinamento.
Categorização: Envolve a descoberta de categorias ou classes bem definidas nos dados de entrada. As classes não são conhecidas de antemão. Envolve aprendizado não-supervisionado.
Aproximação: Funciona semelhante a classificação, buscando mapear as relações de entrada e saída em funções contínuas das variáveis de entrada.
Previsão: Estimativa de situações futuras com base nos estados atuais e anteriores do sistema a ser modelado. Uso de aprendizado supervisionado.
Otimização: Se caracteriza pela minimização ou maximização de uma função de custo, podem ser resolvidas por meio de modelos recorrentes como as redes de Hopfield. Função de custo deve ser conhecida de antemão para caracterização do problema.
	Tarefas
	Algumas Aplicações
	Classificação
	Reconhecimento de imagem;
Diagnóstico médico;
Análise de risco de crédito.
	Categorização
	Agrupamento de sequências de DNA;
Mineração de dados;
Agrupamentos de clientes.
	Previsão
	Previsão do tempo;
Previsão financeira (câmbio, bolsa, etc.).
2 – Perceptron
2.1 Portas de limiar
Podem ser divididas em três tipos: Limear, quadrática e polinomial. Comparam a soma ponderada das entradas com um valor de limiar. Os pesos associados a cada um desses modelos podem assumir formas diferentes.
Porta de limiar linear
Possui uma definição semelhante o neurônio MCP, no entanto suas entradas estão restritas a variáveis booleanas, 0 e 1, enquanto no MCP podem assumir qualquer valor real.
2.2 Considerações finais sobre portas de limiar
A adição de um número maior de parâmetros livres confere maior flexibilidade às soluções possíveis obtidas por meio de uma porta limiar.
As portas que possuem termos mais complexos para os pesos do que as portas quadráticas são conhecidas como portas de limiar polinominais, são mapeadores universais de funções booleanas de n variáveis.
2.3 Perceptron
Composto por uma estrutura de rede, tendo como unidade básica neurônios MCP e por uma regra de aprendizado.
Sempre converge caso o problema seja linearmente separável, você tem um conjunto de dados e você consegue traçar uma reta que separe os dados em classes.
A topologia original era composta por unidades de entrada (retina), por um nível intermediário formado pelas unidades de associação e por um nível de saída formado pelas unidades de resposta. Embora essa topologia original possua três níveis ela é conhecida como perceptron de uma única camada, já que somente o nível de saída (unidades de resposta) apresenta propriedades adaptativas.
O Perceptron é um classificador linear isso que dizer que ele só ira lidar com problemas de classificação onde o conjunto de dados seja linearmente separável.
Problemas reais, entretanto, na maioria das vezes são mais complexos.
Apesar dessa limitação ele não é um algoritmo fraco. Pois por mais que seja difícil achar um conjunto de dados linearmente separável em aplicações reais, ele pode ser combinado com outros algoritmos para se aumentar a precisão.
E claro podemos analisar a relação entre as dimensões de um conjunto de dados pois dependendo da forma em que agrupamos as classes é possível que ele seja linearmente separável em uma combinação específica das dimensões dadas.
Ele também pode ser usado para problemas de regressão nesse caso ele tem o mesmo efeito que uma regressão linear.
Com algumas alterações também é possível aplicá-lo em problemas com mais de duas classes.
O algoritmo de aprendizado do perceptron
Não ocorre variação no peso se a saída estiver correta, caso contrário, cada peso é incrementado de N quando a saída é menor que o target e decrementado de N quando a saída é maior que o target.
Implementação do algoritmo de treinamento do perceptron
O algoritmo de treinamento do perceptron sempre chega em um tempo finito, a uma solução para o problema de separação de duas classes linearmente separáveis.
Superfície de separação
O perceptron simples é um discriminador que divide o espaço de entrada em duas regiões por meio de uma superfície de separação linear.
3 – Adaline
(ADAPTIVE LINEAR NEURON) - Desenvolvida em 1959 por Widrow e Hoff. É uma rede de uma camada com backpropagation utilizada para reconhecimento de padrões, mas só reconhece os padrões nos quais foi treinada (Regra de Widrow-Hoff). Quando transposta para uma rede de backpropagation de multicamadas é denominada de MADALINE (Multilayer ADALINE) e apresenta um alto grau de tolerância a falhas.
Sua principal aplicação era o chaveamento de circuitos telefônicos.
As principais contribuições do modelo são:
1) Desenvolvimento do algoritmo de aprendizado “Regra Delta”;
2) Aplicações de RNAs de forma prática para soluções de sinais analógicos;
3) Foi a primeira rede neural aplicada na indústria.
Comparação Perceptron e Adaline
Adaline se torna “imune” a ruídos.
3.1 Descrição do modelo
É caracterizado pela utilização de uma função de ativação linear.
3.2 Função quadrática de erro
O objetivo do treinamento é atingir as regiões de menor erro, ou seja, as regiões mais baixas da superfície, próximas ao mínimo global. Considerando-se o erro quadrático como o critério de desempenho, a partir de um valor inicial para o vetor de pesos, o objetivo do treinamento deve ser tal que o vetor de pesos se aproxime gradativamente do mínimo global.
A regra delta
O objetivo do treinamento será minimizar a função de custo. (A proposta de Widrow era obter um conjunto de pesos que fornecesse erro mínimo, para um conjunto de padrões de treinamento)
Um método de treinamento que requer a apresentação de todos os padrões (uma época) para só depois calcular a mudança nos pesos da rede é chamado de método de treinamento por batelada (em inglês, batch mode).
Existem métodos de treinamento que propõem que as alterações nos pesos sejam feitas após a apresentação de cada padrão de entrada, sem esperar que todos os padrões sejam apresentados. Tais métodos são chamados de métodos de treinamento padrão-a-padrão, ou on-line.
Um método de treinamento padrão-a-padrão para a Adaline foi proposto por Widrow e Hoff na década de 1960. Este método, que é uma simplificação do método por batelada, e leva ao chamado algoritmo LMS de treinamento (do inglês least mean square), também conhecido como regra delta.
A ideia do método de Widrow e Hoff é desconsiderar a somatória por todos os quadrados dos erros no cálculo do gradiente da função custo E e levar em consideração apenas o quadrado do valor atual do erro, ou seja, aproximar o gradiente da função custo pelo gradiente do erro instantâneo cometido pela rede neural.
3.3 Combinação linear de funções
O Adaline é um aproximador linear de funções. Para um conjunto qualquer de variáveis de entrada, a sua saída corresponde à soma das mesmas, ponderadas pelos pesos acrescida do termo de polarização.
Os modelos perceptron e Adaline são de natureza simples e resolvem problemas com características lineares. No entanto, é possível resolver com eles problemas de natureza mais complexas através da utilização de portas de limiar de maior complexidade ou através da combinação de funções não-lineares.

Continue navegando