Resumo de Redes Neurais

Redes Neurais I

•

UFAL

Maria Izabel

26/03/2024

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Redes Neurais I

282 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Resumo de Redes Neurais
● A Rede Recorrente de Elman foi proposta por Jeffrey L. Elman, um psicólogo
cognitivo e cientista da computação americano.
● A arquitetura de rede recorrente de Elman foi introduzida por Elman em seu
artigo seminal "Finding structure in time" publicado em 1990.
● Elman desenvolveu essa arquitetura com a intenção de modelar a
aprendizagem de sequências temporais e fornecer uma abordagem para lidar
com dependências temporais em dados sequenciais.
A Rede Recorrente de Elman é um tipo de arquitetura de rede neural projetada
para lidar com dependências temporais em dados sequenciais. No entanto, ela
enfrenta alguns desafios comuns em sua aplicação:
Problemas em Dependências Temporais:
A capacidade da Rede Recorrente de Elman em modelar dependências
temporais é limitada, especialmente quando se trata de sequências mais
longas.
● Desvanecimento do Gradiente:
O desvanecimento do gradiente é um problema comum em redes
recorrentes, incluindo a de Elman, onde os gradientes podem diminuir
exponencialmente ao longo do tempo, dificultando o aprendizado eficaz
de dependências temporais a longo prazo.
● Explodir do Gradiente:
O oposto do desvanecimento do gradiente, o explodir do gradiente, também
pode ocorrer, levando a valores de gradiente extremamente altos e
dificultando a convergência do modelo.
● Modelagem de Longo Prazo:
A capacidade de modelagem de longo prazo da Rede Recorrente de Elman é
limitada devido aos problemas de desvanecimento e explodir do gradiente.
● Sequências Variáveis:
A arquitetura de Elman pode lidar com sequências de comprimentos
variáveis, permitindo flexibilidade no processamento de diferentes tipos de
dados sequenciais.
● Mudanças Dinâmicas nas Dependências:
A rede de Elman pode enfrentar desafios em capturar eficientemente
mudanças dinâmicas nas dependências temporais, especialmente quando a
relação entre os elementos sequenciais é complexa e variável.
● Aprendizado Adaptativo:
Apesar dos desafios, as redes recorrentes, incluindo a de Elman, têm a
capacidade de aprendizado adaptativo, ajustando seus parâmetros para
lidar melhor com diferentes padrões temporais.
● Processamento Eficiente:
A eficiência no processamento de sequências é uma vantagem da Rede
Recorrente de Elman, permitindo o treinamento e a previsão em dados
sequenciais de maneira computacionalmente eficiente.
Fundamentos da Rede Recorrente de Elman
● Arquitetura em Camadas:
A ERNN é organizada em camadas, seguindo a estrutura típica de redes
neurais. Ela geralmente consiste em uma camada de entrada, uma ou
mais camadas ocultas e uma camada de saída.
● Unidades Recorrentes:
Um componente-chave da ERNN são as unidades recorrentes, que
incorporam a capacidade de manter e atualizar estados ocultos ao
longo do tempo. Essas unidades são responsáveis por armazenar
informações sobre o contexto anterior das sequências.
● Atualização dos Estados Ocultos ao Longo do Tempo:
A capacidade de atualizar os estados ocultos ao longo do tempo é
fundamental para a ERNN. Isso permite que a rede mantenha uma
memória de curto prazo, facilitando a consideração de informações
passadas durante o processamento de elementos sequenciais.
Atualização dos Estados Ocultos ao Longo do Tempo
Treinamento da Rede
O treinamento da Rede Recorrente de Elman (ERNN) segue os princípios padrão de
treinamento de redes neurais recorrentes, utilizando a técnica conhecida como
retropropagação do erro através do tempo (BPTT). Os passos principais desse
processo incluem:
1. Inicialização dos Pesos e Bias:
- Inicialização aleatória dos pesos e do bias para preparar a rede para o
treinamento.
2. Propagação Forward:
- Passagem direta dos dados pela rede ao longo da sequência temporal,
calculando a saída da rede com base nos parâmetros iniciais.
3. Cálculo do Erro:
- Comparação da saída predita com a saída desejada para calcular a perda ou
erro, medindo o quão bem a rede está performando na tarefa.
4. Retropropagação do Erro (BPTT):
- Retropropagação do gradiente da perda através do tempo, considerando todas
as etapas da sequência. Esse passo é essencial para atribuir contribuições de erro
a cada instante de tempo.
5. Atualização de Pesos:
- Ajuste dos pesos e do bias com base nos gradientes calculados durante a
retropropagação. Essa atualização visa minimizar a perda e melhorar o
desempenho da rede.
6. Iteração:
- Repetição dos passos de 2 a 5 por várias épocas, permitindo que a rede ajuste
gradualmente seus parâmetros para otimizar o desempenho na tarefa desejada.
O processo de treinamento visa iterativamente melhorar a capacidade da ERNN de
capturar padrões temporais e aprender representações significativas das
sequências de entrada.
Comparação com outros modelos
ERNN vs. LSTM (Long Short-Term Memory):
● Memória de Curto e Longo Prazo:
● ERNN:
- Projetada para capturar dependências temporais de curto prazo.
- Estrutura mais simples.
● LSTM:
- Especificamente projetada para lidar com dependências temporais de
longo prazo.
- Utiliza células de memória para manter informações relevantes.
● Complexidade:
● ERNN:
- Menos complexa, com uma camada de contexto.
● LSTM:
- Mais complexa, com uma arquitetura elaborada, incluindo unidades de
células de memória e portões de entrada, esquecimento e saída.
● Desempenho em Dependências Temporais de Longo Prazo:
● ERNN:
- Pode ter dificuldades em capturar relações temporais extensas.
● LSTM:
- Destaca-se em preservar e aprender dependências temporais de longo
prazo.
ERNN (Rede Recorrente de Elman) vs. GRU (Gated Recurrent Unit):
● Modelagem de Dependências Temporais:
● ERNN:
- Projetada para capturar dependências temporais de curto prazo.
- Menos eficiente em lidar com dependências de longo prazo.
● GRU:
- Equilíbrio entre eficiência e capacidade de lidar com dependências
temporais de longo prazo.
● Arquitetura:
● ERNN:
- Menos complexa, com uma camada de contexto.
● GRU:
- Menos complexa em comparação com a LSTM, com uma arquitetura
simplificada.
● Portões de Atualização e Reset (no caso da GRU):
● ERNN:
- Não possui explicitamente portões de controle de informação.
● GRU:
- Utiliza portões de atualização e reset para regular o fluxo de informações,
mantendo a simplicidade em relação à LSTM.
Desempenho em Dependências Temporais de Longo Prazo:
● ERNN:
- Pode ter dificuldades em lidar eficientemente com dependências temporais
extensas.
● GRU:
- Oferece um equilíbrio entre complexidade e desempenho, sendo capaz de
capturar dependências temporais de médio e longo prazo.
● Número de Parâmetros:
● ERNN:
- Geralmente requer menos parâmetros do que a GRU.
● GRU:
- Possui menos parâmetros em comparação com a LSTM, resultando em
treinamento mais rápido e eficiente.
● Aplicações:
● ERNN:
- Pode ser mais adequada para tarefas simples que envolvem dependências
temporais de curto prazo.
● GRU:
- Equilibrada para tarefas intermediárias, eficiente em termos de parâmetros e
treinamento, adequada para dependências temporais de médio e longo prazo.
Em resumo, enquanto a ERNN é mais simples e eficiente para dependências
temporais de curto prazo, a GRU oferece um equilíbrio entre simplicidade e
capacidade de capturar dependências temporais mais extensas, tornando-a uma
escolha intermediária eficaz em muitas aplicações. A escolha entre elas depende
das características específicas da tarefa e dos requisitos de desempenho.