Revisão Redes Neurais

•

UFRJ

Vinícius Mello

10.01.2017

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Redes Neurais I

282 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Reconhecimento de padrões é a utilização de um método para classificar ou descrever padrões através de um conjunto de características
Classes são categorias as quais os objetos pertencem, formando um conjunto de dados. 
A Generalização pode ser classificada como um conjunto de características comuns a uma classe.
Vetores de características são vetores que contem dados que definem uma característica sem perda.
Fronteira de decisão de classes é uma função utilizada para discernir as classes.
Treinamento é o ajuste dos pesos de entrada de dados.
Conjunto de treinamento é o conjunto de dados previamente classificado para treinamento.
Classificação é a reunião de dados de características semelhantes
Tarefa de regressão é uma função definida em termos de média de uma quantidade aleatória de dados
Aproximação de funções é a tentativa de se chegar a uma função complexa utilizando funções que consomem menos recursos.
Pré-processamento é a otimização das funções
Pós-processamento é a conversão da saída no tipo de dados desejado
Extração de características e a transformação de várias características em uma única
Conhecimento a priori é o conhecimento de uma informação previamente no sistema
Maldição da dimensionalidade é o aumento exponencial da complexidade de um problema devido ao aumento da sua dimensionalidade. (poucos dados)
Valor alvo é o valor fixo que é capaz de melhor mapear a menor dimensão de espaço de dados próxima a esse valor, compensando a perda de informações.
Soma de erros quadráticos é uma estimativa de parâmetros em regressão linear
Modelos lineares são funções lineares que dependem de uma adaptação linear de parâmetros
Aprendizado supervisionado é um agente externo que indica o erro conforme o padrão de entrada
Aprendizado não supervisionado é quando é utilizado exemplos de coisas semelhantes para que a rede responda de maneira semelhante
Aprendizado por reforço é uma técnica utilizada onde o agente atua em local desconhecido por meio de tentativa e erro, aprendizado é demorado.
Grau de liberdade é a diferença entre o numero de variáveis e o numero de equações, independente do modelo.
Sub-ajuste (under-fit) é quando a rede tem poucos neurônios na camada escondida e não pode realizar o mapeamento desejado
Sobre-ajuste (over-fit) é quando se tem uma grande quantidade de neurônios na camada escondida e a rede fica sujeita a presença de ruídos. 
Erro médio quadrático é a diferença entre a estimativa e o valor real elevado ao quadrado.
Polarização (bias) é um neurônio especial que serve para aumentar o grau de liberdade permitindo uma melhor adaptação por parte da rede neural
Variância indica o quão longe em geral os seus valores se encontram do valor esperado.
Termo de regularização é o termo que penaliza os pesos com valores reduzidos (penalização ponderada)
 Teorema de Bayes mostra a relação entre uma probabilidade condicional e a sua inversa, calcula por Pr (A|B) = (Pr (B|A).Pr(A))/Pr(B)
Função densidade de probabilidade é utilizada para representar a distribuição de probabilidade caso a variável aleatória seja continua.
Valor esperado e a soma das probabilidades de saída da experiência multiplicada pelo seus valores. (se todos os eventos tiverem igual probabilidade o valor esperado é a média aritmética)
Maior probabilidade de erro de classificação ocorre na fronteira de decisão de classes.
Conjunto de dados linearmente separáveis são aqueles que podem ser satisfeitos utilizando uma reta para obter uma perfeita classificação.
A taxa de aprendizado é o responsável pelo controle total da intensidade das alterações nos pesos.
O erro do perceptron é calculado através do valor desejado menos o valor da saída atual (obtido)
O erro igual a zero se dá, pois o perceptron foi capaz de classificar corretamente os dados.
Função de ativação do perceptron é a função degrau.
Teorema de convergência do perceptron é quando os padrões empregados para treinar o perceptron são extraídos de duas classes linearmente separáveis podendo então convergir e posicionar uma superfície de decisão para separar as classes
O treinamento não converge quando as amostras não são linearmente separáveis
Um método para minimizar a maldição da dimensionalidade é o RDD (redução da dimensionalidade de dados) é uma diminuição no espaço de busca de hipóteses, melhorando o desempenho.
Uma MLP é uma rede neural formada por perceptrons com várias camadas
Camada escondida é a camada onde ocorre a maior parte do processamento, através das conexões ponderadas. 
As redes feed-fowards é uma rede que não possui alimentação no sentido saída-entrada, somente no sentido entrada-saida. (grafos não tem ciclos)
Região de dados convexas é uma região de dados onde a reta que liga dois desses dados passa apenas por pontos que se encontram dentro dessa região
Região de dados não convexas possui pontos cujas retas de ligação não passam por pontos que estão dentro dessa região
Desvantagem função sigmoidal é que a faixa de possibilidade de respostas fica limitada à faixa atingível da função sigmoidal
O neurônio com função sigmoidal se aproxima do neurônio de função de ativação limiar(função degrau) quando aplica-se uma transformação linear para a entrada e uma funçao linear para a saída
São necessárias apenas duas camadas ocultas para que ela tenha capacidade de aproximar qualquer função.
Redes neurais de ordem mais alta são redes que fazem o processamento de unidades de ordem alta com muitas variáveis de entrada.
A dificuldade de se utilizar redes de ordem alta é que elas possuem um numero maior de parâmetros de peso para serem ajustados
O teorema de Kolmogorov diz que uma MLP com três camadas é possível representar qualquer função utilziando-se 2n+1 neuronios na camada oculta.
Associação de crédito no contexto MLP é um problema que se tem quando algumas camadas são consideradas camadas únicas e os valores de saída não podem ser associado
Backpropagation ocorre em duas etapas, a primeira fazendo a propagação do sinal sináptico, e a segunda etapa que é a retropropagação.
Fase foward é quando a entrada é propagada para as próximas camadas até a camada de saída, onde é obtida a resposta da rede e o erro é calculado.
No treinamento online os pesos são atualizados após a apresentação de cada exemplo de treinamento, dinâmica de treinamento nesse caso é estável se a taxa de aprendizado for pequena.
No treinamento por ciclo (batch) os pesos são atualizados após todos os exemplos terem sido apresentados. Essa técnica é mais estável, mas pode ser lenta se o conjunto de treinamento for grande.
A matriz Jacobiana promove uma medida da sensibilidade local das saídas com relação a cada mudança nas entradas.
A matriz Hessiana é composta pela segunda derivada do erro
A aproximação de Levenberg é obtida a partir da aproximação do produto externo, dada por sua avaliação direta, uma vez que apenas envolve as primeiras derivadas da função de erro.