Prévia do material em texto
Fundação Universidade Federal de Rondônia
Departamento Acadêmico de Ciência da Computação
Lista 1 - Inteligência Artificial
Giullia de Souza Santos
Exercícios - RNA - Capítulo 1 a 4 livro prof. Ivan Nunes
Capítulo 1: Páginas 43-44
1) Explique o funcionamento do neurônio artificial.
R: O neurônio artificial é inspirado de forma simplificada no funcionamento de um
neurônio biológico. Ele recebe diversos sinais de entrada, cada um multiplicado por
um peso que indica sua relevância. Em seguida, calcula-se a soma ponderada
dessas entradas, da qual se subtrai um valor de limiar. Por fim, o resultado passa
por uma função de ativação, que gera a saída final do neurônio.
Para esse processo, são necessários esses 7 elementos:
1. Sinais de Entrada: O neurônio recebe um conjunto de valores de entrada ( , 𝑋
1
, ,…, ), que representam as variáveis do problema ou dados 𝑋
2
𝑋
3
𝑋
𝑛
externos.
2. Ponderação das Entradas: Cada valor de entrada ( ) é multiplicado pelo seu 𝑋
𝑛
respectivo peso sináptico ( ). Os pesos são valores que quantificam a 𝑊
𝑛
importância de cada entrada para o neurônio.
3. Combinador linear ( ): Sua função é agregar os sinais de entrada Σ
ponderados para produzir o potencial de ativação.
4. Limiar de ativação (θ): É uma variável que especifica o patamar para gerar o
valor de disparo.
5. Potencial de ativação (u): É o resultado da diferença entre o combinador
linear e o limiar de ativação.
6. Função de ativação (g): Seu objetivo é limitar a saída do neurônio dentro de
um intervalo de valores razoáveis.
7. Sinal de saída (y): É o valor final produzido pelo neurônio.
2) Descreva os objetivos principais das funções de ativação.
R: Em suma, o principal objetivo é controlar a saída do neurônio, além de permitir
que a rede aprenda padrões complexos, introduzindo não linearidade e
possibilitando a representação de relações entre variáveis que não sejam apenas
lineares.
3) Faça uma analogia entre os elementos constituintes do neurônio artificial e
do neurônio biológico.
R: Os neurônios artificiais são modelos computacionais inspirados no
funcionamento dos neurônios biológicos, que compõem o cérebro humano. Assim
como os neurônios reais recebem, processam e transmitem informações por meio
de dendritos, corpo celular e axônio, os neurônios artificiais reproduzem esse
processo de forma simplificada em redes neurais. Eles recebem sinais de entrada,
que são ponderados por valores chamados pesos sinápticos, realizam um cálculo
matemático no corpo do neurônio artificial que corresponde à soma e à função de
ativação e, a partir de um limiar de ativação, produzem um sinal de saída. Esse sinal
pode ser transmitido para outros neurônios da rede, permitindo a propagação da
informação. Nesse modelo, os dendritos e axônios são abstraídos e representados
pelas sinapses, enquanto a intensidade da ligação entre os neurônios é expressa
pelo peso sináptico, simbolizado pela letra w.
4) Discorra sobre a importância envolvendo o limiar de ativação.
R: O limiar de ativação é fundamental porque define o ponto a partir do qual o
resultado obtido pelo combinador linear será suficiente para gerar um disparo na
saída do neurônio. Em outras palavras, ele funciona como um critério de decisão,
determinando se o neurônio artificial permanecerá inativo ou se transmitirá um sinal
adiante na rede.
5) Em relação às características das redes neurais artificiais, explique em que
consiste a adaptação por experiência e a capacidade de generalização.
● Adaptação por experiência: Consiste no processo em que a rede neural
ajusta seus pesos sinápticos a cada exemplo apresentado. Inicialmente, os
pesos são aleatórios e sempre que a rede erra uma previsão, um algoritmo
de treinamento calcula o erro e corrige os pesos. Esse ciclo se repete várias
vezes, permitindo que a rede aprenda com a prática e melhore seu
desempenho gradualmente.
● Capacidade de generalização: É a habilidade da rede de aplicar o
conhecimento aprendido a situações novas, que não estavam presentes nos
dados de treinamento, após passar pelo processo de adaptação por
experiência, a rede não apenas memoriza os exemplos, mas consegue
aplicar o conhecimento adquirido para estimar ou resolver casos novos, indo
além dos dados de treinamento.
6) Discorra sobre as principais características matemáticas que são
verificadas nas funções de ativação logística e tangente hiperbólica.
R: Ambas as funções pertencem a família denominadas de sigmoidais, apresentam
flexão e são estritamente crescentes, no qual o parâmetro controla a inclinação da β
curva, de modo que quanto maior o , mais próxima a função se aproxima do eixo y. β
● Funções de ativação logística: Produz saídas entre 0 e 1 e quando tende β
ao infinito, aproxima-se da função degrau.
● Funções de ativação logística: Produz saídas entre -1 e 1 e quando tende β
ao infinito, a função aproxima-se da função degrau bipolar.
7) Obtenha as expressões analíticas das derivadas de primeira ordem da
função de ativação logística e tangente hiperbólica.
Ativação logística: . 𝑔’(𝑢) = β𝑔(𝑢) · [1 − 𝑔(𝑢)]
Tangente hiperbólica: . 𝑔’(𝑢) = β[1 − 𝑔(𝑢)²]
8) Para um problema específico, há a possibilidade de utilizar como fundo de
ativação tanto a função logística como a tangente hiperbólica. Em termos de
implementação em hardware, discorra quais seriam os eventuais aspectos
relevantes para a seleção de uma destas.
R: Em hardware, a escolha é um trade-off entre o custo local e o benefício global:
● A função logística é marginalmente mais barata de se implementar, pois seu
circuito é um pouco mais simples.
● A tangente hiperbólica é quase sempre a melhor escolha. Sua saída centrada
em zero ([-1, 1]) permite uma representação numérica com menos bits
(quantização) em toda a rede, gerando uma economia de recursos e energia
no sistema que supera em muito seu pequeno custo adicional.
9) Considerando que as operações individuais nos neurônios artificiais são
realizadas mais rapidamente em comparação com os neurônios biológicos,
explique por que diversas atividades executadas pelo cérebro humano
produzem resultados mais rapidamente que um microcomputador.
R: Mesmo que os neurônios artificiais sejam mais rápidos individualmente, o cérebro
humano alcança maior rapidez em muitas tarefas por operar com paralelismo
massivo, ou seja o cérebro humano consegue ativar e processar informações em
milhões de neurônios ao mesmo tempo, de forma altamente distribuída. Em
contraste, os computadores podem executar as operações de modo sequencial ou
com paralelismo restrito a poucos núcleos, o que limita a simultaneidade das
tarefas.
10) Quais os principais tipos de problemas em que as redes neurais artificiais
são aplicadas.
R: Problemas de classificação, para atribuir rótulos a dados (ex.: reconhecimento de
faces, diagnóstico médico), problemas de regressão para prever valores contínuos
(ex.: preço de ações, previsão de temperatura); controle e otimização, para tomada
de decisões em sistemas dinâmicos; agrupamento (clusterização), para organizar
dados em grupos sem rótulos prévios (ex: segmentação de clientes); e geração de
dados a partir de uma base de treinamento, etc.
Capítulo 2: Páginas 54-55
1) Discorra sobre as vantagens e desvantagens envolvidas na aprendizagem
usando lote de padrão e aprendizagem usando padrão-por-padrão.
● Aprendizagem em lote (off-line): Processa todo o conjunto de dados de
uma vez para realizar uma única atualização de pesos, resultando em uma
convergência estável e precisa, porém com alto custo de memória e lentidão
a cada passo.
● Aprendizagem padrão-por-padrão (on-line): Atualiza os pesos após cada
amostra individual, sendo um método leve em memória e rápido para se
adaptar, mas que gera uma convergência muito instável e ruidosa.
2) Considereuma aplicação que possui quatro entradas e duas saídas. O
projetista menciona que neste caso a rede feedforward de camadas múltiplas
a ser implementada deve conter necessariamente quatro neurônios na
primeira camada escondida. Discorra se tal informação é pertinente.
R: A afirmação não é pertinente. O número de neurônios em uma camada oculta
não é ditado pelo número de entradas, mas sim ajustado experimentalmente,
considerando a complexidade do problema, a performance da rede e a capacidade
de generalização desejada para evitar overfitting ou underfitting.
3) Em relação ao exercício anterior, cite alguns fatores que influenciam na
determinação do número de camadas escondidas de uma rede feedforward de
camadas múltiplas.
R: Depende da complexidade do problema, da quantidade de entradas e saídas, da
necessidade de generalização da rede e dos recursos computacionais disponíveis.
Redes muito grandes podem se ajustar aos dados, enquanto redes pequenas
podem não aprender padrões importantes.
4) Quais as eventuais diferenças estruturais observadas nas redes com
arquitetura recorrente em relação aquelas com arquitetura feedforward.
● Recorrentes: têm conexões de realimentação, ou seja, saídas anteriores
podem influenciar entradas futuras. São boas para dados sequenciais.
● Feedforward: a informação segue apenas da entrada para a saída, sem
feedback. São usadas em problemas estáticos, como classificação ou
regressão.
5) Mencione em que tipos de aplicações é essencial a utilização de redes
neurais recorrentes.
R: São indicadas para problemas que envolvem sequências ou dependência
temporal, como previsão de séries temporais, reconhecimento de fala, tradução
automática, otimização e controle de sistemas dinâmicos.
6) Elabore um diagrama de blocos que ilustra o funcionamento do treinamento
supervisionado.
7) Discorra sobre o conceito de método de treinamento e algoritmo de
aprendizado, explicitando-se ainda o conceito de época de treinamento.
R: O treinamento consiste em ajustar os pesos e limiares dos neurônios para que a
rede consiga gerar respostas que representem corretamente o sistema que está
sendo modelado. O algoritmo de aprendizado é o conjunto de passos ordenados
usados durante o treinamento para extrair padrões e características dos dados de
entrada. Uma época de treinamento corresponde a uma passagem completa de
todas as amostras de treinamento pela rede.
8) Quais as principais diferenças existentes entre os métodos baseados em
treinamento supervisionado e não-supervisionado.
R: No supervisionado, cada entrada possui uma saída desejada, e a rede aprende a
mapear entradas para saídas corretas. Já no não-supervisionado não há saídas
pré-definidas; a rede organiza os dados em grupos ou classes com base em
semelhanças.
9) Quais as principais diferenças existentes entre os métodos baseados em
treinamento supervisionado e treinamento com reforço.
R: No treinamento com reforço, a rede recebe recompensas ou punições com base
nas ações tomadas, ajustando os pesos para melhorar o desempenho ao longo do
tempo. Já no supervisionado, há uma saída esperada para cada entrada, usada
para ajustar a rede.
10) Considerando uma aplicação específica, explicite então como poderia ser
um critério de desempenho utilizado para o ajuste dos pesos e limiares da
rede que empregara método de treinamento com reforço.
R: O critério envolve implementar um sistema de recompensas e punições que
pontue as ações da rede. O ajuste dos pesos e limiares é feito de forma a maximizar
as recompensas e minimizar as punições, orientando a rede a aprender a política
ideal para a aplicação.
Capítulo 3: Página 69
1) Explique como se processa a regra de Hebb no contexto do algoritmo de
aprendizado do Perceptron.
R: A regra de Hebb no contexto do Perceptron funciona como um mecanismo de
correção de erro, de modo que os pesos são alterados apenas quando a rede
comete um erro de classificação. Este processo é repetido sequencialmente para
todas as amostras até que a rede consiga classificar corretamente todas elas,
momento em que o treinamento é concluído.
O mecanismo de correção de erro pode ser descrito pela expressão abaixo:
2) Mostre por intermédio de gráficos ilustrativos como pode ocorrer a
instabilidade no processo de convergência do Perceptron quando da
utilização de valores inapropriados para a taxa de aprendizado.
R: A taxa de aprendizado controla o tamanho do ajuste realizado pelo Perceptron η
a cada época de treinamento. Quando é muito pequeno, a reta de separação se η
move de forma lenta, fazendo com que a convergência demore. Quando assume η
valores moderados (0o ajuste realizado para corrigir o único erro move a
fronteira de decisão da rede. A rede deve então percorrer todas as amostras
novamente para garantir que a nova fronteira seja válida para o conjunto inteiro e
não tenha criado novos erros.
9) Considere um problema de classificação de padrões composto de duas
entradas {x, e x,}, cujo conjunto de treinamento é composto pelas seguintes
amostras de treinamento:
𝑋
1
𝑋
2
Classe
0,75 0,75 B
0,75 0,25 A
0,25 0,75 A
0,25 0,25 B
Mostre se é possível aplicar o Perceptron na resolução deste problema.
R: Não, pois os dados não são linearmente separavéis.
10) Explique de forma detalhada quais seriam as eventuais limitações do
Perceptron se considerarmos o seu limiar de ativação nulo.
R: Com um limiar de ativação nulo (θ = 0), sua fronteira de decisão, a reta ou
hiperplano, seria forçada a passar somente pela origem [0,0] do espaço de entrada.
Capítulo 4: Páginas 86-87
1) Considerando-se que um problema a ser mapeado pelo Adaline não seja
linearmente separável, explique então se para esta situação o processo de
treinamento (por meio do algoritmo regra Delta) também convergira.
R: Sim, converge, o Adaline utiliza a regra Delta para ajustar os pesos de forma a
minimizar o erro quadrático médio. Mesmo que o problema não seja linearmente
separável, o algoritmo irá convergir para um conjunto de pesos que produz o menor
erro possível, embora esse erro possa não ser zero.
2) Explique por que o treinamento do Adaline se processa normalmente de
forma mais rápida que aquele do Perceptron. Considere que ambas as redes
foram aplicadas no mesmo tipo de problema, tendo-se ainda seus vetores de
pesos iniciados com valores iguais.
R: Isso porque o perceptron calcula o erro com base na saída final da rede (y),
assim o erro (d - y) é um valor discreto no qual não se pode definir a magnitude
desse erro. Já o Adaline calcula o erro com base na saída linear de (u), antes da
função de ativação. Isso fornece um gradiente contínuo que permite ao algoritmo
ajustar os pesos de forma mais eficiente.
3) Para o exercício anterior, discorre sobre uma eventual estratégia que se
poderia utilizar, fazendo-se uso do Adaline já treinado, para verificar se as
classes do problema mapeado são linearmente separáveis.
R: É possível analisar se as classes são linearmente separáveis observando o erro
final e os valores da saída linear u. Se o erro quadrático médio for muito baixo
(próximo de zero) e todas as amostras de uma classe tiverem saída u de forma
consistente acima ou abaixo do limiar, então as classes são provavelmente
linearmente separáveis. Caso contrário, se houver sobreposição significativa nas
saídas u das diferentes classes, o problema não é linearmente separável.
4) Explique as principais diferenças existentes entre o Perceptron e o Adaline.
● O Perceptron calcula o erro com base na saída discreta (y), enquanto o
Adaline calcula o erro com base na saída linear (u) antes da ativação.
● O Adaline usa gradiente contínuo (regra Delta), permitindo ajustes mais
precisos; o Perceptron usa ajustes mais “brutos”, apenas se a saída estiver
incorreta.
● O Adaline tende a convergir mais rápido e com garantia de mínimo do erro
quadrático médio; o Perceptron só converge se as classes forem linearmente
separáveis.
5) Considerando-se a aplicação de redes neurais artificiais em um processo de
classificação de padrões que necessite de treinamento on-line, explique que
tipo de rede (Perceptron ou Adaline) seria a mais apropriada para tal condição.
R: o Adaline é mais apropriado, porque seu ajuste de pesos baseado no erro
contínuo proporciona convergência mais estável a cada amostra recebida.
6) Baseando-se no processo de treinamento utilizando a regra Delta, explique
as eventuais instabilidades que se podem verificar quando da adoção de
valores elevados para a taxa de aprendizado. Explique também se há
eventuais inconvenientes quando se assumem valores extremamente
pequenos para a taxa de aprendizagem.
R: Alta: causa instabilidade, pois os ajustes de pesos “pulam” sobre o mínimo,
gerando oscilações.
Baixa: torna a convergência muito lenta, exigindo muitas épocas e tornando o
treinamento ineficiente.
7) Considerando-se os procedimentos de derivação do processo de
aprendizagem do Adaline, explique se seria possível utilizar na expressão (4.5)
a saída do neurônio {y} ao invés do valor do combinador linear {u}.
R: Não se pode usar a saída final {y} porque ela é discreta e não diferenciável. O
Adaline precisa de {u} (saída linear) para que a função de erro seja contínua e
diferenciável, permitindo o gradiente descendente e o ajuste correto dos pesos.
8) Discorra se a afirmação seguinte é verdadeira ou falsa. Independentemente
dos valores iniciais assumidos para o vetor de pesos do Adaline, uma mesma
configuração final para w* será sempre obtida após a sua convergência.
R: A afirmação é verdadeira. Independentemente dos pesos iniciais, o Adaline
sempre converge para o mesmo conjunto de pesos finais que minimiza o erro
quadrático médio, pois a função de erro é convexa e possui um único mínimo global.
9) Explique, considerando a questão anterior, se o número de épocas de
treinamento será também igual, independentemente do seu vetor de pesos
iniciais.
R: O número de épocas não será necessariamente igual para diferentes vetores de
pesos iniciais. Ele depende da taxa de aprendizagem e da disposição das amostras,
que influenciam a velocidade com que o algoritmo se aproxima do mínimo global.
10) Em relação ao critério de parada para o processo de convergência do
Adaline, fornecido em (4.17), discorra se há realmente a necessidade de
aplicação do módulo operador sobre a diferença do erro quadrático médio
entre duas épocas sucessivas.
R: É necessária, pois permite avaliar a magnitude da variação do erro, indicando
quando o treinamento atingiu estabilidade e deve ser interrompido.
REFERÊNCIAS:
Capítulo 4 - O Neurônio, Biológico e Matemático. Disponível em:
.
Redes neurais artificiais: para engenharia e ciências aplicadas / Ivan Nunes da
Silva; Danilo Hernane Spatti; Rogério Andrade Flauzino. Sao Paulo: Artliber, 2010.
https://www.deeplearningbook.com.br/o-neuronio-biologico-e-matematico/