Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Fundação Universidade Federal de Rondônia 
Departamento Acadêmico de Ciência da Computação 
Lista 1 - Inteligência Artificial 
Giullia de Souza Santos 
 
Exercícios - RNA - Capítulo 1 a 4 livro prof. Ivan Nunes 
 
Capítulo 1: Páginas 43-44 
 
1) Explique o funcionamento do neurônio artificial. 
R: O neurônio artificial é inspirado de forma simplificada no funcionamento de um 
neurônio biológico. Ele recebe diversos sinais de entrada, cada um multiplicado por 
um peso que indica sua relevância. Em seguida, calcula-se a soma ponderada 
dessas entradas, da qual se subtrai um valor de limiar. Por fim, o resultado passa 
por uma função de ativação, que gera a saída final do neurônio. 
Para esse processo, são necessários esses 7 elementos: 
1. Sinais de Entrada: O neurônio recebe um conjunto de valores de entrada ( , 𝑋
1
 
, ,…, ), que representam as variáveis do problema ou dados 𝑋
2
 𝑋
3
 𝑋
𝑛
 
externos. 
2. Ponderação das Entradas: Cada valor de entrada ( ) é multiplicado pelo seu 𝑋
𝑛
respectivo peso sináptico ( ). Os pesos são valores que quantificam a 𝑊
𝑛
 
importância de cada entrada para o neurônio. 
3. Combinador linear ( ): Sua função é agregar os sinais de entrada Σ
ponderados para produzir o potencial de ativação. 
4. Limiar de ativação (θ): É uma variável que especifica o patamar para gerar o 
valor de disparo. 
5. Potencial de ativação (u): É o resultado da diferença entre o combinador 
linear e o limiar de ativação. 
6. Função de ativação (g): Seu objetivo é limitar a saída do neurônio dentro de 
um intervalo de valores razoáveis. 
7. Sinal de saída (y): É o valor final produzido pelo neurônio. 
 
 
 
2) Descreva os objetivos principais das funções de ativação. 
R: Em suma, o principal objetivo é controlar a saída do neurônio, além de permitir 
que a rede aprenda padrões complexos, introduzindo não linearidade e 
possibilitando a representação de relações entre variáveis que não sejam apenas 
lineares. 
 
3) Faça uma analogia entre os elementos constituintes do neurônio artificial e 
do neurônio biológico. 
R: Os neurônios artificiais são modelos computacionais inspirados no 
funcionamento dos neurônios biológicos, que compõem o cérebro humano. Assim 
como os neurônios reais recebem, processam e transmitem informações por meio 
de dendritos, corpo celular e axônio, os neurônios artificiais reproduzem esse 
processo de forma simplificada em redes neurais. Eles recebem sinais de entrada, 
que são ponderados por valores chamados pesos sinápticos, realizam um cálculo 
matemático no corpo do neurônio artificial que corresponde à soma e à função de 
ativação e, a partir de um limiar de ativação, produzem um sinal de saída. Esse sinal 
pode ser transmitido para outros neurônios da rede, permitindo a propagação da 
informação. Nesse modelo, os dendritos e axônios são abstraídos e representados 
pelas sinapses, enquanto a intensidade da ligação entre os neurônios é expressa 
pelo peso sináptico, simbolizado pela letra w. 
 
4) Discorra sobre a importância envolvendo o limiar de ativação. 
R: O limiar de ativação é fundamental porque define o ponto a partir do qual o 
resultado obtido pelo combinador linear será suficiente para gerar um disparo na 
saída do neurônio. Em outras palavras, ele funciona como um critério de decisão, 
determinando se o neurônio artificial permanecerá inativo ou se transmitirá um sinal 
adiante na rede. 
 
5) Em relação às características das redes neurais artificiais, explique em que 
consiste a adaptação por experiência e a capacidade de generalização. 
● Adaptação por experiência: Consiste no processo em que a rede neural 
ajusta seus pesos sinápticos a cada exemplo apresentado. Inicialmente, os 
pesos são aleatórios e sempre que a rede erra uma previsão, um algoritmo 
 
de treinamento calcula o erro e corrige os pesos. Esse ciclo se repete várias 
vezes, permitindo que a rede aprenda com a prática e melhore seu 
desempenho gradualmente. 
● Capacidade de generalização: É a habilidade da rede de aplicar o 
conhecimento aprendido a situações novas, que não estavam presentes nos 
dados de treinamento, após passar pelo processo de adaptação por 
experiência, a rede não apenas memoriza os exemplos, mas consegue 
aplicar o conhecimento adquirido para estimar ou resolver casos novos, indo 
além dos dados de treinamento. 
 
6) Discorra sobre as principais características matemáticas que são 
verificadas nas funções de ativação logística e tangente hiperbólica. 
R: Ambas as funções pertencem a família denominadas de sigmoidais, apresentam 
flexão e são estritamente crescentes, no qual o parâmetro controla a inclinação da β
curva, de modo que quanto maior o , mais próxima a função se aproxima do eixo y. β
● Funções de ativação logística: Produz saídas entre 0 e 1 e quando tende β
ao infinito, aproxima-se da função degrau. 
 
● Funções de ativação logística: Produz saídas entre -1 e 1 e quando tende β
ao infinito, a função aproxima-se da função degrau bipolar. 
 
 
7) Obtenha as expressões analíticas das derivadas de primeira ordem da 
função de ativação logística e tangente hiperbólica. 
Ativação logística: . 𝑔’(𝑢) = β𝑔(𝑢) · [1 − 𝑔(𝑢)]
Tangente hiperbólica: . 𝑔’(𝑢) = β[1 − 𝑔(𝑢)²]
 
8) Para um problema específico, há a possibilidade de utilizar como fundo de 
ativação tanto a função logística como a tangente hiperbólica. Em termos de 
 
implementação em hardware, discorra quais seriam os eventuais aspectos 
relevantes para a seleção de uma destas. 
R: Em hardware, a escolha é um trade-off entre o custo local e o benefício global: 
● A função logística é marginalmente mais barata de se implementar, pois seu 
circuito é um pouco mais simples. 
● A tangente hiperbólica é quase sempre a melhor escolha. Sua saída centrada 
em zero ([-1, 1]) permite uma representação numérica com menos bits 
(quantização) em toda a rede, gerando uma economia de recursos e energia 
no sistema que supera em muito seu pequeno custo adicional. 
 
9) Considerando que as operações individuais nos neurônios artificiais são 
realizadas mais rapidamente em comparação com os neurônios biológicos, 
explique por que diversas atividades executadas pelo cérebro humano 
produzem resultados mais rapidamente que um microcomputador. 
R: Mesmo que os neurônios artificiais sejam mais rápidos individualmente, o cérebro 
humano alcança maior rapidez em muitas tarefas por operar com paralelismo 
massivo, ou seja o cérebro humano consegue ativar e processar informações em 
milhões de neurônios ao mesmo tempo, de forma altamente distribuída. Em 
contraste, os computadores podem executar as operações de modo sequencial ou 
com paralelismo restrito a poucos núcleos, o que limita a simultaneidade das 
tarefas. 
 
10) Quais os principais tipos de problemas em que as redes neurais artificiais 
são aplicadas. 
R: Problemas de classificação, para atribuir rótulos a dados (ex.: reconhecimento de 
faces, diagnóstico médico), problemas de regressão para prever valores contínuos 
(ex.: preço de ações, previsão de temperatura); controle e otimização, para tomada 
de decisões em sistemas dinâmicos; agrupamento (clusterização), para organizar 
dados em grupos sem rótulos prévios (ex: segmentação de clientes); e geração de 
dados a partir de uma base de treinamento, etc. 
 
Capítulo 2: Páginas 54-55 
 
 
1) Discorra sobre as vantagens e desvantagens envolvidas na aprendizagem 
usando lote de padrão e aprendizagem usando padrão-por-padrão. 
● Aprendizagem em lote (off-line): Processa todo o conjunto de dados de 
uma vez para realizar uma única atualização de pesos, resultando em uma 
convergência estável e precisa, porém com alto custo de memória e lentidão 
a cada passo. 
● Aprendizagem padrão-por-padrão (on-line): Atualiza os pesos após cada 
amostra individual, sendo um método leve em memória e rápido para se 
adaptar, mas que gera uma convergência muito instável e ruidosa. 
 
2) Considereuma aplicação que possui quatro entradas e duas saídas. O 
projetista menciona que neste caso a rede feedforward de camadas múltiplas 
a ser implementada deve conter necessariamente quatro neurônios na 
primeira camada escondida. Discorra se tal informação é pertinente. 
R: A afirmação não é pertinente. O número de neurônios em uma camada oculta 
não é ditado pelo número de entradas, mas sim ajustado experimentalmente, 
considerando a complexidade do problema, a performance da rede e a capacidade 
de generalização desejada para evitar overfitting ou underfitting. 
 
3) Em relação ao exercício anterior, cite alguns fatores que influenciam na 
determinação do número de camadas escondidas de uma rede feedforward de 
camadas múltiplas. 
R: Depende da complexidade do problema, da quantidade de entradas e saídas, da 
necessidade de generalização da rede e dos recursos computacionais disponíveis. 
Redes muito grandes podem se ajustar aos dados, enquanto redes pequenas 
podem não aprender padrões importantes. 
 
4) Quais as eventuais diferenças estruturais observadas nas redes com 
arquitetura recorrente em relação aquelas com arquitetura feedforward. 
● Recorrentes: têm conexões de realimentação, ou seja, saídas anteriores 
podem influenciar entradas futuras. São boas para dados sequenciais. 
 
● Feedforward: a informação segue apenas da entrada para a saída, sem 
feedback. São usadas em problemas estáticos, como classificação ou 
regressão. 
 
5) Mencione em que tipos de aplicações é essencial a utilização de redes 
neurais recorrentes. 
R: São indicadas para problemas que envolvem sequências ou dependência 
temporal, como previsão de séries temporais, reconhecimento de fala, tradução 
automática, otimização e controle de sistemas dinâmicos. 
 
6) Elabore um diagrama de blocos que ilustra o funcionamento do treinamento 
supervisionado. 
 
 
7) Discorra sobre o conceito de método de treinamento e algoritmo de 
aprendizado, explicitando-se ainda o conceito de época de treinamento. 
R: O treinamento consiste em ajustar os pesos e limiares dos neurônios para que a 
rede consiga gerar respostas que representem corretamente o sistema que está 
sendo modelado. O algoritmo de aprendizado é o conjunto de passos ordenados 
 
usados durante o treinamento para extrair padrões e características dos dados de 
entrada. Uma época de treinamento corresponde a uma passagem completa de 
todas as amostras de treinamento pela rede. 
 
8) Quais as principais diferenças existentes entre os métodos baseados em 
treinamento supervisionado e não-supervisionado. 
R: No supervisionado, cada entrada possui uma saída desejada, e a rede aprende a 
mapear entradas para saídas corretas. Já no não-supervisionado não há saídas 
pré-definidas; a rede organiza os dados em grupos ou classes com base em 
semelhanças. 
 
9) Quais as principais diferenças existentes entre os métodos baseados em 
treinamento supervisionado e treinamento com reforço. 
R: No treinamento com reforço, a rede recebe recompensas ou punições com base 
nas ações tomadas, ajustando os pesos para melhorar o desempenho ao longo do 
tempo. Já no supervisionado, há uma saída esperada para cada entrada, usada 
para ajustar a rede. 
 
10) Considerando uma aplicação específica, explicite então como poderia ser 
um critério de desempenho utilizado para o ajuste dos pesos e limiares da 
rede que empregara método de treinamento com reforço. 
R: O critério envolve implementar um sistema de recompensas e punições que 
pontue as ações da rede. O ajuste dos pesos e limiares é feito de forma a maximizar 
as recompensas e minimizar as punições, orientando a rede a aprender a política 
ideal para a aplicação. 
 
Capítulo 3: Página 69 
 
1) Explique como se processa a regra de Hebb no contexto do algoritmo de 
aprendizado do Perceptron. 
R: A regra de Hebb no contexto do Perceptron funciona como um mecanismo de 
correção de erro, de modo que os pesos são alterados apenas quando a rede 
comete um erro de classificação. Este processo é repetido sequencialmente para 
 
todas as amostras até que a rede consiga classificar corretamente todas elas, 
momento em que o treinamento é concluído. 
O mecanismo de correção de erro pode ser descrito pela expressão abaixo: 
 
 
2) Mostre por intermédio de gráficos ilustrativos como pode ocorrer a 
instabilidade no processo de convergência do Perceptron quando da 
utilização de valores inapropriados para a taxa de aprendizado. 
R: A taxa de aprendizado controla o tamanho do ajuste realizado pelo Perceptron η
a cada época de treinamento. Quando é muito pequeno, a reta de separação se η
move de forma lenta, fazendo com que a convergência demore. Quando assume η
valores moderados (0o ajuste realizado para corrigir o único erro move a 
fronteira de decisão da rede. A rede deve então percorrer todas as amostras 
novamente para garantir que a nova fronteira seja válida para o conjunto inteiro e 
não tenha criado novos erros. 
9) Considere um problema de classificação de padrões composto de duas 
entradas {x, e x,}, cujo conjunto de treinamento é composto pelas seguintes 
amostras de treinamento: 
 
 𝑋
1
 𝑋
2
Classe 
0,75 0,75 B 
0,75 0,25 A 
0,25 0,75 A 
0,25 0,25 B 
 
Mostre se é possível aplicar o Perceptron na resolução deste problema. 
R: Não, pois os dados não são linearmente separavéis. 
 
 
10) Explique de forma detalhada quais seriam as eventuais limitações do 
Perceptron se considerarmos o seu limiar de ativação nulo. 
R: Com um limiar de ativação nulo (θ = 0), sua fronteira de decisão, a reta ou 
hiperplano, seria forçada a passar somente pela origem [0,0] do espaço de entrada. 
 
Capítulo 4: Páginas 86-87 
 
1) Considerando-se que um problema a ser mapeado pelo Adaline não seja 
linearmente separável, explique então se para esta situação o processo de 
treinamento (por meio do algoritmo regra Delta) também convergira. 
R: Sim, converge, o Adaline utiliza a regra Delta para ajustar os pesos de forma a 
minimizar o erro quadrático médio. Mesmo que o problema não seja linearmente 
separável, o algoritmo irá convergir para um conjunto de pesos que produz o menor 
erro possível, embora esse erro possa não ser zero. 
 
2) Explique por que o treinamento do Adaline se processa normalmente de 
forma mais rápida que aquele do Perceptron. Considere que ambas as redes 
foram aplicadas no mesmo tipo de problema, tendo-se ainda seus vetores de 
pesos iniciados com valores iguais. 
R: Isso porque o perceptron calcula o erro com base na saída final da rede (y), 
assim o erro (d - y) é um valor discreto no qual não se pode definir a magnitude 
desse erro. Já o Adaline calcula o erro com base na saída linear de (u), antes da 
função de ativação. Isso fornece um gradiente contínuo que permite ao algoritmo 
ajustar os pesos de forma mais eficiente. 
 
3) Para o exercício anterior, discorre sobre uma eventual estratégia que se 
poderia utilizar, fazendo-se uso do Adaline já treinado, para verificar se as 
classes do problema mapeado são linearmente separáveis. 
R: É possível analisar se as classes são linearmente separáveis observando o erro 
final e os valores da saída linear u. Se o erro quadrático médio for muito baixo 
(próximo de zero) e todas as amostras de uma classe tiverem saída u de forma 
consistente acima ou abaixo do limiar, então as classes são provavelmente 
linearmente separáveis. Caso contrário, se houver sobreposição significativa nas 
saídas u das diferentes classes, o problema não é linearmente separável. 
 
 
4) Explique as principais diferenças existentes entre o Perceptron e o Adaline. 
● O Perceptron calcula o erro com base na saída discreta (y), enquanto o 
Adaline calcula o erro com base na saída linear (u) antes da ativação. 
● O Adaline usa gradiente contínuo (regra Delta), permitindo ajustes mais 
precisos; o Perceptron usa ajustes mais “brutos”, apenas se a saída estiver 
incorreta. 
● O Adaline tende a convergir mais rápido e com garantia de mínimo do erro 
quadrático médio; o Perceptron só converge se as classes forem linearmente 
separáveis. 
 
5) Considerando-se a aplicação de redes neurais artificiais em um processo de 
classificação de padrões que necessite de treinamento on-line, explique que 
tipo de rede (Perceptron ou Adaline) seria a mais apropriada para tal condição. 
R: o Adaline é mais apropriado, porque seu ajuste de pesos baseado no erro 
contínuo proporciona convergência mais estável a cada amostra recebida. 
6) Baseando-se no processo de treinamento utilizando a regra Delta, explique 
as eventuais instabilidades que se podem verificar quando da adoção de 
valores elevados para a taxa de aprendizado. Explique também se há 
eventuais inconvenientes quando se assumem valores extremamente 
pequenos para a taxa de aprendizagem. 
R: Alta: causa instabilidade, pois os ajustes de pesos “pulam” sobre o mínimo, 
gerando oscilações. 
Baixa: torna a convergência muito lenta, exigindo muitas épocas e tornando o 
treinamento ineficiente. 
 
7) Considerando-se os procedimentos de derivação do processo de 
aprendizagem do Adaline, explique se seria possível utilizar na expressão (4.5) 
a saída do neurônio {y} ao invés do valor do combinador linear {u}. 
R: Não se pode usar a saída final {y} porque ela é discreta e não diferenciável. O 
Adaline precisa de {u} (saída linear) para que a função de erro seja contínua e 
diferenciável, permitindo o gradiente descendente e o ajuste correto dos pesos. 
 
 
8) Discorra se a afirmação seguinte é verdadeira ou falsa. Independentemente 
dos valores iniciais assumidos para o vetor de pesos do Adaline, uma mesma 
configuração final para w* será sempre obtida após a sua convergência. 
R: A afirmação é verdadeira. Independentemente dos pesos iniciais, o Adaline 
sempre converge para o mesmo conjunto de pesos finais que minimiza o erro 
quadrático médio, pois a função de erro é convexa e possui um único mínimo global. 
 
9) Explique, considerando a questão anterior, se o número de épocas de 
treinamento será também igual, independentemente do seu vetor de pesos 
iniciais. 
R: O número de épocas não será necessariamente igual para diferentes vetores de 
pesos iniciais. Ele depende da taxa de aprendizagem e da disposição das amostras, 
que influenciam a velocidade com que o algoritmo se aproxima do mínimo global. 
 
10) Em relação ao critério de parada para o processo de convergência do 
Adaline, fornecido em (4.17), discorra se há realmente a necessidade de 
aplicação do módulo operador sobre a diferença do erro quadrático médio 
entre duas épocas sucessivas. 
R: É necessária, pois permite avaliar a magnitude da variação do erro, indicando 
quando o treinamento atingiu estabilidade e deve ser interrompido. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
REFERÊNCIAS: 
 
Capítulo 4 - O Neurônio, Biológico e Matemático. Disponível em: 
. 
 
Redes neurais artificiais: para engenharia e ciências aplicadas / Ivan Nunes da 
Silva; Danilo Hernane Spatti; Rogério Andrade Flauzino. Sao Paulo: Artliber, 2010. 
 
 
https://www.deeplearningbook.com.br/o-neuronio-biologico-e-matematico/

Mais conteúdos dessa disciplina