Reinforcement Learning - apol 2

Machine Learning

•

UNINTER

Lucio Santos

16/05/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 23 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 23 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 23 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Questão 1/10 - Reinforcement Learning 
 “ Para que o agente seja capaz de agir inteligentemente em um ambiente desconhecido é 
necessário a obtenção da função de valor de estado. Como o valor de um estado é composto pela 
somatória das expectativas de retorno a partir deste estado, podemos imaginar amostrar as 
recompensas após este estado e tomar sua média como uma forma de estimar o valor do estado 
atual.” Aula 4, Tema 1 
Considerando o exposto acima e nossos estudos sobre o método de Monte Carlo, podemos 
afirmar: 
Nota: 0.0Você não pontuou essa questão 
 
A MC de visita única ou de primeira visita (First-Visit MC) estimará o valor do estado seguindo apenas os estados visitados após a 
primeira visita ao estado ‘s’ seguindo uma política p. 
Dois métodos de Monte Carlo (MC) são possíveis. First- Visit MC parte de uma única visita ao estado presente. 
 
B MC de visita múltipla (Every-Visit MC) leva em conta uma ínfima parte das sequências a partir das visitas possíveis a ‘s’, este 
método será dito guloso de primeira ordem. 
Você assinalou essa alternativa (B) 
 
C MC de vista múltipla (Myopic MC) estimará o valor do estado seguindo todos os estados visitados, próximos ao estado ‘s’ seguindo 
uma política p. 
 
D Dois métodos de Monte Carlo (MC) são possíveis: Aproximação de política mista por MC (Mystic - MC) e MC de vista múltipla 
(Myopic MC). 
 
E Todas as alternativas estão corretas. 
 
Questão 2/10 - Reinforcement Learning 
Considerando nossos estudos sobre o método de Monte Carlo aplicado à solução do MDP, leia as 
afirmações abaixo e escolha a única alternativa correta: 
i.Dois métodos de Monte Carlo (MC) são possíveis: MC de visita única ou de primeira visita (First-
Visit MC) e MC de visita múltipla (Every-Visit MC). 
 
ii. A otimização da função de valor pode ser feita por MC de duas formas genéricas conforme as 
buscas são ou não direcionadas por uma política do agente. Desta forma teremos métodos de 
controle que seguem a política (on-policy) e métodos que não a seguem (off-policy). 
iii. Os algoritmos de controle on-police são normalmente mais simples e de convergência rápida, 
em relação a seus irmãos off-police, por este motivo são sempre a primeira opção a considerar. 
Nota: 0.0Você não pontuou essa questão 
 
A Apenas I está correta 
 
B Apenas III está correta 
 
C Apenas I e II estão corretas 
Você assinalou essa alternativa (C) 
 
D Todas estão corretas 
Dois são os métodos de implementação de MC First-Visit MC e MC de visita múltipla (Every-Visit MC). Quando utilizamos MC para estimar a 
função de valor podemos seguir ou não uma determinada política, no primeiro caso tangenciaremos a política ótima, mas os algoritmos se 
tornam mais rápidos. 
 
E Nenhuma está correta. 
 
Questão 3/10 - Reinforcement Learning 
Observe o modelo elementar de neurônio artificial abaixo: 
 
Fonte: Haykin, 2011, pg.36. 
Considerando a figura acima e nossos estudos sobre RNA, podemos afirmar apenas que: 
Nota: 10.0 
 
A A árvore dendrítica é representada pelo vetor de entrada X ={x1 , x2 ,..., xm} 
 
B Cada elemento do vetor X tem um peso neural ‘w’ associado. Este peso simulará a proximidade entre neurônios, ou seja, a 
intensidade da sinapse, por este motivo recebem o nome de pesos sinápticos. 
 
C O combinador linear, ou somador, modela o processamento da árvore dendrítica. O resultado do somatório dos produtos de X e W é 
dito campo local induzido ou potencial de ativação, vk. 
 
D A função de ativação é uma equação matemática que modela a reação do núcleo celular à resultante dos estímulos recebidos pelo 
neurônio. 
 
E Todas as alternativas estão corretas. 
Você assinalou essa alternativa (E) 
Você acertou! 
Todas as afirmações estão corretas conforme Aula 5, tema 1.2. 
 
Questão 4/10 - Reinforcement Learning 
“ Para que o agente seja capaz de agir inteligentemente em um ambiente desconhecido é 
necessário a obtenção da função de valor de estado. Como o valor de um estado é composto pela 
somatória das expectativas de retorno a partir deste estado, podemos imaginar amostrar as 
recompensas após este estado e tomar sua média como uma forma de estimar o valor do estado 
atual.” Aula 4, Tema 1 
Considerando o exposto acima e nossos estudos sobre o método de Monte Carlo, podemos 
afirmar: 
Nota: 10.0 
 
A MC de vista múltipla (Myopic MC) estimará o valor do estado seguindo todos os estados visitados, próximos ao estado ‘s’ seguindo 
uma política p. 
 
B Dois algoritmos de Monte Carlo (MC) são possíveis para o tratamento de MDP. O primeiro que estimará o valor do estado seguindo 
apenas os estados visitados após a primeira visita ao estado ‘s’ seguindo uma política p, que denominaremos MC de visita única ou 
de primeira visita (First-Visit MC). Um segundo método que leva em conta todas as sequências a partir de todas as visitas 
possíveis a ‘s’, este método será dito MC de visita múltipla (Every-Visit MC). 
Você assinalou essa alternativa (B) 
Você acertou! 
Conforme Aula 4, tema 1.1 
 
C A otimização da função de valor pode ser feita por MC de duas formas genéricas conforme as buscas são ou não direcionadas por 
uma política do agente. Desta forma teremos métodos de controle que seguem a política ditps First-Visit MC e métodos que não a 
seguem conhecidos como Myopic MC. 
 
D A aplicação do método de Monte Carlo on-policy para a aproximação da política ótima utiliza a metodologia de busca cega dita 
Blind Search. 
 
Questão 5/10 - Reinforcement Learning 
“Redes neurais artificiais são uma boa aproximação para cálculos mais genéricos de algoritmos 
de aprendizagem por reforço. As primeiras tentativas neste sentido, entretanto, conservaram a 
‘maldição da dimensionalidade” proveniente das soluções simbólicas. A evolução das técnicas 
conexionistas profundas, que ocorreram concomitantemente às tentativas de aplicação de redes 
neurais em RL, finalmente suavizaram a maldição.” Aula 6 - Tema 1. 
Considerando o texto acima e nossos estudos de DRL podemos afirmar: 
Nota: 10.0 
 
A Redes neurais são treinadas com base em pequenas amostras o que torna os padrões estatisticamente instáveis. Os dados 
disponíveis em RL são por sua vez volumosos e estáveis, além disso, os modelos não apresentam grande sensibilidade a variações 
de Q. 
 
B A memória de uma rede neural permite a generalização da aprendizagem em ações futuras, quando carregamos a memória da rede 
com padrões, presume-se que se manterá a memória intacta durante a operação. Esta presunção é especialmente verdadeira para 
RL. 
 
C Neural Fitted Q Interaction (NFQ) é um algoritmo que busca reinplantar a memória do conhecimento futuro. A implementação, dita 
unusual memory algorithm, parte da ideia de descartar as transições de estado anteriores a cada update. 
 
D DQN utiliza o princípio proveniente do NFQ, que resolveu o problema de perda de memória, VGP, memorizando as transições de 
estado anteriores para reimplantanção. 
Você assinalou essa alternativa (D) 
Você acertou! 
Neural Fitted Q Interaction (NFQ) é um algoritmo que busca restaurar o conhecimento prévio sempre que uma atualização é realizada. No DQN 
este conceito é usado para a criação da Target Network. 
 
E Todas as afirmações anteriores estão corretas. 
 
Questão 6/10 - Reinforcement Learning 
Observe o modelo elementar de MLP abaixo: 
 
 
Fonte: Norvig, 2013, pg.637. 
Considerando a figura acima e supondo que as funções de ativação seguem o modelo proposto 
por McCulloch e Pits (degrau unitário ou Heaviside), com saída oscilando entre -1 e +1, podemos 
afirmar apenas que: 
Nota: 0.0Você não pontuou essa questão 
 
A Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro em y5 e y6. 
 
B Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro apenas em y5. 
O cálculo da saída : 
y5(X1)=f[w3,5 *f(x1*w1,3 + x2*w2,3) + w4,5 *f (x2*w2,4 +x1*w1,4)] = 
f[1 *f(1,5*1 + 2,5*1) + 1 *f (2,5*1 +1,5*1)]= +1 
como d5(X1)= -1 ocorreu ERRO 
e 
y6(X1)= f[w4,6 *f(x1*w1,4 + x2*w2,4) + w3,6 *f (x1*w1,3 + x2*w2,3)] = 
f[1 *f(1,5*1 + 2,5*1) + 1 *f (1,5*1 +2,5*1)]= +1 
como d6(X1)=1 não há erro 
 
C Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro apenas em y6. 
 
D Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela 
rede, não ocorrerá erro nem y5 tampouco em y6. 
Você assinalou essa alternativa (D) 
 
 
 
Questão 7/10 - Reinforcement Learning 
“Algoritmos de TD permitem uma aproximação mais genérica do problema de aprendizagem em 
ambientes mutáveis. Em TD a função de valor V(s) é calculada diretamente a partir do erro de 
previsões anteriores, livre de modelo, como em Monte Carlo, de forma completamente incremental 
mas sem a restrição do processo a primeira ordem da cadeia de Marcov. Aula 4 - tema 3 
Considerando o exposto acima e nossos estudos sobre diferença temporal, podemos afirmar: 
Nota: 10.0 
 
A TD busca a previsão da ação baseada na análise da cadeia de Markov de primeira ordem segundo a qual o futuro depende apenas 
do presente o que impede, em TD levarmos em conta predições temporais já feitas. 
 
B Em TD há duas formas diferentes de encarar um problema de predição, a predição de passo único e a de passo múltiplo. Estas 
transições se referem aos múltiplos passos, em robótica, que o autômato terá de aprender para configurar o aprendizado de 
movimentação a pé. 
 
C Em processos marcovianos de primeira ordem o uso de TD é impossível por impedir a convergência e tornar-se pouco eficiente em 
relação a outros métodos de aprendizagem. 
 
D TD busca a previsão da ação baseada na análise de erro das sucessivas predições temporais já feitas. O aprendizado ocorre toda 
vez que há uma mudança no tempo da predição 
Você assinalou essa alternativa (D) 
Você acertou! 
Diferença temporal é um algoritmo que leva em conta os erros anteriores para compor a previsão do estado futuro. 
 
E Todas estão corretas. 
 
Questão 8/10 - Reinforcement Learning 
Observe o modelo elementar de MLP abaixo: 
 
Fonte: Norvig, 2013, pg.637. 
 
Considerando a figura acima e supondo que as funções de ativação seguem o modelo proposto 
por McCulloch e Pits (degrau unitário ou Heaviside), podemos afirmar apenas que: 
Nota: 0.0Você não pontuou essa questão 
 
A Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro em y5 e y6. 
O cálculo da saída : 
y5(X1)= f[w3,5 *f(x1*w1,3 + x2*w2,3) + w4,5 *f (x2*w2,4 +x1*w1,4)] = 
f[1 *f(1,5*1 - 2,5*1) + 1 *f (-2,5*1 +1,5*1)]= -1 como d5(X1)= 1 há erro 
e 
y6(X1)= f[w4,6 *f(x1*w1,4 + x2*w2,4) + w3,6 *f (x1*w1,3 + x2*w2,3)] = 
f[1 *f(1,5*1 - 2,5*1) + 1 *f (1,5*1 -2,5*1)]= -1 como d6(X1)=1então, também, ocorreu erro. 
 
B Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro apenas em y5. 
 
C Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro apenas em y6. 
 
D Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela 
rede, não ocorrerá erro nem y5 tampouco em y6. 
Você assinalou essa alternativa (D) 
 
Questão 9/10 - Reinforcement Learning 
Observe o modelo elementar de neurônio artificial abaixo: 
 
Fonte: Haykin, 2011, pg.36. 
 
Considerando a figura acima e supondo se tratar do modelo proposto por McCulloch e Pits em 
1943 que utiliza a função de ativação limiar (degrau unitário ou Heaviside), com 
saída oscilando entre -1 e +1, podemos afirmar apenas que: 
Nota: 0.0Você não pontuou essa questão 
 
A Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor 
do campo local induzido será a somatória de X, ou seja 10. 
 
B Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor 
do campo local induzido será a somatória de W, ou seja 0. 
 
C Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} a saída 
do neurônio (Y) será 1. 
O campo local será nulo e como a função de ativação é a de Heaviside quando o campo local é igual ou maior que zero a função retorna +1, 
que será a saída do neurônio (Y). 
 
D Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} a saída 
do neurônio (Y) será -1. 
Você assinalou essa alternativa (D) 
 
Questão 10/10 - Reinforcement Learning 
“IA conexionista é uma aproximação, por definição, genérica, posto que firma suas bases sobre 
uma modelagem matemática, não do problema em si, mas da unidade mínima de pensamento, o 
neurônio. Arquitetada uma rede de neurônios basta treinar tal rede para que nos forneça o 
resultado que esperamos.” Aula 5 - Conversa Inicial. 
Considerando o exposto acima e nossos estudos sobre RNA, podemos afirmar apenas que: 
Nota: 10.0 
 
A Pesos sinápticos modelam a força da conexão entre o sinal de entrada de um neurônio remoto e a média ponderal das saídas 
anteriores ao axônio proximal. 
 
B Backpropagation é uma técnica de treinamento de redes convolucionais não supervisionada que leva em conta a redução do 
consumo da energia elétrica do processamento computacional para identificar a convergência do treinamento. 
 
C Backpropagation é uma técnica de treinamento de redes neurais supervisionada que leva em conta a redução da energia do erro 
para identificar a convergência do treinamento. 
Você assinalou essa alternativa (C) 
Você acertou! 
BP é um algoritmo supervisionado que ajusta a memória distribuída da rede aos padrões de treinamento. Para verificar se a memória do 
neurônio ou da RNA aprendeu os padrões verifica-se a somatória quadrática dos erros para estes padrões. 
 
D Cada elemento do vetor Y tem um peso neural ‘w’ associado. Este peso simulará a atividade entre neurônios, ou seja, a intensidade 
da função cerebral, por este motivo recebem o nome de rara intelligentia. 
 
E Todas estão corretas. 
 
 
Questão 1/10 - Reinforcement Learning 
Observe o modelo elementar de neurônio artificial abaixo: 
 
Fonte: Haykin, 2011, pg.36. 
 
 
Considerando a figura acima e supondo se tratar do modelo proposto por McCulloch e Pits em 
1943 que utiliza a função de ativação limiar (degrau unitário ou Heaviside), com 
saída oscilando entre -1 e +1, podemos afirmar apenas que: 
Nota: 0.0Você não pontuou essa questão 
 
A Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor 
do campo local induzido será a somatória de X, ou seja 10. 
 
B Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {1,1,1,1} o valor 
do campo local induzido será a somatória de X* W, ou seja 10. 
O campo local induzido é a somatória dos valores de xi pelo respectivo peso sináptico wi. Assim v=1*1+2*1+3*1+4*1=10. 
 
C Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,-1} a saída 
do neurônio (Y) será 1. 
Você assinalou essa alternativa (C) 
 
D Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,1} a saída 
do neurônio (Y) será -1. 
 
 
 
 
 
 
 
 
 
Questão 2/10 - Reinforcement Learning 
Observe o modeloelementar de neurônio artificial abaixo: 
 
Fonte: Haykin, 2011, pg.36. 
 
Considerando a figura acima e supondo se tratar do modelo proposto por McCulloch e Pits em 
1943 que utiliza a função de ativação limiar (degrau unitário ou Heaviside), com 
saída oscilando entre -1 e +1, podemos afirmar apenas que: 
Nota: 10.0 
 
A Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor 
do campo local induzido será a somatória de X, ou seja 10. 
 
B Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor 
do campo local induzido será a somatória de W, ou seja 0. 
 
C Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} a saída 
do neurônio (Y) será 1. 
Você assinalou essa alternativa (C) 
Você acertou! 
O campo local será nulo e como a função de ativação é a de Heaviside quando o campo local é igual ou maior que zero a função retorna +1, 
que será a saída do neurônio (Y). 
 
D Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} a saída 
do neurônio (Y) será -1. 
 
 
 
 
 
 
 
 
 
Questão 3/10 - Reinforcement Learning 
Observe o modelo elementar de MLP abaixo: 
 
Fonte: Norvig, 2013, pg.637. 
 
Considerando a figura acima e supondo que as funções de ativação seguem o modelo proposto 
por McCulloch e Pits (degrau unitário ou Heaviside), podemos afirmar apenas que: 
Nota: 0.0Você não pontuou essa questão 
 
A Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro em y5 e y6. 
O cálculo da saída : 
y5(X1)= f[w3,5 *f(x1*w1,3 + x2*w2,3) + w4,5 *f (x2*w2,4 +x1*w1,4)] = 
f[1 *f(1,5*1 - 2,5*1) + 1 *f (-2,5*1 +1,5*1)]= -1 como d5(X1)= 1 há erro 
e 
y6(X1)= f[w4,6 *f(x1*w1,4 + x2*w2,4) + w3,6 *f (x1*w1,3 + x2*w2,3)] = 
f[1 *f(1,5*1 - 2,5*1) + 1 *f (1,5*1 -2,5*1)]= -1 como d6(X1)=1então, também, ocorreu erro. 
 
B Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro apenas em y5. 
 
C Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro apenas em y6. 
Você assinalou essa alternativa (C) 
 
D Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela 
rede, não ocorrerá erro nem y5 tampouco em y6. 
 
 
 
 
 
 
 
Questão 4/10 - Reinforcement Learning 
Observe o modelo elementar de MLP abaixo: 
 
 
Fonte: Norvig, 2013, pg.637. 
Considerando a figura acima e supondo que as funções de ativação seguem o modelo proposto 
por McCulloch e Pits (degrau unitário ou Heaviside), com saída oscilando entre -1 e +1, podemos 
afirmar apenas que: 
Nota: 10.0 
 
A Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro em y5 e y6. 
 
B Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro apenas em y5. 
Você assinalou essa alternativa (B) 
Você acertou! 
O cálculo da saída : 
y5(X1)= f[w3,5 *f(x1*w1,3 + x2*w2,3) + w4,5 *f (x2*w2,4 +x1*w1,4)] = 
f[1 *f(1,5*1 + 2,5*1) + 1 *f (2,5*1 +1,5*1)]= +1 
como d5(X1)= -1 ocorreu ERRO 
e 
y6(X1)= f[w4,6 *f(x1*w1,4 + x2*w2,4) + w3,6 *f (x1*w1,3 + x2*w2,3)] = 
f[1 *f(1,5*1 + 2,5*1) + 1 *f (1,5*1 +2,5*1)]= +1 
como d6(X1)=1 não há erro 
 
C Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro apenas em y6. 
 
D Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela 
rede, não ocorrerá erro nem y5 tampouco em y6. 
 
Questão 5/10 - Reinforcement Learning 
 “ Para que o agente seja capaz de agir inteligentemente em um ambiente desconhecido é 
necessário a obtenção da função de valor de estado. Como o valor de um estado é composto pela 
somatória das expectativas de retorno a partir deste estado, podemos imaginar amostrar as 
recompensas após este estado e tomar sua média como uma forma de estimar o valor do estado 
atual.” Aula 4, Tema 1 
Considerando o exposto acima e nossos estudos sobre o método de Monte Carlo, podemos 
afirmar: 
Nota: 0.0Você não pontuou essa questão 
 
A MC de visita única ou de primeira visita (First-Visit MC) estimará o valor do estado seguindo apenas os estados visitados após a 
primeira visita ao estado ‘s’ seguindo uma política p. 
Dois métodos de Monte Carlo (MC) são possíveis. First- Visit MC parte de uma única visita ao estado presente. 
 
B MC de visita múltipla (Every-Visit MC) leva em conta uma ínfima parte das sequências a partir das visitas possíveis a ‘s’, este 
método será dito guloso de primeira ordem. 
 
C MC de vista múltipla (Myopic MC) estimará o valor do estado seguindo todos os estados visitados, próximos ao estado ‘s’ seguindo 
uma política p. 
Você assinalou essa alternativa (C) 
 
D Dois métodos de Monte Carlo (MC) são possíveis: Aproximação de política mista por MC (Mystic - MC) e MC de vista múltipla 
(Myopic MC). 
 
E Todas as alternativas estão corretas. 
 
Questão 6/10 - Reinforcement Learning 
Considerando nossos estudos sobre o método de Monte Carlo aplicado à solução do MDP, leia as 
afirmações abaixo e escolha a única alternativa correta: 
i.Dois métodos de Monte Carlo (MC) são possíveis: MC de visita única ou de primeira visita (First-
Visit MC) e MC de visita múltipla (Every-Visit MC). 
 
ii. A otimização da função de valor pode ser feita por MC de duas formas genéricas conforme as 
buscas são ou não direcionadas por uma política do agente. Desta forma teremos métodos de 
controle que seguem a política (on-policy) e métodos que não a seguem (off-policy). 
iii. Os algoritmos de controle on-police são normalmente mais simples e de convergência rápida, 
em relação a seus irmãos off-police, por este motivo são sempre a primeira opção a considerar. 
Nota: 10.0 
 
A Apenas I está correta 
 
B Apenas III está correta 
 
C Apenas I e II estão corretas 
 
D Todas estão corretas 
Você assinalou essa alternativa (D) 
Você acertou! 
Dois são os métodos de implementação de MC First-Visit MC e MC de visita múltipla (Every-Visit MC). Quando utilizamos MC para estimar a 
função de valor podemos seguir ou não uma determinada política, no primeiro caso tangenciaremos a política ótima, mas os algoritmos se 
tornam mais rápidos. 
 
E Nenhuma está correta. 
 
Questão 7/10 - Reinforcement Learning 
Observe o modelo elementar de MLP abaixo: 
 
 
Fonte: Norvig, 2013, pg.637. 
 
Considerando a figura acima e supondo que as funções de ativação seguem o modelo proposto 
por McCulloch e Pits (degrau unitário ou Heaviside), podemos afirmar apenas que: 
Nota: 10.0 
 
A Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro em y5 e y6. 
 
B Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro apenas em y5. 
 
C Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro apenas em y6. 
Você assinalou essa alternativa (C) 
Você acertou! 
O cálculo da saída : 
y5(X1)= f[w3,5 *f(x1*w1,3 + x2*w2,3) + w4,5 *f (x2*w2,4 +x1*w1,4)] = 
f[1 *f(1,5*1 - 2,5*1) + 1 *f (-2,5*1 +1,5*1)]= 11 como d5(X1)= -1 não há erro 
 
e 
 
y6(X1)= f[w4,6 *f(x1*w1,4 + x2*w2,4)+ w3,6 *f (x1*w1,3 + x2*w2,3)] = 
f[1 *f(1,5*1 - 2,5*1) + 1 *f (1,5*1 -2,5*1)]= -1 
como d6(X1)=1 então ocorreu erro 
 
D Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela 
rede, não ocorrerá erro nem y5 tampouco em y6. 
 
 
 
Questão 8/10 - Reinforcement Learning 
“ Para que o agente seja capaz de agir inteligentemente em um ambiente desconhecido é 
necessário a obtenção da função de valor de estado. Como o valor de um estado é composto pela 
somatória das expectativas de retorno a partir deste estado, podemos imaginar amostrar as 
recompensas após este estado e tomar sua média como uma forma de estimar o valor do estado 
atual.” Aula 4, Tema 1 
Considerando o exposto acima e nossos estudos sobre o método de Monte Carlo, podemos 
afirmar: 
Nota: 10.0 
 
A MC de vista múltipla (Myopic MC) estimará o valor do estado seguindo todos os estados visitados, próximos ao estado ‘s’ seguindo 
uma política p. 
 
B Dois algoritmos de Monte Carlo (MC) são possíveis para o tratamento de MDP. O primeiro que estimará o valor do estado seguindo 
apenas os estados visitados após a primeira visita ao estado ‘s’ seguindo uma política p, que denominaremos MC de visita única ou 
de primeira visita (First-Visit MC). Um segundo método que leva em conta todas as sequências a partir de todas as visitas 
possíveis a ‘s’, este método será dito MC de visita múltipla (Every-Visit MC). 
Você assinalou essa alternativa (B) 
Você acertou! 
Conforme Aula 4, tema 1.1 
 
C A otimização da função de valor pode ser feita por MC de duas formas genéricas conforme as buscas são ou não direcionadas por 
uma política do agente. Desta forma teremos métodos de controle que seguem a política ditps First-Visit MC e métodos que não a 
seguem conhecidos como Myopic MC. 
 
D A aplicação do método de Monte Carlo on-policy para a aproximação da política ótima utiliza a metodologia de busca cega dita 
Blind Search. 
 
 
 
 
 
 
 
 
 
 
Questão 9/10 - Reinforcement Learning 
Observe o modelo elementar de neurônio artificial abaixo: 
 
Fonte: Haykin, 2011, pg.36. 
 
Considerando a figura acima e nossos estudos sobre RNA, podemos afirmar apenas que: 
Nota: 0.0Você não pontuou essa questão 
 
A O conjunto pré axônico é representado pelo vetor de entrada X ={x1 , x2 ,..., xm} 
 
B Cada elemento do vetor Y tem um peso neural ‘w’ associado. Este peso simulará a atividade entre neurônios, ou seja, a intensidade 
da função cerebral, por este motivo recebem o nome de rara intelligentia. 
 
C O combinador linear, ou somador, modela o processamento da árvore dendrítica. O resultado do somatório dos produtos de X e W e 
do bias é dito campo local induzido ou potencial de ativação, vk. 
O combinador linear soma ao bias os produtos de X e W resultando no campo local induzido. 
 
D A função de derivação é uma equação matemática que modela a reação do núcleo celular à resultante dos estímulos de erro 
produzidos pelo neurônio biológico. 
 
E Todas as alternativas estão corretas. 
Você assinalou essa alternativa (E) 
 
Questão 10/10 - Reinforcement Learning 
“IA conexionista é uma aproximação, por definição, genérica, posto que firma suas bases sobre 
uma modelagem matemática, não do problema em si, mas da unidade mínima de pensamento, o 
neurônio. Arquitetada uma rede de neurônios basta treinar tal rede para que nos forneça o 
resultado que esperamos.” Aula 5 - Conversa Inicial. 
Considerando o exposto acima e nossos estudos sobre RNA, podemos afirmar apenas que: 
Nota: 10.0 
 
A Pesos sinápticos modelam a força da conexão entre o sinal de entrada de um neurônio remoto e a média ponderal das saídas 
anteriores ao axônio proximal. 
 
B Backpropagation é uma técnica de treinamento de redes convolucionais não supervisionada que leva em conta a redução do 
consumo da energia elétrica do processamento computacional para identificar a convergência do treinamento. 
 
C Backpropagation é uma técnica de treinamento de redes neurais supervisionada que leva em conta a redução da energia do erro 
para identificar a convergência do treinamento. 
Você assinalou essa alternativa (C) 
Você acertou! 
BP é um algoritmo supervisionado que ajusta a memória distribuída da rede aos padrões de treinamento. Para verificar se a memória do 
neurônio ou da RNA aprendeu os padrões verifica-se a somatória quadrática dos erros para estes padrões. 
 
D Cada elemento do vetor Y tem um peso neural ‘w’ associado. Este peso simulará a atividade entre neurônios, ou seja, a intensidade 
da função cerebral, por este motivo recebem o nome de rara intelligentia. 
 
E Todas estão corretas. 
 
 
Questão 1/10 - Reinforcement Learning 
 “ Para que o agente seja capaz de agir inteligentemente em um ambiente desconhecido é 
necessário a obtenção da função de valor de estado. Como o valor de um estado é composto pela 
somatória das expectativas de retorno a partir deste estado, podemos imaginar amostrar as 
recompensas após este estado e tomar sua média como uma forma de estimar o valor do estado 
atual.” Aula 4, Tema 1 
Considerando o exposto acima e nossos estudos sobre o método de Monte Carlo, podemos 
afirmar: 
Nota: 0.0Você não pontuou essa questão 
 
A MC de visita única ou de primeira visita (First-Visit MC) estimará o valor do estado seguindo apenas os estados visitados após a 
primeira visita ao estado ‘s’ seguindo uma política p. 
Dois métodos de Monte Carlo (MC) são possíveis. First- Visit MC parte de uma única visita ao estado presente. 
 
B MC de visita múltipla (Every-Visit MC) leva em conta uma ínfima parte das sequências a partir das visitas possíveis a ‘s’, este 
método será dito guloso de primeira ordem. 
 
C MC de vista múltipla (Myopic MC) estimará o valor do estado seguindo todos os estados visitados, próximos ao estado ‘s’ seguindo 
uma política p. 
 
D Dois métodos de Monte Carlo (MC) são possíveis: Aproximação de política mista por MC (Mystic - MC) e MC de vista múltipla 
(Myopic MC). 
 
E Todas as alternativas estão corretas. 
Você assinalou essa alternativa (E) 
 
Questão 2/10 - Reinforcement Learning 
“IA conexionista é uma aproximação, por definição, genérica, posto que firma suas bases sobre 
uma modelagem matemática, não do problema em si, mas da unidade mínima de pensamento, o 
neurônio. Arquitetada uma rede de neurônios basta treinar tal rede para que nos forneça o 
resultado que esperamos.” Aula 5 - Conversa Inicial. 
Considerando o exposto acima e nossos estudos sobre RNA, podemos afirmar apenas que: 
Nota: 10.0 
 
A Pesos sinápticos modelam a força da conexão entre o sinal de entrada de um neurônio remoto e a média ponderal das saídas 
anteriores ao axônio proximal. 
 
B Backpropagation é uma técnica de treinamento de redes convolucionais não supervisionada que leva em conta a redução do 
consumo da energia elétrica do processamento computacional para identificar a convergência do treinamento. 
 
C Backpropagation é uma técnica de treinamento de redes neurais supervisionada que leva em conta a redução da energia do erro 
para identificar a convergência do treinamento. 
Você assinalou essa alternativa (C) 
Você acertou! 
BP é um algoritmo supervisionado que ajusta a memória distribuída da rede aos padrões de treinamento. Para verificar se a memória do 
neurônio ou da RNA aprendeu os padrões verifica-se a somatória quadrática dos erros para estes padrões. 
 
D Cada elemento do vetor Y tem um peso neural ‘w’ associado. Este peso simulará a atividade entre neurônios, ou seja, a intensidade 
da função cerebral, por este motivo recebem o nome de rara intelligentia. 
 
E Todas estão corretas. 
 
Questão 3/10 - Reinforcement Learning 
Observe o modelo elementar de neurônio artificial abaixo: 
 
Fonte: Haykin, 2011, pg.36. 
 
Considerando a figura acima e supondo se tratar do modelo proposto por McCulloch e Pits em 
1943 que utiliza a função de ativação limiar (degrau unitárioou Heaviside), com 
saída oscilando entre -1 e +1, podemos afirmar apenas que: 
Nota: 10.0 
 
A Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor 
do campo local induzido será a somatória de X, ou seja 10. 
 
B Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor 
do campo local induzido será a somatória de W, ou seja 0. 
 
C Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} a saída 
do neurônio (Y) será 1. 
Você assinalou essa alternativa (C) 
Você acertou! 
O campo local será nulo e como a função de ativação é a de Heaviside quando o campo local é igual ou maior que zero a função retorna +1, 
que será a saída do neurônio (Y). 
 
D Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} a saída 
do neurônio (Y) será -1. 
 
Questão 4/10 - Reinforcement Learning 
 “As observações dos primeiros neurologistas determinaram que um neurônio recebe sinais 
eletroquímicos, de outros neurônios, através de seus dendritos e que transmite o “processamento” 
dos sinais recebidos através de sua arborização axônica.” Aula 5 - Tema 1.1. 
Considerando o exposto acima e nossos estudos sobre neurônios biológicos, podemos afirmar 
apenas que: 
Nota: 0.0Você não pontuou essa questão 
 
A O córtex cerebral é constituído por várias regiões e cada região é composta de neurônios com características biológicas 
ligeiramente distintas. 
 
B Um neurônio pode receber informações de muitos outros neurônios da mesma forma que transmite a síntese destas informações 
para outra infinidade de pares. 
 
C A transmissão do estímulo entre neurônios se dá por pulsos de tensão, originados no núcleo da célula, ditos spikes. Os spikes 
podem viajar entre conjuntos de neurônios sofrendo ampliação ou decaimento. 
Você assinalou essa alternativa (C) 
 
D As sinapses representam o nível mais fundamental da atividade cerebral. 
 
E Todas as alternativas estão corretas. 
Todas as afirmações estão corretas conforme Aula 5, tema 1.1. 
 
Questão 5/10 - Reinforcement Learning 
“Algoritmos de TD permitem uma aproximação mais genérica do problema de aprendizagem em 
ambientes mutáveis. Em TD a função de valor V(s) é calculada diretamente a partir do erro de 
previsões anteriores, livre de modelo, como em Monte Carlo, de forma completamente incremental 
mas sem a restrição do processo a primeira ordem da cadeia de Marcov. Aula 4 - tema 3 
Considerando o exposto acima e nossos estudos sobre diferença temporal, podemos afirmar 
apenas que: 
Nota: 0.0Você não pontuou essa questão 
 
A O erro por diferença temporal é o fator que ajustará o valor do estado em função das ocorrências anteriores que contribuem para o 
próximo estado. 
 
B O método de diferença temporal passa pela análise dos erros das predições anteriores, ao qual denominaremos erro por diferença 
temporal, ou erro TD. 
Você assinalou essa alternativa (B) 
 
C Em TD há duas formas diferentes de encarar um problema de predição, a predição de passo único e a de passo múltiplo. 
Transições de múltiplos passos dependem de uma sequência de informações temporais para que a decisão seja eficiente. 
 
D Todas estão corretas. 
Todas estão corretas conforme aula 4. 
 
Questão 6/10 - Reinforcement Learning 
“Redes neurais artificiais são uma boa aproximação para cálculos mais genéricos de algoritmos 
de aprendizagem por reforço. As primeiras tentativas neste sentido, entretanto, conservaram a 
‘maldição da dimensionalidade” proveniente das soluções simbólicas. A evolução das técnicas 
conexionistas profundas, que ocorreram concomitantemente às tentativas de aplicação de redes 
neurais em RL, finalmente suavizaram a maldição.” Aula 6 - Tema 1. 
Considerando o texto acima e nossos estudos de DRL podemos afirmar: 
Nota: 10.0 
 
A Redes neurais são treinadas com base em pequenas amostras o que torna os padrões estatisticamente instáveis. Os dados 
disponíveis em RL são por sua vez volumosos e estáveis, além disso, os modelos não apresentam grande sensibilidade a variações 
de Q. 
 
B A memória de uma rede neural permite a generalização da aprendizagem em ações futuras, quando carregamos a memória da rede 
com padrões, presume-se que se manterá a memória intacta durante a operação. Esta presunção é especialmente verdadeira para 
RL. 
 
C Neural Fitted Q Interaction (NFQ) é um algoritmo que busca reinplantar a memória do conhecimento futuro. A implementação, dita 
unusual memory algorithm, parte da ideia de descartar as transições de estado anteriores a cada update. 
 
D DQN utiliza o princípio proveniente do NFQ, que resolveu o problema de perda de memória, VGP, memorizando as transições de 
estado anteriores para reimplantanção. 
Você assinalou essa alternativa (D) 
Você acertou! 
Neural Fitted Q Interaction (NFQ) é um algoritmo que busca restaurar o conhecimento prévio sempre que uma atualização é realizada. No DQN 
este conceito é usado para a criação da Target Network. 
 
E Todas as afirmações anteriores estão corretas. 
 
Questão 7/10 - Reinforcement Learning 
Observe o modelo elementar de neurônio artificial abaixo: 
 
Fonte: Haykin, 2011, pg.36. 
 
 
Considerando a figura acima e supondo se tratar do modelo proposto por McCulloch e Pits em 
1943 que utiliza a função de ativação limiar (degrau unitário ou Heaviside), com 
saída oscilando entre -1 e +1, podemos afirmar apenas que: 
Nota: 0.0Você não pontuou essa questão 
 
A Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor 
do campo local induzido será a somatória de X, ou seja 10. 
 
B Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {1,1,1,1} o valor 
do campo local induzido será a somatória de X* W, ou seja 10. 
O campo local induzido é a somatória dos valores de xi pelo respectivo peso sináptico wi. Assim v=1*1+2*1+3*1+4*1=10. 
 
C Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,-1} a saída 
do neurônio (Y) será 1. 
Você assinalou essa alternativa (C) 
 
D Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,1} a saída 
do neurônio (Y) será -1. 
 
Questão 8/10 - Reinforcement Learning 
Observe o modelo elementar de MLP abaixo: 
 
Fonte: Norvig, 2013, pg.637. 
 
Considerando a figura acima e supondo que as funções de ativação seguem o modelo proposto 
por McCulloch e Pits (degrau unitário ou Heaviside), podemos afirmar apenas que: 
Nota: 0.0Você não pontuou essa questão 
 
A Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro em y5 e y6. 
O cálculo da saída : 
y5(X1)= f[w3,5 *f(x1*w1,3 + x2*w2,3) + w4,5 *f (x2*w2,4 +x1*w1,4)] = 
f[1 *f(1,5*1 - 2,5*1) + 1 *f (-2,5*1 +1,5*1)]= -1 como d5(X1)= 1 há erro 
e 
y6(X1)= f[w4,6 *f(x1*w1,4 + x2*w2,4) + w3,6 *f (x1*w1,3 + x2*w2,3)] = 
f[1 *f(1,5*1 - 2,5*1) + 1 *f (1,5*1 -2,5*1)]= -1 como d6(X1)=1então, também, ocorreu erro. 
 
B Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro apenas em y5. 
 
C Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela 
rede, ocorrerá erro apenas em y6. 
Você assinalou essa alternativa (C) 
 
D Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela 
rede, não ocorrerá erro nem y5 tampouco em y6. 
 
Questão9/10 - Reinforcement Learning 
Observe o modelo elementar de neurônio artificial abaixo: 
 
Fonte: Haykin, 2011, pg.36. 
 
Considerando a figura acima e nossos estudos sobre RNA, podemos afirmar apenas que: 
Nota: 10.0 
 
A O conjunto pré axônico é representado pelo vetor de entrada X ={x1 , x2 ,..., xm} 
 
B Cada elemento do vetor Y tem um peso neural ‘w’ associado. Este peso simulará a atividade entre neurônios, ou seja, a intensidade 
da função cerebral, por este motivo recebem o nome de rara intelligentia. 
 
C O combinador linear, ou somador, modela o processamento da árvore dendrítica. O resultado do somatório dos produtos de X e W e 
do bias é dito campo local induzido ou potencial de ativação, vk. 
Você assinalou essa alternativa (C) 
Você acertou! 
O combinador linear soma ao bias os produtos de X e W resultando no campo local induzido. 
 
D A função de derivação é uma equação matemática que modela a reação do núcleo celular à resultante dos estímulos de erro 
produzidos pelo neurônio biológico. 
 
E Todas as alternativas estão corretas. 
 
 
Questão 10/10 - Reinforcement Learning 
“Redes neurais artificiais são uma boa aproximação para cálculos mais genéricos de algoritmos 
de aprendizagem por reforço. As primeiras tentativas neste sentido, entretanto, conservaram a 
‘maldição da dimensionalidade” proveniente das soluções simbólicas. A evolução das técnicas 
conexionistas profundas, que ocorreram concomitantemente às tentativas de aplicação de redes 
neurais em RL, finalmente suavizaram a maldição.” Aula 6 - Tema 1. 
Considerando o texto acima e nossos estudos de DRL podemos afirmar: 
Nota: 0.0Você não pontuou essa questão 
 
A Redes neurais são treinadas com base em coleções numerosas de dados o que torna os padrões estatisticamente estáveis. Os 
dados disponíveis em RL são ruidosos, incompletos e esparsos, disponíveis somente após a interação temporal com o meio, além 
disso, os modelos apresentam grande sensibilidade a variações de Q. 
 
B A memória de uma rede neural permite a generalização da aprendizagem em ações futuras, porém, quando carregamos a memória 
da rede com padrões, presume-se que se manterá a memória intacta durante a operação. Esta presunção não é verdadeira para RL 
e isto é um desafio para a aplicação de RNAs em RL. 
 
C Neural Fitted Q Interation (NFQ) é um algoritmo que busca restaurar o conhecimento prévio sempre que uma atualização é 
realizada. A implementação parte da ideia de memorizar as transições de estado anteriores, reimplantando-as a cada update. 
 
D DQN utiliza o princípio proveniente do NFQ, que resolveu o problema de perda de memória, VGP, memorizando as transições de 
estado anteriores para reimplantanção. 
Você assinalou essa alternativa (D) 
 
E Todas as afirmações anteriores estão corretas. 
Conforme Aula 6, temas 1 e 2.

Conteúdos escolhidos para você

Reinforcement Learning

Reinforcement Learning

UNINTER

Reinforcement Learning

Reinforcement Learning

UNINTER

Reinforcement Learning

Reinforcement Learning

UNINTER

Reinforcement Learning

Reinforcement Learning

UNINTER

Perguntas dessa disciplina

What is the difference between positive reinforcement and negative reinforcement? Reinforcement, whether positive or negative, aims to strengthen ...

Questão 9/10 - Reinforcement Learning Observe o modelo elementar de neurônio artificial abaixo: Fonte: Haykin, 2011, pg.36. Considerando a figura a...

Questão 1: The conception of education contrary to the notion of a ‘tabula rasa’ establishes that: A) The student learns through stimuli, response...

Com base na aula 4, assinale a alternativa que apresenta os nomes dos estágios na ordem correta. A E-learning, m-learning e u-learning. B M-learn...

UNINTER