Prévia do material em texto
Questão 1/10 - Reinforcement Learning “ Para que o agente seja capaz de agir inteligentemente em um ambiente desconhecido é necessário a obtenção da função de valor de estado. Como o valor de um estado é composto pela somatória das expectativas de retorno a partir deste estado, podemos imaginar amostrar as recompensas após este estado e tomar sua média como uma forma de estimar o valor do estado atual.” Aula 4, Tema 1 Considerando o exposto acima e nossos estudos sobre o método de Monte Carlo, podemos afirmar: Nota: 0.0Você não pontuou essa questão A MC de visita única ou de primeira visita (First-Visit MC) estimará o valor do estado seguindo apenas os estados visitados após a primeira visita ao estado ‘s’ seguindo uma política p. Dois métodos de Monte Carlo (MC) são possíveis. First- Visit MC parte de uma única visita ao estado presente. B MC de visita múltipla (Every-Visit MC) leva em conta uma ínfima parte das sequências a partir das visitas possíveis a ‘s’, este método será dito guloso de primeira ordem. Você assinalou essa alternativa (B) C MC de vista múltipla (Myopic MC) estimará o valor do estado seguindo todos os estados visitados, próximos ao estado ‘s’ seguindo uma política p. D Dois métodos de Monte Carlo (MC) são possíveis: Aproximação de política mista por MC (Mystic - MC) e MC de vista múltipla (Myopic MC). E Todas as alternativas estão corretas. Questão 2/10 - Reinforcement Learning Considerando nossos estudos sobre o método de Monte Carlo aplicado à solução do MDP, leia as afirmações abaixo e escolha a única alternativa correta: i.Dois métodos de Monte Carlo (MC) são possíveis: MC de visita única ou de primeira visita (First- Visit MC) e MC de visita múltipla (Every-Visit MC). ii. A otimização da função de valor pode ser feita por MC de duas formas genéricas conforme as buscas são ou não direcionadas por uma política do agente. Desta forma teremos métodos de controle que seguem a política (on-policy) e métodos que não a seguem (off-policy). iii. Os algoritmos de controle on-police são normalmente mais simples e de convergência rápida, em relação a seus irmãos off-police, por este motivo são sempre a primeira opção a considerar. Nota: 0.0Você não pontuou essa questão A Apenas I está correta B Apenas III está correta C Apenas I e II estão corretas Você assinalou essa alternativa (C) D Todas estão corretas Dois são os métodos de implementação de MC First-Visit MC e MC de visita múltipla (Every-Visit MC). Quando utilizamos MC para estimar a função de valor podemos seguir ou não uma determinada política, no primeiro caso tangenciaremos a política ótima, mas os algoritmos se tornam mais rápidos. E Nenhuma está correta. Questão 3/10 - Reinforcement Learning Observe o modelo elementar de neurônio artificial abaixo: Fonte: Haykin, 2011, pg.36. Considerando a figura acima e nossos estudos sobre RNA, podemos afirmar apenas que: Nota: 10.0 A A árvore dendrítica é representada pelo vetor de entrada X ={x1 , x2 ,..., xm} B Cada elemento do vetor X tem um peso neural ‘w’ associado. Este peso simulará a proximidade entre neurônios, ou seja, a intensidade da sinapse, por este motivo recebem o nome de pesos sinápticos. C O combinador linear, ou somador, modela o processamento da árvore dendrítica. O resultado do somatório dos produtos de X e W é dito campo local induzido ou potencial de ativação, vk. D A função de ativação é uma equação matemática que modela a reação do núcleo celular à resultante dos estímulos recebidos pelo neurônio. E Todas as alternativas estão corretas. Você assinalou essa alternativa (E) Você acertou! Todas as afirmações estão corretas conforme Aula 5, tema 1.2. Questão 4/10 - Reinforcement Learning “ Para que o agente seja capaz de agir inteligentemente em um ambiente desconhecido é necessário a obtenção da função de valor de estado. Como o valor de um estado é composto pela somatória das expectativas de retorno a partir deste estado, podemos imaginar amostrar as recompensas após este estado e tomar sua média como uma forma de estimar o valor do estado atual.” Aula 4, Tema 1 Considerando o exposto acima e nossos estudos sobre o método de Monte Carlo, podemos afirmar: Nota: 10.0 A MC de vista múltipla (Myopic MC) estimará o valor do estado seguindo todos os estados visitados, próximos ao estado ‘s’ seguindo uma política p. B Dois algoritmos de Monte Carlo (MC) são possíveis para o tratamento de MDP. O primeiro que estimará o valor do estado seguindo apenas os estados visitados após a primeira visita ao estado ‘s’ seguindo uma política p, que denominaremos MC de visita única ou de primeira visita (First-Visit MC). Um segundo método que leva em conta todas as sequências a partir de todas as visitas possíveis a ‘s’, este método será dito MC de visita múltipla (Every-Visit MC). Você assinalou essa alternativa (B) Você acertou! Conforme Aula 4, tema 1.1 C A otimização da função de valor pode ser feita por MC de duas formas genéricas conforme as buscas são ou não direcionadas por uma política do agente. Desta forma teremos métodos de controle que seguem a política ditps First-Visit MC e métodos que não a seguem conhecidos como Myopic MC. D A aplicação do método de Monte Carlo on-policy para a aproximação da política ótima utiliza a metodologia de busca cega dita Blind Search. Questão 5/10 - Reinforcement Learning “Redes neurais artificiais são uma boa aproximação para cálculos mais genéricos de algoritmos de aprendizagem por reforço. As primeiras tentativas neste sentido, entretanto, conservaram a ‘maldição da dimensionalidade” proveniente das soluções simbólicas. A evolução das técnicas conexionistas profundas, que ocorreram concomitantemente às tentativas de aplicação de redes neurais em RL, finalmente suavizaram a maldição.” Aula 6 - Tema 1. Considerando o texto acima e nossos estudos de DRL podemos afirmar: Nota: 10.0 A Redes neurais são treinadas com base em pequenas amostras o que torna os padrões estatisticamente instáveis. Os dados disponíveis em RL são por sua vez volumosos e estáveis, além disso, os modelos não apresentam grande sensibilidade a variações de Q. B A memória de uma rede neural permite a generalização da aprendizagem em ações futuras, quando carregamos a memória da rede com padrões, presume-se que se manterá a memória intacta durante a operação. Esta presunção é especialmente verdadeira para RL. C Neural Fitted Q Interaction (NFQ) é um algoritmo que busca reinplantar a memória do conhecimento futuro. A implementação, dita unusual memory algorithm, parte da ideia de descartar as transições de estado anteriores a cada update. D DQN utiliza o princípio proveniente do NFQ, que resolveu o problema de perda de memória, VGP, memorizando as transições de estado anteriores para reimplantanção. Você assinalou essa alternativa (D) Você acertou! Neural Fitted Q Interaction (NFQ) é um algoritmo que busca restaurar o conhecimento prévio sempre que uma atualização é realizada. No DQN este conceito é usado para a criação da Target Network. E Todas as afirmações anteriores estão corretas. Questão 6/10 - Reinforcement Learning Observe o modelo elementar de MLP abaixo: Fonte: Norvig, 2013, pg.637. Considerando a figura acima e supondo que as funções de ativação seguem o modelo proposto por McCulloch e Pits (degrau unitário ou Heaviside), com saída oscilando entre -1 e +1, podemos afirmar apenas que: Nota: 0.0Você não pontuou essa questão A Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela rede, ocorrerá erro em y5 e y6. B Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela rede, ocorrerá erro apenas em y5. O cálculo da saída : y5(X1)=f[w3,5 *f(x1*w1,3 + x2*w2,3) + w4,5 *f (x2*w2,4 +x1*w1,4)] = f[1 *f(1,5*1 + 2,5*1) + 1 *f (2,5*1 +1,5*1)]= +1 como d5(X1)= -1 ocorreu ERRO e y6(X1)= f[w4,6 *f(x1*w1,4 + x2*w2,4) + w3,6 *f (x1*w1,3 + x2*w2,3)] = f[1 *f(1,5*1 + 2,5*1) + 1 *f (1,5*1 +2,5*1)]= +1 como d6(X1)=1 não há erro C Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela rede, ocorrerá erro apenas em y6. D Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela rede, não ocorrerá erro nem y5 tampouco em y6. Você assinalou essa alternativa (D) Questão 7/10 - Reinforcement Learning “Algoritmos de TD permitem uma aproximação mais genérica do problema de aprendizagem em ambientes mutáveis. Em TD a função de valor V(s) é calculada diretamente a partir do erro de previsões anteriores, livre de modelo, como em Monte Carlo, de forma completamente incremental mas sem a restrição do processo a primeira ordem da cadeia de Marcov. Aula 4 - tema 3 Considerando o exposto acima e nossos estudos sobre diferença temporal, podemos afirmar: Nota: 10.0 A TD busca a previsão da ação baseada na análise da cadeia de Markov de primeira ordem segundo a qual o futuro depende apenas do presente o que impede, em TD levarmos em conta predições temporais já feitas. B Em TD há duas formas diferentes de encarar um problema de predição, a predição de passo único e a de passo múltiplo. Estas transições se referem aos múltiplos passos, em robótica, que o autômato terá de aprender para configurar o aprendizado de movimentação a pé. C Em processos marcovianos de primeira ordem o uso de TD é impossível por impedir a convergência e tornar-se pouco eficiente em relação a outros métodos de aprendizagem. D TD busca a previsão da ação baseada na análise de erro das sucessivas predições temporais já feitas. O aprendizado ocorre toda vez que há uma mudança no tempo da predição Você assinalou essa alternativa (D) Você acertou! Diferença temporal é um algoritmo que leva em conta os erros anteriores para compor a previsão do estado futuro. E Todas estão corretas. Questão 8/10 - Reinforcement Learning Observe o modelo elementar de MLP abaixo: Fonte: Norvig, 2013, pg.637. Considerando a figura acima e supondo que as funções de ativação seguem o modelo proposto por McCulloch e Pits (degrau unitário ou Heaviside), podemos afirmar apenas que: Nota: 0.0Você não pontuou essa questão A Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela rede, ocorrerá erro em y5 e y6. O cálculo da saída : y5(X1)= f[w3,5 *f(x1*w1,3 + x2*w2,3) + w4,5 *f (x2*w2,4 +x1*w1,4)] = f[1 *f(1,5*1 - 2,5*1) + 1 *f (-2,5*1 +1,5*1)]= -1 como d5(X1)= 1 há erro e y6(X1)= f[w4,6 *f(x1*w1,4 + x2*w2,4) + w3,6 *f (x1*w1,3 + x2*w2,3)] = f[1 *f(1,5*1 - 2,5*1) + 1 *f (1,5*1 -2,5*1)]= -1 como d6(X1)=1então, também, ocorreu erro. B Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela rede, ocorrerá erro apenas em y5. C Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela rede, ocorrerá erro apenas em y6. D Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela rede, não ocorrerá erro nem y5 tampouco em y6. Você assinalou essa alternativa (D) Questão 9/10 - Reinforcement Learning Observe o modelo elementar de neurônio artificial abaixo: Fonte: Haykin, 2011, pg.36. Considerando a figura acima e supondo se tratar do modelo proposto por McCulloch e Pits em 1943 que utiliza a função de ativação limiar (degrau unitário ou Heaviside), com saída oscilando entre -1 e +1, podemos afirmar apenas que: Nota: 0.0Você não pontuou essa questão A Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor do campo local induzido será a somatória de X, ou seja 10. B Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor do campo local induzido será a somatória de W, ou seja 0. C Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} a saída do neurônio (Y) será 1. O campo local será nulo e como a função de ativação é a de Heaviside quando o campo local é igual ou maior que zero a função retorna +1, que será a saída do neurônio (Y). D Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} a saída do neurônio (Y) será -1. Você assinalou essa alternativa (D) Questão 10/10 - Reinforcement Learning “IA conexionista é uma aproximação, por definição, genérica, posto que firma suas bases sobre uma modelagem matemática, não do problema em si, mas da unidade mínima de pensamento, o neurônio. Arquitetada uma rede de neurônios basta treinar tal rede para que nos forneça o resultado que esperamos.” Aula 5 - Conversa Inicial. Considerando o exposto acima e nossos estudos sobre RNA, podemos afirmar apenas que: Nota: 10.0 A Pesos sinápticos modelam a força da conexão entre o sinal de entrada de um neurônio remoto e a média ponderal das saídas anteriores ao axônio proximal. B Backpropagation é uma técnica de treinamento de redes convolucionais não supervisionada que leva em conta a redução do consumo da energia elétrica do processamento computacional para identificar a convergência do treinamento. C Backpropagation é uma técnica de treinamento de redes neurais supervisionada que leva em conta a redução da energia do erro para identificar a convergência do treinamento. Você assinalou essa alternativa (C) Você acertou! BP é um algoritmo supervisionado que ajusta a memória distribuída da rede aos padrões de treinamento. Para verificar se a memória do neurônio ou da RNA aprendeu os padrões verifica-se a somatória quadrática dos erros para estes padrões. D Cada elemento do vetor Y tem um peso neural ‘w’ associado. Este peso simulará a atividade entre neurônios, ou seja, a intensidade da função cerebral, por este motivo recebem o nome de rara intelligentia. E Todas estão corretas. Questão 1/10 - Reinforcement Learning Observe o modelo elementar de neurônio artificial abaixo: Fonte: Haykin, 2011, pg.36. Considerando a figura acima e supondo se tratar do modelo proposto por McCulloch e Pits em 1943 que utiliza a função de ativação limiar (degrau unitário ou Heaviside), com saída oscilando entre -1 e +1, podemos afirmar apenas que: Nota: 0.0Você não pontuou essa questão A Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor do campo local induzido será a somatória de X, ou seja 10. B Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {1,1,1,1} o valor do campo local induzido será a somatória de X* W, ou seja 10. O campo local induzido é a somatória dos valores de xi pelo respectivo peso sináptico wi. Assim v=1*1+2*1+3*1+4*1=10. C Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,-1} a saída do neurônio (Y) será 1. Você assinalou essa alternativa (C) D Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,1} a saída do neurônio (Y) será -1. Questão 2/10 - Reinforcement Learning Observe o modeloelementar de neurônio artificial abaixo: Fonte: Haykin, 2011, pg.36. Considerando a figura acima e supondo se tratar do modelo proposto por McCulloch e Pits em 1943 que utiliza a função de ativação limiar (degrau unitário ou Heaviside), com saída oscilando entre -1 e +1, podemos afirmar apenas que: Nota: 10.0 A Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor do campo local induzido será a somatória de X, ou seja 10. B Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor do campo local induzido será a somatória de W, ou seja 0. C Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} a saída do neurônio (Y) será 1. Você assinalou essa alternativa (C) Você acertou! O campo local será nulo e como a função de ativação é a de Heaviside quando o campo local é igual ou maior que zero a função retorna +1, que será a saída do neurônio (Y). D Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} a saída do neurônio (Y) será -1. Questão 3/10 - Reinforcement Learning Observe o modelo elementar de MLP abaixo: Fonte: Norvig, 2013, pg.637. Considerando a figura acima e supondo que as funções de ativação seguem o modelo proposto por McCulloch e Pits (degrau unitário ou Heaviside), podemos afirmar apenas que: Nota: 0.0Você não pontuou essa questão A Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela rede, ocorrerá erro em y5 e y6. O cálculo da saída : y5(X1)= f[w3,5 *f(x1*w1,3 + x2*w2,3) + w4,5 *f (x2*w2,4 +x1*w1,4)] = f[1 *f(1,5*1 - 2,5*1) + 1 *f (-2,5*1 +1,5*1)]= -1 como d5(X1)= 1 há erro e y6(X1)= f[w4,6 *f(x1*w1,4 + x2*w2,4) + w3,6 *f (x1*w1,3 + x2*w2,3)] = f[1 *f(1,5*1 - 2,5*1) + 1 *f (1,5*1 -2,5*1)]= -1 como d6(X1)=1então, também, ocorreu erro. B Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela rede, ocorrerá erro apenas em y5. C Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela rede, ocorrerá erro apenas em y6. Você assinalou essa alternativa (C) D Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela rede, não ocorrerá erro nem y5 tampouco em y6. Questão 4/10 - Reinforcement Learning Observe o modelo elementar de MLP abaixo: Fonte: Norvig, 2013, pg.637. Considerando a figura acima e supondo que as funções de ativação seguem o modelo proposto por McCulloch e Pits (degrau unitário ou Heaviside), com saída oscilando entre -1 e +1, podemos afirmar apenas que: Nota: 10.0 A Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela rede, ocorrerá erro em y5 e y6. B Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela rede, ocorrerá erro apenas em y5. Você assinalou essa alternativa (B) Você acertou! O cálculo da saída : y5(X1)= f[w3,5 *f(x1*w1,3 + x2*w2,3) + w4,5 *f (x2*w2,4 +x1*w1,4)] = f[1 *f(1,5*1 + 2,5*1) + 1 *f (2,5*1 +1,5*1)]= +1 como d5(X1)= -1 ocorreu ERRO e y6(X1)= f[w4,6 *f(x1*w1,4 + x2*w2,4) + w3,6 *f (x1*w1,3 + x2*w2,3)] = f[1 *f(1,5*1 + 2,5*1) + 1 *f (1,5*1 +2,5*1)]= +1 como d6(X1)=1 não há erro C Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela rede, ocorrerá erro apenas em y6. D Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela rede, não ocorrerá erro nem y5 tampouco em y6. Questão 5/10 - Reinforcement Learning “ Para que o agente seja capaz de agir inteligentemente em um ambiente desconhecido é necessário a obtenção da função de valor de estado. Como o valor de um estado é composto pela somatória das expectativas de retorno a partir deste estado, podemos imaginar amostrar as recompensas após este estado e tomar sua média como uma forma de estimar o valor do estado atual.” Aula 4, Tema 1 Considerando o exposto acima e nossos estudos sobre o método de Monte Carlo, podemos afirmar: Nota: 0.0Você não pontuou essa questão A MC de visita única ou de primeira visita (First-Visit MC) estimará o valor do estado seguindo apenas os estados visitados após a primeira visita ao estado ‘s’ seguindo uma política p. Dois métodos de Monte Carlo (MC) são possíveis. First- Visit MC parte de uma única visita ao estado presente. B MC de visita múltipla (Every-Visit MC) leva em conta uma ínfima parte das sequências a partir das visitas possíveis a ‘s’, este método será dito guloso de primeira ordem. C MC de vista múltipla (Myopic MC) estimará o valor do estado seguindo todos os estados visitados, próximos ao estado ‘s’ seguindo uma política p. Você assinalou essa alternativa (C) D Dois métodos de Monte Carlo (MC) são possíveis: Aproximação de política mista por MC (Mystic - MC) e MC de vista múltipla (Myopic MC). E Todas as alternativas estão corretas. Questão 6/10 - Reinforcement Learning Considerando nossos estudos sobre o método de Monte Carlo aplicado à solução do MDP, leia as afirmações abaixo e escolha a única alternativa correta: i.Dois métodos de Monte Carlo (MC) são possíveis: MC de visita única ou de primeira visita (First- Visit MC) e MC de visita múltipla (Every-Visit MC). ii. A otimização da função de valor pode ser feita por MC de duas formas genéricas conforme as buscas são ou não direcionadas por uma política do agente. Desta forma teremos métodos de controle que seguem a política (on-policy) e métodos que não a seguem (off-policy). iii. Os algoritmos de controle on-police são normalmente mais simples e de convergência rápida, em relação a seus irmãos off-police, por este motivo são sempre a primeira opção a considerar. Nota: 10.0 A Apenas I está correta B Apenas III está correta C Apenas I e II estão corretas D Todas estão corretas Você assinalou essa alternativa (D) Você acertou! Dois são os métodos de implementação de MC First-Visit MC e MC de visita múltipla (Every-Visit MC). Quando utilizamos MC para estimar a função de valor podemos seguir ou não uma determinada política, no primeiro caso tangenciaremos a política ótima, mas os algoritmos se tornam mais rápidos. E Nenhuma está correta. Questão 7/10 - Reinforcement Learning Observe o modelo elementar de MLP abaixo: Fonte: Norvig, 2013, pg.637. Considerando a figura acima e supondo que as funções de ativação seguem o modelo proposto por McCulloch e Pits (degrau unitário ou Heaviside), podemos afirmar apenas que: Nota: 10.0 A Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela rede, ocorrerá erro em y5 e y6. B Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela rede, ocorrerá erro apenas em y5. C Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela rede, ocorrerá erro apenas em y6. Você assinalou essa alternativa (C) Você acertou! O cálculo da saída : y5(X1)= f[w3,5 *f(x1*w1,3 + x2*w2,3) + w4,5 *f (x2*w2,4 +x1*w1,4)] = f[1 *f(1,5*1 - 2,5*1) + 1 *f (-2,5*1 +1,5*1)]= 11 como d5(X1)= -1 não há erro e y6(X1)= f[w4,6 *f(x1*w1,4 + x2*w2,4)+ w3,6 *f (x1*w1,3 + x2*w2,3)] = f[1 *f(1,5*1 - 2,5*1) + 1 *f (1,5*1 -2,5*1)]= -1 como d6(X1)=1 então ocorreu erro D Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; 2,5}; d5(X1)= -1 e d6(X1)=1 for passado pela rede, não ocorrerá erro nem y5 tampouco em y6. Questão 8/10 - Reinforcement Learning “ Para que o agente seja capaz de agir inteligentemente em um ambiente desconhecido é necessário a obtenção da função de valor de estado. Como o valor de um estado é composto pela somatória das expectativas de retorno a partir deste estado, podemos imaginar amostrar as recompensas após este estado e tomar sua média como uma forma de estimar o valor do estado atual.” Aula 4, Tema 1 Considerando o exposto acima e nossos estudos sobre o método de Monte Carlo, podemos afirmar: Nota: 10.0 A MC de vista múltipla (Myopic MC) estimará o valor do estado seguindo todos os estados visitados, próximos ao estado ‘s’ seguindo uma política p. B Dois algoritmos de Monte Carlo (MC) são possíveis para o tratamento de MDP. O primeiro que estimará o valor do estado seguindo apenas os estados visitados após a primeira visita ao estado ‘s’ seguindo uma política p, que denominaremos MC de visita única ou de primeira visita (First-Visit MC). Um segundo método que leva em conta todas as sequências a partir de todas as visitas possíveis a ‘s’, este método será dito MC de visita múltipla (Every-Visit MC). Você assinalou essa alternativa (B) Você acertou! Conforme Aula 4, tema 1.1 C A otimização da função de valor pode ser feita por MC de duas formas genéricas conforme as buscas são ou não direcionadas por uma política do agente. Desta forma teremos métodos de controle que seguem a política ditps First-Visit MC e métodos que não a seguem conhecidos como Myopic MC. D A aplicação do método de Monte Carlo on-policy para a aproximação da política ótima utiliza a metodologia de busca cega dita Blind Search. Questão 9/10 - Reinforcement Learning Observe o modelo elementar de neurônio artificial abaixo: Fonte: Haykin, 2011, pg.36. Considerando a figura acima e nossos estudos sobre RNA, podemos afirmar apenas que: Nota: 0.0Você não pontuou essa questão A O conjunto pré axônico é representado pelo vetor de entrada X ={x1 , x2 ,..., xm} B Cada elemento do vetor Y tem um peso neural ‘w’ associado. Este peso simulará a atividade entre neurônios, ou seja, a intensidade da função cerebral, por este motivo recebem o nome de rara intelligentia. C O combinador linear, ou somador, modela o processamento da árvore dendrítica. O resultado do somatório dos produtos de X e W e do bias é dito campo local induzido ou potencial de ativação, vk. O combinador linear soma ao bias os produtos de X e W resultando no campo local induzido. D A função de derivação é uma equação matemática que modela a reação do núcleo celular à resultante dos estímulos de erro produzidos pelo neurônio biológico. E Todas as alternativas estão corretas. Você assinalou essa alternativa (E) Questão 10/10 - Reinforcement Learning “IA conexionista é uma aproximação, por definição, genérica, posto que firma suas bases sobre uma modelagem matemática, não do problema em si, mas da unidade mínima de pensamento, o neurônio. Arquitetada uma rede de neurônios basta treinar tal rede para que nos forneça o resultado que esperamos.” Aula 5 - Conversa Inicial. Considerando o exposto acima e nossos estudos sobre RNA, podemos afirmar apenas que: Nota: 10.0 A Pesos sinápticos modelam a força da conexão entre o sinal de entrada de um neurônio remoto e a média ponderal das saídas anteriores ao axônio proximal. B Backpropagation é uma técnica de treinamento de redes convolucionais não supervisionada que leva em conta a redução do consumo da energia elétrica do processamento computacional para identificar a convergência do treinamento. C Backpropagation é uma técnica de treinamento de redes neurais supervisionada que leva em conta a redução da energia do erro para identificar a convergência do treinamento. Você assinalou essa alternativa (C) Você acertou! BP é um algoritmo supervisionado que ajusta a memória distribuída da rede aos padrões de treinamento. Para verificar se a memória do neurônio ou da RNA aprendeu os padrões verifica-se a somatória quadrática dos erros para estes padrões. D Cada elemento do vetor Y tem um peso neural ‘w’ associado. Este peso simulará a atividade entre neurônios, ou seja, a intensidade da função cerebral, por este motivo recebem o nome de rara intelligentia. E Todas estão corretas. Questão 1/10 - Reinforcement Learning “ Para que o agente seja capaz de agir inteligentemente em um ambiente desconhecido é necessário a obtenção da função de valor de estado. Como o valor de um estado é composto pela somatória das expectativas de retorno a partir deste estado, podemos imaginar amostrar as recompensas após este estado e tomar sua média como uma forma de estimar o valor do estado atual.” Aula 4, Tema 1 Considerando o exposto acima e nossos estudos sobre o método de Monte Carlo, podemos afirmar: Nota: 0.0Você não pontuou essa questão A MC de visita única ou de primeira visita (First-Visit MC) estimará o valor do estado seguindo apenas os estados visitados após a primeira visita ao estado ‘s’ seguindo uma política p. Dois métodos de Monte Carlo (MC) são possíveis. First- Visit MC parte de uma única visita ao estado presente. B MC de visita múltipla (Every-Visit MC) leva em conta uma ínfima parte das sequências a partir das visitas possíveis a ‘s’, este método será dito guloso de primeira ordem. C MC de vista múltipla (Myopic MC) estimará o valor do estado seguindo todos os estados visitados, próximos ao estado ‘s’ seguindo uma política p. D Dois métodos de Monte Carlo (MC) são possíveis: Aproximação de política mista por MC (Mystic - MC) e MC de vista múltipla (Myopic MC). E Todas as alternativas estão corretas. Você assinalou essa alternativa (E) Questão 2/10 - Reinforcement Learning “IA conexionista é uma aproximação, por definição, genérica, posto que firma suas bases sobre uma modelagem matemática, não do problema em si, mas da unidade mínima de pensamento, o neurônio. Arquitetada uma rede de neurônios basta treinar tal rede para que nos forneça o resultado que esperamos.” Aula 5 - Conversa Inicial. Considerando o exposto acima e nossos estudos sobre RNA, podemos afirmar apenas que: Nota: 10.0 A Pesos sinápticos modelam a força da conexão entre o sinal de entrada de um neurônio remoto e a média ponderal das saídas anteriores ao axônio proximal. B Backpropagation é uma técnica de treinamento de redes convolucionais não supervisionada que leva em conta a redução do consumo da energia elétrica do processamento computacional para identificar a convergência do treinamento. C Backpropagation é uma técnica de treinamento de redes neurais supervisionada que leva em conta a redução da energia do erro para identificar a convergência do treinamento. Você assinalou essa alternativa (C) Você acertou! BP é um algoritmo supervisionado que ajusta a memória distribuída da rede aos padrões de treinamento. Para verificar se a memória do neurônio ou da RNA aprendeu os padrões verifica-se a somatória quadrática dos erros para estes padrões. D Cada elemento do vetor Y tem um peso neural ‘w’ associado. Este peso simulará a atividade entre neurônios, ou seja, a intensidade da função cerebral, por este motivo recebem o nome de rara intelligentia. E Todas estão corretas. Questão 3/10 - Reinforcement Learning Observe o modelo elementar de neurônio artificial abaixo: Fonte: Haykin, 2011, pg.36. Considerando a figura acima e supondo se tratar do modelo proposto por McCulloch e Pits em 1943 que utiliza a função de ativação limiar (degrau unitárioou Heaviside), com saída oscilando entre -1 e +1, podemos afirmar apenas que: Nota: 10.0 A Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor do campo local induzido será a somatória de X, ou seja 10. B Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor do campo local induzido será a somatória de W, ou seja 0. C Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} a saída do neurônio (Y) será 1. Você assinalou essa alternativa (C) Você acertou! O campo local será nulo e como a função de ativação é a de Heaviside quando o campo local é igual ou maior que zero a função retorna +1, que será a saída do neurônio (Y). D Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} a saída do neurônio (Y) será -1. Questão 4/10 - Reinforcement Learning “As observações dos primeiros neurologistas determinaram que um neurônio recebe sinais eletroquímicos, de outros neurônios, através de seus dendritos e que transmite o “processamento” dos sinais recebidos através de sua arborização axônica.” Aula 5 - Tema 1.1. Considerando o exposto acima e nossos estudos sobre neurônios biológicos, podemos afirmar apenas que: Nota: 0.0Você não pontuou essa questão A O córtex cerebral é constituído por várias regiões e cada região é composta de neurônios com características biológicas ligeiramente distintas. B Um neurônio pode receber informações de muitos outros neurônios da mesma forma que transmite a síntese destas informações para outra infinidade de pares. C A transmissão do estímulo entre neurônios se dá por pulsos de tensão, originados no núcleo da célula, ditos spikes. Os spikes podem viajar entre conjuntos de neurônios sofrendo ampliação ou decaimento. Você assinalou essa alternativa (C) D As sinapses representam o nível mais fundamental da atividade cerebral. E Todas as alternativas estão corretas. Todas as afirmações estão corretas conforme Aula 5, tema 1.1. Questão 5/10 - Reinforcement Learning “Algoritmos de TD permitem uma aproximação mais genérica do problema de aprendizagem em ambientes mutáveis. Em TD a função de valor V(s) é calculada diretamente a partir do erro de previsões anteriores, livre de modelo, como em Monte Carlo, de forma completamente incremental mas sem a restrição do processo a primeira ordem da cadeia de Marcov. Aula 4 - tema 3 Considerando o exposto acima e nossos estudos sobre diferença temporal, podemos afirmar apenas que: Nota: 0.0Você não pontuou essa questão A O erro por diferença temporal é o fator que ajustará o valor do estado em função das ocorrências anteriores que contribuem para o próximo estado. B O método de diferença temporal passa pela análise dos erros das predições anteriores, ao qual denominaremos erro por diferença temporal, ou erro TD. Você assinalou essa alternativa (B) C Em TD há duas formas diferentes de encarar um problema de predição, a predição de passo único e a de passo múltiplo. Transições de múltiplos passos dependem de uma sequência de informações temporais para que a decisão seja eficiente. D Todas estão corretas. Todas estão corretas conforme aula 4. Questão 6/10 - Reinforcement Learning “Redes neurais artificiais são uma boa aproximação para cálculos mais genéricos de algoritmos de aprendizagem por reforço. As primeiras tentativas neste sentido, entretanto, conservaram a ‘maldição da dimensionalidade” proveniente das soluções simbólicas. A evolução das técnicas conexionistas profundas, que ocorreram concomitantemente às tentativas de aplicação de redes neurais em RL, finalmente suavizaram a maldição.” Aula 6 - Tema 1. Considerando o texto acima e nossos estudos de DRL podemos afirmar: Nota: 10.0 A Redes neurais são treinadas com base em pequenas amostras o que torna os padrões estatisticamente instáveis. Os dados disponíveis em RL são por sua vez volumosos e estáveis, além disso, os modelos não apresentam grande sensibilidade a variações de Q. B A memória de uma rede neural permite a generalização da aprendizagem em ações futuras, quando carregamos a memória da rede com padrões, presume-se que se manterá a memória intacta durante a operação. Esta presunção é especialmente verdadeira para RL. C Neural Fitted Q Interaction (NFQ) é um algoritmo que busca reinplantar a memória do conhecimento futuro. A implementação, dita unusual memory algorithm, parte da ideia de descartar as transições de estado anteriores a cada update. D DQN utiliza o princípio proveniente do NFQ, que resolveu o problema de perda de memória, VGP, memorizando as transições de estado anteriores para reimplantanção. Você assinalou essa alternativa (D) Você acertou! Neural Fitted Q Interaction (NFQ) é um algoritmo que busca restaurar o conhecimento prévio sempre que uma atualização é realizada. No DQN este conceito é usado para a criação da Target Network. E Todas as afirmações anteriores estão corretas. Questão 7/10 - Reinforcement Learning Observe o modelo elementar de neurônio artificial abaixo: Fonte: Haykin, 2011, pg.36. Considerando a figura acima e supondo se tratar do modelo proposto por McCulloch e Pits em 1943 que utiliza a função de ativação limiar (degrau unitário ou Heaviside), com saída oscilando entre -1 e +1, podemos afirmar apenas que: Nota: 0.0Você não pontuou essa questão A Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,0} o valor do campo local induzido será a somatória de X, ou seja 10. B Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {1,1,1,1} o valor do campo local induzido será a somatória de X* W, ou seja 10. O campo local induzido é a somatória dos valores de xi pelo respectivo peso sináptico wi. Assim v=1*1+2*1+3*1+4*1=10. C Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,-1} a saída do neurônio (Y) será 1. Você assinalou essa alternativa (C) D Se o vetor de entrada for dado por X ={x1 , x2 ,..., xm}= {1,2,3,4} e os pesos sinápticos por W ={w1 , w2 ,..., wm}= {0,0,0,1} a saída do neurônio (Y) será -1. Questão 8/10 - Reinforcement Learning Observe o modelo elementar de MLP abaixo: Fonte: Norvig, 2013, pg.637. Considerando a figura acima e supondo que as funções de ativação seguem o modelo proposto por McCulloch e Pits (degrau unitário ou Heaviside), podemos afirmar apenas que: Nota: 0.0Você não pontuou essa questão A Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela rede, ocorrerá erro em y5 e y6. O cálculo da saída : y5(X1)= f[w3,5 *f(x1*w1,3 + x2*w2,3) + w4,5 *f (x2*w2,4 +x1*w1,4)] = f[1 *f(1,5*1 - 2,5*1) + 1 *f (-2,5*1 +1,5*1)]= -1 como d5(X1)= 1 há erro e y6(X1)= f[w4,6 *f(x1*w1,4 + x2*w2,4) + w3,6 *f (x1*w1,3 + x2*w2,3)] = f[1 *f(1,5*1 - 2,5*1) + 1 *f (1,5*1 -2,5*1)]= -1 como d6(X1)=1então, também, ocorreu erro. B Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela rede, ocorrerá erro apenas em y5. C Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela rede, ocorrerá erro apenas em y6. Você assinalou essa alternativa (C) D Supondo que todos os pesos são inicializados em 1, se o Padrão de teste X1= {1,5; -2,5}; d5(X1)= 1 e d6(X1)=1 for passado pela rede, não ocorrerá erro nem y5 tampouco em y6. Questão9/10 - Reinforcement Learning Observe o modelo elementar de neurônio artificial abaixo: Fonte: Haykin, 2011, pg.36. Considerando a figura acima e nossos estudos sobre RNA, podemos afirmar apenas que: Nota: 10.0 A O conjunto pré axônico é representado pelo vetor de entrada X ={x1 , x2 ,..., xm} B Cada elemento do vetor Y tem um peso neural ‘w’ associado. Este peso simulará a atividade entre neurônios, ou seja, a intensidade da função cerebral, por este motivo recebem o nome de rara intelligentia. C O combinador linear, ou somador, modela o processamento da árvore dendrítica. O resultado do somatório dos produtos de X e W e do bias é dito campo local induzido ou potencial de ativação, vk. Você assinalou essa alternativa (C) Você acertou! O combinador linear soma ao bias os produtos de X e W resultando no campo local induzido. D A função de derivação é uma equação matemática que modela a reação do núcleo celular à resultante dos estímulos de erro produzidos pelo neurônio biológico. E Todas as alternativas estão corretas. Questão 10/10 - Reinforcement Learning “Redes neurais artificiais são uma boa aproximação para cálculos mais genéricos de algoritmos de aprendizagem por reforço. As primeiras tentativas neste sentido, entretanto, conservaram a ‘maldição da dimensionalidade” proveniente das soluções simbólicas. A evolução das técnicas conexionistas profundas, que ocorreram concomitantemente às tentativas de aplicação de redes neurais em RL, finalmente suavizaram a maldição.” Aula 6 - Tema 1. Considerando o texto acima e nossos estudos de DRL podemos afirmar: Nota: 0.0Você não pontuou essa questão A Redes neurais são treinadas com base em coleções numerosas de dados o que torna os padrões estatisticamente estáveis. Os dados disponíveis em RL são ruidosos, incompletos e esparsos, disponíveis somente após a interação temporal com o meio, além disso, os modelos apresentam grande sensibilidade a variações de Q. B A memória de uma rede neural permite a generalização da aprendizagem em ações futuras, porém, quando carregamos a memória da rede com padrões, presume-se que se manterá a memória intacta durante a operação. Esta presunção não é verdadeira para RL e isto é um desafio para a aplicação de RNAs em RL. C Neural Fitted Q Interation (NFQ) é um algoritmo que busca restaurar o conhecimento prévio sempre que uma atualização é realizada. A implementação parte da ideia de memorizar as transições de estado anteriores, reimplantando-as a cada update. D DQN utiliza o princípio proveniente do NFQ, que resolveu o problema de perda de memória, VGP, memorizando as transições de estado anteriores para reimplantanção. Você assinalou essa alternativa (D) E Todas as afirmações anteriores estão corretas. Conforme Aula 6, temas 1 e 2.