Buscar

Questão 4/10 - Reinforcement Learning “Bellmam calcula o valor de cada estado possível ao agente a partir do último estado, ou estado destino.” Au...

Questão 4/10 - Reinforcement Learning “Bellmam calcula o valor de cada estado possível ao agente a partir do último estado, ou estado destino.” Aula 2, Tema 5. Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar que estão corretas apenas as sentenças: I. O problema proposto por Markov é encontrar a política ótima, ou seja, aquela combinação de ações que conduz o agente do estado i para o estado j, com a maior utilidade possível. II.A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduzirão até o estado destino. III.Um agente inteligente pode guiar suas ações unicamente pela análise dos valores dos estados adjacentes ao estado atual, seguindo o paradigma proposto por Markov, em busca da recompensa final Rf A Apenas I está correta B Apenas II está correta C Apenas I e II estão corretas D Apenas II e III estão corretas E Todas estão corretas
Ainda não temos respostas

Ainda não temos respostas aqui, seja o primeiro!

Tire dúvidas e ajude outros estudantes

Responda

SetasNegritoItálicoSublinhadoTachadoCitaçãoCódigoLista numeradaLista com marcadoresSubscritoSobrescritoDiminuir recuoAumentar recuoCor da fonteCor de fundoAlinhamentoLimparInserir linkImagemFórmula

Para escrever sua resposta aqui, entre ou crie uma conta

User badge image

Mais conteúdos dessa disciplina