Buscar

“O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Quando este fator de desconto é próximo ...

“O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Quando este fator de desconto é próximo de 0, as recompensas no futuro distante são vistas como insignificantes”. Norvig (2013, pg. 566). Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar: A Uma política que conduza do estado atual si ao estado desejado com valor U3 é melhor que outra política que conduz si ao mesmo estado desajado, com valor U2, desde que U3*2 = U2*3. B O problema proposto por Markov é encontrar a política ótima, ou seja, aquela combinação de ações que conduz o agente do estado i para o estado j, com a maior capacidade de obter recompensas da cadeia de Markov, desde que a utilidade média seja negativa. C Uma política que conduza do estado atual si ao estado desejado com valor U2 é melhor que outra política que conduz si ao mesmo estado desajado, com valor U3, desde que U1-3 = U2. D Em políticas impróprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. E A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduziram até o estado que o antecede se V(s)<6.

Respostas

25 pessoas visualizaram e tiraram suas dúvidas aqui
User badge image

Ed Verified user icon

Vamos analisar as alternativas: A) Uma política que conduza do estado atual si ao estado desejado com valor U3 é melhor que outra política que conduz si ao mesmo estado desajado, com valor U2, desde que U3*2 = U2*3. - Esta afirmação está incorreta, pois a relação matemática apresentada não condiz com a teoria de MDP. B) O problema proposto por Markov é encontrar a política ótima, ou seja, aquela combinação de ações que conduz o agente do estado i para o estado j, com a maior capacidade de obter recompensas da cadeia de Markov, desde que a utilidade média seja negativa. - Esta afirmação está incorreta, pois a utilidade média negativa não é um requisito para a política ótima. C) Uma política que conduza do estado atual si ao estado desejado com valor U2 é melhor que outra política que conduz si ao mesmo estado desajado, com valor U3, desde que U1-3 = U2. - Esta afirmação está incorreta, pois a relação matemática apresentada não está de acordo com os conceitos de MDP. D) Em políticas impróprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. - Esta afirmação está incorreta, pois o fator de desconto temporal não torna a utilidade mensurável, mas sim influencia na preferência por recompensas futuras. E) A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduziram até o estado que o antecede se V(s)<6. - Esta afirmação está incorreta, pois a utilidade de um estado atual em MDP não é calculada dessa forma. Portanto, nenhuma das alternativas está correta em relação ao exposto sobre MDP e fator de desconto.

0
Dislike0

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Responda

SetasNegritoItálicoSublinhadoTachadoCitaçãoCódigoLista numeradaLista com marcadoresSubscritoSobrescritoDiminuir recuoAumentar recuoCor da fonteCor de fundoAlinhamentoLimparInserir linkImagemFórmula

Para escrever sua resposta aqui, entre ou crie uma conta

User badge image

Mais conteúdos dessa disciplina