Respostas
Vamos analisar as alternativas: A) Uma política que conduza do estado atual si ao estado desejado com valor U3 é melhor que outra política que conduz si ao mesmo estado desajado, com valor U2, desde que U3*2 = U2*3. - Esta afirmação está incorreta, pois a relação matemática apresentada não condiz com a teoria de MDP. B) O problema proposto por Markov é encontrar a política ótima, ou seja, aquela combinação de ações que conduz o agente do estado i para o estado j, com a maior capacidade de obter recompensas da cadeia de Markov, desde que a utilidade média seja negativa. - Esta afirmação está incorreta, pois a utilidade média negativa não é um requisito para a política ótima. C) Uma política que conduza do estado atual si ao estado desejado com valor U2 é melhor que outra política que conduz si ao mesmo estado desajado, com valor U3, desde que U1-3 = U2. - Esta afirmação está incorreta, pois a relação matemática apresentada não está de acordo com os conceitos de MDP. D) Em políticas impróprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. - Esta afirmação está incorreta, pois o fator de desconto temporal não torna a utilidade mensurável, mas sim influencia na preferência por recompensas futuras. E) A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduziram até o estado que o antecede se V(s)<6. - Esta afirmação está incorreta, pois a utilidade de um estado atual em MDP não é calculada dessa forma. Portanto, nenhuma das alternativas está correta em relação ao exposto sobre MDP e fator de desconto.
Responda
Para escrever sua resposta aqui, entre ou crie uma conta