Respostas
Vamos analisar cada alternativa: A) Em políticas próprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. - Esta afirmação está incorreta, pois o fator de desconto temporal não torna a utilidade mensurável. Portanto, a alternativa A está errada. B) A utilidade de um estado qualquer pode ser calculada pelo produtório das recompensas que o conduzirão até o estado destino. - Esta afirmação está incorreta, pois a utilidade de um estado não é calculada pelo produtório das recompensas. Assim, a alternativa B está errada. C) Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2. - Esta afirmação está correta de acordo com os princípios de MDP. Portanto, a alternativa C está correta. D) Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 não é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2. - Esta afirmação está incorreta, pois a política p1 é considerada melhor que a política p2 se U1 for maior que U2. Portanto, a alternativa D está errada. Assim, a resposta correta é a alternativa C.
Responda
Para escrever sua resposta aqui, entre ou crie uma conta