Ed
anteontem
Vamos analisar cada uma das alternativas em relação ao que sabemos sobre MDP (Processos de Decisão de Markov) e o fator de desconto. A) Em políticas próprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. - Essa afirmação não é precisa, pois o fator de desconto é usado para calcular a utilidade esperada, mas não necessariamente torna a utilidade mensurável. B) A utilidade de um estado qualquer pode ser calculada pelo produtório das recompensas que o conduzirão até o estado destino. - Essa afirmação não está correta, pois a utilidade é geralmente calculada como a soma das recompensas descontadas ao longo do tempo, não como um produtório. C) Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2. - Essa afirmação está correta. Se U1 é maior que U2, isso significa que a política p1 é preferível à p2, pois gera maior utilidade. D) Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 não é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2. - Essa afirmação é incorreta, pois contradiz a lógica de comparação de utilidades. Portanto, a alternativa correta é: C.