Ler em voz alta “O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Quando este fator de desconto é próximo de 0, as recompensas no futuro distante são vistas como insignificantes”. Norvig (2013, pg. 566). Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar: A Em políticas próprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. B A utilidade de um estado qualquer pode ser calculada pelo produtório das recompensas que o conduzirão até o estado destino. C Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1U2. D Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 não é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1U2.

Question

Ler em voz alta  “O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Quando este fator de de...

Ed · Answer

Vamos analisar cada uma das alternativas em relação ao que sabemos sobre MDP (Processos de Decisão de Markov) e o fator de desconto.

A) Em políticas próprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. 
- Essa afirmação não é precisa, pois o fator de desconto é usado para calcular a utilidade esperada, mas não necessariamente torna a utilidade mensurável.

B) A utilidade de um estado qualquer pode ser calculada pelo produtório das recompensas que o conduzirão até o estado destino.
- Essa afirmação não está correta, pois a utilidade é geralmente calculada como a soma das recompensas descontadas ao longo do tempo, não como um produtório.

C) Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2.
- Essa afirmação está correta. Se U1 é maior que U2, isso significa que a política p1 é preferível à p2, pois gera maior utilidade.

D) Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 não é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2.
- Essa afirmação é incorreta, pois contradiz a lógica de comparação de utilidades.

Portanto, a alternativa correta é: **C**.

Inteligência Artificial

Respostas

Ainda com dúvidas?

Mais conteúdos dessa disciplina