Questão 6/10 - Reinforcement Learning

“O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Q...

Question

Questão 6/10 - Reinforcement Learning

“O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Quando este fator de desconto é próximo de 0, as recompensas no futuro distante são vistas como insignificantes”. Norvig (2013, pg. 566).
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar:

A) Em políticas próprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável.

B) A utilidade de um estado qualquer pode ser calculada pelo produtório das recompensas que o conduzirão até o estado destino.

C) Uma  política p1 que conduza, após um tempo t, do estado atual  si  ao estado desejado com valor U1 é melhor que a política p2 que conduz  si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2.

D) Uma  política p1 que conduza, após um tempo t, do estado atual  si  ao estado desejado com valor U1 não é melhor que a política p2 que conduz  si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2.

Ed · Answer

Vamos analisar cada alternativa:

A) Em políticas próprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. - Esta afirmação está incorreta, pois o fator de desconto temporal não torna a utilidade mensurável. Portanto, a alternativa A está errada.

B) A utilidade de um estado qualquer pode ser calculada pelo produtório das recompensas que o conduzirão até o estado destino. - Esta afirmação está incorreta, pois a utilidade de um estado não é calculada pelo produtório das recompensas. Assim, a alternativa B está errada.

C) Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2. - Esta afirmação está correta de acordo com os princípios de MDP. Portanto, a alternativa C está correta.

D) Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 não é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2. - Esta afirmação está incorreta, pois a política p1 é considerada melhor que a política p2 se U1 for maior que U2. Portanto, a alternativa D está errada.

Assim, a resposta correta é a alternativa C.

Questão 6/10 - Reinforcement Learning “O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Q...

Engenharia de Segurança do Trabalho

UNINTER

Respostas

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Responda

Mais conteúdos dessa disciplina