“O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Quando este fator de desconto é próximo ...

Question

“O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Quando este fator de desconto é próximo ...

“O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Quando este fator de desconto é próximo de 0, as recompensas no futuro distante são vistas como insignificantes”. Norvig (2013, pg. 566). Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar: A Uma política que conduza do estado atual si ao estado desejado com valor U3 é melhor que outra política que conduz si ao mesmo estado desajado, com valor U2, desde que U3*2 = U2*3. B O problema proposto por Markov é encontrar a política ótima, ou seja, aquela combinação de ações que conduz o agente do estado i para o estado j, com a maior capacidade de obter recompensas da cadeia de Markov, desde que a utilidade média seja negativa. C Uma política que conduza do estado atual si ao estado desejado com valor U2 é melhor que outra política que conduz si ao mesmo estado desajado, com valor U3, desde que U1-3 = U2. D Em políticas impróprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. E A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduziram até o estado que o antecede se V(s)<6.

Engenharia de Segurança do Trabalho

•

UNIP

Alvaro Daboleia

05/05/2024

Ed · Answer

Vamos analisar as alternativas:

A) Uma política que conduza do estado atual si ao estado desejado com valor U3 é melhor que outra política que conduz si ao mesmo estado desajado, com valor U2, desde que U3*2 = U2*3. - Esta afirmação está incorreta, pois a relação matemática apresentada não condiz com a teoria de MDP.

B) O problema proposto por Markov é encontrar a política ótima, ou seja, aquela combinação de ações que conduz o agente do estado i para o estado j, com a maior capacidade de obter recompensas da cadeia de Markov, desde que a utilidade média seja negativa. - Esta afirmação está incorreta, pois a utilidade média negativa não é um requisito para a política ótima.

C) Uma política que conduza do estado atual si ao estado desejado com valor U2 é melhor que outra política que conduz si ao mesmo estado desajado, com valor U3, desde que U1-3 = U2. - Esta afirmação está incorreta, pois a relação matemática apresentada não está de acordo com os conceitos de MDP.

D) Em políticas impróprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. - Esta afirmação está incorreta, pois o fator de desconto temporal não torna a utilidade mensurável, mas sim influencia na preferência por recompensas futuras.

E) A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduziram até o estado que o antecede se V(s)

“O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Quando este fator de desconto é próximo ...

Engenharia de Segurança do Trabalho

UNIP

Respostas

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Responda

Mais conteúdos dessa disciplina

Perguntas dessa disciplina

Questão 6/10 - Reinforcement Learning “O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Q...

Trabalham a favor da nossa sobrevivência e, junto com o sistema de recompensas, têm a função fundamental de avaliar a relevância (se é ou não impor...

Como a recompensa e reconhecimento por práticas seguras contribuem para um clima organizacional positivo? A) Desconsiderando a contribuição de rec...

Sobre a teoria clássica, é correto afirmar: Escolha uma opção: a. A Teoria da Máquina considera a organização, baseando-se em recompensas econômic...

Conteúdos escolhidos para você

Fatores ergonômicos

01 Descomplica O Ambiente E As Doenças Laborais

05 Descomplica O Ambiente E As Doenças Laborais

03 Descomplica O Ambiente E As Doenças Laborais