Buscar

Questão 6/10 - Reinforcement Learning “O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Q...

Questão 6/10 - Reinforcement Learning “O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Quando este fator de desconto é próximo de 0, as recompensas no futuro distante são vistas como insignificantes”. Norvig (2013, pg. 566). Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar: A) Em políticas próprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. B) A utilidade de um estado qualquer pode ser calculada pelo produtório das recompensas que o conduzirão até o estado destino. C) Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2. D) Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 não é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2.

Respostas

User badge image

Ed Verified user icon

Vamos analisar cada alternativa: A) Em políticas próprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. - Esta afirmação está incorreta, pois o fator de desconto temporal não torna a utilidade mensurável. Portanto, a alternativa A está errada. B) A utilidade de um estado qualquer pode ser calculada pelo produtório das recompensas que o conduzirão até o estado destino. - Esta afirmação está incorreta, pois a utilidade de um estado não é calculada pelo produtório das recompensas. Assim, a alternativa B está errada. C) Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2. - Esta afirmação está correta de acordo com os princípios de MDP. Portanto, a alternativa C está correta. D) Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 não é melhor que a política p2 que conduz si ao mesmo estado, no mesmo intervalo t, com valor U2, se U1>U2. - Esta afirmação está incorreta, pois a política p1 é considerada melhor que a política p2 se U1 for maior que U2. Portanto, a alternativa D está errada. Assim, a resposta correta é a alternativa C.

1
Dislike0

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Responda

SetasNegritoItálicoSublinhadoTachadoCitaçãoCódigoLista numeradaLista com marcadoresSubscritoSobrescritoDiminuir recuoAumentar recuoCor da fonteCor de fundoAlinhamentoLimparInserir linkImagemFórmula

Para escrever sua resposta aqui, entre ou crie uma conta

User badge image

Mais conteúdos dessa disciplina