Buscar

“A independência do futuro em relação ao passado não é plena. Por este motivo a hipótese de Markov propõe a previsibilidade da ação futura em funç...

 “A independência do futuro em relação ao passado não é plena. Por este motivo a hipótese de Markov propõe a previsibilidade da ação futura em função de uma quantidade finita de ações/resultados anteriores e não somente do estado presente.” Aula 2, Tema 3. 

Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar:

A- Se a previsibilidade do próximo estado depender do estado atual e do que o antecede apenas, não teremos um processo de Markov e precisaremos abandonar o uso de algoritmos de RL.  

B- A ênfase na dependência singular do estado atual levou a se chamar as transições entre estados, cuja dependência do passado seja desprezível de hipóteses de Bellman sem transição.

C- A cada ação realizada, o agente pode receber um feedback do meio, que chamaremos de recompensa. Esta recompensa é um valor numérico qualquer e é proporcional a assertividade do resultado em relação ao objetivo da política do agente.

D- A ideia da recompensa simula a reação newtoniana do meio a uma ação qualquer: a toda ação ocorre uma reação de mesma intensidade e sentido contrário à ação.

Respostas

User badge image

Ed Verified user icon

Você precisa criar uma nova pergunta.

0
Dislike0

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Responda

SetasNegritoItálicoSublinhadoTachadoCitaçãoCódigoLista numeradaLista com marcadoresSubscritoSobrescritoDiminuir recuoAumentar recuoCor da fonteCor de fundoAlinhamentoLimparInserir linkImagemFórmula

Para escrever sua resposta aqui, entre ou crie uma conta

User badge image