Buscar

Questão 9/10 - Reinforcement Learning ” A aproximação mais comum para a solução do MDP se dá pela programação dinâmica, embora soluções lineares ex...

Questão 9/10 - Reinforcement Learning ” A aproximação mais comum para a solução do MDP se dá pela programação dinâmica, embora soluções lineares existam. Bellman propôs que o problema seja quebrado em segmentos de problema, resolvemos cada segmento de forma independente e armazenamos o algoritmo de solução do segmento, a cada nova aparição de um problema com o mesmo segmento podemos reutilizar o algoritmo.” Aula 3, Tema 1. Considerando o exposto acima e o que estudamos sobre a solução do MDP, podemos afirmar: A O equacionamento matemático do modelo ótimo, que soluciona o processo decisório para ambientes estocásticos proposto por Markov, passa pela escolha aleatória de valores máximos das funções de valor de estado e mínimos de valor de ação. B No método DP de iteração de valor, não há um ponto definido de parada para as iterações de Q. C Uma possibilidade alternativa para o cálculo da melhor política é partirmos de uma política ótima e, então, iteramos novas políticas até descartar a melhor delas. D HMM - Hidden Markov Models, são ditos métodos ocultos (hidden em ingles) porque tentam esconder o valor máximo da incerteza multivariada sem considerar Qmax.