Buscar

Reinforcement Learning em MDP


Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Questão 1/10 - Reinforcement Learning 
 “Bellmam calcula o valor de cada estado possível ao agente a partir do último estado, ou estado destino.” Aula 2, Tema 5. 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar que estão corretas apenas as sentenças: 
 
I. O problema proposto por Markov é encontrar a política ótima, ou seja, aquela combinação de ações que conduz o agente do estado i para o 
estado j, com a maior utilidade possível. 
 
II.A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduzirão até o estado destino. 
III.Um agente inteligente pode guiar suas ações unicamente pela análise dos valores dos estados adjacentes ao estado atual, seguindo o 
paradigma proposto por Markov, em busca da recompensa final Rf 
Nota: 0.0Você não pontuou essa questão 
 
A Apenas I está correta 
 
B Apenas II está correta 
 
C Apenas I e II estão corretas 
Você assinalou essa alternativa (C) 
 
D Apenas II e III estão corretas 
 
E Todas estão corretas 
A utilidade máxima é obtida pela política ótima. A utilidade futura é a expectativa matemática das recompensas. V(s) é uma função que indica o valor de cada estado conforme a utilidade futura deste 
estado. 
 
Questão 2/10 - Reinforcement Learning 
“A independência do futuro em relação ao passado não é plena. Por este motivo a hipótese de Markov propõe a previsibilidade da ação futura 
em função de uma quantidade finita de ações/resultados anteriores e não somente do estado presente.” Aula 2, Tema 3. 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar que estão corretas apenas as sentenças: 
 
I. As recompensas podem qualificar as tomadas de decisão e assim permitir ao agente avaliar a sua política atual ou comparar políticas, mas 
também percebemos que o valor instantâneo da recompensa não é capaz de traduzir a eficiência da política como um todo. 
 
II. A ênfase na dependência singular do estado atual, entretanto, levou a se chamar as transições entre estados, cuja dependência do passado 
seja desprezível de transições markesianas de primeira ordem. 
 
III. A equação que define a utilidade é composta pela soma das recompensas obtidas nas transições de estado. 
 
IV. Políticas impróprias são aquelas para as quais há um estado inicial e final definidos e alcançáveis. 
 
Nota: 0.0Você não pontuou essa questão 
 
A Apenas I está correta 
 
B Apenas IV está correta 
 
C Apenas I, II e IV estão corretas 
Você assinalou essa alternativa (C) 
 
D Apenas I, II e III estão corretas 
Recompensas nos permitem avaliar a assertividade da ação, mas para avaliar a política precisaremos do conceito de utilidade. A ordem da cadeia de markov está vinculada ao número de eventos 
pregressos necessários para a previsão do estado futuro. A utilidade é, conceitualmente, a soma das recompensas entre dois estados. 
 
E Todas estão corretas. 
 
Questão 3/10 - Reinforcement Learning 
 “Quando um agente enfrenta um meio estocástico não há como tomar decisões sem que certa dose de incerteza esteja presente. Isto ocorre 
porque, mesmo que toda informação das decisões passadas esteja disponível no momento da decisão, como o meio muda, a ação poderá ter 
consequências diversas daquelas históricas.” Aula 2, Tema 3. 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar: 
Nota: 10.0 
 
A Segundo as conclusões de Markov o próximo estado do agente pode ser previsto, basicamente, a partir do estado atual ou de um número limitado de estados anteriores. 
Você assinalou essa alternativa (A) 
Você acertou! 
 Makcov concluiu que a dependência do estado futuro é baixa em relação ao passado mas alta em relação ao estado presente. 
 
B As mudanças do meio não são estocásticas, assim, não serão gradativas e nem possuirão previsibilidade, o resultado de uma ação, mesmo no meio estocástico, tende a se 
divergir do pretendido, do ponto de vista estatístico. 
 
C Markov, divergiu das redes bayesinas, ao percebeu que a previsibilidade do resultado da ação futura independe da análise de uma quantidade máxima de ações/resultados 
anteriores, segundo a variância do erro. 
 
D O futuro do agente é dependente do passado. Markov então propôs uma corrente determinística de eventos aleatórios como solução para o problema da previsibilidade dita 
cadeia de Bellman. 
 
Questão 4/10 - Reinforcement Learning 
A tabela abaixo demonstra as relações entre Estado, Ação e Q para um ambiente de RL: 
 
 
Observando a tabela e considerando as equações de Bellman podemos afirmar: 
Nota: 0.0Você não pontuou essa questão 
 
A O ação de maior valor no estado A é “esquerda” 
 
B O ação de maior valor no estado C é “esquerda” 
 
C O ação de menor valor no estado B é “esquerda” 
Você assinalou essa alternativa (C) 
 
D O ação de maior valor no estado B é “esquerda” 
o maior valor de Q define a ação de maior valor . 
 
Questão 5/10 - Reinforcement Learning 
 “Quando um agente enfrenta um meio estocástico não há como tomar decisões sem que certa dose de incerteza esteja presente. Isto ocorre 
porque, mesmo que toda informação das decisões passadas esteja disponível no momento da decisão, como o meio muda, a ação poderá ter 
consequências diversas daquelas históricas.” Aula 2, Tema 3. 
Considerando o exposto acima e o estudamos sobre MDP, podemos afirmar: 
Nota: 10.0 
 
A As mudanças do meio não são estocásticas, assim, não serão gradativas e nem possuirão previsibilidade, o resultado de uma ação, mesmo no meio estocástico, tende a se 
divergir do pretendido, do ponto de vista estatístico. 
 
B As mudanças do meio não são determinísticas mas pode-se supor que sejam gradativas e possuam certa previsibilidade, assim, o resultado de uma ação, mesmo no meio 
estocástico, tende a se aproximar do pretendido, do ponto de vista estatístico. 
Você assinalou essa alternativa (B) 
Você acertou! 
Em um meio real, ou próximo a ele, as ações nem sempre tem o resultado esperado, mas tendem, estatisticamente, a ter. 
 
C Markov, ao analisar as redes bayesinas, percebeu que a previsibilidade do resultado da ação presente depende da análise de uma quantidade infinita de ações/resultados 
posteriores, dita meta-utilidade. 
 
D Segundo as conclusões de Markov estado do agente não pode ser previsto, basicamente porque , a partir do estado atual, não há um número limitado de estados anteriores. 
 
Questão 6/10 - Reinforcement Learning 
 “O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Quando este fator de 
desconto é próximo de 0, as recompensas no futuro distante são vistas como insignificantes”. Norvig (2013, pg. 566). 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar: 
Nota: 10.0 
 
A Em políticas próprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. 
 
B A utilidade de um estado qualquer pode ser calculada pelo produtório das recompensas que o conduzirão até o estado destino. 
 
C Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 é melhor que a política p2 que conduz si ao mesmo estado, no mesmo 
intervalo t, com valor U2, se U1>U2. 
Você assinalou essa alternativa (C) 
Você acertou! 
O valor da utilidade pode ser usado como forma de comparar políticas. 
 
D Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 não é melhor que a política p2 que conduz si ao mesmo estado, no 
mesmo intervalo t, com valor U2, se U1>U2. 
 
Questão 7/10 - Reinforcement Learning 
A tabela abaixo demonstra as relações entre Estado, Ação e Q para um ambiente de RL: 
 
 
 
Observando a tabela e considerando as equações de Bellman podemos afirmar: 
Nota: 10.0 
 
A O valor do estado A, V(A)=0,99-0,43 
 
B O valor do estado C, V(C)=0,3 
Você assinalou essa alternativa (B) 
Você acertou! 
o valor de um estado é dado máximo valorde ação daquele estado. 
 
C O valor do estado A, V(A)=-0,43 
 
D O valor do estado C, V(C)=0,3-0,1 
 
E O valor do estado B, V(C)=0,99 
 
Questão 8/10 - Reinforcement Learning 
” A aproximação mais comum para a solução do MDP se dá pela programação dinâmica, embora soluções lineares existam. Bellman propôs 
que o problema seja quebrado em segmentos de problema, resolvemos cada segmento de forma independente e armazenamos o algoritmo de 
solução do segmento, a cada nova aparição de um problema com o mesmo segmento podemos reutilizar o algoritmo.” Aula 3, Tema 1. 
Considerando o exposto acima e o que estudamos sobre a solução do MDP, podemos afirmar: 
Nota: 0.0Você não pontuou essa questão 
 
A O equacionamento matemático proposto por Markov, elimina as funções de valor de estado e de valor de ação substituindo-as pela constante de Bellman. 
 
B Uma possibilidade alternativa para o cálculo da melhor política é partirmos de uma política aleatória e iteramos novas políticas até encontrar a pior delas, assim descartamos o 
valor de Qmax que prejudica o cálculo de V(S). 
 
C Os Modelos Ocultos de Markov (HMM - Hidden Markov Models, em inglês) tentam sintetizar incertezas multivariadas em uma única supervariável estocástica. 
 Os algoritmos HMM criam uma supervariável que expressa, de maneira única, o total das incertezas do meio. 
 
D A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduziram até o estado que o antecede se V(s)<6. 
 
E Nenhuma das alternativas está correta. 
Você assinalou essa alternativa (E) 
 
Questão 9/10 - Reinforcement Learning 
” A aproximação mais comum para a solução do MDP se dá pela programação dinâmica, embora soluções lineares existam. Bellman propôs 
que o problema seja quebrado em segmentos de problema, resolvemos cada segmento de forma independente e armazenamos o algoritmo de 
solução do segmento, a cada nova aparição de um problema com o mesmo segmento podemos reutilizar o algoritmo.” Aula 3, Tema 1. 
Considerando o exposto acima e o que estudamos sobre a solução do MDP, podemos afirmar: 
Nota: 0.0Você não pontuou essa questão 
 
A O equacionamento matemático do modelo ótimo, que soluciona o processo decisório para ambientes estocásticos proposto por Markov, passa pela escolha aleatória de valores 
máximos das funções de valor de estado e mínimos de valor de ação. 
 
B No método DP de iteração de valor, não há um ponto definido de parada para as iterações de Q. 
 O ponto de parada será definido pela estabilidade de Q, normalmente considera-se estável Q se a variação entre iterações for menor que 0,01%. 
 
C Uma possibilidade alternativa para o cálculo da melhor política é partirmos de uma política ótima e, então, iteramos novas políticas até descartar a melhor delas. 
Você assinalou essa alternativa (C) 
 
D HMM - Hidden Markov Models, são ditos métodos ocultos (hidden em ingles) porque tentam esconder o valor máximo da incerteza multivariada sem considerar Qmax. 
 
Questão 10/10 - Reinforcement Learning 
“Quando um agente enfrenta um meio estocástico não há como tomar decisões sem que certa dose de incerteza esteja presente. Isto ocorre 
porque, mesmo que toda informação das decisões passadas esteja disponível no momento da decisão, como o meio muda, a ação poderá ter 
consequências diversas daquelas históricas.” Aula 2, Tema 3. 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar que estão corretas apenas as sentenças: 
I. O futuro do agente é condicionalmente independente do passado. Markov então propôs uma corrente de eventos como solução para o 
problema da previsibilidade dita cadeia de Markov. 
II. Markov, ao analisar as redes bayesinas, percebeu que a previsibilidade do resultado da ação futura depende da análise de uma quantidade 
finita de ações/resultados anteriores. 
 
III. Markov, ao analisar as redes bayesinas, percebeu que a previsibilidade do resultado da ação presente depende da análise de uma 
quantidade infinita de ações/resultados posteriores, dita meta-utilidade. 
 
IV. Bellman discordou de Marcov ao propor uma cadeia mais próxima do previsto por Bayes 
Nota: 10.0 
 
A Apenas I está correta 
 
B Apenas IV está correta 
 
C Apenas I e II estão corretas 
Você assinalou essa alternativa (C) 
Você acertou! 
 Marcov comprovou a baixa dependência do futuro em relação ao passado, o fator de desconto temporal é a forma matemática de representar esta independência relativa. 
 
D Apenas II e IV estão corretas 
 
E Todas estão corretas 
 
 
 
 
 
 
 
Questão 1/10 - Reinforcement Learning 
“A independência do futuro em relação ao passado não é plena. Por este motivo a hipótese de Markov propõe a previsibilidade da ação futura 
em função de uma quantidade finita de ações/resultados anteriores e não somente do estado presente.” Aula 2, Tema 3. 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar que estão corretas apenas as sentenças: 
 
I. As recompensas podem qualificar as tomadas de decisão e assim permitir ao agente avaliar a sua política atual ou comparar políticas, mas 
também percebemos que o valor instantâneo da recompensa não é capaz de traduzir a eficiência da política como um todo. 
 
II. A ênfase na dependência singular do estado atual, entretanto, levou a se chamar as transições entre estados, cuja dependência do passado 
seja desprezível de transições markesianas de primeira ordem. 
 
III. A equação que define a utilidade é composta pela soma das recompensas obtidas nas transições de estado. 
 
IV. Políticas impróprias são aquelas para as quais há um estado inicial e final definidos e alcançáveis. 
 
Nota: 10.0 
 
A Apenas I está correta 
 
B Apenas IV está correta 
 
C Apenas I, II e IV estão corretas 
 
D Apenas I, II e III estão corretas 
Você assinalou essa alternativa (D) 
Você acertou! 
Recompensas nos permitem avaliar a assertividade da ação, mas para avaliar a política precisaremos do conceito de utilidade. A ordem da cadeia de markov está vinculada ao número de eventos 
pregressos necessários para a previsão do estado futuro. A utilidade é, conceitualmente, a soma das recompensas entre dois estados. 
 
E Todas estão corretas. 
 
Questão 2/10 - Reinforcement Learning 
 “A independência do futuro em relação ao passado não é plena. Por este motivo a hipótese de Markov propõe a previsibilidade da ação futura 
em função de uma quantidade finita de ações/resultados anteriores e não somente do estado presente.” Aula 2, Tema 3. 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar: 
Nota: 10.0 
 
A A cada ação realizada, o agente pode receber um feedback do meio, que chamaremos de recompensa, mas esta recompensa é um valor subjetivo, desvinculado do resultado 
em relação ao objetivo, desta forma, exigindo matemática complexa de análise. 
 
B A ênfase por parte de Markov na dependência singular do estado atual levou ao abandono das transições markesianas de primeira ordem por serem desprezíveis. 
 
C As recompensas podem qualificar as tomadas de decisão mas não permitemao agente avaliar a sua política atual nem mesmo comparar políticas, isto só é possível pelo valor 
instantâneo d o erro quadrático em gradiente descendente. 
 
D Se a previsibilidade do próximo estado depender do estado atual e do que o antecede apenas, teremos um processo de Markov de segunda ordem. 
Você assinalou essa alternativa (D) 
Você acertou! 
A ordem da cadeia de markov está vinculada ao número de eventos pregressos necessários para a previsão do estado futuro. 
 
Questão 3/10 - Reinforcement Learning 
” A aproximação mais comum para a solução do MDP se dá pela programação dinâmica, embora soluções lineares existam. Bellman propôs 
que o problema seja quebrado em segmentos de problema, resolvemos cada segmento de forma independente e armazenamos o algoritmo de 
solução do segmento, a cada nova aparição de um problema com o mesmo segmento podemos reutilizar o algoritmo.” Aula3, Tema 1. 
Considerando o exposto acima e o que estudamos sobre a solução do MDP, podemos afirmar: 
Nota: 10.0 
 
A O equacionamento matemático proposto por Markov, elimina as funções de valor de estado e de valor de ação substituindo-as pela constante de Bellman. 
 
B Uma possibilidade alternativa para o cálculo da melhor política é partirmos de uma política aleatória e iteramos novas políticas até encontrar a pior delas, assim descartamos o 
valor de Qmax que prejudica o cálculo de V(S). 
 
C Os Modelos Ocultos de Markov (HMM - Hidden Markov Models, em inglês) tentam sintetizar incertezas multivariadas em uma única supervariável estocástica. 
Você assinalou essa alternativa (C) 
Você acertou! 
 Os algoritmos HMM criam uma supervariável que expressa, de maneira única, o total das incertezas do meio. 
 
D A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduziram até o estado que o antecede se V(s)<6. 
 
E Nenhuma das alternativas está correta. 
 
Questão 4/10 - Reinforcement Learning 
 “Bellmam calcula o valor de cada estado possível ao agente a partir do último estado, ou estado destino.” Aula 2, Tema 5. 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar que estão corretas apenas as sentenças: 
 
I. O problema proposto por Markov é encontrar a política ótima, ou seja, aquela combinação de ações que conduz o agente do estado i para o 
estado j, com a maior utilidade possível. 
 
II.A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduzirão até o estado destino. 
III.Um agente inteligente pode guiar suas ações unicamente pela análise dos valores dos estados adjacentes ao estado atual, seguindo o 
paradigma proposto por Markov, em busca da recompensa final Rf 
Nota: 0.0Você não pontuou essa questão 
 
A Apenas I está correta 
 
B Apenas II está correta 
 
C Apenas I e II estão corretas 
 
D Apenas II e III estão corretas 
Você assinalou essa alternativa (D) 
 
E Todas estão corretas 
A utilidade máxima é obtida pela política ótima. A utilidade futura é a expectativa matemática das recompensas. V(s) é uma função que indica o valor de cada estado conforme a utilidade futura deste 
estado. 
 
Questão 5/10 - Reinforcement Learning 
 “Quando um agente enfrenta um meio estocástico não há como tomar decisões sem que certa dose de incerteza esteja presente. Isto ocorre 
porque, mesmo que toda informação das decisões passadas esteja disponível no momento da decisão, como o meio muda, a ação poderá ter 
consequências diversas daquelas históricas.” Aula 2, Tema 3. 
Considerando o exposto acima e o estudamos sobre MDP, podemos afirmar: 
Nota: 0.0Você não pontuou essa questão 
 
A As mudanças do meio não são estocásticas, assim, não serão gradativas e nem possuirão previsibilidade, o resultado de uma ação, mesmo no meio estocástico, tende a se 
divergir do pretendido, do ponto de vista estatístico. 
Você assinalou essa alternativa (A) 
 
B As mudanças do meio não são determinísticas mas pode-se supor que sejam gradativas e possuam certa previsibilidade, assim, o resultado de uma ação, mesmo no meio 
estocástico, tende a se aproximar do pretendido, do ponto de vista estatístico. 
Em um meio real, ou próximo a ele, as ações nem sempre tem o resultado esperado, mas tendem, estatisticamente, a ter. 
 
C Markov, ao analisar as redes bayesinas, percebeu que a previsibilidade do resultado da ação presente depende da análise de uma quantidade infinita de ações/resultados 
posteriores, dita meta-utilidade. 
 
D Segundo as conclusões de Markov estado do agente não pode ser previsto, basicamente porque , a partir do estado atual, não há um número limitado de estados anteriores. 
 
Questão 6/10 - Reinforcement Learning 
A tabela abaixo demonstra as relações entre Estado, Ação e Q para um ambiente de RL: 
 
 
Observando a tabela e considerando as equações de Bellman podemos afirmar: 
Nota: 0.0Você não pontuou essa questão 
 
A O ação de maior valor no estado A é “esquerda” 
 
B O ação de maior valor no estado C é “esquerda” 
Você assinalou essa alternativa (B) 
 
C O ação de menor valor no estado B é “esquerda” 
 
D O ação de maior valor no estado B é “esquerda” 
o maior valor de Q define a ação de maior valor . 
 
Questão 7/10 - Reinforcement Learning 
“Quando um agente enfrenta um meio estocástico não há como tomar decisões sem que certa dose de incerteza esteja presente. Isto ocorre 
porque, mesmo que toda informação das decisões passadas esteja disponível no momento da decisão, como o meio muda, a ação poderá ter 
consequências diversas daquelas históricas.” Aula 2, Tema 3. 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar que estão corretas apenas as sentenças: 
I. O futuro do agente é condicionalmente independente do passado. Markov então propôs uma corrente de eventos como solução para o 
problema da previsibilidade dita cadeia de Markov. 
II. Markov, ao analisar as redes bayesinas, percebeu que a previsibilidade do resultado da ação futura depende da análise de uma quantidade 
finita de ações/resultados anteriores. 
 
III. Markov, ao analisar as redes bayesinas, percebeu que a previsibilidade do resultado da ação presente depende da análise de uma 
quantidade infinita de ações/resultados posteriores, dita meta-utilidade. 
 
IV. Bellman discordou de Marcov ao propor uma cadeia mais próxima do previsto por Bayes 
Nota: 10.0 
 
A Apenas I está correta 
 
B Apenas IV está correta 
 
C Apenas I e II estão corretas 
Você assinalou essa alternativa (C) 
Você acertou! 
 Marcov comprovou a baixa dependência do futuro em relação ao passado, o fator de desconto temporal é a forma matemática de representar esta independência relativa. 
 
D Apenas II e IV estão corretas 
 
E Todas estão corretas 
 
Questão 8/10 - Reinforcement Learning 
” A aproximação mais comum para a solução do MDP se dá pela programação dinâmica, embora soluções lineares existam. Bellman propôs 
que o problema seja quebrado em segmentos de problema, resolvemos cada segmento de forma independente e armazenamos o algoritmo de 
solução do segmento, a cada nova aparição de um problema com o mesmo segmento podemos reutilizar o algoritmo.” Aula 3, Tema 1. 
Considerando o exposto acima e o que estudamos sobre a solução do MDP, podemos afirmar: 
Nota: 0.0Você não pontuou essa questão 
 
A O equacionamento matemático do modelo ótimo, que soluciona o processo decisório para ambientes estocásticos proposto por Markov, passa pela escolha aleatória de valores 
máximos das funções de valor de estado e mínimos de valor de ação. 
 
B No método DP de iteração de valor, não há um ponto definido de parada para as iterações de Q. 
 O ponto de parada será definido pela estabilidade de Q, normalmente considera-se estável Q se a variação entre iterações for menor que 0,01%. 
 
C Uma possibilidade alternativa para o cálculo da melhor política é partirmos de uma política ótima e, então, iteramos novas políticas até descartar a melhor delas. 
 
D HMM - Hidden Markov Models, são ditos métodos ocultos (hidden em ingles) porque tentam esconder o valor máximo da incerteza multivariada sem considerar Qmax. 
Você assinalou essa alternativa (D) 
 
Questão 9/10 - Reinforcement Learning 
A tabela abaixo demonstra as relações entre Estado, Ação e Q para um ambiente de RL: 
 
 
 
Observando a tabela e considerando as equações de Bellman podemos afirmar: 
Nota: 0.0Você não pontuou essa questão 
 
A O valor de Qmax no estado A=0,99-0,43 
 
B O valor de Qmax no estado C=0,99 
Você assinalou essa alternativa (B) 
 
C O valor de Qmax no estado A=-0,43 
 
D O valor de Qmax no estado C=0,3-0,1 
 
E O valor de Qmax no estado B=-0,21 
O valor de Qmax de um estado é o maior valor presente na coluna Valor Q para aquele estado. 
 
Questão 10/10 - Reinforcement Learning 
 “O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras.Quando este fator de 
desconto é próximo de 0, as recompensas no futuro distante são vistas como insignificantes”. Norvig (2013, pg. 566). 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar: 
Nota: 10.0 
 
A Em políticas próprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. 
 
B A utilidade de um estado qualquer pode ser calculada pelo produtório das recompensas que o conduzirão até o estado destino. 
 
C Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 é melhor que a política p2 que conduz si ao mesmo estado, no mesmo 
intervalo t, com valor U2, se U1>U2. 
Você assinalou essa alternativa (C) 
Você acertou! 
O valor da utilidade pode ser usado como forma de comparar políticas. 
 
D Uma política p1 que conduza, após um tempo t, do estado atual si ao estado desejado com valor U1 não é melhor que a política p2 que conduz si ao mesmo estado, no 
mesmo intervalo t, com valor U2, se U1>U2. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Questão 1/10 - Reinforcement Learning 
” A aproximação mais comum para a solução do MDP se dá pela programação dinâmica, embora soluções lineares existam. Bellman propôs 
que o problema seja quebrado em segmentos de problema, resolvemos cada segmento de forma independente e armazenamos o algoritmo de 
solução do segmento, a cada nova aparição de um problema com o mesmo segmento podemos reutilizar o algoritmo.” Aula 3, Tema 1. 
Considerando o exposto acima e o que estudamos sobre a solução do MDP, podemos afirmar: 
Nota: 10.0 
 
A O equacionamento matemático proposto por Markov, elimina as funções de valor de estado e de valor de ação substituindo-as pela constante de Bellman. 
 
B Uma possibilidade alternativa para o cálculo da melhor política é partirmos de uma política aleatória e iteramos novas políticas até encontrar a pior delas, assim descartamos o 
valor de Qmax que prejudica o cálculo de V(S). 
 
C Os Modelos Ocultos de Markov (HMM - Hidden Markov Models, em inglês) tentam sintetizar incertezas multivariadas em uma única supervariável estocástica. 
Você assinalou essa alternativa (C) 
Você acertou! 
 Os algoritmos HMM criam uma supervariável que expressa, de maneira única, o total das incertezas do meio. 
 
D A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduziram até o estado que o antecede se V(s)<6. 
 
E Nenhuma das alternativas está correta. 
 
Questão 2/10 - Reinforcement Learning 
A tabela abaixo demonstra as relações entre Estado, Ação e Q para um ambiente de RL: 
 
 
Observando a tabela e considerando as equações de Bellman podemos afirmar: 
Nota: 10.0 
 
A O ação de maior valor no estado A é “esquerda” 
 
B O ação de maior valor no estado C é “esquerda” 
 
C O ação de menor valor no estado B é “esquerda” 
 
D O ação de maior valor no estado B é “esquerda” 
Você assinalou essa alternativa (D) 
Você acertou! 
o maior valor de Q define a ação de maior valor . 
 
Questão 3/10 - Reinforcement Learning 
 “Bellmam calcula o valor de cada estado possível ao agente a partir do último estado, ou estado destino.” Aula 2, Tema 5. 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar que estão corretas apenas as sentenças: 
 
I. O problema proposto por Markov é encontrar a política ótima, ou seja, aquela combinação de ações que conduz o agente do estado i para o 
estado j, com a maior utilidade possível. 
 
II.A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduzirão até o estado destino. 
III.Um agente inteligente pode guiar suas ações unicamente pela análise dos valores dos estados adjacentes ao estado atual, seguindo o 
paradigma proposto por Markov, em busca da recompensa final Rf 
Nota: 10.0 
 
A Apenas I está correta 
 
B Apenas II está correta 
 
C Apenas I e II estão corretas 
 
D Apenas II e III estão corretas 
 
E Todas estão corretas 
Você assinalou essa alternativa (E) 
Você acertou! 
A utilidade máxima é obtida pela política ótima. A utilidade futura é a expectativa matemática das recompensas. V(s) é uma função que indica o valor de cada estado conforme a utilidade futura deste 
estado. 
 
Questão 4/10 - Reinforcement Learning 
A tabela abaixo demonstra as relações entre Estado, Ação e Q para um ambiente de RL: 
 
 
 
Observando a tabela e considerando as equações de Bellman podemos afirmar: 
Nota: 0.0Você não pontuou essa questão 
 
A O valor de Qmax no estado A=0,99-0,43 
 
B O valor de Qmax no estado C=0,99 
 
C O valor de Qmax no estado A=-0,43 
Você assinalou essa alternativa (C) 
 
D O valor de Qmax no estado C=0,3-0,1 
 
E O valor de Qmax no estado B=-0,21 
O valor de Qmax de um estado é o maior valor presente na coluna Valor Q para aquele estado. 
 
Questão 5/10 - Reinforcement Learning 
” A aproximação mais comum para a solução do MDP se dá pela programação dinâmica, embora soluções lineares existam. Bellman propôs 
que o problema seja quebrado em segmentos de problema, resolvemos cada segmento de forma independente e armazenamos o algoritmo de 
solução do segmento, a cada nova aparição de um problema com o mesmo segmento podemos reutilizar o algoritmo.” Aula 3, Tema 1. 
 Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar que estão corretas apenas as sentenças: 
 
i. Uma possibilidade alternativa para o cálculo da melhor política é partirmos de uma política aleatória e testarmos sua otimicidade, então, 
iteramos novas políticas até encontrar a melhor delas. 
 
 
ii.Em ambientes reais não é possível conhecer e amostrar todas as variáveis envolvidas na determinação do resultado de uma ação qualquer. 
Este fato justifica uma aproximação estatística do resultado das ações. 
iii. POMDP é um tipo de HMM onde as supervariáveis são ocultas e dependem do ruído externo para que possam ser identificadas. 
iv. Pode-se utilizar os mesmos conceitos de um MDP clássico em um POMDP bastando acrescentar um modelo de ruído para os sensores, ou 
seja, uma probabilidade de que os sensores nos informem o posicionamento incorreto. 
Nota: 10.0 
 
A Apenas I está correta 
 
B Apenas III está correta 
 
C Apenas I e II estão corretas 
 
D Apenas II e IV estão corretas 
 
E Apenas I, II e IV estão corretas 
Você assinalou essa alternativa (E) 
Você acertou! 
POMDP são MDP para ambientes parcialmente observáveis, enquanto HMM é algoritmo de síntese de ambientes multivariados para ser tratado pelo MDP monovariado. 
 
Questão 6/10 - Reinforcement Learning 
 “A independência do futuro em relação ao passado não é plena. Por este motivo a hipótese de Markov propõe a previsibilidade da ação futura 
em função de uma quantidade finita de ações/resultados anteriores e não somente do estado presente.” Aula 2, Tema 3. 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar: 
Nota: 10.0 
 
A Se a previsibilidade do próximo estado depender do estado atual e do que o antecede apenas, não teremos um processo de Markov e precisaremos abandonar o uso de 
algoritmos de RL. 
 
B A ênfase na dependência singular do estado atual levou a se chamar as transições entre estados, cuja dependência do passado seja desprezível de hipóteses de Bellman sem 
transição. 
 
C A cada ação realizada, o agente pode receber um feedback do meio, que chamaremos de recompensa. Esta recompensa é um valor numérico qualquer e é proporcional a 
assertividade do resultado em relação ao objetivo da política do agente. 
Você assinalou essa alternativa (C) 
Você acertou! 
A recompensa é o retorno do meio percebido pelo agente através dos sensores. 
 
D A ideia da recompensa simula a reação newtoniana do meio a uma ação qualquer: a toda ação ocorre uma reação de mesma intensidade e sentido contrário à ação. 
 
Questão 7/10 - Reinforcement Learning 
” A aproximação mais comum para a solução do MDP se dá pela programaçãodinâmica, embora soluções lineares existam. Bellman propôs 
que o problema seja quebrado em segmentos de problema, resolvemos cada segmento de forma independente e armazenamos o algoritmo de 
solução do segmento, a cada nova aparição de um problema com o mesmo segmento podemos reutilizar o algoritmo.” Aula 3, Tema 1. 
Considerando o exposto acima e o que estudamos sobre a solução do MDP, podemos afirmar: 
Nota: 10.0 
 
A O equacionamento matemático do modelo ótimo, que soluciona o processo decisório para ambientes estocásticos proposto por Markov, passa pela escolha aleatória de valores 
máximos das funções de valor de estado e mínimos de valor de ação. 
 
B No método DP de iteração de valor, não há um ponto definido de parada para as iterações de Q. 
Você assinalou essa alternativa (B) 
Você acertou! 
 O ponto de parada será definido pela estabilidade de Q, normalmente considera-se estável Q se a variação entre iterações for menor que 0,01%. 
 
C Uma possibilidade alternativa para o cálculo da melhor política é partirmos de uma política ótima e, então, iteramos novas políticas até descartar a melhor delas. 
 
D HMM - Hidden Markov Models, são ditos métodos ocultos (hidden em ingles) porque tentam esconder o valor máximo da incerteza multivariada sem considerar Qmax. 
 
Questão 8/10 - Reinforcement Learning 
“Quando um agente enfrenta um meio estocástico não há como tomar decisões sem que certa dose de incerteza esteja presente. Isto ocorre 
porque, mesmo que toda informação das decisões passadas esteja disponível no momento da decisão, como o meio muda, a ação poderá ter 
consequências diversas daquelas históricas.” Aula 2, Tema 3. 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar que estão corretas apenas as sentenças: 
I. O futuro do agente é condicionalmente independente do passado. Markov então propôs uma corrente de eventos como solução para o 
problema da previsibilidade dita cadeia de Markov. 
II. Markov, ao analisar as redes bayesinas, percebeu que a previsibilidade do resultado da ação futura depende da análise de uma quantidade 
finita de ações/resultados anteriores. 
 
III. Markov, ao analisar as redes bayesinas, percebeu que a previsibilidade do resultado da ação presente depende da análise de uma 
quantidade infinita de ações/resultados posteriores, dita meta-utilidade. 
 
IV. Bellman discordou de Marcov ao propor uma cadeia mais próxima do previsto por Bayes 
Nota: 10.0 
 
A Apenas I está correta 
 
B Apenas IV está correta 
 
C Apenas I e II estão corretas 
Você assinalou essa alternativa (C) 
Você acertou! 
 Marcov comprovou a baixa dependência do futuro em relação ao passado, o fator de desconto temporal é a forma matemática de representar esta independência relativa. 
 
D Apenas II e IV estão corretas 
 
E Todas estão corretas 
 
Questão 9/10 - Reinforcement Learning 
A tabela abaixo demonstra as relações entre Estado, Ação e Q para um ambiente de RL: 
 
 
 
Observando a tabela e considerando as equações de Bellman podemos afirmar: 
Nota: 0.0Você não pontuou essa questão 
 
A O valor do estado A, V(A)=0,99-0,43 
 
B O valor do estado C, V(C)=0,99 
 
C O valor do estado A, V(A)=0,99 
o valor de um estado é dado máximo valor de ação daquele estado. 
 
D O valor do estado C, V(C)=0,3-0,1 
Você assinalou essa alternativa (D) 
 
E O valor do estado B, V(C)=0,99 
 
Questão 10/10 - Reinforcement Learning 
 “O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Quando este fator de 
desconto é próximo de 0, as recompensas no futuro distante são vistas como insignificantes”. Norvig (2013, pg. 566). 
Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar: 
Nota: 10.0 
 
A Uma política que conduza do estado atual si ao estado desejado com valor U3 é melhor que outra política que conduz si ao mesmo estado desajado, com valor U2, desde 
que U3*2 = U2*3. 
 
B O problema proposto por Markov é encontrar a política ótima, ou seja, aquela combinação de ações que conduz o agente do estado i para o estado j, com a maior capacidade 
de obter recompensas da cadeia de Markov, desde que a utilidade média seja negativa. 
 
C Uma política que conduza do estado atual si ao estado desejado com valor U2 é melhor que outra política que conduz si ao mesmo estado desajado, com valor U3, desde 
que U1-3 = U2. 
 
D Em políticas impróprias o acréscimo do fator de desconto temporal na equação da utilidade permitirá tornar o valor da utilidade U mensurável. 
Você assinalou essa alternativa (D) 
Você acertou! 
 Politicas impróprias são aquelas em que não tem um estado final definido, sem o desconto temporal a somatória seria infinita. 
 
E A utilidade de um estado atual pode ser calculada pela soma das recompensas que conduziram até o estado que o antecede se V(s)<6.

Mais conteúdos dessa disciplina