Buscar

“A independência do futuro em relação ao passado não é plena. Por este motivo a hipótese de Markov propõe a previsibilidade da ação futura em funçã...

“A independência do futuro em relação ao passado não é plena. Por este motivo a hipótese de Markov propõe a previsibilidade da ação futura em função de uma quantidade finita de ações/resultados anteriores e não somente do estado presente.” Aula 2, Tema 3. 

Considerando o exposto acima e o que estudamos sobre MDP, podemos afirmar que estão corretas apenas as sentenças:

I. As recompensas podem qualificar as tomadas de decisão e assim permitir ao agente avaliar a sua política  atual ou comparar políticas, mas também percebemos que o valor instantâneo da recompensa não é capaz de traduzir a eficiência da política como um todo. 

II. A ênfase na dependência singular do estado atual, entretanto, levou a se chamar as transições entre estados, cuja dependência do passado seja  desprezível de transições markesianas de primeira ordem.

III. A equação que define a utilidade é composta pela soma das recompensas obtidas nas transições de estado.

IV. Políticas impróprias são aquelas para as quais há um estado inicial e final definidos e alcançáveis. 

A- Apenas I está correta

B- Apenas IV está correta

C- Apenas I, II e IV estão corretas

D-Apenas I, II e III estão corretas

E-Todas estão corretas.

Respostas

User badge image

Ed Verified user icon

Você precisa criar uma nova pergunta.

0
Dislike0

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Responda

SetasNegritoItálicoSublinhadoTachadoCitaçãoCódigoLista numeradaLista com marcadoresSubscritoSobrescritoDiminuir recuoAumentar recuoCor da fonteCor de fundoAlinhamentoLimparInserir linkImagemFórmula

Para escrever sua resposta aqui, entre ou crie uma conta

User badge image