Buscar

Sorger - Stationary Discounted Problems (5 5)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Sorger - Stationary Discounted Problems (5.5) 
Problemas de otimização dessa classe são caracterizados por um conjunto de possibilidades independente de e por uma função utilidade que depende o tempo apenas por um fator de desconto , onde é um fator de preferência no tempo. 
Assim, temos:
· Conjunto Possibilidade: (diferente de antes, quando era dependente de - )
· Função Utilidade: (diferente de antes, quando era “diretamente” dependente de - U)
Portanto, consideramos o seguinte problema de otimização:Observação: Até o momento considerávamos que descrevia o valor presente da utilidade (no tempo ). No contexto atual, o valor presente (no tempo ) é descrito por , enquanto representa o valor corrente no tempo da utilidade. Ou seja, a utilidade do período , avaliada no tempo . Assim, podemos escrever:
Perceba que ambas as funções são independentes da variável temporal.
Como podemos utilizamos a função “Valor Corrente”, podemos reescrever a equação de Euler da seguinte maneira
Implicitamente, tssa é uma equação em diferenças autônoma de segunda ordem. 
Partindo para a abordagem recursiva, assumimos que , estacionário, e que o conjunto não é vazio e é compacto para todo e que a correspondência é contínua. Por fim, assumimos que a função utilidade é limitada e contínua em seu domínio . Assumindo tudo isso, é claro que o conjunto de trajetórias factíveis do problema , , não é vazio e e que existe e é finito. Assim, tudo o que estudamos até agora continua válido e podemos adicionar o teorema a seguir.· Teorema 5.12: Existe uma única função contínua e limitada que satisfaz a euação de Bellman
Essa função é o valor corrente ótimo da função valor. Toda trajetória satisfazendo é uma trajetória ótima, onde
[Este teorema nos mostra que, sob as premissas dadas, a função valor ótimo é a única função limitada e contínua que satisfaz a equação de Bellman. Além disso ela caracteriza o conjunto das trajetórias ótimas como o conjunto de todas as trajetórias da “política de correspondência ótima”. Vale ressaltar que esse resultado também prova a existência de trajetórias ótimas.]
O teorema do Ponto Fixo de Banach (usado para provar o teorema 5.12) nos dá um algoritmo de aproximação dos pontos fixos. Essa aproximação é conhecida como “value iteration algorithm” e é feita da seguinte forma: Escolhemos um valor arbitrário da função valor e computamos as funções através da fórmula
onde é o operador de Bellman. Assim, o lema 5.3 nos mostra que a sequência converge uniformemente para o valor ótimo da função .Prova – Lema 5.3: Combinando as propriedades do ponto fixo com as equações
,
temos que
Obviamente isso implica que
é verdade para todo . Isso prova a convergência uniforme de para a função valor ótima .
[O lema mostra que o erro de aproximação do algoritmo decresce ao menos tão rápido quanto a sequência geométrica (exponencialmente). Apesar de este algoritmo ser utilizado para a solução numérica da equação de Bellman, ele também é muito útil para obter soluções analíticas da equação de Bellman.]
Lema 5.3: Tome uma função contínua arbitrária e limitada e defina a sequência através de . Com isso, temos que ,
onde é a função valor ótima. A sequência converge uniformemente pra .

Outros materiais