Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 AULA 10 : ESTRATÉGIAS E JOGOS - III 1. Jogos seqüenciais; 2. Subjogos e Equilíbrio Perfeito em subjogo 3. Jogos Repetidos 4. Bibliografia e Exercícios sugeridos 1. Jogos Seqüenciais Nos jogos seqüenciais, os jogadores não empreendem suas ações simultaneamente, mas sequencialmente, um após outro, ao longo do tempo. A melhor representaçao de um jogo seqüencial é a forma extensiva, onde os nós de decisão aparecem por ordem de jogada, de cima para baixo, em formato de árvore. Exemplo 1 : (jogo predatório simples) No mercado de um produto, o potencial entrante (E) tem duas opções, entrar (e) ou não entrar (ñe), enquanto que a firma estabelecida (I) tem duas opções: combater (c) ou acomodar (a). Os retornos deste jogo aparecem nos pontos terminais da árvore, como na Figura 1 abaixo. Trata-se de um jogo com informação perfeita. Definição 1: (informação perfeita) Um jogo seqüencial é dito é um jogo com informação perfeita se cada conjunto de informação do jogo contém apenas um nó de decisao. Do contrário, trata-se de um jogo com informação imperfeita. 2 Fig.1a: Jogo Predatório simples E I ñe e ac⎟ ⎟⎠ ⎞ ⎜⎜⎝ ⎛ 2 0 ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ − − 1 3 ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ 1 2 No seu turno, a firma incumbente (I) sabe qual foi a decisão da firma entrante (E) na primeira etapa. Observe que todo jogo com informação perfeita é um jogo com memória perfeita. Ao jogar na nesima estapa, o jogador conhece o histórico de todas as decisões anteriores, não apenas as dele, mas também a dos outros participantes. Em jogos com informação imperfeita, isto não ocorre, como ilustrado nas Figuras 2a e 2b: Na Figura 2a , o jogador 2 “esqueceu” a escolha feita pelo jogador 1, que ele havia conhecido na 1ª etapa. Na Figura 2b, o jogador 1 “esqueceu” do que ele mesmo havia jogado na 1ª etapa. 3 Fig.2a: O jogador 2 esquece o que antes sabia... 1 2 R r 2 c 1 1 2 2 l L RL a b a b dcd Fig.2b: O jogador 1 esquece o que fez antes... 1 2 R r 2 a l L RL a b a b bab 1 Portanto, jogos com informação imperfeita incluem situações em que pelo menos um dos jogadores não conhece todo ou parte do histórico do jogo. 4 Vamos agora definir conceitualmente o que é uma estratégia de um jogo seqüencial. Definição2: (Estratégia de um jogo sequencial) Em um jogo seqüencial uma estratégia é uma regra de decisão, um plano contingente completo, que especifica como o jogador poderá jogar em cada situação distinguível do jogo. Por exemplo, no jogo predatório simples, é o conjunto das estratégias possíveis do potencial entrante e o conjunto das duas estratégias possíveis para a firma incumbente. { })(),(1 ñeeS = { })(),(2 ejogaEseaejogaEsecS = Dado que neste jogo as firmas se movem uma única vez, é possível dar à ele uma representaçao na forma normal: Fig.1b: Forma Normal do jogo predatório simples “c” se E joga e “a” se E joga e e I : Incumbente E: Entrante ( 0 , 2 ) ( 2 , 1 ) ( 0, 2 ) ( - 3 , -1 ) ñe 5 Pela representaçao deste jogo na forma normal vemos que existem dois equilíbrios de Nash em estratégias puras: EN1=(ñe , “c” se E joga e) ; EN2= (e , “a” se E joga e) No entanto, o equilíbrio EN1 é paradoxal, no sentido de que é um equilíbrio não crível. Com efeito, a firma E pode anticipar que se ela entra, a melhor resposta da Incumbente é “a” (acomodar) e não combater. Logo, a estratégia (“c” se E joga e), não é uma ameaça crível para a firma E. O equilíbrio EN1 mostra também que se a firma Incumbente combate caso E entre, entao a melhor resposta de E é ñe ! Eliminação das estratégias não críveis A necessidade de se eliminar este tipo de equilíbrio não crível, como o equilíbrio EN1 acima, leva à idéia de que as estratégias de equilíbrio de um jogo seqüencial devam atender o princípio da racionalidade seqüencial: O princípio da racionalidade seqüencial estabelece que, no equilíbrio, a estratégia de cada jogador deve especificar ações ótimas em cada ponto da árvore do jogo. Assim o equilíbrio EN1 não é sequencialmente racional porque, para a firma Incumbente, a estratégia (“c” se E joga e) não é ótima. Já a estratégia (“a” se E joga e) é uma estratégia sequencialmente racional para a firma Incumbente, 6 Indução Retroativa Os equilíbrios de Nash sequencialmente racionais são obtidos por indução retroativa (backward induction). Este procedimento consiste em se determinar primeiro as escolhas ótimas no final do jogo. Em seguida, resolve-se o problema das escolhas ótimas nas etapas anteriores, subindo a árvore do jogo, dadas as escolhas antecipadas. Tal procedimento captura bem a idéia da racionalidade seqüencial, uma vez que escolhas ótimas estarão sendo realizadas em cada nó de decisão. O método da indução retroativa aplica-se particularmente bem a jogos finitos com informação perfeita, mas não exclusivamente a estes, como veremos mais adiante. Indução retroativa no jogo predatório simples Como ilustração, vamos obter o equilíbrio sequencialmente racional EN2, por indução retroativa no jogo do exemplo 1. 1. Primeiro resolve-se o subjogo terminal para a firma Incumbente: I ac ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ − − 1 3 ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ 1 2 7 Evidentemente, a firma escolherá a estratégia “a” neste subjogo. Substituindo-se o payoff no estágio imediatamente acima do jogo, para a escolha da firma entrante (E). ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ 1 2 2. A firma E considerará entao o jogo reduzido, no qual a escolha da firma incumbente é antecipado. Ela agora sabe que se entrar a firma incumbente acomodará, de modo que ela escolherá entrar “e”, pois terá payoff 2 que é maior que o payoff 0 que terá caso não entrar “ñe”. E ñe e ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ 2 0 ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ 1 2 Por induçao retroativa, fica assim estabelecida a estratégia: (e , “a” se E joga e) como o único equilíbrio de Nash sequencialmente racional deste jogo. Exemplo 2: Jogo com 3 jogadores Considere o jogo com informação perfeita envolvendo 3 jogadores, representado na Figura 3 abaixo: 8 Fig.3: Jogo com 3 jogadores e informação perfeita 1 2 r R 3 L l ba l r rl⎟ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ 1 0 2 ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛− 6 5 1 ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ 2 1 3 ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ 4 4 5 ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ − 7 1 0 ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛− 0 2 2 33 Equilíbrio sequencialmente racional: Resolvendo este jogo por indução retroativa, consideramos primeiramente as escolhas ótimas do jogador 3, o último a se mover. Caso o jogador 1 jogar “L”, a escolha ótima do jogador 3 será “r”. Caso o jogador 1 jogar “R” e o jogador 2 jogar “a”, a escolha ótima do jogador 3 será “r”; se o jogador 2 jogar “b”, sua escolha ótima será “l”: Obtemos assim a estratégia ótima do jogador 3: )21"" ;21"";1""(ˆ2 bjogaeRjogasel ajogaeRjogaserLjogasers = Com a primeira redução, o jogo original fica asssim: 9 1 2 RL ba ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛− 6 5 1 ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ 4 4 5 ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ − 7 1 0 É notório que a estratégia ótima dojogador 2 será: )1""(ˆ2 Rjogaseas = A segunda e última simplificação do jogo definirá a estratégia ótima do primeiro jogador: 1 RL ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛− 6 5 1 ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ 4 4 5 A escolha ótima do jogador 1 será )"("1ˆ Rs = “R”. Assim o equilibrio de Nash sequencialmente racional será: )ˆ,ˆ,ˆ( 3210 sssEN = 10 Outro equilíbrio de Nash ash, qual não é todavia sequencialmente racional. de acordo com as scolhas do jogador 2, “a” ou “b”: ig.4a: Forma normal do jogo para 1 e 3: Entretanto, este jogo possui outro equilíbrio de N o Para identificá-lo, vamos escrever o jogo na forma normal para os jogadores 1 e 3, e F l r L R Jogador 3 Jogador 1 ( - 1 , 5, 6 ) ( 5, 4, 4) ( 2, 0, 1) ( 3, 1, 2 ) O jogador 2 joga “a”: erior, nde o payoff aparece circunscrito pela elipse. ig.4b: Forma normal do jogo para 1 e 3: Neste caso, temos bem o equilíbrio EN0 ant o F l r L R Jogador 3 Jogador 1 ( - 1 , 5, 6 ) ( -2, 2, 0) ( 2, 0, 1) ( 0, -1, 7 ) O jogador 2 joga “b”: 11 Vemos acima que EN1= ( (“L”) ; (“b” se 1 joga L); (“r” se 1 joga L e 2 joga b) ) é outro equilíbrio de Nash, ujo payoff aparece circunscrito pela elipse. “b”, entao o ótimo para ele será jogar “l”, e não r”. ente racional, obtenível por indução etroativa. a jogos eqüenciais finitos com informação perfeira. eorema 1 c Entretanto, este não é um equilíbrio crível, porque a escolha do jogador 3 não é ótima: se o jogador 2 joga “ Por esta razão EN1 não é um equilíbrio sequencialm r O teorema abaixo é de grande utilidade par s T :(Zermelo) Todo jogo finito com informação perfeita tem um equilíbrio de Nash em estratégia pura, o qual pode ser obtido por indução retroativa. Além disso, se nenhum jogador tiver payoff idêntico a de algum outro jogador no nó terminal, este equilíbrio é único. 2 Subjogos e Perfeição em Subjogo mente racional e um jogo com informação perfeita. a a resolução de jogos com nformação imperfeita. . Anunciamos anteriormente que a indução retroativa permite obter o equilíbrio sequencial d Mas isto não significa que este método não possa também ser aplicado par i 12 Exemplo 3 : (jogo predatório ampliado; Mas-Colell et.al.p.273) operativo com escolhas ombate (c) ou acomoda (a). ig.5a: Jogo Predatório ampliado Consideramos agora uma extensão do jogo predatório simples do exemplo 1 no qual, após a entrada, as firmas jogam um jogo não co c F E E eñe ac c a ac ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ 2 0 ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ − − 1 3 ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ − 2 1 ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ − − 1 2 ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ 1 3 I Resolvendo-se em estratégias puras o subjogo não cooperativo, obtemos a estratégia pura (“a” , “a”) com ayoff ( 3 , 1). jogo reduzido fica assim para a firma entrante: p O E eñe ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ 2 0 ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ 1 3 O equilíbrio obtido por induçao retroativa é: 13 EN0 = (( “e”, “a” se e) , (“a” se E joga e)) nico equilíbrio equencialmente racional deste jogo. uilíbrios aparecem no jogo scrito na forma normal: ig.5b: Forma normal do jogo predatório ampliado com payoff ( 3, 1), o qual é o ú s Entretanto, dois outros eq e F “c” se E joga e “a” se E joga e e , “c” se e e , “a” se e I E ( 0 , 2 ) ( 0 , 2 ) ( 1 , -2) ( 0, 2 ) ( 0 , 2 ) ( -3 , -1 ) ñe , “c” se e ñe , “a” se e ( -2 , -1 ) ( 3 , 1 ) por uma lipse não são racionalmente sustentáveis. se E ntra a estratégia ótima dela é “a” (acomodar). Mas os dois outros equilíbrios EN1=((ñe,”c” se e), (“c”se E joga e)) e EN2 =((ñe,”a” se e), (“c”se E joga e)) cujos payoffs aparecem circunscritos e Isto ocorre porque a estratégia (“c”se E joga e) da firma incumbente não é crível, uma vez que e 14 Logo, EN0 = (( “e”, “a” se e) , (“a” se E joga e) é a única previsão razoável para este jogo. O exemplo 2 acima captura muito bem a idéia de Equilíbrio de Nash perfeito em subjogo, uma onceituação introduzida na teoria dos jogos por elten, em 1965. ubjogos c S S Definição 3: (Subjogo) Um subjogo de um jogo seqüencial escrito na forma extensiva é um subconjunto deste jogo, possuindo as seguintes propriedades: (i) Ele inicia com um conjunto de informação contendo um único nó de decisão; (ii) Ele contém todos os nós sucessores do nó inicial (imediatos ou não) e sòmente estes nós; (iii) Não existem no subjogo conjuntos de informação compartilhados com nós fora do subjogo, no seguinte sentido: Se x é um nó do subjogo e )(xΙ é o seu conjunto de informação, entao se x′ é ó de decisão e um outro n )x(Ι∈′ , entao também deve estar no subjogo. x′x Observe que o jogo inteiro sempre é um subjogo. ma elipse ontilhada dois subconjuntos de um jogo sequencial, m que é um subjogo e outro que não é. Na Figura 6 abaixo ilustramos com u p u 15 Fig.6: Ilustrando subjogos 1 2 R r 2 a l L RL a b a b bab 1 subjogoNáo é um subjogo 1 3 Equilíbrio de Nash Perfeito em Subjogos (ENPS) em ubjogos é intimamente relacionado com o equilíbrio equencialmente racional definido anteriormente. O conceito de equilíbrio de Nash Perfeito s s Definição 4: (ENPS) Um vetor de estratégias )ˆ,...,ˆ(ˆ 1 nsss = de um jogo seqüencial é um equilíbrio de Nash Perfeito em Subjogos (ENPS) se ele induz um Equilíbrio de Nash em cada subjogo do jogo original. Observaçoe: (i) izemos que D sˆ induz um EN em um subjogo particular do jogo principal se as ações especificadas em sˆ para os conjuntos de informação do subjogo onstituem um EN do subjogo, quando este é Em outras palavras, o traço de c considerado de uma forma isolada. sˆ em cada subjogo é um EN deste subjogo. 16 Por exemplo, no jogo predatório ampliado, o equilíbrio EN0 = (( “e”, “a” se e) , (“a” se E joga e)) é um ENPS do jogo principal pois a estratégia ((“a” se e) , (“a” se E joga e)) é um equilíbrio de Nash no único subjogo próprio deste jogo, que é aquele com informaçao imperfeita onde as duas firmas atuam conjuntamente no mercado. (ii) Em jogos seqüenciais finitos, com informação perfeita, os equilíbrios sequencialmente racionais, são equilíbrios ENPS (Kreps e Wilson). (iii) A identificação de um ENPS também é feita por indução retroativa. 3. Jogos Repetidos Em muitas situações reais, o mesmo jogo é repetido pelos mesmos jogadores, um número finito de vezes. Por exemplo, os feirantes devem afixar o preço do tomate diáriamente, junto com os ofertantes vizinhos; os postos devem afixar os preços da gasolina e do etanol também diáriamente, etc. O mesmo jogo, com os mesmos jogadores e mesmos payoffs é jogado um determinado número de vezes. O jogo que é assim repetido é chamado jogo estágio. Teóricamente, um mesmo jogo estágio pode ser replicado infinitamente. Para efeitos analíticos, a teoria dos jogos distingue os jogos com repetição finita dos jogos replicados infinitamente, pois as condiçoes que garantem a existência de equilíbrios de Nash perfeitos em subjogos, ao longo das repetições (ENPS), são distintas nos dois casos. 17 3.1 Repetiçao Finita Suponha um jogo estágioreplicado T vezes ( ,...2,1=T ). (a) Se o jogo estágio só possui um único equilíbrio de Nash seja, EN0, entao o único ENPS no jogo repetido é o equilíbrio do jogo estágio, repetido T vezes: 4434421 vezesT ENENENPS ),...,( 00= Teorema 2: (Selten) Se o jogo estágio só possui um único equilíbrio de Nash (EN0) entao o único equilíbrio de Nash perfeito em subjogos (ENPS) no jogo repetido um número finito de vezes, consiste em jogar EN0 à cada vez. Um exemplo clássico deste caso é o Dilema dos Prisioneiros estudado na aula anterior. A razão disto é que, por indução retroativa, o último estágio do jogo )(T deve ser, necessáriamente, um EN. Entao, no estágio anterior )1( −T , qualquer estratégia gatilho de puniçao que condiciona o payoff do último estágio à açao empreendida neste estágio fica excluída, uma vez que no último estágio os jogadores devem necessáriamente jogar o EN. Logo, em 1−T os jogadores também jogam o EN. Remontando assim aos estágios anteriores, vemos que o único ENPS na repetição do jogo com um único EN consiste replicar este equilíbrio em cada estágio. 18 (b) Se o jogo estágio possui dois (ou mais) equilíbrios de Nash em estratégias puras ou mistas, digamos um “bom” (EN1) e um outro “mau” (EN2), entao vários ENPS são possíveis, o número deles aumenta com o aumento do número T de repetições. Exemplo 4: Para ilustrarmos este último caso, retomemos o exemplo considerado em Snyder e Nicholson, p.254, já reproduzido na Figura 7 da Aula 8: Neste exemplo, veremos que resultados cooperativos podem ser sustentados nos estágios iniciais do jogo, mediante o emprego de estratégias gatilho (“trigger strategies”) as quais prevêem punição em caso de desvio da estratégia acordada, obrigando os jogadores a jogar o EN “mau” nos etágios finais do jogo. a2 b2 a1 b1 c1 Jogador 2 Jogador 1 ( 0 , 5 ) ( 1 , 1 ) ( 0 , 0 ) ( 4 , 4 ) ( 5 , 0 ) ( 0 , 0 ) c2 ( 0 , 0 ) ( 0 , 0 ) ( 3 , 3 ) Vimos que este jogo possui 2 EN em estratégias puras, um “bom” EN1=(c1,c1) com payoff 3 para ambos os jogadores e outro “ruim” EN2= (b1,b1), com payoff 1 para ambos os jogadores. O jogo também possui um terceiro EN em estratégicas mistas ((0,3/4,1/4) , (0,3/4,1/4)) com 19 payoff esperado 3/4 para cada jogador, o qual não será aqui considerado. Neste caso, vimos na aula 8 que o valor minmax de ambos os jogadores é 1, de modo que nenhum dos jogadores poderá ser forçado a receber um payoff menor que 1. Suponha inicialmente 2=T , o jogo possui duas etapas. Vários ENPS podem ser concebidos, uns baseados nos equilíbrios de Nash do jogo estagio, como: a) Jogar EN1 nas duas etapas ; Payoff médio = (3+3)/2= 3 por jogador; b) Jogar EN2 nas duas etapas; Payoff médio = 1 por jogador; c) Alternar: (EN1,EN2) ou (EN2,EN1) ; payoff médio= 2 por jogador. Ou entao estabelecer uma estratégia gatilho capaz de sustentar ENPS simétricos com payoff médios mais elevados tais como: d) Na primeira etapa, os jogadores 1 e 2 jogam (a1,a2) respectivamente, com payoff 4 para ambos. Note que este para de estratégias não é um EN. Se nenhum dos jogadores desviar, na segunda etapa joga-se EN1; do contrário, joga-se EN2, o equilíbrio ruim. Que a estratégia descrita acima é um ENPS do jogo isto pode ser comprovado por indução retroativa: na segunda etapa, a estratégia é um EN, por construção; Remontando para a primeira etapa, se nenhum jogador desviou, o payoff médio de um jogador será: (4+3)/2=3.5; Se apenas um deles desviou, o payoff médio deste jogador será: (5+1)/2=3; Se ambos desviaram, o payoff médio de ambos será: (1+1)/2=1. Com isto vemos que o desvio não é vantajoso, de modo que o par de estratégias ( (a1,(c1 se a1 e 2 jogou a2;b1 se b1 ou 2 jogou b2)); (a2,(c2 se a2 e 1 jogou a1;b2 se b2 ou 1 jogou b1)) ) é um ENPS. 20 Uma estratégia gatilho é também capaz de sustentar ENPS assimétricos com payoffs ainda mais elevados para um dos jogadores: e) Na primeira etapa, o jogadores 1 e 2 convencionam jogar a estratégia (b1,a2) com payoffs (5,0) para os jogadores 1 e 2, respectivamente. Se nenhum dos jogadores desviar, na segunda etapa joga-se EN1; do contrário, joga-se EN2, o equilíbrio ruim. Esta estratégia também é um ENPS do jogo: Por indução retroativa, temos que, na segunda etapa, a estratégia é um EN, por construção; Na primeira etapa, se nenhum jogador desviou, o payoff médio do jogador 2 será: (0+3)/2=1.5, enquanto que o payoff médio do jogador 1 será: (5+3)/2=4. Se o jogador 2 desviar, seu payoff médio será: (1+1)/2=1, idëntico ao payoff médio do jogador 1, neste caso. Com isto vemos que desviar não é uma vantajosa, de modo que o par de estratégias: ( (b1,(c1 se b1 e 2 jogou a2;b1 se 2 jogou b2)); (a2,(c2 se a2 e 1 jogou b1;b2 se b2 ou 1 não jogou b1)) ) é um ENPS. As possibilidade de obter ENPS´s se multiplicam ao considerarmos um maior número de repetições do jogo. Para 3=T por exemplo, além dos ENPS´s possíveis envolvendo apenas os dois EN´s em estratégia pura do jogo, vários outros ENPS´s simétricos ou assimétricos podem ser obtidos com estratégias gatilho. 823 = f) Um ENPS simétrico pode ser obtido com a estratégia: Ambos jogam (a1,a2) nas duas primeiras etapas e EN1 na última etapa. Em caso de desvio em uma das duas primeiras etapas, joga-se EN2 nas etapas seguintes. 21 Note que o payoff médio desta estratégia é de (4+4+3)/3=11/3=3.67, contra (4+5+1)=10/3=3.33 em caso de desvio na segunda etapa. g) Um ENPS assimétrico pode ser obtido se os jogadores convencionarem jogar (b1,a2) nas duas primeiras etapas. Se não houver desvio, joga-se EN1 na última etapa. Do contrário, joga-se EN2 nas etapas seguintes. Varias outras estratégias que são ENPS podem ser encontradas repetindo-se o jogo estágio 3 vezes. O importante a reter aqui é que para que a cooperação possa ser sustentável em um ENPS, o jogo estágio deverá ser repetido um número suficiente de vezes para que a punição (jogar EN2) possa ser suficientemente severa a ponto de inviabilizar o desvio. Para formalizarmos o argumento de que o número de ENPS’s aumenta com o aumento do número T de repetições do jogo estágio, vamos devinir o conjunto dos payoffs factíveis de um jogo, e ilustrá-lo no caso do exemplo presente. Definição 5: (Payoffs factíveis) O conjunto dos payoffs factíveis de um jogo estágio é o conjunto dos retornos esperados conjuntamente pelos jogadores, e que podem ser alcançados por alguma estratégia mista conjunta destes jogadores, no jogo estágio. Observe que este é um conjunto n -dimensional se o jogo possui n jogadores. 22 Além disso, este conjunto é convexo, pois ele inclui payoffs obtidos em estratégias mistas, as quais são combinações convexas de estratégias puras. Para ilustrarmos a sua contruçao, usaremos o jogo estágio do exemplo 4 acima: A matriz de payoffs do jogo estágio é simétrica, onde as estratégias puras levam aos seguintes payoffs extremos para os jogadores: (0,0) , (0,5) , (4,4) e (5,0). A junçao destes pontos no plano dos payoffs dos dois jogadores, forma o polígono convexo chamado de conjunto dos payoffs factíveis do jogo estágio, o qual é representado na Figura 7 abaixo: ),( 21 uu Fig.7: Conjunto de payoffs factíveis médios no jogo estágio e Payoffs sustentados por algum ENPS (hachurado) 2 3 4(0,5) (5,0)43 2 (1,1) u1 u2 (4,4) (0,0) ENPS 23 No polígono de extremidades (0,0), (0,5), (4,4) e (5,0) temos todos os payoffs acessíveis pelos dois jogadores através de alguma estratégia mista no jogo estágio. No polígono hachurado temos os payoffs factíveis que são maiores ou iguais aos valores minimax (1,1) dos dois jogadores, e que podem ser aproximados por ENPS´s em alguma repetição T finita do jogo estágio. Isto é o que nos garante o Primeiro Teorema Popular ( “Folk Theorem”) formalizado por Benoit e Krishna (1985), cujo enunciado reproduzimos abaixo: Teorema 3: (Primeiro Teorema Popular) Suponha que o jogo estágio tenha EN múltiplos e que nenhum jogador tenha payoff constante em todos estes equilíbrios. Entao, qualquer payoff factível do jogo estágio que seja maior que o valor minimax de estratégia pura dos jogadores, pode ser aproximado, tão perto quanto se queira, pelo payoff médio (por período) de cada jogador, gerado em algum ENPS com a repetição finita do jogo estágio, para T suficientemente grande. O teorema acima (chamado “popular” porque seu resultado já era de conhecimento comum na teoria dos jogos, antes que alguém o demonstrasse formalmente) nos garante que qualquer par de payoffs dentro da zona hachurada da Figura 7 pode ser alcançado por um equilíbrio de Nash perfeito em subjogos (ENPS) com a repetição do jogo estágio do exemplo 4, um número suficiente de vezes. ),( 21 uu 24 O polígono hachurado mostra também que a repetição finita do jogo estágio garante a sustentação, como ENPS, não apenas de estratégias cooperativas ( com payoffs próximos do ponto (4,4) ) mas também de estratégias assimétricas pouco cooperativas (com payoffs à sudeste ou à noroeste deste polígono). Observe que o primeiro teorema popular aplica-se sòmente para situações em que o jogo estágio possui mais de um equilíbrio de Nash. Para jogos com um único EN, como o Dilema dos Prisioneiros, por exemplo, o teorema de Selten nos assegura que não existe outro equilíbrio perfeito em subjogos (ENPS) além daquele envolvendo a repetição finita EN do jogo estágio. Isto significa que a estratégia cooperativa (ÑC,ÑC) não se sustenta como um ENPS na repetição finita do jogo. 3.2 Repetiçao Infinita Na situação em que o jogo estágio é replicado infinitamente, não existe um estágio terminal T à partir do qual se possa fazer a indução retroativa. Como veremos, um segundo teorema popular aplica- se para jogos infinitamente repetidos garantindo a existência de ENPS mesmo quando o jogo estágio só possui um único EN. Com efeito, veremos no exemplo 5 abaixo que a cooperação pode ser sustentada como um ENPS com o uso da estratégia do gatilho, se o fator de desconto que os jogadores adotarão para trazer ao valor presente os payoffs futuros não for muito baixo. 25 Fator de desconto Com repetiçoes finitas, avaliamos a atratividade das diferentes estratégias comparando, para cada jogador, os payoffs médios obtidos em cada estratégia isto é, tomando o payoff total e dividindo-o pelo número T de repetições. Quando o jogo é teóricamente repetido um número infinito de vezes, teremos uma soma infinita de payoffs cuja média não fica bem definida. Por esta razão, usa-se um fator de desconto 10 ≤< δ representando o valor presente atribuído pelo jogador à uma unidade de payoff a ser recebido por ele no estágio seguinte do jogo. Supondo o fator de desconto constante ao longo do jogo, δ é assim o termo que será aplicado vezes para trazer para valor presente o payoff que será obtido no estágio do jogo. n èsimon Assim por exemplo, se o payoff será obtido na na ésiman etapa e o jogador tem fator de desconto δ , o valor presente de será: na n naδ . Este é o valor atribuído pelo agente ao payoff apropriado períodos à frente. na n Para efeitos de interpretação, considere que se o indivíduo aplicasse hoje este valor n naδ , por n períodos à uma taxa de juros igual à 0>r ,p.p. ele obteria ao final: n nn ar δ)1( + . Se este último valor for exatamente igual à , temos que na r r +=→=+ 1 11)1( δδ , de modo que podemos associar δ ao fator de desconto do mercado r+1 1 . 26 Por outro lado, se δ > r+1 1 , uma aplicaçao à taxa 11 −δ p.p. renderá menos que a taxa r do mercado. Fica assim claro que o fator de desconto δ do indivíduo tende a refletir o fator de desconto do mercado e, em conseqüência a taxa de juros, uma vez que se o fator do mercado for menor do que δ , o indivíduo preferirá apropriar o valor presente de hoje, para entao aplicá-lo ao juro do mercado e receber, após períodos, um valor maior que . na n na Mas o fator de desconto δ também pode incorporar a incerteza do jogador a respeito da continuidade do jogo nas etapas futuras. Quanto maior a probabilidade atribuída pelo jogador de que o jogo terminará nas próximas etapas, menor será a expectativa de retorno das etapas subseqüentes. Esta maior incerteza pode ser materializada por um menor fator de desconto. Relacionando δ assim à probabilidade subjetiva de que o jogo termine na etapa seguinte, pode-se dar ao jogo infinitamente repetido uma interpretação mais realista: Este deve ser interpretado não como um jogo que os jogadores jogam eternamente, até o fim dos tempos, mas simplesmente como um jogo que tem duração indeterminada. Punições Duras e Brandas Vimos no caso de repetição finita que uma maneira de tornar a solução cooperativa sustentável como ENPS consiste em se adotar uma estratégia gatilho na qual a primeira ação não cooperativa é punida com a obrigação dos jogadores jogarem o pior equilíbrio de Nash em todas as etapas subsequentes. 27 Esta estratégia, que envolve a mais severa punição possível é chamada estratégia dura (“Grimm strategy”). Uma outra estratégia do tipo gatilho mais branda é a estratégia do talião, se é que ela pode ser chamada assim (“tit for tat strategy”). O sentido do “tit for tat” em inglês é o de se pagar na mesma moeda. Nesta estratégia, se em um dado estágio um dos jogadores desvia da estratégia cooperativa (A,A) jogando a estratégia B, no estágio seguinte o outro jogador revida também jogando B; depois, ambos retornam para a estratégia cooperativa em todas os estágios subseqüentes. Um ponto importante a ser sublinhado aqui é que quanto mais severamente o desvio da cooperação for punido, mais fácilmente a cooperação pode ser sustentada como um ENPS, na repetição infinita do jogo estágio com um único EN. O exemplo abaixo ilustrará este e outros fatos. Exemplo 5: Dois jogadores repetem o indefinidamente o seguinte jogo estágio: Fig.8:Jogo estágio com um único EN A B A B Jogador 2 Jogador 1 ( 1 , 6 ) ( 2 , 2 ) ( 5 , 5 ) ( 6 , 1 ) 28 Temos aqui um jogo com um único equilíbrio de Nash em estratégia dominante, (B,B) com payoff 2 para ambos os jogadores. Mas existe uma opção cooperativa (A,A) que oferece payoff 2,5 vezes maior (=5) para ambos os jogadores. Suponha que o fator de desconto dos jogadores seja idêntico e igual à δ . O valor presente da utilidade do jogo com repetiçao indeterminada será, nos diferentes casos: a) Cooperação: δδδ −=+++= 1 5...555 2coopu para ambos jogadores. b) Estratégia gatilho “dura” (grimm strategy): O valor presente da utilidade do jogador que desvia será: δ δδδ −+=+++= 1 26...226 2grimmu c) Estratégia “branda” (tit for tat strategy)O valor presente da utilidade do jogador que desvia será: δ δδδδ −++=+++= 1 526...526 2 2tatfortitu Observe que o valor presente do jogador que revida será: δ δδδδ −++=+++ 1 521...521 2 2 , valor menor daquele que desvia. 29 Observe também que, em cada caso, o payoff normalizado, equivalente a um payoff “médio” por rodada, é obtido multiplicando-se o valor presente da utilidade por δ−1 . A cooperação é sustentável como um ENPS se ou, olhando para os payoffs normalizados, se desviocoop uu ≥ u)1( desviocoop u)1( δδ −≥− . No caso do desvio com punição dura obtemos: δδ δ δ 4651 26 1 5 −≥→−+≥− ou: δ≤4 1 ; No caso do desvio com punição branda obtemos: )1)(3/1(303465 1 526 1 5 22 −−≥→+−≥→−++≥− δδδδδ δδδ ou: 1 3 1 <≤ δ Em ambos os casos, vemos que os jogadores desejarão continuar adotando a estratégia cooperativa enquanto não descontarem os payoffs futuros desta cooperação muito fortemente (δ suficientemente elevado). O valor do fator de desconto é, portanto, crucial para que a cooperaçao possa ser sustentada em jogos com repetição infinita. Observe também que o conjunto de valores de δ que sustenta a cooperação como um ENPS é maior no caso em que a punição é mais severa ( 4/1≥δ ) do que no caso em que a punição é mais branda 13/1 ≤ <δ . Este particular ilustra o fato geral, já mencionado acima, de que a cooperação é tao mais fácilmente sustentável quanto mais severa é a punição em caso de desvio. 30 No limite, quando 1→δ , as punições duras tornam-se infinitamente severas, pois que elas envolvem uma interminável sequencia de perdas não descontadas. Deste modo, punições com elevados fatores de desconto podem sustentar um amplo espectro de resultados como payoffs gerados por equilíbrios de Nash perfeitos em subjogos (ENPS) Esta é a lógica por trás do segundo teorema popular, de Fudenberg e Maskin (1986): Teorema 4: (Segundo Teorema Popular) Todo payoff factível maior que o valor minimax dos jogadores em um jogo estágio, pode ser obtido como o payoff normalizado que estes jogadores obtem em algum ENPS de um jogo repetido infinitamente, para δ suficientemente próximo de 1. Na Figura 9 abaixo apresentamos o conjunto dos payoffs factíveis e o conjunto de payoffs normalizados que pode ser sustentados como resultado de ENPS no jogo infinitamente repetido da Figura 8 anterior: Fig.9: Payoffs factíveis normalizados e Payoffs sustentados por algum ENPS (hachurado)no jogo infinitamente repetido. (1,6) (6,1) (2,2) u1 u2 (5,5) (0,0) ENPS 31 Observe que o valor minmax deste jogo é 2 para ambos os jogadores, o que corresponde ao payoff do EN. Temos por fim uma analogia importante entre os resultados do Primeiro e Segundo Teoremas Populares. No segundo teorema, o limite envolve aumentos no fator de desconto δ , enquanto que no primeiro teorema é o número de repetições T que aumenta. Mas os dois limites se relacionam. Com efeito, se δ é a probabilidade que o jogo continue na próxima etapa, entao δ−1 é a probabilidade que ele termine nesta etapa. Sendo entao N o número de repetições do jogo até o seu término, temos que N é uma v.a. geométrica com parâmetro δ−1 e suporte no conjunto dos números naturais. Deste modo, δ−= 1 1EN é o número médio de repetiçoes do jogo estágio até o seu término. Nesta última expressão, vemos então que à medida em que δ converge para aumenta o número médio de repetições do jogo. 1 32 4. Bibliografia e Exercícios Sugeridos Bibliografia: [SN] Cap.8 [VO] Cap.16 [PR] Cap.13 [JR] Cap.7 Exercícios Sugeridos. Anpec: 2012/ Q08 2011/ Q11 2010/ Q10 2009/ Q11 2008/ Q09 2007/ Q11 2006/ Q10,Q11 2005/ Q11,Q12 2004/ Q11,Q14 2003/ Q11,Q12 [SN]: 8.1-8.5
Compartilhar