ANPEC AULA 10. Estratégias e Jogos - III

•
UERJ

Pedro Henrique Torres
12/12/2013
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Teoria Microeconômica I

259 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
1
AULA 10 : ESTRATÉGIAS E JOGOS - III 
 
 
 1. Jogos seqüenciais; 
 2. Subjogos e Equilíbrio Perfeito em subjogo 
 3. Jogos Repetidos 
 4. Bibliografia e Exercícios sugeridos 
 
 
 
1. Jogos Seqüenciais 
 
 
Nos jogos seqüenciais, os jogadores não empreendem 
suas ações simultaneamente, mas sequencialmente, 
um após outro, ao longo do tempo. 
 
A melhor representaçao de um jogo seqüencial é a 
forma extensiva, onde os nós de decisão aparecem 
por ordem de jogada, de cima para baixo, em formato 
de árvore. 
 
Exemplo 1 : (jogo predatório simples) 
 
No mercado de um produto, o potencial entrante (E) 
tem duas opções, entrar (e) ou não entrar (ñe), 
enquanto que a firma estabelecida (I) tem duas 
opções: combater (c) ou acomodar (a). 
 
Os retornos deste jogo aparecem nos pontos terminais 
da árvore, como na Figura 1 abaixo. 
 
Trata-se de um jogo com informação perfeita. 
 
Definição 1: (informação perfeita) 
Um jogo seqüencial é dito é um jogo com 
informação perfeita se cada conjunto de informação 
do jogo contém apenas um nó de decisao. 
 
Do contrário, trata-se de um jogo com informação 
imperfeita. 
 
 
 
 2
Fig.1a: Jogo Predatório simples 
 
 
E
I
ñe e
ac⎟
⎟⎠
⎞
⎜⎜⎝
⎛
2
0
⎟⎟⎠
⎞⎜⎜⎝
⎛
−
−
1
3 ⎟⎟⎠
⎞
⎜⎜⎝
⎛
1
2
 
 
 
No seu turno, a firma incumbente (I) sabe qual foi a 
decisão da firma entrante (E) na primeira etapa. 
 
Observe que todo jogo com informação perfeita é um 
jogo com memória perfeita. 
 
Ao jogar na nesima estapa, o jogador conhece o 
histórico de todas as decisões anteriores, não apenas 
as dele, mas também a dos outros participantes. 
 
Em jogos com informação imperfeita, isto não 
ocorre, como ilustrado nas Figuras 2a e 2b: 
 
Na Figura 2a , o jogador 2 “esqueceu” a escolha feita 
pelo jogador 1, que ele havia conhecido na 1ª etapa. 
 
Na Figura 2b, o jogador 1 “esqueceu” do que ele 
mesmo havia jogado na 1ª etapa. 
 
 
 
 
 
 
 
 3
 
Fig.2a: O jogador 2 esquece o que antes sabia... 
 
1
2
R
r
2
c
1 1
2 2
l
L RL
a b a b
dcd
 
 
 
 
Fig.2b: O jogador 1 esquece o que fez antes... 
 
 
 
1
2
R
r
2
a
l
L RL
a b a b bab
1
 
 
 
Portanto, jogos com informação imperfeita incluem 
situações em que pelo menos um dos jogadores não 
conhece todo ou parte do histórico do jogo. 
 
 
 4
 
 
Vamos agora definir conceitualmente o que é uma 
estratégia de um jogo seqüencial. 
 
 
Definição2: (Estratégia de um jogo sequencial) 
 
Em um jogo seqüencial uma estratégia é uma regra 
de decisão, um plano contingente completo, que 
especifica como o jogador poderá jogar em cada 
situação distinguível do jogo. 
 
 
 
Por exemplo, no jogo predatório simples, 
é o conjunto das estratégias possíveis do potencial 
entrante e o conjunto das 
duas estratégias possíveis para a firma incumbente. 
{ })(),(1 ñeeS =
{ })(),(2 ejogaEseaejogaEsecS =
 
Dado que neste jogo as firmas se movem uma única 
vez, é possível dar à ele uma representaçao na forma 
normal: 
 
Fig.1b: Forma Normal do jogo predatório simples 
 
“c” se E joga e “a” se E joga e
e
I : Incumbente
E: Entrante
( 0 , 2 )
( 2 , 1 ) 
( 0, 2 )
( - 3 , -1 )
ñe
 
 
 
 
 5
Pela representaçao deste jogo na forma normal vemos 
que existem dois equilíbrios de Nash em estratégias 
puras: 
EN1=(ñe , “c” se E joga e) ; EN2= (e , “a” se E joga e) 
 
No entanto, o equilíbrio EN1 é paradoxal, no sentido 
de que é um equilíbrio não crível. 
 
Com efeito, a firma E pode anticipar que se ela entra, 
a melhor resposta da Incumbente é “a” (acomodar) e 
não combater. 
 
Logo, a estratégia (“c” se E joga e), não é uma 
ameaça crível para a firma E. 
 
O equilíbrio EN1 mostra também que se a firma 
Incumbente combate caso E entre, entao a melhor 
resposta de E é ñe ! 
 
 
Eliminação das estratégias não críveis 
 
 
A necessidade de se eliminar este tipo de equilíbrio 
não crível, como o equilíbrio EN1 acima, leva à idéia 
de que as estratégias de equilíbrio de um jogo 
seqüencial devam atender o princípio da 
racionalidade seqüencial: 
 
O princípio da racionalidade seqüencial estabelece 
que, no equilíbrio, a estratégia de cada jogador 
deve especificar ações ótimas em cada ponto da 
árvore do jogo. 
 
 
Assim o equilíbrio EN1 não é sequencialmente 
racional porque, para a firma Incumbente, a 
estratégia (“c” se E joga e) não é ótima. 
 
Já a estratégia (“a” se E joga e) é uma estratégia 
sequencialmente racional para a firma Incumbente, 
 
 
 
 
 6
Indução Retroativa 
 
Os equilíbrios de Nash sequencialmente racionais são 
obtidos por indução retroativa (backward 
induction). 
 
Este procedimento consiste em se determinar 
primeiro as escolhas ótimas no final do jogo. 
 
Em seguida, resolve-se o problema das escolhas 
ótimas nas etapas anteriores, subindo a árvore do 
jogo, dadas as escolhas antecipadas. 
 
Tal procedimento captura bem a idéia da 
racionalidade seqüencial, uma vez que escolhas 
ótimas estarão sendo realizadas em cada nó de 
decisão. 
 
O método da indução retroativa aplica-se 
particularmente bem a jogos finitos com informação 
perfeita, mas não exclusivamente a estes, como 
veremos mais adiante. 
 
 
Indução retroativa no jogo predatório simples 
 
Como ilustração, vamos obter o equilíbrio 
sequencialmente racional EN2, por indução 
retroativa no jogo do exemplo 1. 
 
1. Primeiro resolve-se o subjogo terminal para a 
firma Incumbente: 
 
I
ac
⎟⎟⎠
⎞⎜⎜⎝
⎛
−
−
1
3 ⎟⎟⎠
⎞
⎜⎜⎝
⎛
1
2
 
 
 7
Evidentemente, a firma escolherá a estratégia “a” 
neste subjogo. 
 
Substituindo-se o payoff no estágio 
imediatamente acima do jogo, para a escolha da firma 
entrante (E). 
⎟⎟⎠
⎞⎜⎜⎝
⎛
1
2
 
2. A firma E considerará entao o jogo reduzido, no 
qual a escolha da firma incumbente é antecipado. 
 
Ela agora sabe que se entrar a firma incumbente 
acomodará, de modo que ela escolherá entrar “e”, 
pois terá payoff 2 que é maior que o payoff 0 que 
terá caso não entrar “ñe”. 
 
 
 
E
ñe e
⎟⎟⎠
⎞⎜⎜⎝
⎛
2
0
⎟⎟⎠
⎞⎜⎜⎝
⎛
1
2
 
 
Por induçao retroativa, fica assim estabelecida a 
estratégia: 
 (e , “a” se E joga e) 
 
como o único equilíbrio de Nash sequencialmente 
racional deste jogo. 
 
Exemplo 2: Jogo com 3 jogadores 
 
 Considere o jogo com informação perfeita 
envolvendo 3 jogadores, representado na Figura 3 
abaixo: 
 
 
 
 8
Fig.3: Jogo com 3 jogadores e informação perfeita 
 
 
1
2
r
R
3
L
l ba
l r rl⎟
⎟⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛
1
0
2
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛−
6
5
1
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛
2
1
3
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛
4
4
5
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛
−
7
1
0
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛−
0
2
2
33
 
 
Equilíbrio sequencialmente racional: 
 
Resolvendo este jogo por indução retroativa, 
consideramos primeiramente as escolhas ótimas do 
jogador 3, o último a se mover. 
 
Caso o jogador 1 jogar “L”, a escolha ótima do 
jogador 3 será “r”. 
 
Caso o jogador 1 jogar “R” e o jogador 2 jogar “a”, a 
escolha ótima do jogador 3 será “r”; se o jogador 2 
jogar “b”, sua escolha ótima será “l”: 
 
Obtemos assim a estratégia ótima do jogador 3: 
 
 
)21""
;21"";1""(ˆ2
bjogaeRjogasel
ajogaeRjogaserLjogasers =
 
 
 
Com a primeira redução, o jogo original fica asssim: 
 
 9
 
1
2
RL
ba
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛−
6
5
1
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛
4
4
5
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛
−
7
1
0
 
 
 
É notório que a estratégia ótima dojogador 2 será: 
 
 
 )1""(ˆ2 Rjogaseas =
 
A segunda e última simplificação do jogo definirá a 
estratégia ótima do primeiro jogador: 
 
 
1 RL
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛−
6
5
1
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛
4
4
5
 
A escolha ótima do jogador 1 será )"("1ˆ Rs = “R”. 
 
Assim o equilibrio de Nash sequencialmente racional 
será: 
 
 
 )ˆ,ˆ,ˆ( 3210 sssEN =
 
 10
Outro equilíbrio de Nash 
ash, 
 qual não é todavia sequencialmente racional. 
 de acordo com as 
scolhas do jogador 2, “a” ou “b”: 
ig.4a: Forma normal do jogo para 1 e 3: 
 
 
Entretanto, este jogo possui outro equilíbrio de N
o
 
Para identificá-lo, vamos escrever o jogo na forma 
normal para os jogadores 1 e 3,
e
 
F
l r
L
R
Jogador 3
Jogador 1
( - 1 , 5, 6 )
( 5, 4, 4) 
( 2, 0, 1)
( 3, 1, 2 )
O jogador 2 joga “a”:
 
erior, 
nde o payoff aparece circunscrito pela elipse. 
ig.4b: Forma normal do jogo para 1 e 3: 
 
 
Neste caso, temos bem o equilíbrio EN0 ant
o
 
 
F
l r
L
R
Jogador 3
Jogador 1
( - 1 , 5, 6 )
( -2, 2, 0) 
( 2, 0, 1)
( 0, -1, 7 )
O jogador 2 joga “b”:
 
 
 11
 
Vemos acima que EN1= ( (“L”) ; (“b” se 1 joga L); (“r” 
se 1 joga L e 2 joga b) ) é outro equilíbrio de Nash, 
ujo payoff aparece circunscrito pela elipse. 
 “b”, entao o ótimo para ele será jogar “l”, e não 
r”. 
ente racional, obtenível por indução 
etroativa. 
a jogos 
eqüenciais finitos com informação perfeira. 
eorema 1
c
 
Entretanto, este não é um equilíbrio crível, porque a 
escolha do jogador 3 não é ótima: se o jogador 2 
joga
“
 
Por esta razão EN1 não é um equilíbrio 
sequencialm
r
 
 
O teorema abaixo é de grande utilidade par
s
 
T :(Zermelo) 
 
Todo jogo finito com informação perfeita tem um 
equilíbrio de Nash em estratégia pura, o qual pode 
ser obtido por indução retroativa. 
 
Além disso, se nenhum jogador tiver payoff idêntico 
a de algum outro jogador no nó terminal, este 
equilíbrio é único. 
 
 
 
 
 
 
2 Subjogos e Perfeição em Subjogo 
 
 
mente racional 
e um jogo com informação perfeita. 
a a resolução de jogos com 
nformação imperfeita. 
. 
 
Anunciamos anteriormente que a indução retroativa 
permite obter o equilíbrio sequencial
d
 
Mas isto não significa que este método não possa 
também ser aplicado par
i
 
 12
Exemplo 3 : (jogo predatório ampliado; Mas-Colell 
 et.al.p.273) 
operativo com escolhas 
ombate (c) ou acomoda (a). 
ig.5a: Jogo Predatório ampliado 
 
 
 
Consideramos agora uma extensão do jogo predatório 
simples do exemplo 1 no qual, após a entrada, as 
firmas jogam um jogo não co
c
 
 
F
E
E
eñe
ac
c a ac
⎟⎟⎠
⎞⎜⎜⎝
⎛
2
0
⎟⎟⎠
⎞⎜⎜⎝
⎛
−
−
1
3
⎟⎟⎠
⎞⎜⎜⎝
⎛
− 2
1
⎟⎟⎠
⎞⎜⎜⎝
⎛
−
−
1
2
⎟⎟⎠
⎞⎜⎜⎝
⎛
1
3
I
 
 
Resolvendo-se em estratégias puras o subjogo não 
cooperativo, obtemos a estratégia pura (“a” , “a”) com 
ayoff ( 3 , 1). 
 jogo reduzido fica assim para a firma entrante: 
 
p
 
O
E eñe
⎟⎟⎠
⎞⎜⎜⎝
⎛
2
0 ⎟⎟⎠
⎞⎜⎜⎝
⎛
1
3
 
O equilíbrio obtido por induçao retroativa é: 
 
 13
 EN0 = (( “e”, “a” se e) , (“a” se E joga e)) 
nico equilíbrio 
equencialmente racional deste jogo. 
uilíbrios aparecem no jogo 
scrito na forma normal: 
ig.5b: Forma normal do jogo predatório ampliado 
 
 
com payoff ( 3, 1), o qual é o ú
s
 
Entretanto, dois outros eq
e
 
 
F
“c” se E joga e “a” se E joga e
e , “c” se e
e , “a” se e
I
E
( 0 , 2 )
( 0 , 2 ) 
( 1 , -2)
( 0, 2 )
( 0 , 2 )
( -3 , -1 )
ñe , “c” se e
ñe , “a” se e
( -2 , -1 ) ( 3 , 1 )
 
por uma 
lipse não são racionalmente sustentáveis. 
 se E 
ntra a estratégia ótima dela é “a” (acomodar). 
 
 
Mas os dois outros equilíbrios EN1=((ñe,”c” se e), 
(“c”se E joga e)) e EN2 =((ñe,”a” se e), (“c”se E joga 
e)) cujos payoffs aparecem circunscritos 
e
 
Isto ocorre porque a estratégia (“c”se E joga e) da 
firma incumbente não é crível, uma vez que
e
 
 14
Logo, EN0 = (( “e”, “a” se e) , (“a” se E joga e) é a 
única previsão razoável para este jogo. 
O exemplo 2 acima captura muito bem a idéia de 
Equilíbrio de Nash perfeito em subjogo, uma 
onceituação introduzida na teoria dos jogos por 
elten, em 1965. 
ubjogos 
c
S
 
 
S
 
 
Definição 3: (Subjogo) 
 
Um subjogo de um jogo seqüencial escrito na forma 
extensiva é um subconjunto deste jogo, possuindo as 
seguintes propriedades: 
 
(i) Ele inicia com um conjunto de informação 
contendo um único nó de decisão; 
 
(ii) Ele contém todos os nós sucessores do nó inicial 
(imediatos ou não) e sòmente estes nós; 
 
(iii) Não existem no subjogo conjuntos de 
informação compartilhados com nós fora do subjogo, 
no seguinte sentido: 
 
 Se x é um nó do subjogo e )(xΙ é o seu conjunto de 
informação, entao se x′ é ó de decisão e um outro n
)x(Ι∈′ , entao também deve estar no subjogo. x′x
 
 
 
Observe que o jogo inteiro sempre é um subjogo. 
ma elipse 
ontilhada dois subconjuntos de um jogo sequencial, 
m que é um subjogo e outro que não é. 
 
 
Na Figura 6 abaixo ilustramos com u
p
u
 
 
 
 
 
 15
 
 
Fig.6: Ilustrando subjogos 
 
 
1
2
R
r
2
a
l
L RL
a b a b bab
1
subjogoNáo é um subjogo
1
3
 
 
Equilíbrio de Nash Perfeito em Subjogos (ENPS) 
em 
ubjogos é intimamente relacionado com o equilíbrio 
equencialmente racional definido anteriormente. 
 
 
O conceito de equilíbrio de Nash Perfeito 
s
s
 
 
Definição 4: (ENPS) 
 
Um vetor de estratégias )ˆ,...,ˆ(ˆ 1 nsss = de um jogo 
seqüencial é um equilíbrio de Nash Perfeito em 
Subjogos (ENPS) se ele induz um Equilíbrio de Nash 
em cada subjogo do jogo original. 
 
 
Observaçoe: 
 
(i) izemos que D sˆ induz um EN em um subjogo 
particular do jogo principal se as ações especificadas 
em sˆ para os conjuntos de informação do subjogo 
onstituem um EN do subjogo, quando este é 
Em outras palavras, o traço de 
c
considerado de uma forma isolada. 
 
sˆ em cada subjogo é 
um EN deste subjogo. 
 16
Por exemplo, no jogo predatório ampliado, o 
equilíbrio EN0 = (( “e”, “a” se e) , (“a” se E joga e)) é 
um ENPS do jogo principal pois a estratégia 
 
 ((“a” se e) , (“a” se E joga e)) 
 
é um equilíbrio de Nash no único subjogo próprio 
deste jogo, que é aquele com informaçao imperfeita 
onde as duas firmas atuam conjuntamente no 
mercado. 
 
(ii) Em jogos seqüenciais finitos, com informação 
perfeita, os equilíbrios sequencialmente racionais, 
são equilíbrios ENPS (Kreps e Wilson). 
 
(iii) A identificação de um ENPS também é feita por 
indução retroativa. 
 
 
 
3. Jogos Repetidos 
 
 
Em muitas situações reais, o mesmo jogo é repetido 
pelos mesmos jogadores, um número finito de vezes. 
 
Por exemplo, os feirantes devem afixar o preço do 
tomate diáriamente, junto com os ofertantes vizinhos; 
os postos devem afixar os preços da gasolina e do 
etanol também diáriamente, etc. 
 
O mesmo jogo, com os mesmos jogadores e mesmos 
payoffs é jogado um determinado número de vezes. 
 
O jogo que é assim repetido é chamado jogo estágio. 
 
Teóricamente, um mesmo jogo estágio pode ser 
replicado infinitamente. 
 
Para efeitos analíticos, a teoria dos jogos distingue 
os jogos com repetição finita dos jogos replicados 
infinitamente, pois as condiçoes que garantem a 
existência de equilíbrios de Nash perfeitos em 
subjogos, ao longo das repetições (ENPS), são 
distintas nos dois casos. 
 17
 
3.1 Repetiçao Finita 
 
 
Suponha um jogo estágioreplicado T vezes ( ,...2,1=T ). 
 
(a) Se o jogo estágio só possui um único equilíbrio 
de Nash seja, EN0, entao o único ENPS no jogo 
repetido é o equilíbrio do jogo estágio, repetido T 
vezes: 
 
 4434421
vezesT
ENENENPS ),...,( 00= 
 
Teorema 2: (Selten) 
 
Se o jogo estágio só possui um único equilíbrio de 
Nash (EN0) entao o único equilíbrio de Nash perfeito 
em subjogos (ENPS) no jogo repetido um número 
finito de vezes, consiste em jogar EN0 à cada vez. 
 
 
Um exemplo clássico deste caso é o Dilema dos 
Prisioneiros estudado na aula anterior. 
 
A razão disto é que, por indução retroativa, o 
último estágio do jogo )(T deve ser, necessáriamente, 
um EN. 
 
Entao, no estágio anterior )1( −T , qualquer estratégia 
gatilho de puniçao que condiciona o payoff do 
último estágio à açao empreendida neste estágio fica 
excluída, uma vez que no último estágio os 
jogadores devem necessáriamente jogar o EN. 
 
Logo, em 1−T os jogadores também jogam o EN. 
 
Remontando assim aos estágios anteriores, vemos 
que o único ENPS na repetição do jogo com um 
único EN consiste replicar este equilíbrio em cada 
estágio. 
 
 18
(b) Se o jogo estágio possui dois (ou mais) 
equilíbrios de Nash em estratégias puras ou mistas, 
digamos um “bom” (EN1) e um outro “mau” (EN2), 
entao vários ENPS são possíveis, o número deles 
aumenta com o aumento do número T de repetições. 
 
Exemplo 4: 
 
Para ilustrarmos este último caso, retomemos o 
exemplo considerado em Snyder e Nicholson, p.254, 
já reproduzido na Figura 7 da Aula 8: 
 
Neste exemplo, veremos que resultados cooperativos 
podem ser sustentados nos estágios iniciais do jogo, 
mediante o emprego de estratégias gatilho (“trigger 
strategies”) as quais prevêem punição em caso de 
desvio da estratégia acordada, obrigando os 
jogadores a jogar o EN “mau” nos etágios finais do 
jogo. 
 
a2 b2
a1
b1
c1
Jogador 2
Jogador 1
( 0 , 5 )
( 1 , 1 ) 
( 0 , 0 )
( 4 , 4 )
( 5 , 0 )
( 0 , 0 )
c2
( 0 , 0 )
( 0 , 0 )
( 3 , 3 )
 
 
 
Vimos que este jogo possui 2 EN em estratégias 
puras, um “bom” EN1=(c1,c1) com payoff 3 para 
ambos os jogadores e outro “ruim” EN2= (b1,b1), com 
payoff 1 para ambos os jogadores. 
 
O jogo também possui um terceiro EN em 
estratégicas mistas ((0,3/4,1/4) , (0,3/4,1/4)) com 
 19
payoff esperado 3/4 para cada jogador, o qual não 
será aqui considerado. 
 
Neste caso, vimos na aula 8 que o valor minmax de 
ambos os jogadores é 1, de modo que nenhum dos 
jogadores poderá ser forçado a receber um payoff 
menor que 1. 
 
Suponha inicialmente 2=T , o jogo possui duas etapas. 
 
Vários ENPS podem ser concebidos, uns baseados 
nos equilíbrios de Nash do jogo estagio, como: 
 
a) Jogar EN1 nas duas etapas ; Payoff médio = 
 (3+3)/2= 3 por jogador; 
b) Jogar EN2 nas duas etapas; Payoff médio = 1 por 
 jogador; 
c) Alternar: (EN1,EN2) ou (EN2,EN1) ; payoff médio= 
 2 por jogador. 
 
Ou entao estabelecer uma estratégia gatilho capaz de 
sustentar ENPS simétricos com payoff médios mais 
elevados tais como: 
 
 
d) Na primeira etapa, os jogadores 1 e 2 jogam (a1,a2) 
respectivamente, com payoff 4 para ambos. Note que 
este para de estratégias não é um EN. Se nenhum dos 
jogadores desviar, na segunda etapa joga-se EN1; do 
contrário, joga-se EN2, o equilíbrio ruim. 
 
Que a estratégia descrita acima é um ENPS do jogo 
isto pode ser comprovado por indução retroativa: na 
segunda etapa, a estratégia é um EN, por 
construção; Remontando para a primeira etapa, se 
nenhum jogador desviou, o payoff médio de um 
jogador será: (4+3)/2=3.5; Se apenas um deles 
desviou, o payoff médio deste jogador será: 
(5+1)/2=3; Se ambos desviaram, o payoff médio de 
ambos será: (1+1)/2=1. Com isto vemos que o desvio 
não é vantajoso, de modo que o par de estratégias 
( (a1,(c1 se a1 e 2 jogou a2;b1 se b1 ou 2 jogou b2)); 
(a2,(c2 se a2 e 1 jogou a1;b2 se b2 ou 1 jogou b1)) ) é 
um ENPS. 
 
 20
 
Uma estratégia gatilho é também capaz de sustentar 
ENPS assimétricos com payoffs ainda mais elevados 
para um dos jogadores: 
 
 
e) Na primeira etapa, o jogadores 1 e 2 convencionam 
jogar a estratégia (b1,a2) com payoffs (5,0) para os 
jogadores 1 e 2, respectivamente. Se nenhum dos 
jogadores desviar, na segunda etapa joga-se EN1; do 
contrário, joga-se EN2, o equilíbrio ruim. 
 
Esta estratégia também é um ENPS do jogo: Por 
indução retroativa, temos que, na segunda etapa, a 
estratégia é um EN, por construção; Na primeira 
etapa, se nenhum jogador desviou, o payoff médio do 
jogador 2 será: (0+3)/2=1.5, enquanto que o payoff 
médio do jogador 1 será: (5+3)/2=4. Se o jogador 2 
desviar, seu payoff médio será: (1+1)/2=1, idëntico 
ao payoff médio do jogador 1, neste caso. Com isto 
vemos que desviar não é uma vantajosa, de modo que 
o par de estratégias: 
( (b1,(c1 se b1 e 2 jogou a2;b1 se 2 jogou b2)); (a2,(c2 
se a2 e 1 jogou b1;b2 se b2 ou 1 não jogou b1)) ) é 
um ENPS. 
 
 
As possibilidade de obter ENPS´s se multiplicam ao 
considerarmos um maior número de repetições do 
jogo. 
 
 
Para 3=T por exemplo, além dos ENPS´s 
possíveis envolvendo apenas os dois EN´s em 
estratégia pura do jogo, vários outros ENPS´s 
simétricos ou assimétricos podem ser obtidos com 
estratégias gatilho. 
823 =
 
 
f) Um ENPS simétrico pode ser obtido com a 
estratégia: Ambos jogam (a1,a2) nas duas primeiras 
etapas e EN1 na última etapa. Em caso de desvio em 
uma das duas primeiras etapas, joga-se EN2 nas 
etapas seguintes. 
 
 21
 Note que o payoff médio desta estratégia é de 
(4+4+3)/3=11/3=3.67, contra (4+5+1)=10/3=3.33 
em caso de desvio na segunda etapa. 
 
 
g) Um ENPS assimétrico pode ser obtido se os 
jogadores convencionarem jogar (b1,a2) nas duas 
primeiras etapas. Se não houver desvio, joga-se EN1 
na última etapa. Do contrário, joga-se EN2 nas etapas 
seguintes. 
 
 
Varias outras estratégias que são ENPS podem ser 
encontradas repetindo-se o jogo estágio 3 vezes. 
 
 
O importante a reter aqui é que para que a 
cooperação possa ser sustentável em um ENPS, o 
jogo estágio deverá ser repetido um número 
suficiente de vezes para que a punição (jogar EN2) 
possa ser suficientemente severa a ponto de 
inviabilizar o desvio. 
 
 
Para formalizarmos o argumento de que o número de 
ENPS’s aumenta com o aumento do número T de 
repetições do jogo estágio, vamos devinir o conjunto 
dos payoffs factíveis de um jogo, e ilustrá-lo no caso 
do exemplo presente. 
 
 
Definição 5: (Payoffs factíveis) 
 
O conjunto dos payoffs factíveis de um jogo estágio é 
o conjunto dos retornos esperados conjuntamente 
pelos jogadores, e que podem ser alcançados por 
alguma estratégia mista conjunta destes jogadores, 
no jogo estágio. 
 
 
 
Observe que este é um conjunto n -dimensional se o 
jogo possui n jogadores. 
 
 22
Além disso, este conjunto é convexo, pois ele inclui 
payoffs obtidos em estratégias mistas, as quais são 
combinações convexas de estratégias puras. 
 
Para ilustrarmos a sua contruçao, usaremos o jogo 
estágio do exemplo 4 acima: 
 
A matriz de payoffs do jogo estágio é simétrica, onde 
as estratégias puras levam aos seguintes payoffs 
extremos para os jogadores: (0,0) , (0,5) , (4,4) e 
(5,0). 
 
 
A junçao destes pontos no plano dos payoffs 
dos dois jogadores, forma o polígono convexo 
chamado de conjunto dos payoffs factíveis do jogo 
estágio, o qual é representado na Figura 7 abaixo: 
),( 21 uu
 
 
Fig.7: Conjunto de payoffs factíveis médios no jogo 
 estágio e Payoffs sustentados por algum 
 ENPS (hachurado) 
 
2
3
4(0,5)
(5,0)43
2
(1,1)
u1
u2
(4,4)
(0,0)
ENPS
 
 
 23
 
No polígono de extremidades (0,0), (0,5), (4,4) e 
(5,0) temos todos os payoffs acessíveis pelos dois 
jogadores através de alguma estratégia mista no jogo 
estágio. 
 
 
No polígono hachurado temos os payoffs factíveis 
que são maiores ou iguais aos valores minimax (1,1) 
dos dois jogadores, e que podem ser aproximados por 
ENPS´s em alguma repetição T finita do jogo estágio. 
 
 
Isto é o que nos garante o Primeiro Teorema Popular 
( “Folk Theorem”) formalizado por Benoit e Krishna 
(1985), cujo enunciado reproduzimos abaixo: 
 
 
 
Teorema 3: (Primeiro Teorema Popular) 
 
Suponha que o jogo estágio tenha EN múltiplos e que 
nenhum jogador tenha payoff constante em todos 
estes equilíbrios. 
Entao, qualquer payoff factível do jogo estágio que 
seja maior que o valor minimax de estratégia pura 
dos jogadores, pode ser aproximado, tão perto 
quanto se queira, pelo payoff médio (por período) de 
cada jogador, gerado em algum ENPS com a 
repetição finita do jogo estágio, para T 
suficientemente grande. 
 
 
 
O teorema acima (chamado “popular” porque seu 
resultado já era de conhecimento comum na teoria 
dos jogos, antes que alguém o demonstrasse 
formalmente) nos garante que qualquer par de 
payoffs dentro da zona hachurada da Figura 7 
pode ser alcançado por um equilíbrio de Nash 
perfeito em subjogos (ENPS) com a repetição do jogo 
estágio do exemplo 4, um número suficiente de vezes. 
),( 21 uu
 
 24
O polígono hachurado mostra também que a repetição 
finita do jogo estágio garante a sustentação, como 
ENPS, não apenas de estratégias cooperativas ( com 
payoffs próximos do ponto (4,4) ) mas também de 
estratégias assimétricas pouco cooperativas (com 
payoffs à sudeste ou à noroeste deste polígono). 
 
 
Observe que o primeiro teorema popular aplica-se 
sòmente para situações em que o jogo estágio possui 
mais de um equilíbrio de Nash. 
 
Para jogos com um único EN, como o Dilema dos 
Prisioneiros, por exemplo, o teorema de Selten nos 
assegura que não existe outro equilíbrio perfeito em 
subjogos (ENPS) além daquele envolvendo a 
repetição finita EN do jogo estágio. 
 
Isto significa que a estratégia cooperativa (ÑC,ÑC) 
não se sustenta como um ENPS na repetição finita do 
jogo. 
 
 
 
3.2 Repetiçao Infinita 
 
 
Na situação em que o jogo estágio é replicado 
infinitamente, não existe um estágio terminal T à 
partir do qual se possa fazer a indução retroativa. 
 
Como veremos, um segundo teorema popular aplica-
se para jogos infinitamente repetidos garantindo a 
existência de ENPS mesmo quando o jogo estágio só 
possui um único EN. 
 
Com efeito, veremos no exemplo 5 abaixo que a 
cooperação pode ser sustentada como um ENPS com 
o uso da estratégia do gatilho, se o fator de desconto 
que os jogadores adotarão para trazer ao valor 
presente os payoffs futuros não for muito baixo. 
 
 
 
 25
Fator de desconto 
 
Com repetiçoes finitas, avaliamos a atratividade das 
diferentes estratégias comparando, para cada jogador, 
os payoffs médios obtidos em cada estratégia isto é, 
tomando o payoff total e dividindo-o pelo número T 
de repetições. 
 
Quando o jogo é teóricamente repetido um número 
infinito de vezes, teremos uma soma infinita de 
payoffs cuja média não fica bem definida. 
 
Por esta razão, usa-se um fator de desconto 10 ≤< δ 
representando o valor presente atribuído pelo 
jogador à uma unidade de payoff a ser recebido por 
ele no estágio seguinte do jogo. 
 
Supondo o fator de desconto constante ao longo do 
jogo, δ é assim o termo que será aplicado vezes 
para trazer para valor presente o payoff que será 
obtido no estágio do jogo. 
n
èsimon
 
Assim por exemplo, se o payoff será obtido na 
na
ésiman
etapa e o jogador tem fator de desconto δ , o valor 
presente de será: 
na n
naδ . 
 
Este é o valor atribuído pelo agente ao payoff 
apropriado períodos à frente. 
na
n
 
Para efeitos de interpretação, considere que se o 
indivíduo aplicasse hoje este valor 
n
naδ , por n 
períodos à uma taxa de juros igual à 0>r ,p.p. ele 
obteria ao final: 
n
nn ar δ)1( + . 
 
Se este último valor for exatamente igual à , temos 
que 
na
r
r +=→=+ 1
11)1( δδ , de modo que podemos 
associar δ ao fator de desconto do mercado 
r+1
1 . 
 
 26
Por outro lado, se δ >
r+1
1 , uma aplicaçao à taxa 11 −δ 
p.p. renderá menos que a taxa r do mercado. 
 
Fica assim claro que o fator de desconto δ do 
indivíduo tende a refletir o fator de desconto do 
mercado e, em conseqüência a taxa de juros, uma 
vez que se o fator do mercado for menor do que δ , o 
indivíduo preferirá apropriar o valor presente de 
hoje, para entao aplicá-lo ao juro do mercado e 
receber, após períodos, um valor maior que . 
na
n na
 
Mas o fator de desconto δ também pode incorporar 
a incerteza do jogador a respeito da continuidade do 
jogo nas etapas futuras. 
 
Quanto maior a probabilidade atribuída pelo jogador 
de que o jogo terminará nas próximas etapas, menor 
será a expectativa de retorno das etapas 
subseqüentes. 
 
Esta maior incerteza pode ser materializada por um 
menor fator de desconto. 
 
Relacionando δ assim à probabilidade subjetiva de 
que o jogo termine na etapa seguinte, pode-se dar ao 
jogo infinitamente repetido uma interpretação mais 
realista: 
 
Este deve ser interpretado não como um jogo que os 
jogadores jogam eternamente, até o fim dos tempos, 
mas simplesmente como um jogo que tem duração 
indeterminada. 
 
 
Punições Duras e Brandas 
 
Vimos no caso de repetição finita que uma maneira 
de tornar a solução cooperativa sustentável como 
ENPS consiste em se adotar uma estratégia gatilho 
na qual a primeira ação não cooperativa é punida 
com a obrigação dos jogadores jogarem o pior 
equilíbrio de Nash em todas as etapas subsequentes. 
 27
 
Esta estratégia, que envolve a mais severa punição 
possível é chamada estratégia dura (“Grimm 
strategy”). 
 
Uma outra estratégia do tipo gatilho mais branda é a 
estratégia do talião, se é que ela pode ser chamada 
assim (“tit for tat strategy”). 
 
O sentido do “tit for tat” em inglês é o de se pagar 
na mesma moeda. 
 
Nesta estratégia, se em um dado estágio um dos 
jogadores desvia da estratégia cooperativa (A,A) 
jogando a estratégia B, no estágio seguinte o outro 
jogador revida também jogando B; depois, ambos 
retornam para a estratégia cooperativa em todas os 
estágios subseqüentes. 
 
Um ponto importante a ser sublinhado aqui é que 
quanto mais severamente o desvio da cooperação for 
punido, mais fácilmente a cooperação pode ser 
sustentada como um ENPS, na repetição infinita do 
jogo estágio com um único EN. 
 
O exemplo abaixo ilustrará este e outros fatos. 
 
Exemplo 5: Dois jogadores repetem o 
indefinidamente o seguinte jogo estágio: 
 
Fig.8:Jogo estágio com um único EN 
 
A B
A
B
Jogador 2
Jogador 1
( 1 , 6 )
( 2 , 2 ) 
( 5 , 5 )
( 6 , 1 )
 
 
 28
 
Temos aqui um jogo com um único equilíbrio de 
Nash em estratégia dominante, (B,B) com payoff 2 
para ambos os jogadores. 
 
Mas existe uma opção cooperativa (A,A) que oferece 
payoff 2,5 vezes maior (=5) para ambos os jogadores. 
 
Suponha que o fator de desconto dos jogadores seja 
idêntico e igual à δ . 
 
O valor presente da utilidade do jogo com repetiçao 
indeterminada será, nos diferentes casos: 
 
 
a) Cooperação: 
 
 δδδ −=+++= 1
5...555 2coopu para ambos jogadores. 
 
b) Estratégia gatilho “dura” (grimm strategy): 
 
O valor presente da utilidade do jogador que 
desvia será: 
 
δ
δδδ −+=+++= 1
26...226 2grimmu 
 
 c) Estratégia “branda” (tit for tat strategy)O valor presente da utilidade do jogador que 
 desvia será: 
 
 δ
δδδδ −++=+++= 1
526...526
2
2tatfortitu 
 
 Observe que o valor presente do jogador que 
 revida será: δ
δδδδ −++=+++ 1
521...521
2
2 , valor 
 menor daquele que desvia. 
 
 
 
 29
Observe também que, em cada caso, o payoff 
normalizado, equivalente a um payoff “médio” por 
rodada, é obtido multiplicando-se o valor presente da 
utilidade por δ−1 . 
 
A cooperação é sustentável como um ENPS se 
 ou, olhando para os payoffs normalizados, 
se 
desviocoop uu ≥
u)1( desviocoop u)1( δδ −≥− . 
 
No caso do desvio com punição dura obtemos: 
 
 δδ
δ
δ 4651
26
1
5 −≥→−+≥− ou: δ≤4
1 ; 
 
No caso do desvio com punição branda obtemos: 
 
 )1)(3/1(303465
1
526
1
5 22 −−≥→+−≥→−++≥− δδδδδ
δδδ 
 
 ou: 1
3
1 <≤ δ 
 
Em ambos os casos, vemos que os jogadores 
desejarão continuar adotando a estratégia 
cooperativa enquanto não descontarem os payoffs 
futuros desta cooperação muito fortemente (δ 
suficientemente elevado). 
 
O valor do fator de desconto é, portanto, crucial para 
que a cooperaçao possa ser sustentada em jogos com 
repetição infinita. 
 
Observe também que o conjunto de valores de δ que 
sustenta a cooperação como um ENPS é maior no 
caso em que a punição é mais severa ( 4/1≥δ ) do que 
no caso em que a punição é mais branda 13/1 ≤ <δ . 
 
Este particular ilustra o fato geral, já mencionado 
acima, de que a cooperação é tao mais fácilmente 
sustentável quanto mais severa é a punição em caso 
de desvio. 
 
 30
No limite, quando 1→δ , as punições duras tornam-se 
infinitamente severas, pois que elas envolvem uma 
interminável sequencia de perdas não descontadas. 
 
Deste modo, punições com elevados fatores de 
desconto podem sustentar um amplo espectro de 
resultados como payoffs gerados por equilíbrios de 
Nash perfeitos em subjogos (ENPS) 
 
Esta é a lógica por trás do segundo teorema popular, 
de Fudenberg e Maskin (1986): 
 
Teorema 4: (Segundo Teorema Popular) 
 
Todo payoff factível maior que o valor minimax dos 
jogadores em um jogo estágio, pode ser obtido como 
o payoff normalizado que estes jogadores obtem em 
algum ENPS de um jogo repetido infinitamente, para 
δ suficientemente próximo de 1. 
 
 
Na Figura 9 abaixo apresentamos o conjunto dos 
payoffs factíveis e o conjunto de payoffs 
normalizados que pode ser sustentados como 
resultado de ENPS no jogo infinitamente repetido da 
Figura 8 anterior: 
 
Fig.9: Payoffs factíveis normalizados e Payoffs 
 sustentados por algum ENPS (hachurado)no 
 jogo infinitamente repetido. 
 
(1,6)
(6,1)
(2,2)
u1
u2
(5,5)
(0,0)
ENPS
 
 31
Observe que o valor minmax deste jogo é 2 para 
ambos os jogadores, o que corresponde ao payoff do 
EN. 
 
 
Temos por fim uma analogia importante entre os 
resultados do Primeiro e Segundo Teoremas 
Populares. 
 
No segundo teorema, o limite envolve aumentos no 
fator de desconto δ , enquanto que no primeiro 
teorema é o número de repetições T que aumenta. 
 
Mas os dois limites se relacionam. 
 
Com efeito, se δ é a probabilidade que o jogo 
continue na próxima etapa, entao δ−1 é a 
probabilidade que ele termine nesta etapa. 
 
Sendo entao N o número de repetições do jogo até o 
seu término, temos que N é uma v.a. geométrica com 
parâmetro δ−1 e suporte no conjunto dos números 
naturais. 
 
Deste modo, δ−= 1
1EN é o número médio de 
repetiçoes do jogo estágio até o seu término. 
 
 
Nesta última expressão, vemos então que à medida 
em que δ converge para aumenta o número médio 
de repetições do jogo. 
1
 
 
 
 
 
 
 
 
 
 
 32
 
 
 
4. Bibliografia e Exercícios Sugeridos 
 
 
 
Bibliografia: 
 
[SN] Cap.8 
[VO] Cap.16 
[PR] Cap.13 
[JR] Cap.7 
 
 
 
Exercícios Sugeridos. 
 
Anpec: 
 2012/ Q08 
 2011/ Q11 
 2010/ Q10 
 2009/ Q11 
 2008/ Q09 
 2007/ Q11 
 2006/ Q10,Q11 
 2005/ Q11,Q12 
 2004/ Q11,Q14 
 2003/ Q11,Q12 
 
 
[SN]: 8.1-8.5