Baixe o app para aproveitar ainda mais
Prévia do material em texto
DEFINIÇÃO Estrutura de jogos dinâmicos, representação de jogos na forma extensiva, ameaças não críveis, indução retroativa e Equilíbrio de Nash perfeito em subjogos, jogos repetidos e possibilidade de cooperação, jogos com horizonte de tempo finito e infinito. PROPÓSITO Compreender a Teoria dos Jogos Dinâmicos, em que os agentes envolvidos interagem em diferentes momentos do tempo, e entender a importância da credibilidade nos conceitos de equilíbrio, bem como estudar a possibilidade de cooperação em jogos repetidos. OBJETIVOS MÓDULO 1 Descrever jogos dinâmicos de informação completa MÓDULO 2 Descrever jogos repetidos INTRODUÇÃO Neste tema, vamos descrever jogos dinâmicos nos quais os agentes envolvidos interagem em diferentes instantes do tempo. Veremos que o conceito de Equilíbrio de Nash é insuficiente para fazer previsões sobre o comportamento dos agentes nessa situação. Estudaremos o papel da credibilidade na construção de um conceito de equilíbrio em jogos dinâmicos. Veremos, ainda, uma classe particularmente importante de jogos dinâmicos: os jogos repetidos, que permitem estudar a possibilidade de cooperação entre os agentes econômicos. EQUILÍBRIO DE NASH Representa uma situação em que, em um jogo envolvendo dois ou mais jogadores, nenhum jogador tem a ganhar mudando sua estratégia unilateralmente. MÓDULO 1 Descrever jogos dinâmicos de informação completa javascript:void(0) CONCEITOS BÁSICOS DE JOGOS DINÂMICOS Em um jogo estático, os agentes envolvidos interagem simultaneamente. Em um jogo dinâmico, essa interação se dá ao longo do tempo. Vamos começar com uma ilustração. Considere o seguinte exemplo de interação entre duas firmas em um determinado mercado. You X Ventures/unsplash A incumbente (I), em princípio, opera sozinha. You X Ventures/unsplash Uma entrante potencial (E) decide se vai tentar competir nesse mercado. No primeiro período, a entrante decide se entra ou não no mercado. No segundo período, condicional à entrante de fato entrar, a incumbente decide se faz guerra de preços ou se acomoda a entrada, sem guerra. Veja a seguir quais são os resultados de determinadas decisões: Em caso de entrada da entrante e guerra de preços por parte da incumbente, as duas firmas ficam com lucro zero. Em caso de entrada e acomodação, elas dividem o mercado igualmente, e cada uma tem lucro igual a 5. Em caso de não entrada, a incumbente mantém o lucro de monopólio igual a 10 e a entrante fica com lucro zero. A forma normal desse jogo é: Incumbente Guerra Acomoda Entrante Entra 0, 0 5, 5 Não Entra 0, 10 0, 10 Atenção! Para visualização completa da tabela utilize a rolagem horizontal Há dois equilíbrios de Nash nesse jogo: A entrante entra de fato, e a incumbente acomoda. A entrante fica fora do mercado, e a incumbente ameaça fazer guerra de preços em caso de entrada. Esse é o resultado de acordo com a teoria de jogos estáticos. Mas tem algo estranho no segundo equilíbrio: a entrante fica fora do mercado, e a incumbente escolhe a estratégia “fazer guerra de preços” caso haja entrada — o que não acontece no próprio equilíbrio que estamos descrevendo! O Equilíbrio de Nash sem entrada da nova firma está baseado em uma ameaça não crível: vale a pena para a incumbente ameaçar fazer uma guerra de preços, mas em caso de entrada da concorrente, o melhor é acomodar. Entretanto, não deixa de ser Equilíbrio de Nash por causa disso: afinal, não há incentivo unilateral ao desvio nessa combinação de estratégias. Esse Equilíbrio de Nash não parece ser uma boa previsão do resultado desse jogo. O problema é que ela não leva em consideração a dimensão temporal, o que passaremos a fazer. Para tanto, precisamos usar a forma extensiva do jogo, que especifica: 1 ‒ Os jogadores; 2 ‒ Quando cada jogador pode jogar (nó de decisão); 3 – O que cada jogador pode fazer em cada nó de decisão; 4 ‒ O que cada jogador sabe sobre a evolução do jogo em cada nó de decisão; 5 ‒ Os payoffs obtidos nos nós terminais. Assim como a forma normal em geral é apresentada como uma matriz, usamos para a forma extensiva uma representação em árvore, como na figura a seguir: Fonte: O Autor Resolvemos, então, o jogo por indução retroativa. Ao observar a entrada da entrada da firma concorrente, a incumbente escolhe entre fazer guerra (e ficar com payoff zero) e acomodar (e ficar com payoff 5). É ótimo para ela escolher acomodação. A entrante antecipa isso e, no primeiro período, escolhe entre entrar (e ficar com payoff também 5, pois a incumbente vai acomodar) ou não entrar (e ficar com payoff zero). Ela escolhe entrar. Descartamos então o equilíbrio de Nash em que não há entrada e a incumbente ameaça fazer guerra de preços: essa é uma ameaça não-crível. MAS O QUE ISSO SIGNIFICA? Isto significa que começamos olhando para os nós de decisão no final do jogo. A partir do último período, buscamos o que é melhor para cada jogador e seguimos assim retroativamente. Dessa forma, eliminamos as estratégias não críveis, ou seja, estratégias que envolvem uma ameaça que o próprio jogador não terá interesse em implementar quando puder tomar sua decisão. RESUMINDO Passamos a exigir que a escolha de cada jogador seja ótima em qualquer etapa do jogo. Observe que isso não é respeitado no equilíbrio “sem entrada” no jogo acima: a escolha “fazer guerra de preços” não é ótima para a firma incumbente no segundo instante — ou seja, exatamente quando a incumbente toma sua decisão. Dizemos então que as estratégias de cada jogador devem ser sequencialmente ótimas, ou sequencialmente racionais. Em outras palavras, são ótimas a partir de qualquer nó em que se inicie a análise do jogo. O conceito de Equilíbrio de Nash não impõe essa restrição — ou seja, para ser Equilíbrio de Nash, basta que um perfil de estratégias seja equilíbrio para o jogo inteiro, a partir do nó inicial, o que ignora a dimensão temporal. Fonte: Hugo Rocha/unsplash EQUILÍBRIO DE NASH PERFEITO EM SUBJOGOS Vamos organizar as coisas da seguinte maneira. Para ser um Equilíbrio de Nash, um perfil de estratégias deve ser tal que não haja incentivo unilateral ao desvio — esse requisito será sempre mantido. Estamos adicionando agora um segundo requisito: as estratégias devem ser sequencialmente racionais, o que elimina ameaças não críveis. ATENÇÃO Lembre-se sempre de que uma estratégia deve definir o que o jogador faz em cada contingência em que pode ser chamado a jogar — mesmo que seja uma contingência que não possa ser atingida pela decisão do próprio jogador! Para ilustrar, considere uma versão sequencial (e um tanto ingênua) do jogo de par ou ímpar, baseada em Gibbons (1992). Primeiro, o jogador 1 escolhe par ou ímpar. O jogador 2 observa o que o jogador 1 fez e, depois, escolhe par ou ímpar. A forma extensiva desse jogo é a seguinte: Fonte: O Autor Para escrever esse jogo na forma normal, precisamos conhecer as estratégias de cada jogador. Veja a seguir as estratégias do jogador 1 e do jogador 2: JOGADOR 1 JOGADOR 2 Possui apenas um nó de decisão, e duas ações possíveis nesse nó — logo, o total é de duas estratégias, sem maiores preocupações: par e ímpar. O jogador 2, porém, tem dois nós de decisão, com duas escolhas possíveis em cada um. Cada estratégia sua precisa especificar o que ele fará em cada um desses nós. Suas estratégias são “par e par” (joga par se estiver no primeiro nó, joga par se estiver no segundo nó), “par e ímpar”, “ímpar e par”, “ímpar e ímpar”. A forma normal é: PP PI IP II P 1, -1 1-, 1 -1, 1 -1, 1 I -1, 1 1, -1 -1, 1 1, -1 Atenção! Para visualização completa da tabela utilize a rolagem horizontal Essa representação pode parecer exagerada, mas é essencial para permitir que se entenda o papel de ameaças não críveis, tema central de jogos dinâmicos. Não se preocupe em resolver esse jogo agora; estamos trabalhando apenas a representação, e vamos mostrar alguns exemplos mais interessantes na sequência. Essa representaçãodo jogo de par ou ímpar é, como dito, um tanto ingênua: o jogador 2 tem uma vantagem óbvia sobre o jogador 1. Como podemos recuperar a simetria entre os jogadores? Ou seja, como representar um “par ou ímpar sequencial” em que o jogador 2 joga depois do jogador 1, mas sem observar o que foi escolhido? Para tanto, usamos o conceito de conjunto de informação. Um conjunto de informação é um conjunto de nós de decisão para um determinado jogador, tal que o jogador não saiba diferenciar em qual dos nós ele está. Ou seja, o jogador não conhece perfeitamente a história do jogo: não sabe que caminho fez com que o conjunto de informação fosse atingido. Podemos representar o par ou ímpar tradicional da seguinte forma: Fonte: O Autor O círculo indica que o jogador 2 não sabe se está no nó da esquerda ou no nó da direita. Ou seja, não sabe se o jogador 1 escolheu par ou ímpar. Observe que essa representação é equivalente à matricial: J1/J2 P I P 1, -1 -1, 1 I -1, 1 1, -1 Atenção! Para visualização completa da tabela utilize a rolagem horizontal Quando um jogo tem ao menos um conjunto de informação não unitário, dizemos que é um jogo de informação imperfeita. Quando todos os conjuntos de informação são unitários (e, portanto, os jogadores conhecem a história do jogo em cada nó), o jogo é de informação perfeita. Note a diferença entre informação completa e informação perfeita: o primeiro conceito diz respeito ao conhecimento sobre payoffs, e o segundo se refere ao conhecimento sobre a história do jogo. Note ainda que todos os nós em um mesmo conjunto de informação devem javascript:void(0) permitir as mesmas ações, ou o jogador seria capaz de diferenciar os nós a partir das possibilidades de escolha. Podemos, então, representar um jogo estático como um jogo dinâmico de informação imperfeita. Isso é intuitivo: em um par ou ímpar, não é necessário que os jogadores tomem suas decisões exatamente no mesmo instante de tempo. Basta que cada um tome sua decisão sem saber o que o outro decidiu. Na prática, os jogadores colocam seus números com uma fração de segundo de diferença, tempo insuficiente para cada um observar o que o outro fez. Isso será útil também para trechos de um jogo, como ilustrado na seguinte versão do jogo da entrante visto anteriormente. Considere um jogo que começa da mesma forma — a entrante escolhe entre “entrar” e “não entrar” e, no caso de entrada, a entrante e a incumbente escolham simultaneamente entre “acomodar” e “fazer guerra de preços”. Vamos ilustrar da seguinte maneira: Fonte: O Autor Não podemos usar diretamente o processo de indução retroativa porque a firma 1, que joga no último período, não sabe em que nó está e, portanto, não temos informação suficiente para determinar sua decisão ótima. Podemos, porém, usar o fato de que existe um “subjogo estático” após a entrada, com a seguinte representação na forma normal: CONJUNTO DE INFORMAÇÃO NÃO UNITÁRIO É um conjunto de informação com mais de um nó de decisão. Guerra Acomoda Guerra -1, -1 1, 0 Acomoda 0, 1 3, 3 Atenção! Para visualização completa da tabela utilize a rolagem horizontal O equilíbrio desse subjogo é ambas acomodarem. Usando ainda a ideia de racionalidade sequencial, a firma 1 antecipa no primeiro período que esse será o resultado do subjogo no segundo período, e pode reescrever a árvore da seguinte forma: Fonte: O Autor Podemos aplicar agora diretamente a indução retroativa e concluir que, no equilíbrio, a entrante de fato entra, escolhe acomodação após a entrada, e a incumbente também acomoda. Os Equilíbrios de Nash que atendem também ao critério de racionalidade sequencial são ditos Equilíbrios de Nash perfeitos em subjogos. Ou seja: devem não apenas atender ao requisito para ser Equilíbrio de Nash (ausência de incentivo unilateral ao desvio), mas devem também atender ao critério de racionalidade sequencial: não pode haver ameaças não críveis; cada jogador acha ótimo manter a estratégia em qualquer evolução do jogo. RESUMINDO O Equilíbrio de Nash perfeito em subjogos é Equilíbrio de Nash para o jogo como um todo (a partir do nó inicial), mas também em todos os demais subjogos. Formalmente, um subjogo é um conjunto de nós que: 1 Começa em um conjunto de informação unitário. Inclui todos os nós subsequentes. 2 3 Inclui todos os nós de todos os conjuntos de informação subsequentes ao nó inicial (ou seja, não “corta” um conjunto de informação). Veja como identificar alguns subjogos no vídeo a seguir. Quando um jogo não tem subjogos além do jogo inteiro, todo Equilíbrio de Nash é perfeito em subjogos: nesse caso, a imposição de racionalidade sequencial em subjogos não restringe o conceito de equilíbrio. Por último, é importante diferenciar “equilíbrio” de “caminho de equilíbrio” em jogos dinâmicos. Caminho de equilíbrio inclui apenas os nós que são efetivamente atingidos. O equilíbrio, porém, deve necessariamente informar o que ocorreria fora do caminho de equilíbrio, pois ameaças não críveis fora do caminho de equilíbrio podem afetar o que acontece no equilíbrio e, portanto, devem também respeitar o requisito de racionalidade sequencial. Fonte: Marvin Meyer/unsplash APLICAÇÃO À ORGANIZAÇÃO INDUSTRIAL: O MODELO DE STACKELBERG O Modelo de Stackelberg é semelhante ao Modelo de Cournot, mas as firmas jogam em instantes diferentes. Vamos considerar um duopólio. No primeiro período, a firma 1 (Líder) escolhe sua quantidade . No segundo período, a firma 2 (Seguidora) observa e escolhe então sua quantidade . A demanda é linear. Dado um parâmetro a > 0, o preço P é obtido da seguinte forma: Atenção! Para visualização completa da equação utilize a rolagem horizontal Não há custo fixo, e o custo marginal é constante e igual a c. O lucro da firma 1 é simplesmente a diferença entre receita e custo: q1 ≥ 0 q1 q2 ≥ 0 P = a − q1 – q2 Analogamente, o lucro da firma 2 é: Para encontrar o Equilíbrio de Nash perfeito em subjogos, usamos a indução retroativa: é necessário determinar a quantidade ótima q2 que a seguidora vai escolher no segundo período para cada quantidade que a firma 1 pode ter que escolher no primeiro período. Para tanto, a seguidora resolve o seguinte problema: A condição de primeira ordem é: Isto é: para cada quantidade q1 que a firma 1 escolha no primeiro período, a firma 2 deve escolher q2 no segundo período de acordo com a expressão acima: essa é a quantidade que maximizará seu lucro. Qualquer quantidade diferente dessa seria subótima, ou seja, seria uma ameaça não crível. A firma 1 sabe que a firma 2 escolherá q2 acima, e usa essa informação para escolher sua quantidade no primeiro período: CONDIÇÃO DE PRIMEIRA ORDEM (a – q1 – q2)q1 – cq1 (a – q1 – q2)q2 – cq2 Max q2≥0 (a– q1– q2)q2 − cq2 q2 = a−q1−c 2 javascript:void(0) Para obtê-la, basta derivar a função lucro e igualar a zero. Atenção! Para visualização completa da equação utilize a rolagem horizontal Essa expressão pode ser simplificada: Atenção! Para visualização completa da equação utilize a rolagem horizontal A condição de primeira ordem é: Resolvendo, encontramos: Usando a expressão para q2> encontrada acima, obtemos: Max q1≥0 (a– q1– q2)q1 − cq1 Max q1≥0 (a − q1–( ))q1 − cq1 a−q1−c 2 Max q1≥0 aq1 – q 2 1 – + + – cq1 aq1 2 q21 2 cq1 2 a– 2q1 − + q1 + − c = 0 a 2 c 2 q1 = a−c 2 No Modelo de Cournot, em que as firmas jogam simultaneamente, o resultado é: A firma líder tem agora uma posição vantajosa porque a seguidora não pode se comprometer com uma quantidade que, após a escolha da líder, seria subótima. A firma 1 pode se comprometer com uma quantidade qualquer, pois joga primeiro; a firma 2 só pode se comprometer com a quantidade ótima em resposta a q1. COMENTÁRIO Note que a firma seguidora é negativamente afetada ao receber informação sobre a escolha da líder: se pudesse, ela preferiria não saber o que a líder escolheu! Em problemas de escolha individual,ter mais informação não pode ser prejudicial: o tomador de decisão pode simplesmente ignorá-la. Em jogos, informação adicional pode causar dano. APLICAÇÃO: BARGANHA SEQUENCIAL Considere uma situação em que dois jogadores fazem propostas alternadas para dividir um determinado valor (para simplificar, suponha que esse valor seja $1 ). 1 Na primeira rodada, o jogador 1 faz uma proposta ao jogador 2: cabe uma parcela s1 ao jogador 1 e ao jogador 2. q2 = a−c 4 q1 = q2 = ( a−c ) 3 (s1, 1 − s1) (1 − s1) O jogador 2 aceita ou rejeita. Se aceitar, o valor é distribuído como acordado e o jogo termina com payoffs . Se rejeitar, passa para a segunda rodada, em que o jogador 2 faz uma contraproposta ao jogador 1: cabe uma parcela ao jogador 1 e ao jogador 2 (atenção à notação: si é sempre a oferta do jogador i ao jogador 1 ). 2 3 Se o jogador 1 aceitar, a barganha é realizada e os jogadores ficam com payoffs : há um custo de espera capturado pelo fator de desconto . Ou seja, o adiamento da resolução do negócio gera custo para os jogadores. Se o jogador 1 não aceitar, o jogo termina no período seguinte com uma distribuição exógena e payoffs . Podemos novamente resolver o jogo por indução retroativa. Na última oferta, o jogador 2 sabe que o jogador 1 pode rejeitar e obter payoff . Para que o jogador 2 aceite, a oferta deve ser tal que o payoff do jogador 1 não seja inferior a esse valor: , ou . Como o jogador 2 quer maximizar sua parte, ele faz a menor oferta possível que o outro jogador pode aceitar: . Se aceita, essa oferta gera os payoffs . O jogador 1 antecipa essa oferta no primeiro período O jogador 2 pode então garantir um payoff . Para que o jogador 2 aceite a oferta do jogador 1 no primeiro período, portanto, s1 deve ser tal que , ou . Para maximizar seu payoff, o jogador 1 escolhe exatamente . O jogador 2 aceita e o jogo é encerrado na primeira rodada. COMENTÁRIO (s1, 1 − s1) (s2, 1 − s2) s2 (1 − s2) (δs2, δ (1 − s2)) δ ∈ (0, 1) (s, 1 − s) (δ2s, δ2(1 − s)) δ2s s2 δ s2 ≥ δ 2s s2 ≥ δs s2 = δs (δ(δs), δ(1 − δs)) = (δ2s, (δ − δ2s)) (δ − δ2s) (1 − s1) (1 − s1) ≥ (δ − δ2s) 1 − δ + δ2s ≥ s1 s1 = 1 − δ + δ 2s Note que, com informação completa, uma barganha sempre termina no primeiro período. (barganhas de longa resolução podem ser causadas por informação incompleta.) A distribuição do valor inicial depende: da taxa de desconto δ (quanto mais se desconta o futuro, maior o poder de barganha do primeiro jogador); dos payoffs exógenos em caso de não resolução. VERIFICANDO O APRENDIZADO 1. ENCONTRE OS EQUILÍBRIOS DE NASH PERFEITOS EM SUBJOGOS DO JOGO ABAIXO. FONTE: O AUTOR A) O jogador 1 joga a estratégia (T, N), e o jogador 2 escolhe (R, d). B) O jogador 1 joga a estratégia T, e o jogador 2 escolhe R. C) O jogador 1 joga a estratégia (R, C), e o jogador 2 escolhe (R, c). D) O jogador 1 joga a estratégia (T, N), e o jogador 2 escolhe (R, c). 2. CONSIDERE O SEGUINTE JOGO: NO PRIMEIRO PERÍODO, O JOGADOR 1 ESCOLHE ENTRE AS OPÇÕES A E B. SE ESCOLHER A, NO SEGUNDO PERÍODO O JOGADOR 2 ESCOLHE ENTRE X (E AMBOS FICAM COM PAYOFF ZERO) OU Y (O JOGADOR 1 FICA COM PAYOFF -1, E O JOGADOR 2 FICA COM PAYOFF 1). SE O JOGADOR 1 ESCOLHER B, NO SEGUNDO PERÍODO O JOGADOR 2 ESCOLHE ENTRE W (E AMBOS FICAM COM PAYOFF IGUAL A 3) E Z (O JOGADOR 1 FICA COM PAYOFF -2, E O JOGADOR 2 FICA COM PAYOFF 5). ENCONTRE OS EQUILÍBRIOS DE NASH PERFEITOS EM SUBJOGOS. DICA: É ÚTIL FAZER A REPRESENTAÇÃO EXTENSIVA DESSE JOGO. A) O jogador 1 escolhe a, e o jogador 2 escolhe y. B) O jogador 1 escolhe a, e o jogador 2 escolhe (y,z). C) O jogador 1 escolhe b, e o jogador 2 escolhe z. D) O jogador 1 escolhe b, e o jogador 2 escolhe w. GABARITO 1. Encontre os Equilíbrios de Nash perfeitos em subjogos do jogo abaixo. Fonte: O Autor A alternativa "A " está correta. Como vimos na seção ‘Equilíbrio de Nash perfeito em subjogos’, devemos resolver o jogo de trás para frente. Identificamos inicialmente um subjogo estático em que o jogador 2 escolhe c ou d, e o jogador 1 escolhe C ou N. Podemos representá-lo na forma normal: J.1/J.2 c d C -5;-5 -10;0 N 0;-10 -1;-1 Atenção! Para visualização completa da tabela utilize a rolagem horizontal As correspondências de melhor resposta estão marcadas em vermelho, o que permite identificar o Equilíbrio de Nash desse subjogo estático: (N, d). No outro nó de decisão do jogador 2, ele escolhe R (para obter payoff 4) ao invés de T (o que daria um payoff igual a 2). Antecipando isso, no primeiro período o jogador 1 escolhe T (para ficar com payoff 0) ao invés de R (o que daria payoff -1). O Equilíbrio de Nash perfeito em subjogos deve especificar as escolhas em cada nó do jogador, mesmo aqueles que não são atingidos no equilíbrio: (T, N) para o jogador 1, e (R, d) para o jogador 2. 2. Considere o seguinte jogo: no primeiro período, o jogador 1 escolhe entre as opções a e b. Se escolher a, no segundo período o jogador 2 escolhe entre x (e ambos ficam com payoff zero) ou y (o jogador 1 fica com payoff -1, e o jogador 2 fica com payoff 1). Se o jogador 1 escolher b, no segundo período o jogador 2 escolhe entre w (e ambos ficam com payoff igual a 3) e z (o jogador 1 fica com payoff -2, e o jogador 2 fica com payoff 5). Encontre os equilíbrios de Nash perfeitos em subjogos. Dica: é útil fazer a representação extensiva desse jogo. A alternativa "B " está correta. Devemos resolver esse jogo por indução retroativa. O jogador 2 escolhe y (caso o jogador 1 escolha a) e escolhe z (caso o jogador 1 escolha b). Sabendo disso, o jogador 1 escolhe a. Como cada estratégia deve descrever o que o jogador faz em cada nó de decisão, o ENPS é (a,(y,z)). MÓDULO 2 Descrever jogos repetidos CONCEITOS BÁSICOS DE JOGOS REPETIDOS Um jogo repetido é um caso particular bastante importante de jogos dinâmicos. Temos um jogo estático, que é repetido a cada período. Podemos, por exemplo, jogar par ou ímpar duas vezes em sequência. OBSERVE QUE REPETIR O EQUILÍBRIO DE NASH DO JOGO ESTÁTICO EM TODOS OS PERÍODOS É, POR DEFINIÇÃO, UM EQUILÍBRIO DE NASH PERFEITO EM SUBJOGOS, POIS EM QUALQUER SUBJOGO OS JOGADORES ESTARÃO JOGANDO UM EQUILÍBRIO DE NASH. Nosso objetivo agora é encontrar circunstâncias em que podemos obter um resultado diferente da mera repetição do Equilíbrio de Nash estático em todas as rodadas de um jogo repetido. Vamos considerar o dilema dos prisioneiros. Dois jogadores escolhem entre cooperar (C) e não cooperar (N). Fonte: Damir Spanic/unsplash Os payoffs são dados na tabela abaixo: J.1/J.2 C N C -1, -1 -5, 0 N 0, -5 -3, -3 Atenção! Para visualização completa da tabela utilize a rolagem horizontal O Equilíbrio de Nash desse jogo estático é (N,N), ou seja, nenhum jogador coopera: esse é o único ponto em que não existe incentivo unilateral ao desvio. Esse é o único Equilíbrio de Nash desse jogo. Veremos mais abaixo por que isso é importante. Vamos considerar agora que esse jogo seja repetido duas vezes, e vamos tentar encontrar o Equilíbrio de Nash perfeito em subjogos. Para resolver, começamos pelo último período, que é simplesmente um jogo estático, já que o jogo não continua posteriormente. O Equilíbrio de Nash é (N,N), como acabamos de ver. E ambos antecipam, no primeiro período, que ambos vão confessar no segundo, independentemente do que ocorrer no primeiro período. Logo, a decisão do primeiro período não tem qualquer impacto sobre as escolhas do segundo e, portanto, o primeiro (ou “penúltimo”) período pode novamente ser tratado como um jogo estático, pois o que segue não é afetado pelo que é decidido neste momento! Novamente, ambos os jogadores escolhem não cooperar. O Equilíbrio de Nash perfeito em subjogos é “ambos confessam no primeiro período; no segundo, ambos confessam, qualquer que tenha sido o resultado no primeiro período” (note que é necessário ter cuidado ao definir a estratégia,informando uma ação para cada contingência). Fonte:LightField Studios/shutterstock De forma geral, se um jogo estático com um único resolvido por um número finito T de vezes, o único Equilíbrio de Nash perfeito em subjogos é jogar o Equilíbrio de Nash em todos os períodos. Logo, há apenas duas situações em que é possível obter um resultado diferente da repetição do Equilíbrio de Nash do jogo estático: Há múltiplos equilíbrios de Nash no jogo estático. Há infinitos períodos. Vamos olhar cada um desses casos. JOGOS REPETIDOS FINITAS VEZES Considere inicialmente a primeira possibilidade através do exemplo abaixo (Gibbons, 1992). Suponha que esse jogo seja repetido duas vezes, sem desconto. L2 M2 R2 L1 1,1 5,0 0,0 M1 0,5 4,4 0,0 R1 0,0 0,0 3,3 Atenção! Para visualização completa da tabela utilize a rolagem horizontal O jogo estático tem dois equilíbrios de Nash: e . Logo, é possível condicionar o Equilíbrio de Nash jogado no segundo período ao resultado do jogo no primeiro período (com apenas um Equilíbrio de Nash no jogo estático, esse condicionamento não é possível!). Ou seja, podemos tentar construir um equilíbrio em que pode haver punição no segundo período a mau comportamento no primeiro, e premiação para bom comportamento. TANTO A PUNIÇÃO QUANTO A PREMIAÇÃO SÃO CRÍVEIS, OU SEJA, SÃO FEITAS ATRAVÉS DE ESTRATÉGIAS QUE FAZEM PARTE DE EQUILÍBRIOS DE NASH: NÃO HÁ INCENTIVO A DESVIO. Temos, então, os seguintes Equilíbrios de Nash perfeitos em subjogos: 1 (L1, L2) (R1, R2) Jogar no primeiro período; jogar em todos os períodos posteriores para qualquer história do jogo. Jogar no primeiro período; jogar em todos os períodos posteriores para qualquer história do jogo. 2 3 Jogar no primeiro período; se observar no primeiro período, jogar no segundo período; caso contrário, jogar no segundo período. Os dois primeiros equilíbrios são apenas a repetição de um Equilíbrio de Nash estático em todos os períodos, como já discutido. O terceiro equilíbrio, porém, envolve escolher no primeiro período uma ação que não faz parte do Equilíbrio de Nash estático: , que oferece o maior payoff agregado, mas tem incentivo individual ao desvio. É possível, porém, sustentar essa ação em um jogo repetido, dado o condicionamento do segundo período. Para verificar que é de fato um equilíbrio, observe inicialmente que as combinações de estratégias no segundo período constituem um Equilíbrio de Nash do subjogo (ou seja, do jogo estático). Para que seja ótimo individualmente jogar Mi no primeiro período, observe que: O lado esquerdo é o payoff de seguir a estratégia, obtendo 4 no primeiro período e 3 no segundo. O lado direito é o payoff do desvio: o jogador que desvia obtém 5 no primeiro período, mas é penalizado no segundo, recebendo apenas 1. Como o payoff da cooperação é maior que o payoff do desvio, os jogadores conseguem sustentar um acordo que não envolve repetir o equilíbrio do jogo estático em todos os períodos. Li Li Ri Ri Mi (M1, M2) Ri Li Mi 4 + 3 > 5 + 1 De forma geral, é possível sustentar estratégias que não sejam Equilíbrio de Nash em todos os períodos (todos à exceção do último) desde que seja possível punir desvios de forma crível (ou seja, jogando algum Equilíbrio de Nash estático) no período final T. Fonte: O Autor Uma última observação diz respeito à possibilidade de renegociação, que pode atrapalhar o que vimos acima. No último período, ambos preferem o Equilíbrio de Nash , e podem ignorar a história pretérita — e quaisquer desvios — uma vez que já ocorreram e não podem mais ser modificados. Porém, isso destrói o incentivo a cooperar no primeiro período. RESUMINDO O jogador é obrigado a se punir para também punir o adversário que desviou. Uma solução (nem sempre possível) é um contrato em que o jogador se compromete a jogar determinada ação em função de uma história (commitment device). Em diversos contextos relevantes, essa possibilidade não está presente, o que está relacionado à própria ideia de ameaças não críveis — ou os jogadores gostariam de utilizá-la, como em Stackelberg (estritamente, o problema é distinto, dada a multiplicidade de equilíbrios no jogo estático, mas a possibilidade de comprometimento tem valor em qualquer contexto). Em alguns jogos, porém, há diversas possibilidades de punição, sem prejudicar o responsável por aplicá-la. t < T (R1, R2) Fonte: Christina/unsplash JOGOS REPETIDOS INFINITAS VEZES O que significa dizer que um jogo é repetido infinitas vezes? Bem, certamente isso não pode acontecer na realidade, mas isso não é um problema. Um jogo com incerteza sobre a data final pode ser escrito como um jogo repetido infinitamente. De forma geral, trata-se apenas de uma aproximação para jogos com horizonte muito longo e/ou incerto. Nesse caso, não existe um último período. Logo, a punição a desvios pode ser feita após qualquer período. É possível sustentar um resultado diferente do Equilíbrio de Nash em todas as fases. Considere a seguinte versão do dilema dos prisioneiros – para simplificar a conta, vamos colocar apenas payoffs não negativos (a ideia é a mesma). Vamos dizer que C é a estratégia 'cooperar', ou 'não delatar'; e N é não cooperar, ou 'delatar'. Analise os seguintes payoffs no jogo estático: C N C 4,4 0,5 N 5,0 1,1 Atenção! Para visualização completa da tabela utilize a rolagem horizontal Considere que os jogadores têm um fator de desconto comum . Seja uma sequência de payoffs O valor presente dessa sequência é: Atenção! Para visualização completa da equação utilize a rolagem horizontal Esse jogo tem diversos equilíbrios. Uma possibilidade é construir um Equilíbrio de Nash perfeito em subjogos em que os jogadores cooperam em todos os períodos. Veja a seguinte estratégia: Jogar C no primeiro período. Jogar N no período t se todos tiverem jogado C em todos os períodos anteriores. Caso contrário, jogar N. Essa é a chamada estratégia de gatilho. Os jogadores começam cooperando, e continuam assim enquanto todos cooperarem, e passam a não cooperar nunca mais se houver qualquer desvio. Vamos calcular o payoff de um jogador ao escolher a estratégia de gatilho, supondo que o outro também está usando o gatilho. Nesse caso, um jogador obtém payoff 4 em todos os períodos, e o valor presente é: A última igualdade na linha acima é simplesmente a fórmula da soma de uma progressão geométrica infinita com fator de desconto δ. Considere agora o payoff de desviar, ou seja, de não cooperar em algum período, o que dá ao jogador um payoff maior no período do desvio. Nesse caso, o jogador que desvia obtém no primeiro período (payoff de desvio), mas apenas 1 em cada período subsequente (payoff de punição): δ ∈ (0, 1) π1, π2, . . . π1 + δπ2 + δ 2π3 + ... = ∞ ∑ t=0 δtπt πC = 4 + δ . 4 + δ 2 . 4 + . . . = . 41 1 – δ 5 > 4 Usamos novamente a fórmula da soma da progressão geométrica, observando apenas que agora ela começa no segundo período (o payoff do primeiro período é diferente!). Logo, jogar a estratégia de gatilho vale a pena se: O lado esquerdo é o payoff da cooperação, e o lado direito é o payoff do desvio. Podemos reorganizar essa expressão como: Rearranjando, obtemos δ ≥ . Isto é: se os jogadores forem suficientemente pacientes (valor de δ é alto), o gatilho é equilíbrio. Como isso vale para todos os períodos, é Equilíbrio de Nash perfeito em subjogos: em cada subjogo, ou os jogadores jogam o Equilíbrio de Nash estático (não cooperam), ou jogam o que acabamos de mostrar ser também um Equilíbrio de Nash (ausência de incentivo unilateral ao desvio). LEMBRE-SE DE QUE UMA ESTRATÉGIA PRECISA ESPECIFICAR UMA AÇÃO PARA CADA CONTINGÊNCIA — OU SEJA, PARA CADA HISTÓRIA POSSÍVEL DO JOGO. CADA HISTÓRIA ATÉ UM PERÍODO T QUALQUER DETERMINA UM SUBJOGO A PARTIR DE . πN = 5 + δ . 1 + δ 2 . 1 + . . . = 5 + . 1δ 1 – δ . 4 ≥ 5 + . 11 1 − δ δ 1 − δ 4 ≥ 5 (1 – δ)+ δ 1 4 t + 1 Fonte: Austin Distel/unsplash A estratégia de gatilho é apenas uma que pode ser sustentada em um jogo infinitamente repetido. Como há tipicamente muitas estratégias que podem ser sustentadas, em geral discutimos que payoffs podem ser obtidos. Para tanto, defina inicialmente o payoff médio obtido por um jogador: Definição: dado o fator de desconto , o payoff médio da sequência de payoffs é: Atenção! Para visualização completa da equação utilize a rolagem horizontal TEMOS, ENTÃO, O SEGUINTE RESULTADO, CONHECIDO COMO “TEOREMA POPULAR” (FOLK THEOREM). Teorema (Friedman, 1971): Seja G um jogo finito e estático com informação completa. são os payoffs de um Equilíbrio de Nash desse jogo, e são outros payoffs quaisquer. Se para todo i e δ for suficientemente próximo de 1, então existe um Equilíbrio de Nash perfeito em subjogos do jogo infinitamente repetido que atinge como payoff médio. δ ∈ (0, 1) π0, π1, π2, . . . (1 − δ) ∞ ∑ t =0 δtπt (e1, e2, . . . , eN) (x1, x2, . . . , xN) xi > ei (x1, x2, . . . , xN) Dizer que δ é próximo de 1 significa que os jogadores são pacientes, ou seja, descontam pouco o futuro. ATENÇÃO No dilema dos prisioneiros, os jogadores podem garantir ao menos o payoff do Equilíbrio de Nash ao jogar “cooperar”, que é estritamente dominante. Em outros jogos, o jogador pode não conseguir garantir esse payoff. Em geral, o payoff mínimo que o jogador consegue garantir, denotado e chamado “payoff de reserva”, “utilidade de reserva” ou “opção de fora”, é menor que o payoff obtido no equilíbrio de Nash: , para todo i (note que necessariamente : se algum jogador pudesse obter , então não poderia ser o payoff associado a um Equilíbrio de Nash, que por hipótese é uma melhor resposta. No dilema dos prisioneiros, ). Sob algumas condições, qualquer payoff pode ser sustentado para δ suficientemente próximo de um. Por último, note ainda que a maneira mais fácil de sustentar cooperação em um jogo repetido é implementando o “pior Equilíbrio de Nash possível” em caso de desvio: ou seja, a punição para desvio deve ser crível e, além disso, tão rigorosa quanto possível, para facilitar a sustentação da cooperação ('facilitar' = tornar a cooperação possível para valores baixos de δ, isto é, para jogadores não tão pacientes.) APLICAÇÃO: CARTEL TÁCITO Considere o duopólio de Cournot repetido infinitas vezes. As firmas têm a mesma função custo e a demanda é , em que é a quantidade total, ou seja, a soma das quantidades produzidas por cada firma. Há um fator de desconto . Sob que condições é possível sustentar o cartel (conluio, cooperação) entre as firmas, ao invés de repetir o Equilíbrio de Cournot em todos os períodos? Cartel significa que as firmas produzem, conjuntamente, a quantidade de monopólio, obtendo o lucro máximo que pode ser obtido nesse mercado. Considere a seguinte estratégia de gatilho ri ri < ei ri ≤ ei ri > ei ei ri = ei xi > ri c(qi) = cqi P = a − Q Q = q1 + q2 δ ∈ (0, 1) Cada firma joga a quantidade determinada pelo cartel no primeiro período. Em todos os demais períodos, ela joga a quantidade de cartel se observar cooperação em toda a história do jogo (ou seja, a firma joga cartel se ninguém jamais desviou, incluindo ela própria). Caso contrário, joga Cournot. Vamos inicialmente obter a quantidade que o cartel deve produzir. Para tanto, precisamos encontrar a quantidade Q que maximiza o lucro agregado das firmas: Atenção! Para visualização completa da equação utilize a rolagem horizontal A condição de primeira ordem é , e, portanto, Substituindo na função objetivo, encontramos o lucro de monopólio: As firmas podem dividir o mercado. A produção de cada uma delas será: Dessa forma, cada firma obtém metade do lucro de monopólio: πM = Max Q ≥ 0 (a − Q) Q – cQ a − 2QM – c = 0 QM = (a − c) 2 πM = (a − c) 2 4 qMi = = QM 2 (a − c) 4 πMi = = πM 2 (a − c)2 8 O valor presente do payoff do cartel é: Atenção! Para visualização completa da equação utilize a rolagem horizontal A quantidade individual em Cournot é , e, portanto, o lucro de cada firma é: OU SEJA, O LUCRO DE CADA FIRMA POR PERÍODO EM COURNOT É MENOR QUE O LUCRO INDIVIDUAL POR PERÍODO OPERANDO EM CARTEL. Precisamos, ainda, calcular o payoff de desvio : Quanto uma firma obtém se maximiza seu payoff imediato e a outra mantém sua quantidade de cartel ? Atenção! Para visualização completa da equação utilize a rolagem horizontal + δ + δ2 + . . . = πMi πMi 2 πMi 2 πMi 2 1 1 – δ qCi = (a − c) 3 πCi = < π M i (a − c)2 9 πDi πMi πDi = Maxqi ≥ 0 [a − qi – qMj ] qi − cqi πDi = Maxqi ≥ 0 [a − qi – ( )] qi − cqi (a−c) 4 A condição de primeira ordem é: Portanto, a quantidade ótima no desvio é: E o payoff correspondente é: O valor presente do desvio é: Atenção! Para visualização completa da equação utilize a rolagem horizontal O cartel é mantido se gerar payoff individual maior que no desvio: Rearranjando, obtemos a seguinte condição: a − c − 2qDi − = 0 (a − c) 4 qDi = . (a – c) 3 8 πDi = . 9 64 (a – c) 2 πDi + δπ C i + δ 2πCi + . . . = π D i + π C i δ 1 – δ πMi ≥ π D i + π C i 1 1 – δ δ 1 – δ δ ≥ πMi − π D πCi − π D i Substituindo os valores encontrados anteriormente, obtemos: Veja outro exemplo importante de duopólio no vídeo a seguir. VERIFICANDO O APRENDIZADO δ ≥ 917 1. DUAS FIRMAS PRODUTORAS DE BENS HOMOGÊNEOS SE DEFRONTAM COM A DEMANDA INVERSA , SENDO A QUANTIDADE OFERTADA PELA FIRMA I. OS CUSTOS MARGINAIS SÃO CONSTANTES C=3 PARA AS DUAS FIRMAS. NÃO HÁ CUSTO FIXO. SUPONHA QUE ESSE JOGO SEJA REPETIDO INFINITAS VEZES, E AS FIRMAS TENHAM UMA TAXA DE DESCONTO COMUM. ASSINALE A ALTERNATIVA VERDADEIRA. A) Em cada rodada do jogo, a produção individual de Equilíbrio de Cournot é maior que a quantidade que cada firma produz em cartel, supondo que elas dividam o mercado igualmente. B) As firmas necessariamente preferem a estratégia cooperativa (cartel) à estratégia não cooperativa (Cournot). C) Se uma firma desviar, ela irá obter o payoff de desvio em todos os períodos, e por isso sempre vale a pena desviar. D) É possível sustentar cooperação se a taxa de desconto for igual ou superior a . 2. CONSIDERE UM JOGO ESTÁTICO COM DOIS JOGADORES. EXISTE UM ÚNICO EQUILÍBRIO DE NASH, EM QUE CADA JOGADOR OBTÉM PAYOFF IGUAL A 5. EXISTE OUTRA COMBINAÇÃO DE ESTRATÉGIAS (X,Y), DIFERENTE DO EQUILÍBRIO DE NASH, EM QUE CADA JOGADOR OBTÉM PAYOFF IGUAL A 6. SUPONHA QUE ESSE JOGO SEJA REPETIDO INFINITAS VEZES. É CORRETO AFIRMAR QUE: A) Jogar (X,Y) em todos os períodos, independentemente da escolha dos demais jogadores, é Equilíbrio de Nash perfeito em subjogos. B) Repetir o Equilíbrio de Nash em todos os períodos é um equilíbrio perfeito em subjogos apenas se a taxa de desconto for suficientemente alta. C) Se os jogadores forem suficientemente pacientes, então é possível usar uma estratégia de gatilho tal que os jogadores escolhem jogar (x,Y) em todos os períodos. D) Se o payoff de cada jogador no Equilíbrio de Nash aumentar para 5,9, a taxa de desconto mínima necessária para sustentar cooperação também vai diminuir, pois vai ser mais fácil sustentar cooperação. p = 20 – (q1 + q2) qi 9 17 GABARITO 1. Duas firmas produtoras de bens homogêneos se defrontam com a demanda inversa , sendo a quantidade ofertada pela firma i. Os custos marginais são constantes c=3 para as duas firmas. Não há custo fixo. Suponha que esse jogo seja repetido infinitas vezes, e as firmas tenham uma taxa de desconto comum. Assinale a alternativa verdadeira. A alternativa "D " está correta. : Bastando fazer a = 20 e c = 3. Encontramos que a taxa de desconto mínima para sustentar cooperação é , que não depende dos valores de a e c! 2. Considere um jogo estáticocom dois jogadores. Existe um único Equilíbrio de Nash, em que cada jogador obtém payoff igual a 5. Existe outra combinação de estratégias (X,Y), diferente do Equilíbrio de Nash, em que cada jogador obtém payoff igual a 6. Suponha que esse jogo seja repetido infinitas vezes. É correto afirmar que: A alternativa "C " está correta. O Teorema Popular diz que é possível obter no jogo repetidos payoffs acima do que o Equilíbrio de Nash permite, desde que os jogadores sejam suficientemente pacientes. CONCLUSÃO CONSIDERAÇÕES FINAIS Este tema apresentou os principais conceitos envolvidos com a formalização e aplicação de jogos dinâmicos de informação completa. Vimos, inicialmente, a Teoria Geral de Jogos Dinâmicos e, em seguida, um caso particular bastante importante — os jogos repetidos. Essa teoria é usada em diversas áreas: Economia, Ciência Política, Direito, Biologia. Um dos principais temas é a possibilidade de cooperação entre indivíduos que tomam decisões p = 20 – (q1 + q2) qi 9 17 individuais. Temos certeza de que, a partir de agora, você aplicará esse tipo de raciocínio para assuntos além da Economia. REFERÊNCIAS ACEMOGLU, Daron. Political Economy Lecture Notes. 2003. In: MIT Economics. Consultado em meio eletrônico em: 26 jul. 2020. GIBBONS, Robert. Game Theory for Applied Economists. New Jersey: Princeton University Press, 1992. 261 p. EXPLORE+ Para saber mais sobre os assuntos tratados neste tema, pesquise na internet: O Exploratorium, um museu de ciências americano, tem uma seção dedicada às Ciências Sociais, na qual os visitantes podem participar de vários experimentos de Teoria dos Jogos. É particularmente interessante ver a possibilidade de cooperação em jogos repetidos. CONTEUDISTA Daniel Duque CURRÍCULO LATTES javascript:void(0);
Compartilhar