信息静态博弈
第四部分 博弈论
第六章 完全信息静态博弈
博弈论英文为Game Theory,其中Game的基本意义是游戏,直译应该是“游戏理论”研究理性的决策主体之间发生冲突时的决策问题及均衡问题,也就是研究理性的决策者之间冲突及合作的理论,博弈论试图把这些错综复杂的关系理性化、抽象化,以便更精确地刻画事物变化发展的规律,为实际应用提供决策指导。
博弈论中的个人决策与传统微观经济学中论及的个人决策相比,都是在给定约束的条件下追求效用或收益最大化,但其约束条件却不尽相同。通常,传统微观经济学中论及的个人决策,是在给定价格参数和个人收入的条件下,使效用最大化;个人效用函数只依赖于自己的选择而不依赖于他人的选择;个人的最优选择只是价格和收入的函数而不是其他人选择的函数,因此,既不考虑自己的决策对他人决策的影响也不考虑他人决策对自己决策的作用。与此相对照,在博弈论里,个人效用函数不仅依赖于自己的选择,而且依赖于他人的选择;个人的最优选择是他人选择的函数,因而该理论注意到了事物之间的普遍联系,考虑了人们决策的相互影响,并把他人的决策置于内生变量之中进行分析,拓宽了传统经济学的分析思路,更接近现实世界。
最早的博弈论思想产生于中国早在2500多年前的春秋时期,《孙子兵法》中论述的十三篇军事思想和治国战略,便闪烁着博弈论的光辉。100年后孙武的后代孙膑,演绎孙子兵法,用于田忌赛马,可以说是最早的博弈论案例。然而直到本世纪初,博弈论才被系统地引入经济学研究中来。1944年美国科学家冯·诺依曼(Von Neumann)和经济学家摩根斯特(Morgentern)合作出版了《博弈论与经济行为》(The Theory of Games and Economic Behaviour)一书,成为现代经济博弈论研究的开端.此后,在国际学术界博弈论受到了更多的关注。从1950年至1954年,美国数学家、经济学家纳什(John Nash)发表了一系列论文,提出了著名的“纳什均衡”的概念,奠定了现代博弈论的基石。
严格意义上说,博弈论并不是经济学的一个分支,它是一种方法,应用领域很广,不仅经济学,政治学、军事、外交、国际关系、公共选择、体育等都和博弈论有关。实际上,博弈论应该看成是数学的一个分支。
几十年来,许多经济学者花费了巨大的精力,研究博弈的理论,并探讨了其实际应用的价值。博弈论在经济学中的应用模型迅速发展,博弈论的许多成果也正是借助于经济学现象发展起来的。由于这一理论重视不同利益主体之间行为特征和规律的分析,特别是关于人们行为的相互作用、人们之间的利益冲突与一致,以及竞争与合作等方面的研究,这种重视理性选择的相互依赖性的深刻思想,不仅构成了现代微观经济学的重要理论,而且为宏观经济分析提供了重要的微观基础。20世纪90年代以来,博弈论已经成为主流经济学中一个重要的组成部分。
6.1博弈论的基本概念
6.1.1博弈的基本要素
博弈论的基本概念包括参与人、行动、信息、战略、得益(效用)、结果和均衡,其中,参与人、战略和得益是描述一个博弈需要的最少的三要素,而行动和信息是其“积木”。参
与人、行动和结果统称为“博弈规则”(the rules of the game)。博弈分析的目的是使用博弈规则预测均衡。我们现在给出这些概念的准确定义。
1.参与人(players):参与人指的是一个博弈中的决策主体。他的目的是通过选择行动(或战略)以最大化自己的得益(效用)水平。参与人可能是自然人,也可能是团体。如企业、国家。甚至若干个国家组成的集团(如OPEC、欧盟、北约等)。重要的是每个参与人必须有可供选择的行动和一个很好定义的偏好函数。那些不作决策的被动主体只当作环境参数来处理。 除—般意义上的参与人之外,为了分析的方便,在博弈论中,“自然”(nature)作为“虚拟参与人”(pseudo—player)来处理。这里,“自然”是指决定外生的随机变量的概率分布的机制。与一般参与人不同的是,自然作为虚拟的参与人没有自己的得益和目标函数(即所有结果对它都是无差异的)。 一般用i1,,n代表参与人。
2.行动(actions or moves):行动是参与人在博弈奕的某个时点的决策变量。一般地,我们用ai表示第i个参与人的一个特定行动。Aiai表示可供i选择的所有行动的集合
(action set)。参与人的行动可能是离散的,也可能是连续的。在n人博弈中,n个参与人的行动的有序集a(a1,,an)称为“行动组合”(action Profile)。其中的第i个元素ai是第i个参与人的行动。与行动相关的—个重要问题是行动的顺序(the order of play)。行动顺序对于博弈的结果是非常重要的。有关静态博弈与动态博弈的区分就是基于行动的顺序作出的。我们将看到,同样的参与人,同样的行动集合,行动的顺序不同,每个参与人的最优选择就不同,博弈的结果就不同(事实上,不同的行动顺序意味着不同的博弈)。特别是在不完全信息博弈中,后行动者可以通过观察先行动者的行动来获得信息。从而使得博弈分析成为预测人的行为的一个强有力的工具。在博弈论中,一般假定参与人的行动空间和行动顺序是所有参与人的共同知识(common knowledge)。(共同知识指的是“所有参与人知道,所有参与人知道所有参与人知道,等等”,是与信息有关的一个重要概念。)
3.信息(information):信息是参与人有关博弈的知识,特别是有关“自然”的选择、其他参与人的特征和行动的知识。信息集(information set)是博弈论中描述参与人信息特征的一个基本概念。
4.战略(strategies):战略是参与人在给定信息集的情况下的行动规则,它规定参与人在什么时候选择什么行动。因为信息集包含了一个参与人有关其他参与人之前行动的知识,战略告诉该参与人如何对其他参与人的行动作出反应,因而战略是参与人的“相机行动方案”(contingent action plan)。一般我们用si表示第i个参与人的一个特定战略,Sisi代表第i个参与人的所有可选择的战略的集合(strategy set)。如果n个参与人每人选择一个战略,n维向量s(s1,,si,,sn)称为一个战略组合(strategy profile),其中si是第i个参与人选择的战略。
5.得益(payoff):在博弈论中,得益是指在一个持定的战略组合下参与人得到的确定效用水平,或者是指参与人得到的期望效用水平。令ui为第i个参与人的得益(效用水平)以u(u1,,ui,,un)为n个参与人的得益组合。博弈的一个基本特征是一个参与人的得益不仅取决于自己的战略选择,而且取决于所有其他参与人的战略选择,ui是所有参与人的战略选择的函数: ui(s1,,si,,sn)
6.结果(out come)和均衡(equilibrium):结果是博弈分析有所感兴趣的所有内容,如均衡战略组合,均衡行动组合,均衡支付组合等。均衡是所有参与人的最优战略的组合。记为
**s*(s1,,si*,,sn)
其中,si*是第i个参与人在均衡情况下的最优战略。它是i的所有可能的战略中使ui或Eui最大化的战略。用si(s1,,si1,si1,,sn)表示由除i之外的所有参与人的战略组成的向量。si*是第i个参与人在均衡情况下的最优战略意味着。佰草集美白面膜 网提供!
ui(si*,si)ui(si,si)sisi
均衡意味着,对所有的i1,2,,n,上式同时成立。
6.1.2博弈的表述形式
在博弈论中,博弈有不同的表述形式,这里介绍扩展形式和战略形式。从理论上讲,这两种表述形式几乎是完全等价的。但从分析的方便性角度看,战略形式表述更适合于静态博弈,而扩展式表述更适合于讨论动态博弈。
1.扩展形式
扩展形式是对博弈的最明确描述。它记录了博弈中所有参与人在不同阶段的行动次序、所有可能的信息状态和选择。在扩展形式博弈中以某一个参与人的行动开始,第一个参与人行动后,轮到其他参与人行动(允许参与人观察对手的行动)„„直到博弈结束。结果,参与人各自得到其得益。通常用博弈树来描述扩展形式的博弈。
下面举例说明扩展形式博弈及其博弈树表示。设有两人玩掷硬币游戏:每人在桌面上扔一枚硬币,但彼此隐蔽(结果不被对方发现)。参与人1先掷,然后参与人2掷。最后同时在桌面上显示朝上的一面。如果两枚硬币朝上的一面相同,则参与人者l向参与人2支付5元;如果朝上的一面不相同,则参与人2向参与人1支付5元。记H=“正面”,T=“反面”,则用博弈树表示如图7-1所示。
图中参与人做决策的点①、②、③称为“决策结点”,简称结点;“1”表示参与人1行动,“2”表示参与人2行动;实心圆点“●”称为“终结点”。表明博弈结束;终结点下面一行括号中的一对数字分别为参与人l和2的得益。
图7-1
图中用虚线连接的结点{②,③},称为“信息集”,意味着参与人2在行动之前并不确切地知道自己处在②和③中哪个结点。一个信息集可能包含多个(决策)结点,也可能只包含一个(决策)结点。博弈树代表了行动的次序,因此常用来描述动态博弈、扩展形式博弈,也可以用来表述同时行动的(静态)博弈。尽管博弈树描述了在时间顺序上一个人在另一个人之前行动,但结点②和③处于同一信息集的事实意味着,不存在某人先行的信息传给另一个人。从博弈时间上看,后行与先行是同时进行的。上图中左右两个博弈树是对称的(背靠背地),每个先行者都没有显示信息给对方。肾阴虚吃什么药 网提供!
2.战略形式
战略形式表述又称为标准式表述。所有参与人同时选择各自的战略,所有参与人选择的战略一起决定每个参与人的支付。这里,参与人“同时选择”的是战略,而不是行动。因 为战略是参与人行动的全面计划,战略式表述也可以用以描述动态博弈。
更为准确地讲,战略式表述给出:
(1)博弈的参与人集合:i,(1,2,,n);
(2)每个参与人的战略空间:Si,i1,2,,n;
(3)每个参与人的得益函数:ui(s1,,si,,sn)i1,2,,n
我们用GS1,,Sn;u1,,un表示战略式表述博弈。
一个博弈被认为有限博弈,如果第一,参与人的个数是有限的,第二,每个参与人可选择的战略是有限的。两人有限博弈的战略式表述可以用矩阵表来直观地给出。
6.1.3博弈的分类
博弈涉及的范围十分广泛,从不同的角度有不同的分类。
按参与人之间能否达成一个有约束力的协议,博弈可分为合作型博弈与非合作型博弈。如果在一个博弈过程中。参与人之间的协议、承诺或威胁具有完全的约束力。并且能够强制执行,则称之为合作博弈;否则,如果协议、承诺或威胁不可强制执行,即使参与人之间在博弈之前可以互相交往。也称之为非合作博弈。
按照参与人决策时是否存在时间的先后次序,博弈可分为静态博弈与动态博弈。如果参与人同时进行决策选择,或者虽非同时但后行动者并不知道先行动者采取了什么具体行动,则称之为静态博弈;当考虑时间因素,博弈需要多阶段或重复地进行下去时,就成为动态博弈问题。在动态博弈中,参与人的决策有先后次序,后行动者能够观察到先行动者所选择的战略。静态分析方法是博弈研究的重要基础,而动态研究则有助于人们从根本上认识和把握利益主体的行为特征、诱变因素和变化规律。
按照参与人事先是否拥有其他参与人决策方面的信息,博弈可分为完全信息博弈与不完全信息博弈。在完全信息博弈中,每一位参与人都拥有所有其他参与人的特征、战略集合及得益函数方面准确的信息;在不完全信息博弈中,参与人只能了解上述信息中的一部分。 此外,按照参与人之间冲突的性质,博弈还可以分为对抗性博弈与非对抗性博弈。在对抗性博弈中,参与人的收益或效用完全对立,一方所得必是另一方所失,一方利益的增加必然导致另一方利益的减少。在对抗性博弈中,如果参与人各方不管采取何种战略,各自收益之和恒为零,则称之为零和博弈;如果各自的收益之和为常数,则称之为常和博弈。大多数的体育比赛从结果看属于对抗性零和博弈。在非对抗性博弈过程中,参与人有各自不同的收益值,其和不再等于零或常数,参与人之间的收益或效用既冲突又一致,具备了达成某种均衡的可能。经济活动中的很多博弈问题都属于非对抗性博弈,而非对抗性博弈也就构成了经济博弈论研究的重点。中药丰胸 网提供!
6.2纳什均衡
在这里集中讨论完全信息静态博弈,“完全信息”指的是每个参与人对所有其他参与人的特征(包括战略空间、得益函数等)有完全的了解,“静态”指的是所有参与人同时选择行动且只选择一次。应该指出的是,“同时行动”在这里是一个信息概念而非日历上的时间概念:只要每个参与人在选择自己的行动时不知道其他参与人的选择,我们就说他们在同时行动。日历概念上的同时行动是信息概念上的同时行动的一种特殊情况,尽管从数量上讲它可能是多数情况。
完全信息静态博弈是一种最简单的博弈,在这种博弈中,由于每个人是在不知其他人行动的情况下选择自己的行动,战略和行动实际上是一回事。博弈分析的目的是预测博弈的均衡结果,即给定每个参与人都是理性的,每个参与人都知道每个参与人都是理性的,为了回答什么是每个参与人的最优战略,什么是所有参与人的最优战略组合的问题,我们介绍完全信息静态博弈解的一般概念--纳什均衡,纳什均衡也是所有其他类型博弈解的基本要求。我们采用从特殊到一般的方法,先讨论纳什均衡的特殊情况,然后讨论纳什均衡的—般概念。
6.2.1占优战略均衡
由于每个参与人的效用(得益)是博弈中所有参与人的战略的函数,因此每个参与人的最优战略选择依赖于所有其他参与人的战略选择,但在一些特殊的博弈中,一个参与人的最优战略可能并不依赖于其他参与人的战略选择,就是说,不论其他参与人选择什么战略,他的最优战略是唯一的,这样的最优战略被称为“占优战略”,也称为“上战均衡”。
[例1] 囚徒困境 “囚徒困境”的故事讲的是,两个嫌疑犯作案后被警察擦抓住,被分别关在不同的房间里审讯。警察知道两人有罪,但缺乏足够的证据定罪,除非两人当个至少有一个人坦白。他们也完全清楚可能的结局:
(1)如果两人均坦白供认,则双方各判刑8年;
(2)如果两人均抵赖,则双方各判别1年(或许因证据不足);
(3)如果其中一人坦白,另一人抵赖,则坦白者释放,抵赖者加重判刑10年。
用战略型表述的这个博弈模型,是由博弈的三个基本要素组成。洁面乳 排行榜网提供!
图7-2
图7-2用得益矩阵表示囚徒困境的问题。在这个博弈中,每个囚徒都有两种可选择的战略:坦白或抵赖。因为这两个囚徒被隔离开,因此其中任何一人在选择战略时都不可能知道另一人的选择,我们就可以把他们的决策看作是同时的;矩阵中的每个元素都是由两个数字组成的数组,表示所处行列代表的两参与人所选战略的组合下双方各自的得益,其中第一个数字为囚徒A的得益,第二个数字为囚徒B的得益。这是一个两个参与人同有两种相同的可
选战略,战略和得益都对称的博弈。
对该博弈中的两个囚徒来讲,各自都有两种可选择的战略,但各自的得益不仅取决于自己的战略选择,也取决于另一方的对应选择,该博弈共有四种可能的结果,在这些结果中,每个囚徒可能取得的最好得益是0,最坏得益是-10。两人的唯一目标就是要实现自身的最大得益。那么他们该怎样选择战略?其结果又如何呢?
每个参与人选择自己的战略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的利益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳战略。对囚徒1来说,囚徒2有坦白和抵赖两种可能的选择,假设囚徒2选择的是抵赖,则对囚徒1来说,抵赖得益为-1,坦白得益为0,他应该选择坦白(注意:囚徒l是根据自身利益最大的原则行事,不会去关心一旦自己坦白,另一方抵赖,另一方会被宣判10年徒刑的事实);假设囚徒2选择的是坦白,则囚徒抵赖得益为-10,坦白得益为-8,他还是该选择坦白。因此,在本博弈中,无论囚徒2采取何种战略,囚徒l的选择只有一种,即坦白,因为在另一方的两种可能选择的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒2的唯一的选择也是坦白。该博弈的最终结果是两囚犯同选择坦白战略,同获得益-8,即都被判8年徒刑。每个囚徒的最优战略是“坦白”。
一般地,si*称为参与人i的(严格)占优战略,如果对应所有的si,si*是i的严格最优选择,即:溶脂吸脂减肥 网提供!
ui(si*,si)ui(si,si)si,sisi*
相应地,所有的sisi*被称为“劣战略”。
定义7.1 在博弈的战略式表述中,如果对于所有的i,si*是i占优战略,那么,战略
**组合s*(s1,,sn)称为占优战略均衡。
在一个博弈里,如果所有参与人都有占优战略存在,则占优战略均衡是可以预测到的唯一的均衡,因为没有一个理性的参与人会选择劣战略。在囚徒困境博弈里,(坦白,坦白)是占优战略均衡。在这个博弈中,无论是对这两个囚徒总体来讲,还是对他们个人来讲,最佳的结果都不是同时“坦白”各得到-8,因为都“抵赖”的结果比都“坦白”要好得多。该博弈揭示了个体理性与团体理性的之间的矛盾――以自己的最大利益为目标,结果是无法实现团体最大利益,同时也揭示了个体理性本身的内在矛盾――从个体利益出发的行为最终也不一定真正实现个体的最大利益。这个博弈在经济学上有着广泛的应用,在市场竞争的各个领域和方面,军备竞争,在资源利用和环境保护等,普遍存在类似于囚徒困境的问题。
6.2.2重复剔除的占优均衡
在每个参与人都有占优战略的情况下,占优战略均衡是一个非常合理的预测,但在绝大多数博弈中,占优战略均衡是不存在的。由于占优战略均衡在博弈分析中的局限性,需要发展更有效的博弈分析方法。重复剔除的占优均衡就是一种更有效的方法,有些学者也称之为,严格下战反复消去法。
[例2] 智猪博弈 我们以“智猪博弈”为例来阐述这种方法的思想。这个例子讲的是,猪圈里有两头猪,—头大猪,一头小猪,猪圈的一头有—个猪食槽,另一头安装着一个按钮、控制着猪食的供应。按—下按钮,8个单位的猪食进槽,但需要付出2个单位的成本。若大猪先到,大猪吃到7个单位,小猪只能吃到1个单位;若小猪先到,大猪和小猪各吃到4个单位;若两猪同时到,大猪吃到5个单位,小猪吃到3个单位。这里每头猪都有两种战略:
按或等待。图7-3列出对应不同战略组合下的支付矩阵。如第一格表示两头猪同时按按钮,因而同时走到猪食槽,大猪吃到5个单位,小猪吃到3个单位,扣除2个单位的成本,支付水平分别为3个单位和1个单位。
图7-3
这个博弈没有占优战略均衡,因为尽管“等待”是小猪的占优战略,大猪没有占优战略。大猪的最优战略依赖于小猪的战略:如果小猪选择“等待”,大猪的最优战略是“按”;反之,如果小猪选择“按”,大猪的最优战略是“等待”。因此,我们不能应用占优战略找出均衡。 怎样寻找这个博弈的均衡解呢?假定小猪是理性的,小猪肯定不会选择“按”的战略,因为不论大猪选择什么战略,对小猪来说,“等待”严格优于“按”,因而理性的小猪会选择“等待”。再假定大猪知道小猪是理性的,那么,大猪会正确地预测到小猪会选择“等待”;给定这个预测,大猪的最优选择只能是“按”。这样,(按,等侍)是这个博弈唯一的均衡,即大指选择“按”,小猪选择“等待”,支付水平分别为2和4个单位。这是一个“多劳不多得,少劳不少得”的均衡。
在找出上述智猪博弈的均衡解时,我们实际上是应用了“重复剔除严格劣战略”的思路,这个思路是这样的:首先找出某个参与人的劣战略(假定存在),把这个劣战略剔除掉,重新构造一个不包含已剔除战略纳新的博弈;然后再剔除这个新的博弈中的某个参与人的劣战略;继续这个过程,一直到只剩下一个唯一的战略组合为止。这个唯一剩下的战略组合就是这个博弈的均衡解,称为“重复剔除的占优均衡”。在上例中,我们首先剔除掉小猪的劣战略“按”,在剔除掉这个战略后的新的博弈中,小猪只有一个战略“等待”,大猪有两个战略,但此时,“等待”已成为大猪的劣战略,剔除这个战略,剩下的唯一战略组合是(按,等待)。“重复剔除的占优均衡”概念中的“占优战略”和“劣战略”与前面的定义有所不同。前面的占优战略是指一个参与人所有可选择的战略中严格优于所有其他战略的那个战略,在应用重复剔除方法寻找均衡时,一个战略是占优战略或劣战略可能只是相对于另一个特定的战略而言的。自发热护膝护腕 网提供!
其他参与人的战略组合si,参与人i从选择si得到的得益严格小于从选择si得到的得益,
即:ui(si,si)ui(si,si)定义7.2 令si和si是参与人i可选择的两个战略(即si,siSi )。如果对于任意的si
称战略si严格劣于战略si,也称si为相对si的劣战略;相应地,也称si为相对于si占优战略。
“弱占优”、“弱劣”的概念在博弈分析中也经常使用。
格不等式成立,称si弱劣于战略si,si称为相对于si的弱占优战略。
***定义7.3 如果对于所有的si,ui(si,si)ui(si,si)si,且对于某些si ,严 定义7.4 重复剔除的占优均衡 战略组合s(s1,,sn)称为重复剔除的占优战略均
衡,如果它是重复剔除劣战略后剩下的唯一的战略组合。如果这种唯一的战略组合存在,我们说该博弈是重复剔除占优可解的。
6.2.3纳什均衡
现实生活中相当多的博弈,我们无法使用重复剔除劣战略的办法找出均衡解,那么怎样找出博弈的均衡解呢?我们需要引入纳什均衡(Nash equilibrium) 的概念。纳什均衡是完全信息静态博弈解的一般概念,构成纳什均衡的战略一定是重复剔除严格劣战略过程中不能被剔除的战略。
设想n个参与人在博弈之前达成—个协议,规定每一个参与人选择一个特定的战略,令
**s*(s1,,sn)代表这个协议,其中si* 是协议规定的第i个参与人的战略。什么情况下会发生参与人有积极性不遵守这个协议?显然,只有当遵守协议带来的效用大于不遵守协议时的效用时,—个人才会遵守这个协议。如果任何参与人都遵守这个协议,我们说这个协议是可以自动实施的,这个协议就构成了一个纳什均衡。安神补脑食品 网提供!
定义7.5 有n个参与人的战略表述博弈GS1,,Sn;u1,,un,战略组合**s*(s1,,sn)是一个纳什均衡。如果对于每一个i,si*是给定其他参与人选择*****si(s1,,si1,si1,sn) 时的第i 个参与人的最优战略,即:
**ui(si*,si)ui(si,si),siSi,i
用另—种表述方式,si*是下述最大化问题的解:
sS**si*argmaxui(s1,,si*1,si,si*1,sn),i1,2,,n i,i)不是G的一个纳什均衡等价于说至少对于某些i而言, 战略组合s(s1,si,,sn
i),至少存在一个siSi,使得 si不是i的最优战略(给定s
i)ui(si,si) ui(si,s
,,si,,sn) 是博弈的一个结果,但这个结果不是—个纳就是说,如果我们预测s(s1
什均衡,那么,至少存在某些参与人有积极性偏离这个结果。
一致(consistent)预测性是纳什均衡的本质属性,是指这样的一种性质:如果所有的参与人都预测到一个特定的纳什均衡将会出现,那么,没有人有兴趣作不同的选择,偏离这个预测结果,因此这个预测结果最终会成为博弈的结果。只有纳什均衡具有这样的特征:参与人预测到均衡,参与人预测到其他参与人预测到均衡,等等。对比之下,预测一个非纳什均衡的战略组合将意味着至少有一个参与人会犯错误(有关对手的选择的预测是错误的,或自己的选择是错误的),尽管这样的错误确实可能出现。
纳什均衡与占优战略均衡及重复剔除的占优均衡都是博弈分析的方法,它们之间的相互关系如何呢?首先,每—个占优战略均衡、重复剔除的占优均衡一定是纳什均衡,但并非每一个纳什均衡都是占优战略均衡或重复剔除的占优均衡。这是因为,一个参与人的占优战略是对于所有其他参与人的任何战略组合的最优选择,它也—定是对于所有其他人的某个特定战略的最优选择,然而,一个战略构成纳什均衡战略的唯一条件是它是参与人对于其他参与人均衡战略的最优选择。在重复剔除过程中,如果最后剩下来的战略组合是唯一的,它—定是—个纳什均衡。其次,纳什均衡一定是在重复剔除严格劣战略的过程中没有被剔除的战略组合,并且是唯一的。
6.3纳什均衡应用
纳什均衡在经济学上的应用非常广泛,这里介绍几个典型的应用例子。
6.3.1古诺(Cournot)寡头竞争模型
古诺(1838)早在一个多世纪之前就已提出了纳什所定义的均衡(但只是在特定的双寡头垄断模型中)。古诺的研究现在已理所当然地成为博弈论的经典文献之一,同时也是产业组织理论的重要里程碑。古诺模型可以说是纳什均衡最早的版本,比纳什的定义早100年。
这里,我们只讨论古诺模型的一种非常简单的情况,我们将通过模型说明:(a)如何把对一个问题的非正式描述转化为一个博弈的标准式表述;(b)如何通过计算解出博弈的纳什均衡。
令q1,q2分别表述企业1,企业2生产的同质产品的产量,市场中该产品的总供给Qq1q2,令P(Q)aQ表示市场出清时的价格(更为精确一些的表述为:Qa时,P(Q)aQ;Qa时,P(Q)0)。设企业i生产qi的总成本Ci(qi)cqi即企业不存在固定成本,巳生产每单位产品的边际成本为常数c,这里我们假定ca。根据古诺的假定,两个企业同时进行产量决策。
为求出古诺博弈中的纳什均衡,我们首先要将其化为标准式的博弈。前节已讲过,博弈的标准式表述包含下列要素:(1)博弈的参与人,(2)每一参与人可以选择的战略(3)针对每一个可能出现的参与人的战略组合,每一参与人的收益。双头垄断模型中当然只有两个参与人,即模型中的两个垄断企业。在古诺的模型里,每一企业可以选择的战略是其产品产量,我们假定产品是连续可分割的。由于产出不可能为负,每一企业的战略空间就可表示为
即包含所有非负实数,其中一个代表性战略si就是企业选择的产量,Si[0,),qi0。
也许有的读者提出特别大的产量也是不可能的,因而不应包括在战略空间之中,不过,由于Qa时,P(Q)0,任一企业都不会有qia的产出。
要全面表述这一博弈并求其均衡解,还需把企业i的收益表示为它自己和另一企业所选择战略的函数。我们假定企业的收益就是其利润额,这样在—般的两个参与人标准式博弈中,参与人i的收益ui(si,sj)就可写为:
i(qi,qj)qi[p(qiqj)c]qi[a(qiqj)c]
**在一个标准的两人博弈中,一对战略(s1,s2) 如是纳什均衡,则对每个参与者i,si*应
该满足
*ui(si*,s*
j)ui(si,sj)
上式对Si中每一个可选战略si都成立,这一条件等价于:对每个参与者i,si*必须是下面最优化问题的解:
maxui(si,s*
j) siSi
在古诺的双头垄断模型中,上面的条件可具体表述为:一对产出组合(q1,q2) 若为纳什均衡,对每一个企业i,qi*应为下面最大化问题的解: **
0qi*maxi(qi,q*
j)maxqi[a(qiqj)c] 0qi
设q*企业i最优化问题的一阶条件既是必要条件,又jac(下面将证明该假设成立),
是充分条件;其解为
qi*1(aq*
jc) 2
**那么,如果产量组合(q1,q2)要成为纳什均衡,企业的产量选择必须满足 1*q(aq2c)21**q2(aq1c)2*1
解这一对方程组得
**q1q2ac 3
均衡解的确小于a-c,满足上面的假设。
对这一均衡的直观理解非常简单。每一家企业当然都希望成为市场的垄断者,这时它会选择qi使自己的利润(qi,0)最大化,结果其产量将为垄断产量qm(ac)/2并可赚取垄断利润(qi,0)(ac)2/4。在市场上有两家企业的情况下,要使两企业总的利润最大化,两企业的产量之和q1q2应等于垄断产量qm,比如qiqm/2时就可满足这一条件。但这种安排存在一个问题,就是每一家企业都有动机偏离它:因为垄断产量较低,相应的市场价格p(qm)就比较高,在这一价格下每家企业都会倾向于提高产量,而不顾这种产量的增加会降低市场出清价格。在古诺的均衡解中,这种情况就不会发生,两企业的总产量要更高一些,相应地使价格有所降低。
我们还可以通过图形求解,方法如下。对每个企业的利润函数求一阶导数并令其等于零:
1a2q1q2c0q1
2a2q2q1c0q2
aq2c
2 aq1c*q2R2(q1)2*q1R1(q2) 上述两个一阶条件分别定义了两个反应函数(reaction function):
反应函数意味着每个企业的最优战略(产量)是另一个企业产量的函数。两个反应函数的交点就是纳什均衡(q1,q2)。 **
图7-4
6.3.2贝特兰德(Bertrand)价格竞争模型
下面我们讨论双头垄断中两个企业相互竞争的另一模型。贝特兰德(1883)提出企业在竞争时选择的是产品价格,而不像古诺模型中选择产量。
首先应该明确贝特兰德模型和古诺模型是两个不同的博弈,这一点十分重要:参与者的战略空间不同,收益函数不同,并且(随后就可清楚地看到)在两个模型的纳什均衡中,企业行为也不同。一些学者分别用古诺均衡和贝特兰德均衡来概括所有这些不同点,但这种提法有时可能会导致误解:它只表示古诺和贝特兰德博弈的差别,以及两个博弈中均衡行为的差别,而不是博弈中使用的均衡概念不同。在两个博弈中,所用的都是上节我们定义的纳什均衡。我们考虑两种有差异的产品,如果企业l和企业2分别选择价格p1和p2,消费者对企业i的产品的需求为:
其中b>0,即只限于企业i的产品为企业j产品的替代品的情况(这个需求函数在现实中并不存在,因为只要企业j的产品价格足够高,无论企业i要多高的价格,对其产品的需求都是正的。后面将会讲到,只有在b<2时问题才有意义=。和前面讨论过的古诺模型相似,我们假定企业生产没有固定成本,并且边际成本为常数c,c<a,两个企业是同时行动(选择各自的价格)的。
要寻找纳什均衡首先需要把对问题的叙述化为博弈的标准式。参与者仍为两个,不过这里每个企业可以选择的战略是不同的价格,而不再是其产品产量。我们假定小于0的价格是没有意义的,但企业可选择任意非负价格。这样,每个企业的战略空间又可以表示为所有非负实数Si[0,),其中企业i的一个典型战略si是所选择的价格pi0。
我们仍假定每个企业的收益函数等于其利润额,当企业i选择价格pi,其竞争对手选择价格pj时,企业i的利润为:
那么,价格组合(p1,p2)若是纳什均衡,对每个企业i,pi*应是以下最优化问题的解:
**
对企业i求此最优化问题的解为
**由上可知,如果价格组合(p1,p2)为纳什均衡,企业选择的价格应满足
解这一对方程式得:
6.3.3公共资源问题
社会经济活动的不断发展,我们越来越无法回避公共资源利用、公共设施提供和公共环境保护等方面的问题。在这些问题中,包含了众多的博弈关系。经济学中的公共资源是指具有(1)没有哪个个人、企业或组织拥有所有权;(2)大家都可以自由利用,这样两个特征的自然资源和人类生产的供大众免费使用的设施和财物。最晚是从休漠(David Hume)1739开始,政治经济学家已经认识到如果公民只关注个人福利,公共物品就会出现短缺,并且公共资源也会过度使用。在此,我们用下面公共草地的放牧问题为例来进行分析。
考虑一个有n个村民的村庄,每年夏天,所有村民都在村庄公共的草地上放牧。用gi表示村民i放养羊的头数,则村庄里羊的总头数Gg1g2gn。购买和照看一只羊的成本为c,c不随一户村民拥有羊的数目多少而变化。当草地上羊的总头数为G时,一个村民养一只羊的价值为v(G)。由于一只羊要生存,至少需要一定数量的青草,草地可以放牧羊的总数有一个上限Gmax:当GGmax时,v(G)>0;但GGmax时,v(G)=0。还有,由于最初的一些羊有充足的空间放牧,再加一只不会对已经放养的羊产生太大影响,但当草地上放养羊的总数已多到恰好只能维生的时候(即GGmax时),再增加一只就会对其他已经放养的羊带来极大损害,每只羊的价值会急剧下降。用公式表述为:GGmax,v(G)0,v(G)0如图所示。
图7-5 每只羊的价值随羊的总数的增加而下降
春天时,村民同时选择计划放养的羊的数量。假定羊是连续可分割的,村民i的一个战
略就是他选择的在村庄草地上放养羊的数量gi。假设战略空间为[0,),它包含了可以给村民带来收益的所有可能选择;[0,Gmax]其实也足够了。当其他村民养羊数量为(g1,gi1,gi1,gn)时,村民i放养gi只羊获得的收益为
这样,若为纳什均衡,则对每个村民i,当其他村民选择 (7.1) **(g1,gi*1,gi*1,gn)时,gi*必须使(7.1)最大化。这一最优化问题的一阶条件为
(7.2) ******这里gi代表(g1gi1gi1gn),将gi代入(7.2),并把所有村民的一阶条件加总,然后再除以n得
* (7.3) ****其中,G表示(g1gn)。但是,全社会的最优选择,用G表示,应满
它的一阶条件为
v(G**)G**v(G**)c0 (7.4)
将社会最优的一阶条件与个人最优的一阶条件相比较可知,GG,公共资源被过度使用了,因为每个村民只考虑他们自己的利益,并不管其行为对其他村民带来的后果。这就是公共资源的悲剧!
***
6.4混合战略和混合战略纳什均衡
前面介绍的纳什均衡分析方法可以解决许多博弈问题,但是如果博弈中不存在纳什均衡或者纳什均衡不唯一,那么纳什均衡分析方法就不能给参与人的选择和博弈结果作明确的预测。实践的发展,需要理论发展,不断完善。对于不存在纳什均衡和存在多个纳什均衡的博弈怎样进行分析呢?这里引进两个重要概念:混合战略和混合战略纳什均衡。
6.4.1混合战略
我们考虑下面的博弈,猜硬币。这个故事讲的是,两个儿童手里各拿着一枚硬币,决定要显示正面向上还是反面向上。如果两枚硬币同时正面向上或同时反面向上,儿童B赢走儿童A的硬币;如果两枚硬币只有一枚正面向上,儿童A赢走儿童B的硬币。表1.13给出这个博弈的支付矩阵。
图7-6
在此博弈中,每一参与者的战略空间都是(正面,背面)。为理解矩阵表中所列参与者各自的收益,设想每一参与人拿有一枚硬币,并必须选择是出正面向上还是背面向上。若两枚硬币是一致的(即全部正面向上或全部背面向上),则参与人2赢走参与人1的硬币;如果两枚硬币不一致(一正一反),参与人1赢得参与人2的硬币。在此博弈中,没有一组战略能够满足纳什均衡的条件,因为如果参与者的战略是一致的——(正面,正面)或(背面,背面)——那么参与人1就希望能改变战略,如果参与者的战略不一致——(正面,背面)或(背面,正面)——则参与人2将希望能改变战略。
猜硬币博弈一个显著的特点是每个参与人都想先猜中对方的战略。这一类博弈在扑克、棒球、战争等其他环境中也经常会出现。在用扑克牌赌博的博弈中,类似的问题是如何决定使诈的次数:如果大家都知道参与者i是从来不使诈的,那么任何时候当i下很高的赌注时他的对手就会认输,但这又使得i偶然使诈会有利可图;另一方面,使诈次数过多亦非上战。在棒球比赛中,假设投球手既可以掷出快球,又可掷出曲线球,那么击球手能够击中任何一类投球的前提是,他能正确估计到投球手将掷出哪一类球。与之相似,在战争中,假设进攻方可能在两个攻击点(或两条进攻路线,比如“陆路或水路”)中选择其一,防御方可以抵御来自任一方向的攻击,但也只在它正确预测到进攻路线的前提下。
在博弈中,一旦每个参与者都竭力猜测其他参与者的战略选择,就不存在纳什均衡,因为这时参与者的最优行为是不确定的,而博弈的结果必然要包含这种不确定性。现在引入混合战略的概念,我们可以将其解释为一个参与者对其他参与者行为的不确定性。我们将把纳什均衡的定义扩展到包含混合战略,从而可以分析诸如猜硬币、扑克、棒球及战争等博弈的解出现的不确定性。
规范地表述,参与者i的一个混合战略是在其战略空间Si中(一些或全部)战略的概率分布,此后我们称Si中的战略为i的纯战略(pure strategies)。若分析完全信息同时行动博弈,一个参与者的纯战略就是他可以选择的不同行动,例如在猜硬币博弈中,Si内含有两个纯战略,分别为正面和背面,这时参与者i的一个混合战略为概率分布(q,1q),其中q为出正面向上的概率,1q为出背面向上的概率,且0q1。混合战略(0,1)表示参与者的一个纯战略,即只出背面向上,类似地,混合战略(1,0)表示只出正面向上的纯战略。
作为混合战略的第二个例子,请看图 7-7所示博弈:
图 7-7
参与者2有三个纯战略:左、中、右,这时他的一个混合战略为概率分布(q,r,1qr),其中q表示出左的概率,r表示出中的概率,1qr表示出右的概率,和前面相同,且0q1,这里还应满足0r1及0qr1。在此博弈中,混合战略(1/3,1/3,l/3)表示参与者出左、中、右的概率相同,而(1/2,l/2,0)表示出左、中的概率相同,但绝不可能选择出右。和在所有情况下一样,参与者的一个纯战略只是混合战略的一种特例,例如参与者2只出左的纯战略可表示为混合战略(1,0,0)。
更为一般地,假设参与者i有K个纯战略:Si{si1,,siK},则参与者i的一个混合战略是一个概率分布(pi1,,piK),其中pik表示对所有k=1,„,K,参与者i选择战略sik的概率,由于pik是一个概率,对所有k=1,„,K,有0pik1且pi1piK1。我们用pi表示基于Si的任意一个混合战略,其中包含了选择每一个纯战略的概率,正如我们用si表示Si内任意一个纯战略。
定义7.6 对标准式博弈GS1,,Sn;u1,,un,假设Si{si1,,siK}。那么,参与者i的一个混合战略为概率分布pi(pi1,,piK),其中对所有k=1,„,K,有0pik1且pi1piK1。
相对于这种以一定概率分布在一些战略中随机选择的混合战略,确定性的具体的战略我们称为“纯战略”,而我们原来意义上的纳什均衡,即任何参与人都不愿单独改变战略的纯战略组成的战略组合现在可称为“纯战略纳什均衡”。当然,纯战略也可以看作混合战略的特例。纯战略可以看作,选择相应纯战略的概率为1,选择其余纯战略的概率为0的混合战略。混合战略可以看作纯战略的扩展。
引进了混合战略的概念以后,我们可将纳什均衡的概念扩大到包括混合战略的情况。对各参与人的一个战略组合,不管它是纯战略组成的还是混合战略组成的,只要满足各参与人都不会想要单独偏离它,我们就称之为一个纳什均衡。如果确实是一个严格意义上的混合战略组合构成的纳什均衡,称为“混合战略纳什均衡”。我们以猜硬币博弈为例,假定参与者1推断参与者2会以q的概率出正面,以1q的概率出背面,亦即参与者1推断参与者2将使用混合战略(q,1q)。据此推断,参与者l出正面可得的期望收益为q(1)(1q)112q,出背面的期望收益为q1(1q)(1)2q1。由于当且
12q2q1,q1/2仅当q1/2时,则q1/2时,参与者1的最优纯战略为出正面;
时为出背面;当q1/2时,参与者1出哪一面都是无差异的。同样,参与者2也必须以1/2的概率出正面和背面,才能使对方无机可乘!猜硬币博弈中两个参与人都以(1/2,1/2)的概率分布随机选择正面和反面的混合战略组合,就是一个混合战略纳什均衡。
期望得益:
111111111(1)1(1)022222222
这是零和博弈!
6.4.2性别战博弈
混合战略和混合战略均衡的概念不仅可用在不存在纯战略纳什均衡的博弈问题中(这种问题各参与人之间的利益总是有一定的对立性),在没有确定性结果的博弈、即存在多个纯战略纳什均衡的博弈(这种博弈中博弈方之间的利益有相当的一致性)中也可运用。作为混合
战略纳什均衡的例子,我们用经典例子——性别战博弈为例,这个例子表明一个博弈可以有多个纳什均衡。关于这一博弈的传统表述(要知道这一博弈从20世纪50年代就开始使用了),是一男一女试图决定安排一个晚上的娱乐内容。丈夫和妻子必须就去听歌剧和看职业拳击赛选择其一,夫妻都希望两人能在一起渡过一个夜晚,而不愿分开,但丈夫希望能一起看拳击比赛,妻子则希望能在一起欣赏歌剧,如下面矩阵所示:
丈夫
歌剧 q 拳击(1-q)
妻子 歌剧 r
拳击 1-r
图7.8 性别战博弈
令(q,1q)为丈夫的一个混合战略,其中他选择歌剧的概率为q,且令(r,1r)为妻子的一个混合战略,其中她选择歌剧的概率为r。如果丈夫的战略为(q,1q),则妻子选择歌剧的期望收益为q2(1q)02q,选择拳击的期望收益为q0(1q)11q。从而,在q1/3时,妻子最优反应为歌剧(即r=1);q1/3时,妻子的最优反应为拳击(即r0);q1/3时,任何可行的r都是最优反应。类似地,如果妻子的战略为(r,1r),则丈夫歌剧的期望收益为r1(1r)0r,选择拳击的期望收益为r0(1r)22(1r)。从而,r2/3时,丈夫的最优反应是歌剧(即q1);r2/3时,丈夫的最优反应是拳击(即q0),r2/3时,任何可行的q值都是最优反应。如图L 3.7所示,最优反应对应的交点之一,即丈夫的混合战略(q,1q)(1/3,2/3) 与妻子的混合战略(r,1r)(2/3,1/3)就是原博弈的一个纳什均衡。
图7.9
这是混合战略的反应函数图,图中虚线为最优反应函数r(q)和q(r)有三个交点:**
(q0,r0)、(q1,r1) 及(q1/3,r2/3)。另外两个交点分别代表两个纯战略纳什均衡(拳击、拳击)和(歌剧,歌剧)。尽管混合战略不像纯战略那样直观,但它确实是一些博弈中参与人的合理行为方式。扑克比赛、垒球比赛、划拳,我国著名的齐威王和田忌赛马故事,就是这样的例子,在这类博博中,参赛者总是随机行动以使自己的行为不被对手所预测。经济学上的监督博弈也是这样的例子。监督博弈是猜谜博弈的变种,它概括了诸如税
收检查、质量检查、惩治犯罪、雇主监督雇员等这样一些情况。这类博弈的特点是不存在纯策略纳什均衡。在经济活动中有许多与性别战博弈相似的博弈问题,制式问题是其中典型的例子。电器和电子设备往往油布同的原理或相关技术标准,称之为不同的制式。如果生产相关电器或电子设备的厂商采用相同的制式,产品之间就能够相互匹配,零配件也可能相互通用。如若同一种产品有两种不同的制式,两个厂商之间就有一个选择制式的博弈问题。这类博弈的特点是存在多个纯策略纳什均衡。
6.4.3纳什均衡的存在性
我们介绍了占优战略均衡(DSE)、重复剔除的占优均衡(IEDE)、纯战略纳什均衡(PNE)和混合战略纳什均衡(MNE)四个均衡概念。博弈理论的发展,是随着社会实践的发展不断拓展和完善的。每个均衡概念依次是前一个均衡概念的扩展,或者说,前一个均衡概念是后一个均衡概念的特例:纯战略纳什均衡是混合战略纳什均衡的特例,重复剔除的占优均衡是纯战略纳什均衡的特例,占优战略均衡是重复剔除的占优均衡的特例。从数学集合的观点来理解不同均衡之间的关系,我们可以看到博弈论发展的过程!将存在某个适当定义的均衡的所有博弈定义为一个集合,那么,存在前一个均衡的集合依次为存在后一个均衡的集合的子集:占优战略均衡的集合是重复剔除的占优均衡的集合的子集,重复剔除的占优均衡的集合是纯战略纳什均衡的集合的子集,纯战略纳什均衡的集合是混合战略纳什均衡的集合的子集,如图所示。
图7-10
上述四个均衡概念统称为纳什均衡(NE)。引入混合战略纳什均衡的目的是使纳什均衡概念可以应用于更多的博弈。我们讨论的博弈至少存在一个纳什均衡(纯的或混合的)。并不是所有的博弈都存在纳什均衡!著名的数学家纳什在1950年的经典论文中,首先提出了“均衡点”(Equilibrium Point)的纳什均衡概念,并且证明了在任何有限博弈中都存在至少一个纳均衡。有限博弈指的是博弈有有限个参与人且每个参与人有有限个纯战略。
定义7.7 纳什定理(Nash 1950):在一个有n参与者的标准博弈GS1,,Sn;u1,,un中,如果n是有限的,且Si(对i1,2,,n)是有限的,则博弈存在至少一个纳什均衡,均衡可能包含混合战略。