博弈论的应用-浅析博弈论经典模型
浅析博弈论经典模型
--囚徒困境模型及其启示
一、博弈论概述
博弈论又名“对策论”、“赛局理论”,属应用数学的一个分支,表示在多决策主体之间行为具有相互作用时,各主体根据所掌握信息及对自身能力的认知,做出有利于自己的决策的一种行为理论。简单说来就是一些个人或其他组织,面对一定的环境条件,在一定的规则下,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,各自取得相应结果的过程。由于冲突、合作、竞争等行为是现实世界中常见的现象,因此很多领域都能应用博弈论,例如军事领域、经济领域、政治外交,解决诸如战术攻防、国际纠纷、定价定产、兼并收购、投标拍卖甚至动物进化等问题。
二、博弈论的基本原理
从上述定义中可以看出,一个完整的博弈一般由以下几个要素组成:博弈的参加者,各博弈方各自选择的全部策略或行为的集合、博弈方的得益、结果、均衡等。
1、参与者指的是博弈中选择行动以最大化自己效用的决策主体(可以是个人,也可以是团体)。
2、行动是指参与人在博弈进程中轮到自己选择时所作的某个具体决策。
3、策略是指参与人选择行动的规则,即在博弈进程中,什么情况下选择什么行动的预先安排。
4、信息指的是参与人在博弈中所知道的关于自己以及其他参与人的行动、策略及其得益函数等知识。
5、得益是参与人在博弈结束后从博弈中获得的效用,一般是所有参与人的策略或行动的函数,这是每个参与人最关心的事情。
6、均衡是所有参与人的最优策略或行动的组合;均衡结果是指博弈结束后博弈分析者感兴趣的一些要素的集合,如在各参与人的均衡策略作用下,各参与人最终的行动或效用集合。
上述要素中,参与人、行动和结果统称为博弈规则,博弈分析的目的是使用博弈规则来决定均衡。
三、博弈的分类
博弈的分类根据不同的标准也有不同的分类。
根据参与人的多少,博弈可以分为二人博弈和多人博弈。 根据参与人是否合作,博弈可以分为合作博弈和非合作博弈。合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议,如果有,就是合作博弈,如果没有,就是非合作博弈。
根据各方得益的不同情况,博弈可以分为零和博弈和变和博弈。零和博弈中各方利益之间是完全对立的。变和博弈有可能存在合作关系,争取双赢的局面。
根据行为的时间序列性,博弈可以分为静态博弈、动态博弈。静态博弈是指在博弈中,参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。
根据参与人对其他参与人的了解程度,博弈可以分为完全信息博弈和不完全信息博弈。完全信息博弈是指在博弈过程中,每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。不完全信息博弈是指如果参与人对其他参与人的特征、策
略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息,在这种情况下进行的博弈就是不完全信息博弈。
四、纳什均衡
假设有n个局中人参与博弈,给定其他人策略的条件下,每个局中人选择自己的最优策略(个人最优策略可能依赖于也可能不依赖于他人的战略),从而使自己利益最大化。所有局中人策略构成一个策略组合。纳什均衡指的是这样一种战略组合,这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下,没有人有足够理由打破这种均衡。纳什均衡,从实质上说,是一种非合作博弈状态。
纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。纳什均衡也不意味着博弈双方达到了一个整体的最优状态,以下的囚徒困境就是一个例子。
五、博弈论的经典模型—“囚徒困境”
这个博弈问题是1950年图克提出的,它虽然非常简单,但却很好地反映了非合作博弈的根本特征,而且这个博弈模型正是解释众多经济现象,研究经济效率问题的非常有效的基本模型和范式。该博弈模型提出后曾引发了大量的相关研究,对博弈论的发展起了不小的推动作用。故事如下:
警察抓住了两个罪犯,但是警察局却缺乏足够的证据指证他们所犯的罪行。如果罪犯中至少有一人供认犯罪,就能确认罪名成立。为了得到所需的口供,警察将这两名罪犯分别关押,防止他们串供或结成攻守同盟,并分别跟他们讲清了他们的处境和面临的选择:如果他们两人都拒不认罪,则他们会被以较轻的妨碍
公务罪各判一年徒刑;如果两人中有一人坦白认罪,则坦白者立即释放而另一人将重判10年徒刑;如果两人都坦白认罪,则他们将被各判8年监禁。问:两个罪犯会如何选择(即是坦白还是抵赖)?
下面可将整个博弈过程的结果用一矩阵形式表示出来。这种矩阵称为博弈的“得益矩阵(支付矩阵)”。
表3.1A与B的得益矩阵
可见:(1)对于囚徒A来说,囚徒B有“坦白”和“不坦白”两种可能的选择。如果B选择“坦白”,则对A来说,“不坦白”得益为-10,“坦白”得益为-8。如果B选择“不坦白”,则A“不坦白”得益为-1,“坦白”得益为0。若A只考虑自身的利益,则“坦白”为他的最优选择。
(2)同样的,对于囚徒B来说,囚徒A有“坦白”和“不坦白”两种可能的选择。如果A选择“坦白”,则对B来说,“不坦白”得益为-10,“坦白”得益为-8。如果A选择“不坦白”,则B“不坦白”得益为-1,“坦白”得益为0。若B只考虑自身的利益,则“坦白”为他的唯一选择。
由于法对罪犯分别审讯,因而这个问题可以归结为非合作博模型GN,S1,S2;u1,u2。其中,局中人集合N1,2,1代表囚徒A,2代表囚徒B。两个人具有相同的策略集合:S1S2C,D,其中C代表坦白,D代表抗拒的策略。对于策略组合ss1,s2,siSi,i1,2两个局中人的支付函数如下:
80u1s1,s210
1s1s2C,s1C,s2D,s1D,s2C,
s1s2D.80u2s1,s2101s1s2C,s1D,s2C,s1C,s2D,
s1s2D.
由支付函数可以看出,囚徒A的最佳策略是坦白,囚徒B的最佳策略也是坦白,故纳什均衡为(坦白,坦白)。
囚徒困境反映了一个很深的问题,这就是个人理性与集体理性的矛盾。即使两个囚徒在被警察抓住之前建立一个攻守同盟(死不坦白),这个攻守同盟也没有用,因为它不构成纳什均衡,没有个人有积极性遵守协定。
通过对囚徒困境问题的分析,从中可得到一个重要的结论:一种制度安排,要发生效力,必须是一种纳什均衡,否则,这种制度安排便不能成立。
五、囚徒困境的几点启示
(一)囚徒困境理论的启示之一:双方的最佳策略均是“坦白”,然而双方得到的结局却是最糟糕的,它说明个人理性与社会理性、个人选择与社会选择存在深刻的冲突;它说明许多具有广泛性的集体性的悲剧并不是像常人想象的那样是人们素质低、愚昧的结果,而是一种囚徒困境。
(二)囚徒困境理论启示之二:如何打造诚信社会。
1.为什么中国的商业诚信问题如此之多?流行的观点有两个,一是礼崩乐坏,二是法律惩治与政府监管力度太小。
2.博弈论对诚信与合作的解释:决定人与人之间是否合作的关键也许是双方的博弈是否重复。所谓重复博弈就是指双方多次玩相同的博弈。
A.一次性博弈由于缺乏来自未来的奖惩机会,可能刺激博弈
双方选择不合作。
B.重复博弈由于存在未来的奖惩机会,会刺激博弈双方选择合作,但是有两个前提条件:一是双方都看重未来的长期利益;二是每一次博弈结束后双方均认为存在下一次继续博弈的机会,即博弈是无限重复的。
C.在我国,改善商业伦理环境的重要途径之一就是鼓励与发展重复博弈,这更主要的是依赖博弈参与人自己的努力。
3.在重复博弈中一定要警惕“最后一次不合作现象”,几乎所有的商业欺诈都与“最后一次不合作”有关。
(三)囚徒困境的启示之三:如何利用囚徒困境为公司服务?
1.其实我们每个人都从囚徒困境中大获其利,因为没有企业间的竞争就没有消费者的今天,而许多竞争其实就是企业间的囚徒困境;也正是因为有了囚徒困境,才使得寡头之间的勾结难以成功。
2.让你的员工处于竞争中。相对业绩考核其实就是利用了囚徒困境来调动员工的工作积极性。
3.在利用囚徒困境为你服务时,一定要记住:囚徒困境必须和赏罚有关;尽可能在对手之间制造不信任、制造混乱。
综上所述,对生活中的一般问题都能运用博弈论的观点进行简单的分析,如日常生活中,小到下棋打牌,大到企业之间的竞争和合作,都可以归结为博弈问题。通过对博弈论的学习,必将帮助我们找到解决各种难题的优化方案,使我们在工作和生活中得到效益的最大值,解决各种问题。