演化与博弈理论
演化和博弈理论
Larry Samuelson1
朱宪辰 译
威廉姆森((Oliver·Williamson)在研究影响交易费用的因素时,对人的“有限理性”问题产生原因进行归纳:一方面是由于人的感知认识能力限制,它包括个人在获取、储存、追溯和使用信息的过程中不可能做到准确无误;另一方面是来自语言上的限制,因为个人在以别人能够理解的方式通过语句、数字或图表来表达自己的知识或感情时是有限制的(或者没有掌握到所必需的词汇,或许这些词汇还不存在),不管多么努力,人们都将发现,语言上的限制会使他们在行动中感到挫折。
从这两个方面而言,完全理性的人根本就不可能存在。
博弈论由John yon Neumann and Oskar Morgenstern (1944)提出,经John Nash (1950)加入纳什均衡 (Nash equilibrium)概念而完善,被二十世纪80年代的策略革命推广之后,非合作博弈论(noncooperative game theory)在经济研究中已经成为一种标准工具。这个过程当中,人们越来越以博弈观点为基础分析问题。主要关注两个问题:我们能否期望纳什均衡是这样的:即我们能否预期博弈双方的选择都是在明确对方的选择下做出的最优反应?如果结论是肯定的,在多种博弈中出现的多重纳什均衡(multiple Nash equilibria),我们能预期哪一种呢?
二十世纪80年代 ,研究博弈论的学者们忙于讨论上述问题,并建立了模型。基于这样的假定:行为人是完全理性的,并且基于相同理性都有共同的知识水平(common
knowledge)。然而,进入二十世纪90年代,讨论的重点由以理性为基础的模型转到以演化论为基础的模型上来。原因之一是以理性为基础的模型存在局限性。这些模型可以容易地推动纳什均衡的一个必要条件:博弈双方会相信对方的行为并根据它们做出最佳反应;但是不能证明另一个必要条件,即他们相信的都正确。同时,纳什均衡之中的理性选择标准产生可选择的精炼纳什均衡增强概念,意图排除具有充分委付的不真实的纳什均衡以迅速放弃从中选择一个方面作为正确的想法。原因之二是由于博弈所代表的潜在观念有了变化。一旦用博弈论解释描述理想相互作用状态时,其中完全理性假定就显得十分自然了。
目前像其它经济模型一样,更加普遍地用一个近似的类似于真实的模型来解释博弈游戏,在此完全理性看起来也不是那么恰当了。
演化博弈论涵盖的模型很广泛。共同主题是在一个动态过程中描述博弈者如何在一个游戏的重复较量过程中调整他们的行为以重新适应。动态解释从生物学过程延伸而来,经历几百万年,发展为文化进程,经历代代发展到个体学习的过程,经历短暂,穿梭于实验循环的分秒之间。这个动态的过程潜在地提供合作装置,它能通过行为串联信念,提供纳什均衡的第二个必要条件。这个过程为博弈提供前后关联,这在评估多重纳什均衡中很有用。总之,它通过把均衡看作是过程调整的结果,而不是简单运用,使博弈论和经济联系更紧。
这篇论文首先描述了演化博弈论研究的基本方法,然后转到以下问题:演化博弈论是否能为均衡博弈提供支持,是否帮助我们对可能预测到的均衡状态给出深入的证明。最后,回顾了一个时期,在当时一般均衡理论是一种新兴的方法,它席卷了全部经济领域,被雅致的存在性和最佳性证明所刺激的,又唤起了人们关注为什么我们应该预测均衡产出。结果是对 tStonnemont 论著和其它调整过程的推翻(explosion of work on tStonnemont )。这篇论著说明了竞争均衡的程度,但是几乎没有提及对经济实践产生的多少影响。演化博弈论对经济学家研究将会有类似的可忽略的影响吗?或许没有。博弈论已经上升到均衡选择问题,潜在地1 Larry Samuelson is Professor of Economics, University of Wisconsin, Madison, Wisconsin.
His e-mail address is (LarrySam@ssc. wisc. edu).
运用演化方法,这和一般均衡理论没有相似之处。演化博弈论成功的关键将是其研究成果在这个领域内不断传播,将改变经济学家实践的方式。最后一部分是引文出处。
演化博弈论成为若干调查研究的主题。包括Fudenberg and Levine (1998), Hofbauer and Sigmund (1988), Mailath (1998), Samuelson (1997), van Damme (1991, chapter 9),
Vega-Redondo (1996), Weibfill (1995) and Young (1998). 在本文中我将不会追求该调查的文学性,减少不必要的技术细节或让模型更简化。
基于行为调整的动态模型在经济学研究中历史悠久。演化博弈论最独特的特征是建立明确的策略模型,以个体行为思考为基础,并将该行为引入经济产出之中。
演化模型
生物学的先驱者
严格来讲,就其名字而言,演化博弈论第一次在生物学中出现。演化稳定策略的主要概念由梅纳德Maynard Smith and Price (1973 )提出,经梅纳德史密斯Maynard Smith's (1982)具影响力论文:演化和博弈论而发展。Dawkins (1989, p. 84)表明,“演化稳定性可能是自达尔文以来演化论中最重要的优势之一。”
过去文章解释演化稳定策略预想大量代理人,他们被重复随机分组进行博弈游戏。事先假定这个博弈是均衡的,这样,i) 博弈者从恒等集中选择其一,双方根据对手的选择制定策略,无论参与者是否相似或不同,他们获得的报酬相同。ii) 博弈者不会视任何特征决定他们的策略选择,诸如哪个大,哪个小,哪个是最优秀的博弈人,假定博弈报酬是适当的,这样 自然选择亲睐将那些获得高额回报的人。
现在,假设每个人实施一种“共同”的策略,除了一小部分“变异”的人实施可选择策略。如果共同策略预期的回报高,我们就会预计排除后者。如果这个结果对那一小部分人仍然有效,则共同策略可以说演化稳定。一个演化稳定策略就是这样的:一旦被人们接受,它将击退任何(很细微的)变异优势。
将比变异预期高回报条件转变成真正的报酬,任何策略对其本身而言是严格最优(即严格的说,其本身比其它可选择的策略更能获得高回报),将逐渐稳定。因为这种策略获得高回报要比其它任何可选择的多。在人群中它将获得较高平均预期报酬,在此“变异”人群的立足点显得微不足道了。 如果它仅仅是弱纳什均衡(weak Nash equilibrium),这个策略也可能逐渐稳定(即如果其它策略演化稳定性与其候选策略一样)。但是,仅仅如果其候选策略满足稳定条件,即当面对其它任何可选择最佳反应所获报酬比其本身更高。这样,逐渐稳定策略确保高额预期回报并不是通过它至高无尚的业绩,而是由于它比变异的业绩更卓越。
因此,逐渐稳定标准比纳什均衡额要求更苛刻。任何一个逐渐稳定的策略对其本身必须至少是次最佳反应,故有纳什均衡,但是不满足稳定条件的弱纳什均衡就不会逐渐稳定了。
表1
鹰鸽博弈
鹰 鸽
鹰
鸽
梅纳德史密斯(Maynard Smith)以鹰鸽博弈开始,这成为生物学讨论演化稳定性的标准模式。这个博弈,如表1所示,有两方:鹰和鸽,争夺一种资源,其价值是V。如果鹰进攻而鸽默许,前者得到资源后者一无多获。如果双方都进攻或都被动,则各方获得资源的机会均等。同时进攻,导致双方受伤,各自的成本为C, C>V ,概率是1/2.鹰鸽博弈有一唯一稳
〔〕定策略,由混合策略可知,赌鹰的可能性是V/C2.
了解到这种策略是演化稳定的,能表明在人群中每个人都会选择这种策略。但是我们能预期此类事件发生吗?为了回答这个问题,生物学家已经研究了动态人口作为演化稳定性概念的解释会更清楚。继续报酬作为手段的解释,让报酬鉴定再生产率。然后通过动态复制描述人口构成,其中参与特定策略的代理人的份额以某种速度上升,速率与该策略获得的平均报酬和总的人口平均报酬之间的差别相同。演化稳定策略在动态复制中渐进稳定,意味着从附近所有人口结构动态汇聚到稳定状态,为演化稳定性提供了动态的动因。在鹰鸽博弈中,例如,动态复制将会聚集到这种状态即V/C的人赌鹰。这又产生出演化稳定策略,但是人口结构中,V/C人赌鹰,则1 - V/C 人赌鸽子,而非每个赌博者选择混合策略,导致赌鹰的
〔〕概率是V/C4。
鹰鸽博弈的演化稳定性策略也是唯一相对称性纳什均衡。在许多生物学应用中,纳什均衡条件独自满足期望产出。结果,在生物学里演化稳定性策略概念可能为普及非合作博弈和纳什均衡概念做出很大贡献。
演化稳定性和动态复制概念曾引起很多生物学家的兴趣,很多值得关注的思考出现在遗传学的性别繁殖里。这种忽略已经提示不断努力,为了将演化博弈论嵌入更多理想化的生物模型中。(例如, Eshel, 1991; Eshel, Feldman and Bergman, 1998 ,Evolutionary Stability in Economic Models)。
演化论思想在经济学中历史悠久,起源于生物学应用。达尔文(Darwin,1887, p. 83)承认Malthus和古典经济学家在他自然选择理论构成方面的影响。Alchian (1950) and Friedman (1953)普及了演化隐喻,激发“好像”接近最优?目前,描述经济理论都用同一模式,因为假定不是人们无懈最优,而是选择过程,可能无收益公司趋向失败或是人们趋向模仿那些成功的人,这要求我们观察那些人们,他们做起来似乎达到最优。这个观点允许最优是人们可能行为系统里的微小子集,但是很可能我们观察的行为将会从这个子集里提取。
演化博弈论在此背景之下提出演化争论部分。这种方法最初以演化稳定性能力的延伸而流行,以拒绝看似难以置信的纳什均衡。考虑合资企业合作博弈,表2. 博弈双方有机会成立一个合资企业,如果他们都选择进入,那将使双方获利是2;如果至少有一方选择退出,那么机会将浪费,双方都没有收益也不用付出成本。
这一博弈有两个纳什均衡,(投入,投入)(产出,产出)。但是前者必后者更显得有优势。直觉上我们会关注(投入,投入),在讨论中再提出,因为只有投入才是演化稳定策略。因为投入是产出的最佳反应,而且对于其本身也是较优反应。合资企业被勉强忽略的人群会被开发企业的变异者入侵,在这些策略中会丢失精确均衡要求的比例?Harsanyi (1973) 提出一种模型,其中,博弈者有明确的报酬,因此,我们能观察到轻微动摇。博弈者考虑动摇,选择严格最佳反应的纯粹策略。显然,Harsanyi (1973) 表明无论动摇的状态如何,最终博弈有一个近似最初未受扰乱混合均衡的纯粹均衡。多态人口演化模型选择鹰鸽类似“净化”混合均衡。在讨论会上Nelson and Winter的论文详尽地讨论了“好像”的方法。
合资企业博弈(表2)
投入
产出
当遇到其他的就忽略机遇和收益的人而言,没有什么能确保他们比那些选择不进入的人经营进展得更好。演化稳定性使我们更多地关注近似纳什均衡。
一个人可以通过求助于精炼纳什均衡1980年代的基础文献来论证 (投入, 投入) 均衡,博弈者应避免弱优势策略。投入策略是这个博弈中仅有的非优势策略。Selten (1975) 引入了精炼均衡的概念以明确优势回报使 (投入, 投入) 比 (产出,产出)更具吸引力,见图2。在精炼均衡之后的直觉是也许是错误或环境的干扰,总有一些机会博弈的策略,因此一个人应该通过避免优势策略以保护自己来应对意外。适当均衡的概念 (Myerson, 1978) 巩固了这点,通过假设干扰会辨别次优策略,对更次优的策略附加任意小的概率。但是,为什么理性博弈者会焦虑,并且,失误和焦虑与回报之间有什么关系?演化稳定性提供了答案:在对称博弈中,演化稳定策略导致均衡适当(进而精炼)(van Damme, 1991, Theorem 9.3.4)。任意未考虑焦虑的策略可能被演化高级变异所替代。
不幸的是复杂的因素阻止我们简单结束关于演化稳定意味适当均衡的争论。一些异常表明并不是所有的适当均衡都是演化稳定的。更重要的是演化均衡与纳什均衡必要条件概念之间的便利连接不能扩展出对称博弈。反而,Selten (1980) 已经知道在非对称博弈中,一个策略只有对所有选择该策略的博弈者都是严格纳什均衡才会是演化稳定的,也就是说,每一个博弈者的策略对于其他博弈者的策略都是唯一最优反应。
结果惊人的含蓄。例如,在扩展形式博弈中,一个策略只有是完美策略并且能让每一个偶然在扩展形式中都能实现均衡,这个策略才是演化稳定的。假定一些偶然被忽略,那么,必然存在可选择的最优响应,其行为与候选策略的仅在从来无法实现的环境中不同。因为这些策略的差别在博弈的过程中无法被了解,所有的策略获得相同的收益,候选策略不能相对其他方案在收益上取得优势,因此不能期望人们排除后者。那么,候选策略不是演化稳定的。
我们是否真正关注因为变异差异在博弈过程里并不显现而使策略不能达到演化稳定?为什么不简单地修正演化稳定性的定义,而仍然要求变异和演化策略获得的预期报酬一样高,但是允许变异有存在的可能性,其能够复制备选策略。这样做会产生正如Maynard
【】Smith(1982, p. 107)所称的折中稳定策略6(neutrally stable strategy)。只要他们的行为完全
相同,变异就会出现。
不幸的很,与现存策略所产生的行为相同的变异可能非常重要。例如,针锋相对策略,起初是合作,然后被对手模仿,对于重复囚徒困境而言先前的步骤被看作是演化稳定策略。它能产生长期的合作这一事实,使这一策略具有相当的吸引力。然而合作策略,即无论对手如何都能始终简单合作,在任何情况下当两者同时作用时与针锋相对策略表现相同,只有在
〔〕未被了解的偶然背信情况发生时才会不同7 。与针锋相对策略不同,合作策略可以被背叛
对手利用。这样合作行为的稳定性就完全依赖人们主要采取针锋相对还是表面合作决定。
折中稳定策略所潜在的不稳定性是一个普遍的问题。例如没有什么策略能够有压倒针锋相对策略的决定性优势,针锋相对策略是Binmore and Samuelson's (1992)的囚徒困境在复杂代价下的折中稳定策略之一。但存在可选择的最佳反应,与针锋相对策略的效果相同,因此不需排除针锋相对策略,它也能被人们广泛接受。而且,也有掠夺性的策略能从渗透者中获取优势,因此后者的表现为那些突变者打开了大门,他们可能破坏有效的结果。看起来好像没有任何希望确定针锋相对与有效博弈哪个更具一般性。人们也不能预期哪个会继续存在,诸如明确检验动态演化的缺陷冲击。因此,人们越来越关注演化博弈论的动态模型。
经济学中的动态演化
从事动态模型的经济学家们预想一群博弈者,他们将进行重复随机博弈,势均力敌。每一个博弈者要求遵守一定行为规则,即以自己的经验选择相应策略,典型的解释是一个学习的或是模仿的过程。行为规则的大部分已经被检测过,从简单的刺激—反应规则,即不会使代理人产生认识上的活动,到代理人根据以复杂的贝叶斯推论为结果的期望作出最佳反应的模型,虽然将“有限理性” 纳入模型很普遍。如果没有别的什么,假定博弈者典型地会忽视目前自己的行为对将来同胞的行为可能带来的影响,这一表述常被人口非常大的假定推动。
这一定位立刻表明演化博弈论的局限。首先,如果有限理性是一项重要的约束,那么我们会预计主体简单地忽略那些由其选择结果带来的产出很小的博弈。没有合理的预期收益,将不会消耗稀缺推测资源。第二,如果博弈者能够知道哪个策略更有利,那么我们没有把握说明进行博弈的罕见或复杂程度。综合考虑,对于博弈者,我们需要预期他们必需的经验量,以使他们在收益上升和问题复杂性下降时做出适当的反应,因为博弈者通过更复杂的学习过程瞄准与他们选择可能不同的博弈,撺改有限理性约束。几乎没有人第一次玩桥牌就玩得很好,无论此前他们对这个游戏作了多充分的准备。无论他们被允许尝试多少次,也无论他们为求出正确答案付出多少,大多数人都无法学会证明哥德巴赫猜想(Goldbach's Conjecture)(任何一个大于2的整数都是两个素数之和),我们中的大多数人总是被视觉错误所欺骗,只是因为我们没有坚持对它们警觉。
因此我们不能期望演化博弈论总是可行。我没有发现该约束很麻烦,也不认为它对博弈来说很特别。相反,我猜想这是人类行为的一般特征:随着推论增多,它变得更成熟,更规则,更理性;随着问题增加,问题本身也变得更直接,更熟悉。在我们的分析之前,关于这些问题究竟有多重要和多相似,对所有经济研究来说可能都非常有用。
动态演化模型的方法以检验确定性差异和描述采取不同博弈策略的人数比例的微分方程为基础。研究动因主要是由于个体行为既复杂又随机,但是大多数人同类规则的压力很可能保证在众多人中人们希望的那样,这种行为适当确定并适当简单些。动态本身多样。有些研究只是简单采用了动态复制。.然而,生物学上激发的动态复制可能在经济学背景下并不适用,因此我们的研究主要采用更一般的动态模型来满足单调条件。后者要求采用高回报策略的人口增长快于采用低回报策略的人口数,并不运用明确的动态复制结构,通常被解释为博弈者能够从较糟糕的策略转而运用更好的策略。
二中选其一,已经有基于个体明确行为规范建立的演化模型。建立模型的人宁愿直接处理个体选择的怪诞行为,而不愿在集合动态中消除它们。Kandori, Mailath 和 Rob (1993)认为,博弈者势均力敌,重复合作博弈,例如表3所示。(Foster and Young, 1990, and Young, 1993从事相似的博弈)。时间分成离散的区间。在每个区间里,代理人势均力敌,和其它代理人进行一种round-robin比赛。根据大概率,每个博弈者选择前一区间分布里反应最佳的策略。根据小概率,博弈者“变异”,他们选择X 或Y策略,每个概率是1/2。结果是随即过程,其中状态空间是一种可能的规范,博弈者根据具体规范选择对应策略。任何一个单一周期里的行为将总是不可预见的,但是随着时间推移,平均行为将汇聚,形成一个固定分布。Kandori, Mailath and Rob (1993) and Young (1993)说明当人们把注意力转到“有限分布”上时,这种模型能够产生异常强烈的结果,可由当突变率变得任意小时检验稳定分布极限得到。
表3 合作博弈
X Y
X
Y
表4说明表3的运行合作博弈动态单调相位图
←––––––––––––––––––––––→
←∣—————————————————————∣———————∣→
0 0.8 1
(All Y) (All X)
表4说明表3的运行合作博弈动态单调相位图。X表示选择X策略的人口比例(相对于均衡(Y,Y)而言),从0变化到1(相对于均衡(X,X)而言)。最初人们选择X的比例只要小于80%,Y就是最佳反应并达到均衡,即每个博弈者都会选择Y策略。如果最初比例大于80%,则X是最佳反应,每个人选择X即达均衡。这样系统总是能达到一种均衡,但是具体选择哪个策略取决于偶然事件, 即最初人们在两策略中分布如何。
相对地,Kandori, Mailath and Rob (1993) 总结,无论原始条件如何,由于充分小概率存在,系统实际花时间在均衡(Y, Y)上。这是因为几乎所有代理人在各个时期选择最佳反应,固定分布所有概率实际集中在两种状态上,即几乎所有代理人选择X,或几乎所有代理人选择Y。一旦接近这个状态,系统趋向稳定。偶尔,许多博弈者将偶然突变,转移策略,为了将系统从最佳反应X或Y转向最佳反应Y或X,将系统转换到状态的另一端。表4的相位图说明要求更多突变(总体的80%)认为X最佳,即选择Y的人比反向转变的(要求只有20%突变)要多,这使后一转变更有可能。由于突变概率变小,后来主观臆断转变概率变大,导致固定分布所有概率聚集到均衡(Y, Y)上。
因此两类模型出现令人不安的不同结果。例如,如果大多数人最初选择X,然后可以确定预测动态均衡(X, X),而随机过程指向唯一均衡(Y, Y)。根据进一步测试,这些模型与我们提出问题的模型差别并不是这么大。Binmore、Samuelson和Vaughan(1995),在Boylan(1995)作品上建立的,显示出这两种模型提供潜在的随机过程的相似。决定性动态的细节依靠个体学习过程的自然状态,并在有限的周期上(近似地)描述系统行为,就越来越多人口来说,这是可适用的更长周期,同时,有限分布在一个无限大的时间空间的极限下描述行为的情况。
这种结果让我们看到表面上看来完全不同的演化模型往往是兼容的。主要的问题并不在于从一系列激烈的竞争者中选择哪一种模型,而是寻找一些单一潜在的演化过程信息,并从此信息中获得相关模型的暗示。因此,演化博弈论不可能自由的回答前因后果,当然也不能鉴别一个单一的均衡概念是否绝对“正确”。有关的时代眼界、人口多少、个体行为规范和互相作用规则都要依靠所适用的演化分析。因此,适当模型规范也是如此。
我看这种结果的可能性很大,是一种优势。在20世纪80年代,由于模型尝试仅仅依据理性,与其适用范围分离了,在解释竞争均衡条件时出现了很多困难。由此产生的模型在回答有关的问题上没有足够的关于潜在策略上的互相作用的信息,至少如果博弈论为了模拟实际中交互作用的情况而不是回答哲学观点。某些行为在一些设置里可能是很合适的,而对于其他的设置则完全不合理。有趣的是,当被问到在一个游戏中你如何表现时,学生们看似抓住这个点,却本能地问,“我的对手是谁? ”一般说来,人们寻找均衡的过程可能会与历史故事、框架效果、流行效果和内生习惯一起被丢弃。有用的理论必须要考虑到这些。演化的博弈论为此提供了些理论依据。
为什么均衡?
有了以上的背景知识,我们讨论第一个问题:根据演化模型我们是否有任何理选择纳什均衡作为解决方法?经过我们先前演化稳定性讨论,注意力自然而然地转向动态模型。
首先考虑一个动态复制的稳定状态,它描述了人们选择不同博弈策略的比例。如果远离稳定状态比例的微小干扰不能产生让系统远离这些比例的动态,我们就说这个状态是稳定的。相反,一个接近于这种稳定状态比例的初始条件能确保系统将永远接近这些比例。
如果一个状态将稳定下来,那么不同人们所使用的各种策略都必须有相同的回报,否则参与高回报政策的人口比例将会增加,以低回报政策为代价,稳定性因此会受影响。然而,一个稳定状态可能不是一个纳什平衡,因为也许有更好的答案说没有任何人采取行动,因此该系统的人口比例将不能从最初0比例增加(经复制或模仿)。一旦一次干扰促使系统移向一个邻近状态,在那里采取更高级策略,后来的人口份额将增加,引导系统离开原来稳定状态并确保后者不是稳定的。只有当没有比最佳策略更优的反应时,这个状态才能稳定,在这种情况下,这个稳定状态就相当于一次纳什均衡了。
这种形式的结果即稳定意味纳什均衡也在多种单调动态中出现。该单调动态已经包含了经概括的动态复制和广泛的基于个人行为的随机模型(修改后较合适地稳定的概念)。这样的结果具有共性,对于特征汇聚结果不是纳什均衡的演化模型而言,最典型的反应是去争论该模型是错误还是难以置信的。
因此我们对于是否演化博弈论为纳什均衡提供动机这个问题有一个正面的合格的回答。由于这个结果的条件本质,我说明这是一个正面的合格的答案:如果它是稳定的,这个结果就是一个纳什均衡。
一些理论家会更喜欢这样一个形式的结果:演化过程必须收敛到纳什均衡。然而,有充分的例子证明简单演化模型产生周期乃至混乱行为而并非收敛到纳什均衡。它留下一个未解决的问题:是不是任何看似真实的演化过程都对这种收敛提供保障。而即使这样的过程存在,我们仍有足够理由相信它会如实地反应实际行为。
我认为“稳定暗示纳什均衡”的结果就跟其余经济学一样把博弈论应用于同样的基础上。我们不相信市场总能保持均衡,正如我们不相信人总是理性或公司总是能使利润最大化一样。但是我们的大部分注意力也转向均衡模型,或是因为我们希望均衡行为能够充分地持久,而不均衡行为只是瞬间,那足够坚固可成为一个学习的事物的是(近似地)均衡行为;或因为研究均衡行为是我们的最大希望,为了更深入观察短暂的不均衡行为。演化博弈论并没有什么充足理由让我们相信均衡行为在任何情况下都应该能刻画所有博弈。但是我们有理由相信那些进入我们研究领域的行为是均衡行为。从这种意义上说,对纳什均衡,我们获得了比以理性假定为基础的模型提供的更为有力的动机。
哪个均衡?
演化博弈论是不是比其它理论更好地把我们的注意力引到纳什均衡上呢?再次,先前的讨论把我们引向动态模型。他们或多或少地进行传统均衡改良,改良的结果是惊人的。
在严格纳什均衡中的选择
为了考察演化博弈论比传统的必要条件有哪些优势,我们重新考虑合作博弈,如表3。该博弈有两个纯粹策略均衡,即(X, X)和(Y, Y)。每个都是严格的,即每个博弈者都有唯一的最佳反应。Harsanyi and Selten (1988)的显著限制除外,精练均衡文献已经注意到排除纳什均衡,其中存在可选择的最佳反应。严格纳什均衡能经受得住所有传统的改良,直觉反应出一种情况即每个人有明确的动机维持目前的行为,并且这种情况不会轻易动摇。
对照起来,Young (1993) and Kandori, Mailath and Rob (1003)的演化模型对两种均衡加以区别。如表3中限制性分布将其所有概率定位到均衡(Y, Y)上。更一般地,这些模型在2*2
博弈里选择均衡,单调动态中更有吸引力。
Kandori, Mailath and Rob (1903) and Young (1003)发现选择更具吸引力的均衡能反过来由近似的模型修正。像在Robson and Vega-Redondo (1996)中所说。
重要的结果不是特定均衡的选择,而是偏离大部分改良均衡文献在区别严格纳什均衡的争论方面。
这种能力不是绝对成功。限制性固定分布,像突变概率达到0,可能只在很长周期后出现合理近似,这样当概率很小时,就要等待很长时间。在一些案例中,暗指的等待将会更长,我们的兴趣将会关注更短范围,固定分布将不涉及。在其它案例里,固定分布可能更有用。 以Ellison (1993)的工作为开头,人们已经认识到如果在代理人之间相互作用存在空间的或定位的模式,等待次数可能会大大减少。Young (1998)讨论社会结构演化经过很长时间会由于演化论的应用而出现。许多仍然有效,但是演化博弈论已经为解决复杂问题提供了新的工具。
改良均衡
为考察均衡博弈论的作用比改良均衡小,我们回到改良基础:假定弱支配策略不应该进行。考虑表3里博弈的正常和扩大结构。Binmore, Gale and Samuelson (1995) 把它解释为最后通牒博弈的简化样式。博弈者1必须提供一定量过剩的4号给博弈者2,可以选择高于2的报价或低于1的报价,假定接受高报价,而低报价可能被接受(“是”)或拒绝(“否”)。如果博弈者1的选择是对博弈者2的最佳反应,又如果博弈者2决定的“是”或“否”在博弈者1选择低报价时将是最佳反应,则该均衡是精练子博奕均衡(subgame perfect)。Backward 归纳并识别这是个唯一子博弈均衡:博弈者2选择低报价,结果使博弈者1也选择低报价。另一个纳什均衡是博弈者1选择高报价,博弈者2放弃的概率至少是1/3。
对于博弈者2来说,“否”是支配策略。它不能获得比“是”更高报酬,因此人会预测演化过程对“否” 持续施压。假设,博弈者2的一部分人起初选择“否”,对于博弈者1而言“高报价”将比“低报价”产生更高平均报酬,演化过程也将对“低报价”施压。但是,随着博弈者1选择“低报价”越来越少,“否”的报酬缺陷消失了。因此,它的演化缺陷也同样如此。结果可能汇聚到结果,即博弈者1开高价,如果开低价,博弈者2中显著的一小部分将拒绝。这样支配策略“否”将被排除。
Binmore, Gale and Samuelson (1995) and Roth and Erev (1995)对争论具体分析。然而,看起来好像该争论太依赖这个事实,即如果博弈者1开高价,并没有测试博弈者2选择“否”。我们行为世界是个人声鼎沸的地方,当然要比模型复杂得多。看来这种众说纷纭的干扰可以保证“低报价”绝不会在人群众完全消失,也能保证“否”策略总是次于“是”策略并因此而被取消。Binmore and Samuelson (1999)说明这需要并非如此,产出对干扰分类的依赖很小。通过不断在人群1中灌输“低报价”策略,众说纷纭将对于“否”策略施加压力,尽管这种压力可能很弱如果大多数人选择“高报价”策略。另外,不断给人群2灌输“否”策略,相同的干扰会有潜在的反压力。不论哪种力量胜利,都会提高支配策略不会从人群中被消除的概率。
图5简化的最后通牒博弈
是 否
2, 2 2, 2 高
3, 1 0, 0 低
①
高 ╱ ╲
╱ ╲ 低
╱ ╲
╱ ╲
2 ②
2 ╱ ╲
是 ╱ ╲ 否
╱ ╲
3 0
1 0
对它们传统的解释是动态模型代表一个学习过程。先前对此分析的文章继而转向争论即最后通谍博弈模型显然太简单,这使得人们很难想象任何要求的学习过程。这对于响应者来说尤其如此。
他们的任务是接受钱或拒绝,然后得做什么呢?是否有钱就好吗? 很大程度上依赖于我们的理解:运用于工作中的博弈论并不意味对现实的文字描述,而是互动反应模型,它们对于参与者而言可能更复杂。在模型中我们不应怀疑自己用类似博弈者“决斗时”的那种能力去发现“是”策略的明显性。约翰. F.肯尼迪(John F. Kennedy)总统经常被以在1963年古巴导弹危机中增送最后通谍给Nikita Khrushchev总理而具有鲜明特征。Khrushchev是否可能发现最终结果和表5说明的一样简单呢?
随着优势关系逐渐复杂,消除受控策略更具疑问了。但是,适当地定制演化模型将在某些情况下(例如,Hart, 2002 )消除受控策略,文献合作结果的合理特性是人不能依赖演化过程去消除弱受控策略,比进行多重删除要弱。考虑到优势与相反归纳争论之间的紧密关系,我们就不会惊奇演化模型也为相反争论提供很少动机。关于纳什均衡分类,演化博弈教训之一是我们不应太急躁去应用优势或基于改良的反面归纳而不是改良文献提出的建议。
这个发现和近期试验文献相吻合,这为理解反面观点提供了丰富的理由,人们不应该认为反面归纳理所当然(Davis and Holt, 1993, chapter 5; Roth, 1995)。但是,在试验中,博弈简直和表5的说明一样明显。那么我们为什么假设响应者需要学习或尝试并纠错或经历去了解做什么?我们必须理解虽然博弈本身是显见的,实施的背景,包括重复博弈缺乏任何机会,或博弈者之间匿名违约,都是经常异质的。博弈者在面对史无前例的背景时做什么呢?一种可能是他们越过背景,分析博弈。另一种可能是他们寻找自己曾经有过的最类似经验,使用该背景作为线索,发现类似的情况,在后者中选择他们已经发现的有效行为。可能使用大量经验偶然找到适当模拟,构造动态过程。基于上述推理,不需要提示反面归纳的解决方法。推理中模拟角色在Jehiel (2000) and Samuelson (2001)中被进一步沿用。
随着优势关系逐渐复杂,消除受控策略更具疑问了。但是,适当地定制演化模型将在某些情况下(例如,Hart, 2002 )消除受控策略,文献合作结果的合理特性是人不能依赖演化过程去消除弱受控策略,比进行多重删除要弱。考虑到优势与相反归纳争论之间的紧密关系,我们就不会惊奇演化模型也为相反争论提供很少动机。关于纳什均衡分类,演化博弈教训之一是我们不应太急躁去应用优势或基于改良的反面归纳而不是改良文献提出的建议。
这个发现和近期试验文献相吻合,这为理解反面观点提供了丰富的理由,人们不应该认为反面归纳理所当然(Davis and Holt, 1993, chapter 5; Roth, 1995)。但是,在试验中,博弈简直和表5的说明一样明显。那么我们为什么假设响应者需要学习或尝试并纠错或经历去了解做什么?我们必须理解虽然博弈本身是显见的,实施的背景,包括重复博弈缺乏任何机会,或博弈者之间匿名违约,都是经常异质的。博弈者在面对史无前例的背景时做什么呢?
一种可能是他们越过背景,分析博弈。另一种可能是他们寻找自己曾经有过的最类似经验,使用该背景作为线索,发现类似的情况,在后者中选择他们已经发现的有效行为。可能使用大量经验偶然找到适当模拟,构造动态过程。基于上述推理,不需要提示反面归纳的解决方法。推理中模拟角色在Jehiel (2000) and Samuelson (2001)中被进一步沿用。
我们带走什么?
演化博弈论将影响人们应用它思考问题的方式吗?或者它的影响将逐渐减弱,留下经济学家一如既往思考吗?在当我们不断检验纳什均衡时,如果它仅仅让人感到心安理得而无其它的作用,后者将是它的命运。但是我认为演化博弈论潜在作用更大。
演化博弈论将已经在很多方面有影响,如果我们仅仅谨慎地认为优势和反面归纳和起初出现的一样不具有说服力。在折价模型中,假设代理人能够被推到忽视的边缘,缔约和交换仍然依赖于一致交易就很普通了。尽管这些争论出现各种各样的伪装,声明他们是多种多样的,即子博弈精练均衡将在最后通牒博弈里出现。我们从演化博弈里学到越多,越会感到这样做的合适理由的不确定性越多。
对于演化博弈论,认识到其潜在性,然而,必须不考虑预警,即有关应该做什么我们不应对此给出结论。这里,演化博弈论在冒风险,使改良均衡文献很苦恼:如此多的均衡概念,但在摘要中有关其选择的基础却少之又少。而我认为研究的三个部分有很大前途。
表6合作博弈模型
X Y
X
Y
X Y
X
Y
X Y
X
Y
第一,不论在实验还是在实际中,去除演化博弈抽象的背景,将其和观察到的行为相结合。例如,如Battalio, Samuelson and van Huyck (2001)检验的博弈,如表6所示。在许多方面,这三个博弈在策略上是相同的。它们有同样的均衡和对应的最优反应,并在最优反应下有同样的相位图,复制或相位图对应的单调动态,如表4所示。许多基于理性的模型将因此认为这三个博弈是相同的。然而,它们并不相同。因为无论任何人将采取什么策略,其对手将行动,当在这三个博弈里一个人从右向左移动时他花费在最优反应上(而且对于非理
想策略将受处罚)的成本会上升。如果一个博弈模型是切题的,根据尝试和纠错的学习过程考虑定型的行为,当决定选择更重要时考虑更加有效的过程,然后当一个人从右向左移动时我们可以预计行为能更快地调整到均衡。这在数据中已经成为一种模式 (Battalio, Samuelson and van Huyck, 2001, Figure 6 and Table 4) 。
这只是一个简单的小的一步,因为它检验行为的预测而更加小,该预测具有独特直觉,也可能在其他很多模型中出现。但是,更多将演化模型和行为观测结合的研究正在出现。有关这方面工作的评估,人必须认识到对个体行为的动态解释是一项艰巨任务。最初的步子需要适度,但也将具有很大的希望。
第二,演化模型依赖重复博弈的背景。具体而言,我们决不可能遇到两次完全相同的决策。相反,我们希望人们遇到连续博弈,其本质上和所见的充分相似。再次,这与博弈模型的观点是一致的,或许更多由博弈者构造。
复杂决策的相互影响
人们如何思考博弈的观点不仅潜在拓宽了演化博弈论的范围,而且为人们如何运用提供了重要的深入理解。回到在重复囚徒困境中我们能预期出哪种均衡这个问题上。博弈者将可能进行相互合作的直觉与博弈者对于简单策略应该有一种偏好的直觉相冲突。特别地,最普遍的方法,通过其合作认为是相同的,是从各种策略中总结出的。如针锋相对策略,以合作开始,如果对手合作,将继续采取合作策略。在均衡李,从来不会使用惩罚背叛的能力。但是这允许博弈者通过消除没有使用的处罚能力和不以减少回报为代价简化他们的策略。
这使策略总是合作,但是那些背叛对手的弱点排除了均衡的存在,威胁着保持继续合作的能力。
通常的反应是寻找当始终运用他们的惩罚能力时密切合作的策略(Abreu and Rubinstein, 1988; Binmore and Samuelson, 1992)。然而,假设,我们思考人们面对多种囚徒困境的情况。在这些里,未来的阴影对于引导合作将不会那么重要。而相互的背叛将更糟。在其他里,未来很重要。严格策略将支持合作,即只要对手同样合作,它采取最初合作,否则将转向背叛。选择注意到该策略不能由删除背叛的能力而不花代价地简化,因为人们需要这种能力去处理那些背叛是最理想的情况。考虑到博弈论由此可以确保有能力处罚背叛总是很重要的,承认不论何时在没有复杂性冲突约束下合作能维持是可行的。
合作的观点使人联想到在心理学中的工作。它表明人们有一个深深的固有的考察和对欺骗行为范式反应的能力(Cosmides and Tooby, 1992)。普遍的主题是这种处罚能力是一个一般的目的接受力,作为人们混合行为的一部分被应用于广泛的背景中。在某些博弈中,人们从来没有使用过它。但是在追求简化时它可能被消除的可能性由于它又应用于其他问题中而被抑制了。
最后,我想我们可以从推进的基于简单问题即在博弈中人们会采取什么行为之上的演化观点中学到很多东西。具体而言,我们的演化的背景已经向我们讲述了偏好的特性。例如,这个问题:为什么我们会有情绪?我猜想情绪可以帮助我们应付复杂环境。像在“做公平的事”的模式中一个适当的选择或者“被错过后的报复”可能是最佳的反应,不是因为承认表面的态度中我们受到一些事情的约束,这些事情是我们要不然就不会去做的;而是因为承认我们简化了过程,通过其我们用其他方法完成了自己要想去做的事。如果我们考虑人们要面对大量非常复杂、杂乱无章、各不相同的博弈,而该博弈又需要在以后被简化成人们能够顺利处理的一类时,这种情况尤为如此。大量可能的相异的博弈,利用博弈的分析和由某一公平的产出的分析,在这个过程中可能是有用的。本质上,我们(或者是自然,经历了演化的过程),简化了我们的生活,通过决定事情的公平性,因为它们是我们做了的事情,而不是由于它们是公平的事情我们才做。从演化博弈论诸如此类的延伸中我们能够学到很多东西。
我要感谢Ken Binmore, George Mailath, Brad De Long, Timothy Taylor and Michael Waldman,他们给予我很多注解和讨论。我还要感谢自然科学基金对我的资金上的支持。
参考文献
Abreu, Dilip and Ariel Rubinstein. 1988. "The Chapter, Second Edition, Volume I. Francis Darwin, Structure of Nash Equilibrium in Repeated ed. London:John Murray.
Games with Finite Automata." Econometrica. No- Davis, Douglas D. and Charles A. Holt. 1993. vember, 56:6, pp. 1259-281. Alchian, Armen. 1950. "Uncertainty, Evolu- lion, and Economic Theory." Journal of Political Economy. 58, pp. 211-21. Battalio, Raymond, Larry Samuelson and John van Huyck. 2001. "Optimization Incentives and Coordination Failure in Laboratory Stag Hunt Games." Econometrica. May, 69:3, pp. 749-64. Binmore, Ken and Larry Samuelson. 1992. "Evolutionary Stability in Repeated Games Played by Finite Automata." Journal of Economic Theory. August, 57:2, pp. 278-305. Binmore, Ken and Larry Samuelson. 1999. "Evolutionary Drift and Equilibrium Selection." Review of Economic Studies. April, 66:2, pp. 363- 94. Binmore, Ken, John Gale and Larry Samuel- son. 1995. "Learning to be Imperfect: The Ulti- matumGame." Games andEconomicBehavior. Jan- uary, 8:1, pp. 56-90. Binmore, Ken, Larry Samuelson and Richard Vaughan. 1995. "Musical Chairs: Modeling Noisy Evolution." Games and Economic Behavior. Octo- ber, 11:1, pp. 1-35. Boylan, Richard T. 1995. "Continuous Ap- proximation of Dynamical Systems with Ran- domly Matched Individuals." Journal of Economic Theory. August, 66:2, pp. 615-25. Cosmides, Leda and John Tooby. 1992. "Cog- nitive Adaptations for Social Exchange," in The Adapted Mind. Jerome H. Barkow, Leda Cos- mides and John Tooby, eds. Oxford: Oxford University Press, pp. 163-228. Darwin, Charles. 1887. The Life and Letters of Charles Darwin, Including an Autobiographical Experimental Economics. Princeton: Princeton University Press.
Dawkins, R. 1989. The Selfish Gene. Oxford: Oxford University Press.
Ellison, Glenn. 1993. "Learning, Local Inter- action, and Coordination." Econometrica. Septem- ber, 61:5, pp. 1047-072.
Eshel, Ilan. 1991. "Game Theory and Popula- lion Dynamics in Complex Genetical Systems: The Role of Sex in Short Term and in Long Term Evolution," in Game Equilibrium Models. Re- inhard Selten, ed. Berlin: Springer-Verlag, pp. 6-28.
Eshel, Ilan, Marcus W. Feldrnan and Aviv Bergman. 1998. "Long-Term Evolution, Short- Term Evolution, and Population Genetic Theo- ry." Journal of Theoretical Biology. 191:4, pp. 391- 96.
Farrell, Joseph and Matthew Rabin. 1996. "Cheap Talk." Journal of Economic Perspectives. 10:3, pp. 103-18.
Foster, Dean and Peyton Young. 1990. "Sto- chastic Evolutionary Game Dynamics." Journal of Theoretical Biology. October, 38:8, pp. 219-32. Friedman, Milton. 1953. Essays in Positive Eco- nomics. Chicago: University of Chicago Press. Fudenberg, Drew and David IL Lev/uae. 1998. Theary of Learning in Games. Cambridge: MIT Press.
Fudenberg, Drew and Eric Maskin. 1990. "Evo- lution and Cooperation in Noisy Repeated Games." American Economic Review. May, 80, pp. 274-79.
Harsanyi, John C. 1973. "Games with Ran- domly Distributed Payoffs: A New Rationale for
Page 66
Mixed-Strategy Equilibrium Points." International n-Person Games." Proceedings of the National Acad- Journal of Game Theory. 2, pp. 1-23. emy of Sciences. 36, pp. 48-49.
Harsanyi, John C. and Reinhard Selten. 1988. Robson, Arthur J. and Fernando Vega- A General Theory of Equilibrium Selection in Games. Redondo. 1996. "Efficient Equilibrium Selection Cambridge: MIT Press. in Evolutionary Games with Random Matching." Hart, Sergiu. 2002. "Evolutionary Dynamics Journal of Economic Theory. July, 70:1, pp. 65-92. and Backward Induction." Games and Economic Roth, Alvin E. 1995. "Bargaining Experi- Behavior. Forthcoming. ments," In Handbook of Experimental Economics. Hart, Sergiu and Andreu Mas-Collel. 2000. "A Simple Adaptive Procedure Leading to Corre- lated Equilibrium." Econometrica. September, 68:5, pp. 1127-150. Hofbauer, J. and IC Sigmund. 1988. Evolution- ary Games and Population Dynamics. Cambridge: Cambridge University Press. Jehiel, Phillippe. 2000. "Analogy-Based Expec- tation Equilibrium." Mimeo, University College London. Kandori, Michihiro, George J. Mailath and Rafael Rob. 1993. "Learning, Mutation, and Long Run Equilibria in Games." Econometrica. January, 61:1, pp. 29-56. Kim, Yong-Gwan and Joel Sobel. 1992. "An Evolutionary Approach to Pre-Play Communica- tion." Econometrica. September, 63:5, pp. 1181- 194. Mailath. GeorgeJ. 1998. "Do People Play Nash Equilibrium? Lessons from Evolutionary Game Theory." Journal of Economic Literature. Septem- ber, 36:3, pp. 1347-374. Matsui, Akihiko. 1991. "Cheap-Talk and Coop- eration in Society." Journal of Economic Theory. August, 54:2, pp. 245-58. Maynard Smith, John. 1982. Evolution and the Theory of Games. Cambridge: Cambridge Univer- sity Press. Maynard Smith, John and G. R. Price. 1973. "The Logic of Animal Conflict." Nature. 246, pp. 15-18. Myerson, Roger B. 1978. "Proper Equilibria." International Journal of Game Theory. 7, pp. 73-80. Nash, John F. 1950. "Equilibrium Points in John Kagel and Alvin E. Roth, eds. Princeton: Princeton University Press, pp. 253-348. Roth, Alvin E. and Ido Erev. 1995. "Learning in Extensive-Form Games: Experimental Data and Simple Dynamic Models in the Intermediate Term." Games and Economic Behavior..January, 8:1, pp. 164-212.
Samuelson, Larry. 1997. Evolutionary Games and Equilibrium Selection. Cambridge: MIT Press. Samuelson, Larry. 2001. "Analogies, Adapta- tion, and Anomalies." Journal of Economic Theory. April, 97:2, pp. 320-66.
Selten, Reinhard. 1975. "Reexamination of the Perfectness Concept for Equilibrium Points in Extensive-Form Games." International Journal of Game Theory. 4, pp. 25-55.
Selten, Reinhard. 1980. "A Note on Evolution- arily Stable Strategies in Asymmetric Animal Con- tests." Journal of Theoretical Biology. 84, pp. 93-101. van Damme, Eric. 1991. Stability and Perfection of Nash Equilibria. Berlin: Springer-Verlag. Vega-Redondo, Fernando. 1996. Evolution, Games, and Economic Behavior. Oxford: Oxford University Press.
ron Neumann, John and Oskar Morgenstern. 1944. Theory of Games and Economic Behavior. Princeton: Princeton University Press. Weibull Jurgen. 1995. Evolutionary Game The- 0ry. Cambridge: MIT Press.
Young, Peyton. 1993. "The Evolution of Con- ventions." Econometrica. January, 61' 1, pp. 57- 84. Young, Peyton. 1998. Individual Strategy and Social Structure. Princeton: Princeton University Press.