基于前景理论的决策模型研究
统 仿 真 学 报 Vol. 21 No. 9
2009年5月 Journal of System Simulation May, 2009
第21卷第9期 系
基于前景理论的决策模型研究
杨建池1,王运吉1,钱大庆1,黄柯棣2
(1.二炮装备研究院,北京 100085;2.国防科技大学机电工程与自动化学院军用仿真研究室,长沙 410073)
摘 要:现有的决策模型大都建立在预期效用理论的基础上,这是一种纯粹理性的决策方式。但人并不总是完全理性的。采用前景理论代替期望效用理论作为决策模型,它更符合人类实际的决策模式,尤其是在战场这种急剧复杂和动态的环境中。首先对前景理论的提出进行了介绍,并与预期效用理论进行了对比,然后结合一个案例对前景理论在决策行为建模中的应用方式进行了研究。最后对前景理论应用于作战决策研究时的特点和过程进行了说明。 关键词:前景理论;决策;期望效用理论;作战仿真
中图分类号:TP391.9 文献标识码:A 文章编号:1004-731X (2009) 09-2469-04
Research on Prospect Theory-based Decision Model
YANG Jian-chi1, WANG Yun-ji1, QIAN Da-qing1, HUANG Ke-di2
(1. Ordnance Research Institute of the 2nd Artillery, Beijing 100085, China;
2. College of Mechatronics Engineering and Automation, National Univ. of Defense Technology, Changsha 410073, China)
Abstract: The most existing decision models are based on Expected Utility Theory that is a pure rational method. However, person is not always totally rational. The decision model based on Prospect Theory describes the decision act of human being more credibly than Expected Utility Theory, especially in condition of battlefield that is extremely complex and dynamic. Firstly Prospect Theory was briefly introduced and was compared with Expected Utility Theory. Then the application pattern of Prospect Theory in decision modeling was studied via a routine choice case. Finally, the features and process of Expect Theory applied to combat decision were explained.
Key words: prospect theory; decision; expected utility theory; combat simulation
引 言
目前在作战仿真中对决策进行建模主要是专家系统方法、神经网络方法或者是两者的结合。但不管采用哪种方式,在建模(专家系统方法主要是构造规则库,神经网络方法则主要是利用样本数据调整权值和阈值)的过程中,现在大都采用理性决策模型,如期望效用理论,即按照某个原则或多个原则的综合,如风险最小、效用最大等,对规则的优先级或数据的权值进行计算并选用与其效用最大的决策。期望效用理论从逻辑和推理的角度阐述了人们应该如何去做,是完全理性的行动方式。而在实际中,人们往往并不是完全理性的进行决策,并且面临不同的态势其偏好也不相同,在战争环境中尤其如此。而前景理论则通过一系列的实验,试图描述人们在实际的决策过程中是如何做的。
本文将前景理论引入到作战决策模型中来,使其更符合人类的决策模式。首先对前景理论进行了介绍,然后结合一个例子研究了前景理论的应用方式,最后对前景理论在作战决策仿真中的应用进行了说明。
经验。它揭示了影响行为选择的非理性心理因素,为研究不确定情况下的人为判断和决策方面提供了新的思路。
1.1 前景理论的提出
由于永远都不可能准确地预期对手下一步的行动方案,所以作战决策是一种典型的不确定条件下的决策。长期以来, 现实主义和自由主义理论一直以假定行为体为“理性人”作为理论基础,认为行为体在追求最大化利益时,能够对存在的客观环境和信息做出理性判断,选择最优决策。但是实际的作战环境更多时候遍布的是不确定性。这样,行为体在决策过程中就存在着预期效用与风险偏好的问题。关于不确定条件下的决策,主流的理论一直是预期效用理论。这一理论是在18世纪数学家丹尼尔·伯努利的“圣彼得堡悖论”基础上,由冯·纽曼和摩根斯坦以及萨维奇等人发展而成的。其基本内涵可归结于3
个方面:理性预期、风险回避和效用最大化。亦即理性的决策行为体通过对获取的信息进行考察,并权衡各种可能的政策选择及后果,做出最符合其偏好的决策,选择预期效用最大化的决策。预期效用理论建立在一些重要的公理化假定之上,主要包括:(1)优势性,指的是如果一种选择在某个方面优于其他选择,而同时在其他各个方面又不亚于其他选择,那么该优势选择将被采用;(2)传递性,指的是如果方案A优于方案B,同时方案B优于方案C的话,则方案A优于C;(3)恒定性,指的是方案的选择不受方案描述方式及其顺序的影响。这3个公理性假定几乎成为所有理性决策理论的前提。
1 前景理论
前景理论从心理学角度研究人们决策所依据的准则和收稿日期:2007-07-17 修回日期:2007-10-10 基金项目:国家自然科学基金 (60704038) 作者简介:杨建池(1979-), 男, 山东潍坊人, 助理研究员, 研究方向为作战仿真;王运吉(1956-), 男, 河北晋州人, 研究员, 研究方向为作战仿真;黄柯棣(1940-), 男, 湖南长沙人, 教授, 博导, 研究方向为系统仿真、虚拟现实、控制理论与工程。
• 2469 •
2009年5月 系 统 仿 真 学 报 May, 2009
理性假设是预期效用理论的内核。这一前提假设首先受到赫伯特·西蒙“有限理性”的冲击。西蒙指出,由于人类无法获取决策所需的全部信息,同时处理信息的能力也是有限的,因而在决策中遵循的不是效用最大化的最优决策原则,而是“满意” 原则。这就意味着决策者寻求可接受的选择方案,也就是能满足最低要求的选择,而不是通过考察所有可能的方案之后再选择效用最大的方案。西蒙认为, 虽然人们试图实现最佳结果,但是他们的行为却受到“有限理性”的支配。随后,法国经济学家阿莱斯通过实验得出“阿莱悖论”,进一步冲击了决策的理性假定。到1979年时,普林斯顿大学的心理学教授卡尼曼和特沃斯基在吸收“阿莱悖论”的基础上,提出了前景理论。卡尼曼由此在2002年获得了诺贝尔经济学奖。
前景理论把心理学研究引入到不确定条件下的决策中来,进而开拓了一个全新的研究领域。它以强有力的经验证据为基础,指出了对预期效用理论的种种背离行为。前景理论认为,人们作决策是按照一定的准则和经验进行的。概括来说,由于人们是认知吝啬鬼,总是力图将复杂问题简单化,因而在对复杂问题做出判断时主要是应用启发法,亦即凭借经验来解决问题。启发法主要有三种:典型性启发法、可得性启发法、锚定与调整启发法。这三种方法既可能得出正确的推理结果也可能导致错误的结论。
典型性启发法指的是在不确定性条件下,人们会关注一个事物与另一个事物的相似性,以推断第一个事物与第二个事物的类似之处。人们假定将来的模式会与过去相似并寻求熟悉的模式来做判断,并且不考虑这种模式的原因或者模式重复的概率。举例来说, 当谈到护士时,人们总是倾向于认为是女性,而如果提到飞行员,则想到男性。人们做出这种判断是依据经验,把一些特征与有比较密切关联的事物联系起来。代表性启发法可能产生严重的偏差,主要是由于过度使用贝叶斯法则和“小数定律”。
可得性启发法是指人们倾向于根据一个客体和事件在知觉或记忆中的可得性程度来评估其相对频率,容易知觉到或回想起来的被判定为更常出现。例如,恐怖主义事件相对于其他冲突来说,并不是最频繁发生的。但是由于9·11后对恐怖主义事件的过度关注,因而给人们留下更深印象,人们总是倾向于认为世界到处是恐怖主义问题。依靠可得性启发法常常由于例子的可获取性、意象、虚幻等原因导致预测偏差。
锚定与调整启发法指的是人们在判断过程中,最初得到的信息会产生锚定效应,人们根据可记忆的、明显的和常见的例子和证据进行判断,从而制约对事件的估计。人们的调整策略是指以最初的信息为参照来调整对事物的估计。调整通常是不充分的,不同的开始会产生不同的估计,这就易于偏离其初始价值。
定偏好的基础上,决策者通常首先会对可能发生事件的概率分布做出估计,然后对其决策产生的后果做出预期,最后,决策者将遵循统计学的基本原则对所有可得信息做出分析处理,并做出最终的抉择。该原理假定,每个决策者都有一个实值的效用函数,效用函数以决策者行为可能产生的结果为自变量。自变量共有i个可能的取值x1,x2,",xi。假设现有行为a和行为b供决策者选择。行为a将会使自变量xi以Pi的概率实现,而行为b使xi的发生概率为qi。决策者选择a而放弃b当且仅当选择a所导致的效用函数期望值大 piu(xi)>∑qiu(xi)。 于b所带来的期望值,即∑
ii
而相比较而言,前景理论假设有两个实值函数:价值函分别替代预期效用理论的预期效用数v和决策权重函数π,
函数和主观概率模型。具体来说,前景理论将决策过程细分为两个阶段:编辑阶段和估值阶段。编辑阶段是对不同的可能性结果进行初步分析,建立适当的参考水平,得出简化的结果(即获益或损失:选择所造成的结果大于参考水平的部分被定义为收益,低于参考水平的部分被定义为损失)。评价阶段是决策者对编辑得到的简化结果进行评估,选择前景值最高的决策,即决策者选择方案a而非b当且仅当:
ν(∆xi)>∑π(qi)ν(∆xi),这里的∆xi=xi−x0,是xi ∑π(pi)
i
i
相对于某一参考水平x0的偏离值。这意味着决策者的决策受两个过程的影响:一方面是主观价值的影响,亦即价值函数;另一方面是决策者对概率的感知,亦即权重函数。
两个理论模型之间主要有三点区别:
第一,在前景理论中,决策者并不特别在意决策所带来的效益值的绝对水平,而是在意决策所造成的效益值相对于参考水平的变化。参考水平可以是决策者的现有的起始效益值,这样损失和收益的定义也是相对于起始效益值的。但同时参考水平也可以是决策者在现有效益和对未来的预期基础上的渴望达到的效益水平。参考水平假设使我们可以解释为什么人们面对同一问题的不同的表述方式时会做出截然不同的选择。
第二,前景理论采用价值函数v取代了预期效用理论中的效用函数u,以效益值的变化为自变量,而且函数形式呈S形。也就是说它是收益的凹函数和损失的凸函数,见图1。同时,价值函数在损失和收益两个方向上呈现递减的敏感
损失
收益
1.2 前景理论模型
在预期效用理论中,决策者的偏好是固定不变的。在给
• 2470 •
图1 价值函数曲线
等:基于前景理论的决策模型研究 May, 2009 2009年5月 杨建池,
度。函数v以零(即参考水平)为拐点,意即小数额的损失上的斜率大于小数额的收益上的斜率。这就可以解释“损失规避”的现象。价值函数递减的边际灵敏度,使得决策者对可能得到的收益表现出风险规避,但对可能造成的损失却表现出风险追逐。然而,预期效用理论中的价值函数u在整个取值范围内是平滑的凹函数。
第三,利用决策权重函数π代替了预期效用理论中的概该函数是单调递增率函数。它是对概率p和q的一个变换。的,并在0和1两个点上没有取值。该函数对自变量的概率取值做系统性变换,使得小概率值得到相对较大的权重,而大概率值得到相对较小的权重。函数的形状如图2所示。这是由于人们往往倾向于高估低概率事件,而低估中高概率事件,而在中间阶段人们对概率的变化相对不敏感。
1
下面应用前景理论对一个路径选择问题进行研究。假设在某次战斗中,某部要求用汽车在某段时间之内把一战斗小 组从甲地运送到乙地。前进路线有1号和2号两条公路可供选择。1号公路上有桥梁,但由于刚遭敌机空袭,桥梁损坏程度不明。只知道桥梁损坏的概率为60%。如果桥梁受损,从甲地到乙地需要14个小时,如果没有,则只需要6个小时。走2号公路则确定需要10小时。如图3所示。
1号公路(10h,100%)
甲
2号公路(14h,60%;6h,40%) 图3 路网示意图
乙
另外,我们设置了两个场景:
场景一:上级命令必须在11小时内到达; 场景二:上级命令必须在6小时内到达。 (1) 采用期望效用理论
由于我们希望能够尽快将战斗小组运抵目的地,所以在预期效用理论中,直接以从甲地到乙地所需要的时间作为决
0.50
图2 决策权重函数
策依据,依据公式∑piu(xi),可以得出:走1号公路的期
i
望费用为10小时,而走2号公路的期望费用为10.8小时,并且与上述场景的条件无直接关系。因此,不论在场景一中还是场景二中,预期效用理论都会选择2号公路。
(2) 采用前景理论 确定参照点
采用上级命令的时限作为参照点,即场景一中的参照点为11小时,而场景二中的参照点为6小时。当预期的时间大于参照点时,就表示无法按时到达目的地,这表示将带来“损失”;当预期的时间小于参照点时,则表示能及时到达目的地,这表示将带来“获益”。
确定价值函数和概率权重函数
根据Tversky 和Kahneman提出的价值函数的形式,在决策阶段的价值函数定义ν(∆x)如下:
ν(∆x)=⎨
∆xα
α
⎩−λ(−∆x)⎧
if∆x≥0
if∆x
通俗说来,前景理论可以归纳为如下几个论点: 决策问题通常围绕一个参照点进行,并且对同一问题,参照点可能不同;
在面临获益时对参照点的调整速度要比在面临损失时快的多;
人们对损失比对获益更为敏感;
人们在面临获益时的行为趋于风险规避,当面临损失时则趋于风险偏爱;
人们对事件概率变化的反应是非线性的;
2 前景理论应用于作战决策问题
前景理论将决策过程分为编辑和评估两个阶段:编辑阶段是对不同的可能性结果进行初步分析,得出简化的结果,包括选定参照点、根据参照点位置确定态势结果所处的位置(是受损,还是获益)、分析各种可能的政策选择、确定这些选择的价值和概率。评估阶段是决策者对编辑得到的简化结果进行评估,选择价值最高的决策。此过程与决策过程的对照如表1所示。
表1 作战决策过程与前景理论应用过程的对照表 任务分析
态势评估 方案拟制 方案分析 方案比较 决策
编辑阶段,
确定参照点以及概率值 评估阶段,
确定价值函数和权重函数
其中α:风险态度系数。0
λ:损失规避系数。若λ>1,则决策者将对损失更加
敏感。
而概率权重函数π(p)的定义如下:
⎧pγ⎪⎪(pγ+(1−p)γ)⎪
π(p)=⎨
⎪pδ⎪δδ⎪⎩(p+(1−p))
在获益时
在受损时
• 2471 •
2009年5月 系 统 仿 真 学 报 May, 2009
根据Kahneman 等的标定,当α=0.88,λ=2.25,人类的一种自我调节能力。
由于风险态度系数、损失规避系数等反映的是人的一种心理趋势,无法采用公式进行直接求解,因此对于我方的指挥员之间来说,只能靠平时的协作、训练等方式来互相了解对方,以便在实际的作战中形成默契。而对于敌方的指挥员,只能根据非战时的了解以及在作战过程中其作战决策的特点,来推断上述各个系数值及参照点,以推测敌方下一步的作战行动。
而要在作战仿真中模拟指挥员进行自主决策,则需要精确确定各个系数。这大致分为三步过程:
第一,构造测试集,即根据指挥员的层次级别,建立一套相应层次的典型想定集;
第二,意向性测试,即针对测试集中的各个想定,由指挥员分别进行决策,并根据决策的结果大致推断各个系数值;
第三,根据各个系数值,针对各个想定,利用前景理论方法进行决策。如果决策结果与指挥员的决策一致,则说明这些系数能够反映指挥员的心理趋势;如果不一致,则对系数值进行调整,重新进行判断。
这些系数应该在我方所有的参战单元之间共享,这样再配合一致的决策推理规则,就能够对上级指挥员的作战意图形成统一的理解,同时能够准确的预测其他作战单元的决策结果,从而为下一章所讨论的自同步协作奠定了基础。
γ=0.61,δ=0.69时与经验数据较为一致。
计算各方案的前景值,选择具有最大前景值的方案 根据公式∑π(pi)ν(∆xi)依次计算每个场景下的各个方案的
i
前景值。理论计算结果如表2所示。
表2 两种理论计算结果对比
参照点 可选方案 预期费用
1号公路 2号公路
场景二
6h
1号公路 2号公路
前景值
最终决策 效用理论
场景一11h
10.8 -1.5 10 1 √ 10.8 -7.3 10 -7.6 √
前景理论
√ √
由上表可以看出,在预期效用理论下,场景一和场景二对其决策没有直接影响,因此均选择了2号公路作为最终的决策。而在前景理论下,在场景一中选择2号公路,这与预期效用理论是一致的;而在场景二中选择了1号公路。这是由于两种理论对决策者面对风险时的假设不同所造成的。期望效用理论假设决策者在任何情况下都保持风险态度一致,而前景理论则假设决策者在面临“获益”与“损失”时具有不同的风险态度。场景一中,决策者面临“获益”(能够按时到达指定地点)时表现出“风险规避”,故选择风险较小的2号公路;而对于场景二,决策者面临“损失”(极有可能无法按时到达目的地)时则表现出“风险偏好”,故选择风险较大的1号公路,尽管走1号公路有60%的可能性需要花费比2号公路更多的时间。这与人类在决策时的习惯是相吻合的。
4 结论
由于前景理论能够更加真实的描述人类在不确定条件下的决策行为,因此将其引入到作战仿真中来,为我们研究指挥员的作战决策提供了一种新的思路和方法。
3 前景理论的应用说明
前景理论将认知心理学引入到决策中来,使得决策过程更加符合人类本身的决策模式。但必须澄清的是,我们在作战决策仿真中采用这种模型,并不是说这种决策方式是最优的,甚至按照这种理论进行决策的结果又可能是错误的。而目的只是为了能够更好地模拟指挥员的决策,因为在急剧动态变化的战争环境中再好的指挥员也不可能像理性决策模型中所假设的那样始终保持完全理性。
正如前面所说,前景理论将人的心理偏好引入到决策过程中,并且将这种偏好量化,即价值函数中的风险态度系数
参考文献:
[1]
Daniel Kahneman, Amos Tversky. Prospect Theory: An Analysis of Decision under Risk [J]. Econometrica (S0012-9682), 1979, 47(2): 263-292. [2]
Tversky A, Kahneman D. Advances in Prospect Theory: Cumulative Representation of Uncertainty [J]. Journal of Risk and Uncertainty (S0895-5646), 1992, 5(4): 297-323. [2] [3] [4] [5] [6]
林民旺. 前景理论与外交决策[J]. 外交评论, 2006, 23(5): 62-68. James V Schultz. A Framework for Military Decision Making under Risks [M]. USA: Air University Press, 1997.
张莉, 张安, 汤志荔, 等. 多编队对敌攻防对抗多层决策分析仿真与研究[J]. 系统仿真学报, 2007, 19(1): 105-109.
赵凛, 张星臣. 基于“前景理论”的先验信息下出行者路径选择模型[J]. 交通运输系统工程与信息, 2006, 6(2): 46-50.
Simon H A. A behavioral model of rational choice [J]. Quarterly Journal of Economics (S0033-5533), 1955, 9(1): 99-118.
α、损失规避系数λ以及权重函数中的γ和δ等。虽然在第
二节中我们指定了上述各个系数的具体数值,但是对于不同的指挥员来说,由于他们的性格、特性等不尽相同,因此上述系数值也会略有不同。这反映的是指挥员对风险等的一种态度,例如有的人容易冒险,有的人则倾向保守。并且在整个作战过程中,由于受上级、环境、对手等各个方面因素的影响,指挥员对风险的心理倾向也会发生改变,这也体现了
• 2472 •