指挥决策风险三元组模型的数据挖掘
第3卷 第2期 2012年4月指挥信息系统与技术
CommandInformationSystemandTechnologyVol.3 No.2Apr.2012
・理论与探索・
指挥决策风险三元组模型的数据挖掘
吴禹力 郑有志 孙国亮
(海军指挥学院研究生管理大队 南京210016)
摘 要:指挥决策风险存在于军事活动的全过程,决策条件的不确定性决定了风险的存在。首先,使用三元组矩阵完备集的模型描述指挥决策风险;然后,建立了指挥决策风险数据挖掘的模型,并描述了三元组在模型中的位置和作用;最后,讨论使用Apriori算法对三元组模型进行数据挖掘并发现潜在风险。算例表明,该算法为识别评估指挥决策风险提供了一种新的途径。关键词:指挥决策风险;数据挖掘;三元组模型;Apriori算法
中图分类号:E917 文献标识码:A 文章编号:1674-909X(2012)02-0023-04
DataMiningofTriadModelforCommandDecision-MakingRisk
WuYuli ZhengYouzhi SunGuoliang
(PostgraduateTrainingBrigade,NavalCommandCollege,Nanjing210016,China)
Abstract:Therisksofcommanddecision-makingexistinthewholeprocessofmilitaryoperations.Theuncertaintiesofdecision-makingconditionsresultinrisks.Firstly,acompletetriadmatrixsetmodelfortherisksofcommanddecision-makingisintroduced.Then,amodelofdataminingfortherisksofcommanddecision-makingisbuiltandtheroleofthetriadmodelisdescribed.Finally,adataminingmethod,calledtheApriorialgorithm,isappliedtothetriadmodelandthepotentialrisksarefoundout.Experimentalresultsshowthatthemethodcanidentifycommanddecision-makingrisks.Keywords:commanddecision-makingrisk;datamining;triadmodel;Apriorialgorithm
0 引 言
指挥决策风险指在指挥决策中产生的风险,由决策条件的不确定性引起,是军事决策活动的一项基本属性。本质是指挥决策活动可能造成的军事上的危害与损失。由于指挥决策活动所需的敌情、地情和我情等条件信息的实时性、完备性以及真伪性不确定,因此指挥决策风险具体可表示为决策过程中无法实现预期目标的因素、概率以及结果的映射模型。指挥决策条件的复杂性和动态性决定了指挥决策风险存在的客观性和普遍性,是战争自身矛盾运动的必然结果。因此,指挥人员无法回避风险,只能使用合理的方式正确评估风险发生的概率,科学判断风险形成损失的程度,积极主动去控制和处
[1-2]
置风险。在信息化条件下,指挥决策难度大,指挥人员易陷入“数据丰富、情报匮乏”的困境。运用数据挖掘进行知识发现,可使决策支持系统模拟人脑的推理机制,实现智能化决策支持系统的“数据—信息—知识”3个层次的有机结合,以便指挥人员实时对指挥决策风险进行智能评估并作出理性决策。
[3]
1 指挥决策风险的三元组模型
智能化的指挥决策风险评估最终得到的应是知识,而知识发现的核心是数据挖掘。数据挖掘是在数据库技术、人工智能、机器学习和统计分析等多个领域的基础上发展而来的一种技术,通过数据挖掘可从大量、不完全、模糊以及随机的原始数据中提取出隐含、潜在以及有用的信息和知识,该技术是一种深
24指挥信息系统与技术2012年4月
层的数据分析,可实现指挥决策风险管理的智能化。下文基于三元组完备集的模型对指挥决策风险的表示进行讨论。
1.1 完备集
风险的全部描述主要由引起风险的各因素以及各因素对应的概率和结果组成。因此,指挥决策风险根据定义可表示为一个三元组的完备集R={f(i),p(i),r(i)}。其中,R为指挥决策风险;f(i)为指挥决策中的第i个有害因素;p(i)为第i个有害因素发生的概率;r(i)为第i个因素的结果。集合中的各元素,即单个三元组只是指挥决策风险的一种可能,整个集合才是全部风险。1.2 矩阵完备集
根据“威胁—弱点—影响”的风险评估法则,威胁指事件或行为,一般来自系统外部(敌情和地情),可能对被风险评估方人员和装备造成损失;弱点指系统内部(我情)的缺陷,在特定条件下可被对方利用或对自身造成一定的危害;影响(结果)指短期与长期的影响,各种威胁和危害的对应结果。因此,f(i)可细化为矩阵f(i,j),j=1,2,3分别表示敌情、地情和我情,矩阵f(i,j)表示第j类第i种有害因素。同样地,p(i)和r(i)可细化为矩阵p(i,j)和r(i,j),分别表示第j类第i种有害因素发生的概率和结果。因此,指挥决策风险三元组的完备集可扩展为三元矩阵组的完备集R={f(i,j),p(i,j),r(i,j)}。1.3 元素分析
单个有害因素只映射对应单个结果,即f(i,j)→r(i,j)。其中,f(i,j)可经过相关军事和技术等先验知识和实时数据通过数据挖掘等方法得到;
人工推理和人工智能等方r(i,j)可经过模拟仿真、
法得到;实战中,由于作战决策支持数据和信息的模糊性(决策信息类属划分的不分明引起判断上的不
确定性)、灰色性(决策信息部分确定,部分不确定)、时效性(决策信息的新旧程度),对p(i,j)的概率分析是模型完备的关键,p(i,j)的时效性非常强,其数值与因素f(i,j)和时间t有关,可用→p(i,j)的映射表示。
识表示,充分发挥“专家型”和“助手型”决策支持系统功能。指挥决策风险的数据挖掘与指挥信息系统数据仓库(DW)的建设密切相关,DW经过数据挖掘和联机数据处理,把分布的和集中的、历史的和实时的数据进行分析,并发现相应知识以支持指挥决策。大规模地对决策风险的数据挖掘可先在小的单个三元组完备集上执行,然后再进行扩展和整合。数据挖掘过程中,分析员交给操作员许多“训练”数据,这些数据在归属上区分敌情、地情和我情;在时间上区分平时与战时。由于很多数据无法实际获得,需通过专家评估和模拟仿真等人机结合的方法来获得。指挥决策风险的数据挖掘模型结构如图1所示[4]。
图1 指挥决策风险数据挖掘模型结构
该模型中,各种传感器可搜集敌情和地情,己方指挥信息系统可搜集训练信息和我情,原始数据经清理、集成、融合、汇总和聚集等预处理后可形成适合的数据仓库。数据挖掘是模型的关键,信息化条件下基于体系作战应使用各种挖掘算法结合指挥决策风险模型进行数据挖掘。模型库通过数据挖掘抽取知识并反馈回数据挖掘过程。挖掘出的知识进入知识库为指挥决策机构及操作人员提供相关决策风险的知识。数据挖掘的3个层次可分别对应三元组的各元素。在数据层,通过数据仓库对敌情、地情和我情的汇总整理,取出原始风险Roriginal的三诸元即风险因素f(i)、风险概率p(i)和风险后果r(i);在信息层,经数据库、模型库和知识库的支持,通过数据挖掘技术得出潜在风险的三诸元;在知识层,把结果送给指挥员与操作员,并同时存储到知识库,从而得出2 指挥决策风险的数据挖掘模型
军事指挥信息系统是典型的复杂巨型系统,战场情况瞬息万变,敌我双方存在着侦察与反侦察、干扰与抗干扰以及欺骗与反欺骗的对抗。因此,为提高
指挥决策的科学性,可使用决策支持系统对原始决
第3卷 第2期吴禹力,等:指挥决策风险三元组模型的数据挖掘25
3 关键技术、难点及算法
3.1 关键技术及算法
指挥决策风险的数据挖掘是对海量数据经关联分析,提炼出潜在的指挥决策风险三元组各元素与风险值,为指挥决策风险的识别与评估提供决策依据。风险数据挖掘模型按功能和信息需求可分为应用层、逻辑层和算法层,其中,算法层的算法设计是数据挖掘的关键技术与核心问题。目前,数据挖掘算法众多,如以布尔型关联规则的算法(Apriori算法)和模糊关联算法(数量型关联规则的算法)为例的关联分析算法;以分析与回归算法(CART)和主成分分析法(多变量优选多元统计分析方法)等为例的统计算法;以用于样本间相似度直接聚类的C均值聚类(C-Means聚类)和用于数字属性的K均值聚类(K-Means聚类)为例的聚类算法;以解决3层以上前馈型网络问题的误差逆传播神经网络(BP神经网络)和解决非线性前馈型网络问题的径向基函数神经网络(RBF神经网络)等为例的神经网络算法;以信息熵和信息增益度算法(ID3)和高信息增益率的改进型ID3算法(C4.5)为例的决策树算法;以跨代异种变异算法(CHC)、变化度染色体遗传算法(MessyGA)为例的遗传算法;以朴素贝叶斯网络(有约束的贝叶斯网络)、改进型朴素贝叶斯网络(TAN贝叶斯网络)为例的贝叶斯网络算法[5-8]。3.2 基于Apriori算法的数据挖掘
结合指挥决策风险三元组的特点,本文采用Apriori算法对指挥决策风险数据进行数据挖掘。Apriori算法是一种以概率为基础的挖掘布尔型关联规则频繁项集的算法,分为连接和剪枝2步,具体算法如下[5]:
1)制定最小支持及最小置信度;
2)算法使用候选项集概念,先扫描数据库产生候选项目集,若候选项目集的支持度大于或等于最小支持度,则该候选项集合为频繁项目集;
3)该算法中,先由数据库读入所有的事物数据,得出候选1-项集C1及相应的支持度数据,通过将每个1-项集的支持度与最小支持度比较,得出频繁1-项集L1,然后将这些L1项集两两进行连接,产生候选2-项集C2;
4)再次扫描数据库得到C2的支持度,将2-项集-L2。类似地,利用这些L2产生候选3-项集确定频繁3-项集,以此类推。
5)反复扫描数据库,与最小支持度比较,产生更高项的频繁项集合,再结合产生下一级候选集,直到不再结合产生新的候选项集为止。
4 应用举例
假设给定一个具有6条数据的风险事件数据库表,表中第1列是风险后果,从r(1)到r(6)分别表示指挥中断、指挥时断时续、指挥错误、指挥瘫痪、指挥不实时和指挥误差。第2列是风险因素,从f(1)到f(6)分别表示硬件问题、软件问题、人员疲劳、网络拥塞、人员维修水平和人员操作水平。假定最小支持度是2,最小置信度是50%,网络数据集如表1所示。
表1 风险数据集
风险后果r(1)r(2)r(3)
风险因素f(1)f(2)f(2)f(4)f(2)f(3)
风险后果r(4)r(5)r(6)
风险因素f(1)f(2)f(4)f(1)f(3)f(5)f(2)f(3)f(6)
用Apriori算法计算如下:
第1次扫描数据库,找出候选1-项集的支持度。数据库有6个候选1-项集,分别为C1={{f(1)},{f(2)},{f(3)},{f(4)},{f(5)},{f(6)}}。但由于{f(5)}和{f(6)}支持度只有1不满足最小支持度为2的算法规则而被排除,则频繁1-项集为L1={{f(1)},{f(2)},{f(3)},{f(4)}}。图2为第1次扫描算法示意图,其中,左框为候选1-项集,右框为频繁1-项集,箭头表示算法推理过程。
图2 第1次扫描算法示意图
对频繁1-项集两两组合后进行第2次扫描,同理排除了{f(1),f(3)},{f(1),f(4)}和{f(3),f(4)},剩下频繁2-项集{f(1),f(2)},{f(2),f(3)}和{f(2),f(4)}。此时,对频繁2-项集两两组合后得到的3个子集{f(1),f(2),f(3)},{f(1),f(2),f(4)}和{f(2),f(3),f(4)}均有非频繁集,{f,f3)}
26指挥信息系统与技术2012年4月
出总的指挥决策完备集Rtotal。该算例中,数据挖掘的过程处于信息层,而知识发现并反馈给数据仓库的过程处于知识层,挖掘出的新风险存入数据仓库用于后续的数据挖掘。
5 结束语
图3 第2次扫描算法示意图
在军队指挥决策日益实时化的背景下,基于Apriori算法对指挥决策风险三元组模型进行数据挖掘,可减少人为工作量,同时可发现潜在的指挥决策风险。算例表明,该算法可降低或规避指挥决策风险,为决策者提供了一种良好的决策支持手段。但实际的指挥决策风险要比算例复杂得多。建议使用Clementine软件来实现,也可经相关算法编程嵌入到现有指挥信息系统之中。参考文献(References):
[1] 史越东.指挥决策教程[M].北京:海潮出版社,2010:
119-121.
[2] 弗兰克.H.奈特.风险、不确定性与利润[M].安佳,
译.北京:商务印书馆,2006:181-183.
[3] 陈文伟.决策支持系统教程[M].北京:清华大学出版
社,2004:45-50.
[4] 纪希禹.数据挖掘技术应用实例[M].北京:机械工业
出版社,2009:208-209.
[5] 廖芹,郝志峰,陈志宏.数据挖掘与数学建模[M].北
京:国防工业出版社,2010:23-307.
[6] 吴喜之,马景义,吕晓玲,等.数据挖掘前沿问题[M].
北京:中国统计出版社,2009.
[7] 邵峰晶,于忠清,王金龙,等.数据挖掘原理与算法
[M].北京:科学出版社,2009.
[8] 朱玉金,杨鹤标,孙蕾.数据挖掘技术[M].南京:东南
大学出版社,2006.
已是最大频繁集。图3为第2次扫描算法示意图,其中,左框为候选2-项集,右框为频繁2-项集。
再次扫描数据库,根据Confidence(A