数据分析技术在指挥信息系统中的应用_徐建平
指挥控制系统设计与建设
数据分析技术在指挥信息系统中的应用
徐建平,李晓冬
(信息系统工程重点实验室,江苏南京 210007)
摘 要:介绍了数据分析、数据挖掘的基本知识,讨论了数据分析技术在指挥信息系统中的作用,提出了雷达历史数据分析总体研究框架,说明了雷达历史数据分析涉及的主要技术。以雷达辐射源识别为例,给出了数据挖掘技术在雷达数据融合系统中的应用实例。
关键词:数据分析;数据挖掘;指挥信息系统;雷达辐射源识别
Application of Data Analysis in Command I nformation Systems
XU Jian-ping,LI Xiao-dong
(Science and Technology on Information Systems Engineering Laboratory,Nanjing Jiangsu 210007,China )
Abstract :Basic knowledge of data analysis and data mining are described, function of data analysis in command information systems is discussed, research framework on analysis of radar historical data is proposed, and main technologies of radar historical data are discussed. An application example on radar emitter recognition is given. Key words:data analysis;data mining;command information systems;radar emitter recognition
0 引言
信息化战争时代,数据已成为重要的作战资源,是战争的制胜关键。未来,拥有对海量数据的占有、分析、处理的主导权,就拥有“数据主权”,推动数据向知识、知识向行动的转变,为取得信息优势,进而获取决策优势和行动优势奠定基础。随着探测、侦察、监视网络的建设和完善,指挥信息系统拥有了强大的信息获取能力,指挥信息系统以往主要侧重于有效地收集、传输信息、注重系统间的信息共享与互联互通,属于战场“感知”层面内容较多,分析数据,理解战场的数据分析内容较少[1]。
指挥信息系统值班过程中积累的海量目标数据中隐藏着大量有效信息,尚未得到充分利用,无法有效发现目标数据中的有用知识,无法利用隐藏的知识提升系统的处理能力,存在着“数据爆炸、知识不足”的现象,海量目标数据对信息优势的形成支持不足。面对海量数据,如何对其进行有效的分析挖掘,提取有助于决策的知识,是当前信息系统急待解决的问题。
第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用[2]。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。 1.1.2 数据分析的目的
数据分析的目的在于把隐藏在大量看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律与趋势。数据分析可帮助人们做出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。指挥信息系统中的数据分析主要有三类作用:现状分析、原因分析、预测分析,如图1所示。
现状分析:分析系统的运行状态,功能性能,能力边界,查找处理
异常等。
1 数据分析与数据挖掘
1.1 数据分析
1.1.1 数据分析的概念
数据分析是指用适当的统计方法对收集来的大量
图1 数据分析的目的
作者简介:徐建平(1972-),男(汉),江苏南京人,高级工程师,工学硕士,主要研究领域为信息处理。(E-mail :[email protected])
·435·
原因分析:分析系统的性能变化、处理异常等现象发生的原因,并可据此提出相应的调整、解决方案。
预测分析:采取干预措施后,对系统运行情况的估计。
1.1.3 数据分析的过程
完整的数据分析主要包括了六个既相对独立又互有联系的阶段,它们依次为:明确分析目的和思路、数据准备、数据处理、数据分析、数据展现、报告撰写等六步,如图2所示。
(1)分类:是把每个事例分成多个类别的行为。 (2)聚类:也称为细分,它基于一组属性对事例进行分组。
(3)关联:是指从数据中找出满足特定条件的关联准则。
(4)回归:目的是查找模式以确定数值。 (5)预测:是根据对象属性的过去观察值来评估该属性的未来值。
(6)序列分析:用来发现一系列事件中的模式,这一系列事件称为序列。
(7)偏差分析:是为了找出一些特殊的事例,这些事例的行为与其他事例有明显不同。 1.2.3 数据挖掘的过程模型
目前最有影响,被广泛使用的数据挖掘标准过程模型是CRISP-DM (Cross-Industry Standard Process for Data Mining)过程模型。CRISP-DM 模型是从方法学的角度强调实施数据挖掘项目的方法和步骤,并独立于每种具体数据挖掘算法和数据挖掘系统。
CRISP-DM 过程模型将整个挖掘过程分为以下的阶段:业务理解、数据理解、数据准备、建模、评估和部署实施,如图4所示[4]。
图2 数据分析的过程
1.2 数据挖掘
1.2.1 数据挖掘的概念
伴随着计算机网络技术与数据库技术日新月异的发展,数据库的规模在不断扩大,人们积累的数据也就越来越多。当数据在不断增加的同时,如何从大量的数据中提取出有效信息的矛盾日益突显。而传统的查询、报表等工具已经无法满足收集有效信息的需求,因此,需要一种新的数据分析方法与技术,它可以实现从大量的数据中提取出隐含但有效的信息与知识,所以数据挖掘技术由此而生。
一般认为,广义的数据挖掘又称为数据库中知识发现(Knowledge Discovery in Database,KDD ),即从大量的、不完整的、有噪声的、模糊的和随机的数据中提取隐含其中的、人们事先未知的、但又是可信的、潜在的和有价值的信息和知识的过程。狭义的数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程,是知识发现过程中的一个步骤。完整的知识发现过程如图3所示。
[3]
图4 CRISP-DM模型
(1)业务理解:对业务问题及业务需求进行了解确认,将其转换为数据挖掘问题,并拟定初步设想。
(2)数据理解:收集初步数据,熟悉数据,如数据描述、数据探索和数据质量验证等。
(3)数据准备:与数据理解阶段为数据处理的核心,把初始数据重构成适合建模工具处理的数据集。
(4)建模:选择和应用各种建模技术,并对其参数进行优化。
(5)评估:对模型进行较为彻底的评价,并检查构建模型的每个步骤,确认其是否真正实现了预定的目的。
(6)部署实施:将所获得的知识用用户可以使用的方式组织和表示,通常要将活动模型应用到决策制定
图3 知识发现的过程
1.2.2 数据挖掘的任务
常见的数据挖掘任务有以下几类:
指挥控制系统设计与建设
的过程中去。
知识在系统中的迭代应用,可以不断提升融合系统的处理能力。
雷达历史数据分析主要面向军用多雷达信息融合系统,关注的重点包括:对雷达航迹起始、跟踪、识别 情况的分析,对多雷达信息融合系统威力范围的分析。
2 雷达历史数据分析
雷达历史数据分析是数据分析技术在雷达数据处理领域的应用,是指利用多雷达数据融合系统在值班过程中积累的海量多粒度雷达历史数据,对其进行分析处理,目的是发现多雷达融合过程中的典型处理异常,对引发处理异常的原因进行分析,进而提出相应的解决方案;通过对海量历史数据的分析处理,还可面向雷达数据处理的不同应用(关联、识别、意图估计等),充分挖掘出隐藏在海量数据中的有助于数据处理的方法、规则等知识;此外,通过对融合系统在不同的约束条件(信息对抗、环境条件、通信带宽)下的处理情况进行分析,还可得到融合系统在不同条件下的处理能力,确定系统的能力边界。结合系统的能力边界,将发现的解决方案、
2.1 研究框架
雷达历史数据分析技术采用数理统计、多粒度数据分析、数据挖掘等技术,实现对融合系统的典型处理异常有效检出和原因分析。充分利用雷达和系统端积累的海量多粒度历史数据,包括雷达检测前数据、雷达点迹、雷达航迹、系统航迹、目标真值、试验记录文档等,在雷达输出端、融合系统典型处理模块的输出端、融合系统的输出端对历史数据进行多层次数据分析,总体研究框架如图5
所示。
图5 雷达历史数据分析总体研究框架
目标真值的状态信息可由高精度探测设备或GPS 数据提供,属性信息可由飞行计划、人工情报、记录文件等信息获取。将融合系统输出的目标探测数据和目标真值进行比较,利用统计分析方法,可以对融合系统输出错误状态信息和属性信息的航迹进行统计,利用基于距离的异常轨迹检测方法,可以检测出起始和跟踪异常的航迹;将融合系统按时空配置、数据关联、航迹关联、状态估计、属性识别等典型模块进行划分,结合雷达站端雷达数据处理过程,利用雷达站和系统端报出的多粒度历史数据,对雷达站和融合系统的典型模块进行多层次数据分析,从而分析出引发融合系统跟踪和识别异常的原因。同时,利用多粒度历史数据,可以解算出系统和雷达站的威力范围,确定能力边界。数据分析模块的分析结果,如引发异常的原因,分析得出的算法优化调整方案等,可输入多雷达融合系统,提升
系统的处理能力。
2.2 涉及的技术
多雷达历史数据分析涉及的技术有以下三点: (1)移动对象轨迹的聚类分析。移动对象聚类分析是依据数据挖掘中聚类分析的方法,通过引入相关学科的知识来不断改善聚类的效果。运动物体轨迹数据(如飞行航迹)包含着新的属性维(如位置、时间、速率和方向等),相应的聚类分析就需要采用新的方法。轨迹聚类的一个重要问题就是如何衡量两个轨迹之间的相似度。从最简单的Euclidean 距离到复杂的动态时间规整和最长公共子序列,都被用来进行聚类时的相似度度量。但是,对于轨迹聚类应用来说,这些度量方法都有其局限性,需要研究解决。
(2)移动对象轨迹异常检测技术。目前针对移动
·437·
数据的离群点挖掘算法都致力于在大量未标签的移动数据中发现不同于大多数数据的异常数据,但是由于移动对象位置连续变化的固有特性使得难以抓住数据的趋势和规律。已有典型的异常轨迹探测算法尚存在某些不足:①算法对某些关键参数敏感法比较少;②异常轨迹度量定义的不完善;③基于分类的离群轨迹探测算法要求获得大量已知的异常数据,在现实应用中该条件很难达到,削弱了算法的实用性。
(3)雷达历史数据知识发现技术。针对多粒度雷达历史数据,分析这些情报信息的内容和特点及其对目标跟踪、目标识别等雷达数据处理技术在知识层面的直接支持和间接支持作用,从多粒度雷达历史数据中充分发掘与融合系统关联、识别等处理功能相关的规则、方法和参数知识。
规参数,如载频、脉宽、重频、到达角等[6]。本文选取载频、重频、脉宽这三个参数表示雷达特征,基于雷达特征参数,仿真生成300组测试样本,部分测试数据如表1所列。
表1 样本特征参数
载频/MHz
重频/Hz
脉宽/µs
类型
3 基于数据挖掘的雷达辐射源识别
当前,在雷达辐射源识别方面,辐射源具有信号形式复杂、信号体制多、特征参数多等特点,而且同一型号的雷达往往在一个或几个信号参数上有较大的离散性,不易得到合适的雷达信号参数标称值,这些都为分类识别算法带来了巨大挑战。采用数据挖掘技术,利用决策树算法能有效地识别参数离散度较大的信号,将挖掘出的规则用于多雷达数据融合系统,可有效解决雷达辐射源识别问题。
选用载频、重频、脉宽作为决策树的输入列,类型作为决策树的可预测列,利用Microsoft 决策树算法生成决策树。以下是所生成的决策树模型的一部分:
脉宽>=1.548 and
载频>=3123.19
类型=1
从中可以得到一条规则是:若脉宽>=1.548且=3123.19 则类型为1,所包含的样本数为23。类似还可以得到其他的规则,这些规则覆盖了整个的训练数据集所覆盖的范围。经分析,生成的决策树的结果正确率>85%,将通过数据挖掘得到的规则提供给多雷达数据融合系统使用,可以有效地用于雷达辐射源识别。
3.1 决策树
决策树是一棵有向无环树,在外观上很类似于流程图。树中的任一个非叶节点对应着数据集中某个属性,叶节点则对应着分类结果,树中每个分支对应其所连接属性的上节点所对应属性的某个数值。每一条从根节点到叶节点的路径就是目标变量的一条规则,整个决策树就对应着一组析取表达式规则。决策树的基本结构如图6所示。
[5]
4 结束语
数据分析的目的是要从数据中发现信息或知识。指挥信息系统中积累的大量数据,通过智能化分析方法,可以提取有价值的信息供决策使用,同时迭代应用到系统中,可以提升系统的信息处理能力。
参 考 文 献
[1] 张翠侠, 薛新华, 徐军. 大数据背景下军事信息资源多价值挖掘应用技
术探讨[C]//中国指挥与控制学会.2013第一届中国指挥控制大会论文集,2013. 北京:国防工业出版社,2013:672-676.
[2] 袁升太, 高发勇, 李晓军. 数据分析在项目管理中的推广意义及应用前
景[J]. 云南水力发电, 2014,30(s1):125-128.
[3] 纪希禹, 韩秋明, 李微, 等. 数据挖掘技术应用实例[M], 2011:2-4. [4] 史小梅. 数据挖掘在电力决策支持系统中的应用[J]. 上海电力学院
学报,2010,16(4):374-378.
[5] 王黎黎, 刘学军. 决策树C4.5算法在成绩分析中的应用[J]. 河南工程
学院学报(自然科学版),2014,26(4):69-73.
[6] 韩俊, 何明浩, 李胜喜, 等. 现代雷达辐射源识别技术研究[J]. 航天电子
对抗,2008,24(1):43-45.
图6 决策树的基本结构
3.2 雷达辐射源识别实例
雷达辐射源识别是雷达数据处理中的一个重要方向。当前用于雷达辐射源型号识别的特征参数主要是常