马尔可夫决策过程在防空系统目标分配中的应用

01-23

第2卷第5期

2001年10月

空　军　工　程　大　学　学　报(自然科学版) JOURNAL OF AIR FORCE EN GINEERIN G UNIVERSITY (NATURAL SCIENCE EDITION ) Vol. 2No. 5Oct. 2001

张庆波, 　周延延

(空军工程大学导弹学院, 陕西三原　713800)

摘　要:综合考虑了目标分配中的一些重要问题, 将马尔可夫决策过程理论应用于目标分配决策中, 这种方法充分考虑了攻防对抗这个动态系统本身的特征, , 使决策的长期效益趋于最优。

关键词:武器系统; 目标分配; 马尔可夫决策过程

中图分类号:TJ 71611　　文献标识码:A　　2(0073-03

。作战中的一[1]。通常来袭目标威胁程度和各种型号武器系统的, 加上目标采用投放诱饵、超低空飞行等对抗措施, 使搜, 目标分配变得更加困难。建立优化的目标分配决策, 有效地利用有限的发身平台将目标的威胁程度减到最小, 成为地面防空自动化指挥系统研究的一个重要课题。1　数学模型

111　假设条件

1) 某防空系统由n 个同类发射平台组成, 射击一个目标所需时间服从参数为μ的负指数分布; 2) 目标到达时刻间隔τm +1-τm (m =0, 1, 2…, τ0=0) 是相互独立同分布的随机变量, 其分布函数记为A (x ) , 目标属于第k (1≤k ≤m ) 类的概率为p k >0, ∑p k =1, 第k

类威胁系数为r k , 并假定r 1≥r 2≥……≥r m ; k =1m

3) 由于搜索雷达远程识别能力下降, 发现并识别目标到目标通过防区的时间间隔很小。当n 个发射平台都未完成发射时, 新到来的目标将突破防区; 当有发射平台处于等待发射状态, 系统就要做出分配决策;

此外, 为突出决策理论的作用和计算方便, 假设防空武器对不同类型目标的单发杀伤概率相同。

112　马尔可夫决策过程的有关问题

马尔可夫性是指系统未来状态的分布只与目前状态的分布有关而与过去状态的分布无关的这种属性。若系统的初始状态取做i , 决策人的策略为

f 0

f =f 1

f , 则决策人选择决策f i , 此时产生效益r (i , f i ) , 而动态系统按运动规律{P ij (f i ) }0≤j ≤n , 在下一

时刻转移到一个新的状态j ; 决策人再从策略f 中选择决策f j , 同时产生相应的效益r (j , f j ) , 而动态系统再按运动规律{P ij (

f i ) }0≤j ≤n , 转移到状态k , 如此继续, 这样一个由决策人的策略, 具有给定运动规律的动态系统和效益函数三者联合组成的总体就叫一个马尔可夫决策过程[3]。

113　目标分配决策模型的建立

由假设条件描述的过程构成了一个具有马尔可夫性的动态系统, 并把目标群的威胁程度作为目标函数Ξ收稿日期:2000206225　作者简介:张庆波(19732) , 男, 安徽芜湖人, 硕士, 主要从事防空运筹学研究.

　　74空军工程大学学报(自然科学版) 2001年来制定决策, 这样作战过程中的目标分配决策过程就化成了一个马尔可夫决策过程。决策f i 是一个正整数集, f i 中的元素为决策f i 射击目标的类型。决策f i 是指当系统处于i 时(i 个发射装置正在射击) , 对新到来的k 类目标进行分配的充要条件是k ∈f i 。

令第k 个目标到达时, 决策系统已分配的目标数为q t , t =1, 2, …. 设对防区内的目标采用策略f , 则知

q t +1-v t 　　k t ∈f q t (1) q t +1=q t -v t 　　　k t ∈f q t

式中, k t 为第t 个目标的类型, v t 为第t 与第t +1个目标到达间隔内完成射击的发射平台数, f q t 为状态q t 时的决策。取{q t , t =1, 2, …,}为马尔可夫决策过程中的动态系统, 其转换矩阵为

p 00(f 0) 　p 01(f 0) 　…　p 0n (f 0p (f ) p 10(f 1) 　p 11(f 1) 　…　p 1n (f 1)

　…　　　…　　ω　　…

p n 0(f n ) 　p n 1(f n ) 　…　p nn (f n )

e ∞j t -d A (t ) +∑p 0i -e k ∈f i (2) 式中, k ∈f ∞j --∑p k ∫0c i +1(1-e

i jut ) i +1-j -μj t i -j -t t ) , j ≤i ≤n ;

(3) p ij (f i ) =k ∈f (i +1) μt ∞-∑p k ∫d A (t ) , 　　j =i , n ; 0-e

0, , i ;

∞j -t j -∫0c 1-对于每一决策f i t d A t ) j ≤i =n

r (f i ) =∑p k r k k ∈f i (4)

表示在选择决策f i 的条件下, 分配射击一个目标后所能获得的期望效益。则系统长期的平均效益为

N N n

n N k =1j =0q k =j ; f ) ×P{q k =j |q 1=i ; f }=1im N →∞N k =1j =0∑∑r (f j ) P{q k =j |q 1=i ; f }N

(5)

式中, R k (i , f ) 为第k 个目标到达后产生的效益; P{q k =j |q 1=i ; f }为矩阵[p (f ) ]k -1的第i 行第j 列元素; 记为

Φ(0, f )

Φ(1, f )

…

Φ(n , f )

r (f 0) ; 　　r (f ) r (f 1)

114　算法

最优策略可按文献[2]提供的算法通过有限次迭代求得。具体过程是:

1) 先任意选取—初始策略f , 结合给定的初始数据, 求出效益函数r (f ) 和转移矩阵p (f ) , 通过解方程p 01(f 0) (v 1(f ) -v 0(f ) ) =u (f ) -r (f 0) (p 11(f 1) -1) (

v 1(f ) -v 0(f ) ) +p 12(f 1) (v 2(f ) -v 0(f ) ) =u (f ) -r (f 1)

p 21(f 1) (v 1(f ) -v 0(f ) ) +(p 22(f 2) -1) (v 2(f ) -v 0(f ) ) +p 23(f 2) (v 3(f ) -v 0(f ) ) =u (f ) -r (f 2)

…………………………………………

p n -1, 1(f n -1) (v 1(f ) -v 0(f ) ) +…+(p n -1, n -1(f n -1) -1) (v n -1(f ) -V 0(f ) ) +p n -1, n (f n -1) (v n (f ) -v 0(f ) ) =u (f ) -r (f n -1)

p n , 1(f n ) (v 1(f ) -v 0(f ) ) +…+(p n , n -1(f n ) (v n -1(f ) -v 0(f ) ) +(p n , n (f n , n ) -1) (v n (f ) -v 0(f ) ) =

u (f ) -r (f n )

第5期张庆波等:马尔可夫决策过程在防空系统目标分配中的应用7　　5求出v i (f ) -v 0(f ) , i 1, 2, …, n 和u (f ) ;

p k [r k - I i (f ) ]对于i =1, 2, …, n 是否均为空集, 若是, 策略f 即为最优; 2) 检查G (i , f ) α:K ∑α∈否则取f =g 重复步骤1) , 2) 直至在有限步内求得最优策略为止。G (i , f ) 中　　　 I i (f ) ≡I i (f ) -I i +1(f ) , i

I 0(f ) ≡0

I l (f ) ≡∫0∑c l (1-e j =0g (i ) α, 　　α∈G (i , j ) ≠

2　算例与分析

假设某型防空武器系统的发射平台数n =3, μ=1的负指数分布; 通过该系统防区的目标的类型数m =2, 各种类型目标的出现概率为1=015, 威胁系数分别为r 1=7, r 2=3, 目标到达间隔的分布为A (t ) =1-e -3t 求出目标分配最优策略为f 0={1, 2}, f 1={1, 2}, 23=A (t ) =1-e -t , 则可求出相应的目标分配的最优策略为}f 12, f 2={1, 2}, f 3=

1) , 发射平台来不及对所有的目标进行射击时, 放弃对威胁系, 以提高防空武器系统的射击效率。

2) , 发射平台有足够的火力对所有的目标进行射击时, 可以不放弃任何目标, 使目标群的总的威胁变为最小。

3　结束语

基于马尔可夫动态系统输入过程的最优控制建立目标分配决策模型的方法, 是一种考虑到目标到达间隔与平台的一次射击时间等随机系统本身特征的建模方法。实战中不同类型目标(如核武器、重型轰炸机、诱饵弹等) 的威胁程度相差很大, 利用这种方法得到的决策结果能有效地减小重点目标突防的概率。参考文献:

[1]　楚耶夫H B 1军事技术运筹学基础[M ]1冷　拓, 键　链1北京:国防工业出版社,19761

[2]　徐光辉1随机服务系统[M ]1北京:科学出版社,19881

[3]　Mine H ,Osaki S 1Markowian decision processes[M ]1Ner Y ork :Elsevier ,19701

An Application of the Markov Decision Process to the T arget Assignment

ZHAN G Qing

-bo , 　ZHOU Yan -yan

(The Missile Institute ,Air Force Engineering University , Sanyuan 713800,China )

Abstract :The target assignment of weapon system in military command is of great importance 1The theory of Markov decision process has been applied to the target assignment process 1This method takes the characterisitics of the dynamic offence -and -defence system into account ,and makes the long -term benefit of decision opti 2mal 1

K ey w ords :weapon system ;target assignment ;Markov decision process

与《马尔可夫决策过程在防空系统目标分配中的应用》相关的范文

12-28 XX区人民防空工作经验交流材料

拓宽职能在“两防一体化”工作中谋发展　　　　我区是XX市一个以城区为主、附带近郊的城市区。1993年以来，我们围绕全区经济建设中心，依托人防现有设备设施，充分挖掘自身潜力，不断拓宽人防职能，以承担城市防汛任务为切人点，积极探索防空与防灾相结合的新路子。经过几年的努力，人防向民防转变迈出了坚实的一步，取得了一定成果，从而扩大了人防的影响，提高了人防的地位，有力地促进了我区人防事业的发展。　　一 ...

06-18 xx市人民防空工作管理暂行办法

　　为加强人民防空建设，保护人民的生命财产安全，保障社会主义现代化建设的顺利进行．根据《中华人民共和国人民防空法》和《xx省实施办法》，结合我市实际，特制定本办法。　　第一条：人民防空是国防建设的组成部分。人民防空建设贯彻“长期准备，重点建设、平战结合”的方针，坚持与经济建设协调发展、与城市建设相结合原则。　　第二条：本办法适用于市行政区域内的人民防空工作。　　第三条：市人民政府、市人民武装 ...

08-11 2014-2014初中新生军训实施方案

20xx-20xx七年级（6）班军训实施方案军训，就是指开展军事训练，是学生接受国防教育、组织纪律教育、爱国主义教育、集体主义教育、军队优良传统教育的一门必修课程，是学校德育工作的重要组成部分，也是学校全面贯彻教育方针、全面实施素质教育的一项重要举措。一、队列： 1、队列纪律 ⑴坚决执行命令，做到令行禁止； ⑵姿态端正，军容严整，精神振作，严肃认真； ⑶按照规定的位置列队，集中精力听指挥，动作 ...

03-31 中学2014-2014军训实施方案

中学20xx-20xx军训实施方案军训，就是指开展军事训练，是学生接受国防教育、组织纪律教育、爱国主义教育、集体主义教育、军队优良传统教育的一门必修课程，是学校德育工作的重要组成部分，也是学校全面贯彻教育方针、全面实施素质教育的一项重要举措。一、队列： 1、队列纪律 ⑴坚决执行命令，做到令行禁止； ⑵姿态端正，军容严整，精神振作，严肃认真； ⑶按照规定的位置列队，集中精力听指挥，动作迅速、准确 ...

09-08 学习赞可夫心得体会

学习赞可夫《教学与发展》心得体会为了响应学校的号召-多读书，读好书，全员积极行动起来，建立书香校园，我于本期认认真真阅读了苏联的著名教育家赞可夫的经典论著《教学与发展》。众所周知，赞可夫伟大的成就就是，他打破了教学实践中只传授知识、技能和技巧相联系的陈旧模式，把教学同发展联系起来，建立了一套比较完整治的较新的教学体系，从而大大提高了学生掌握知识和技巧的能力，把教学推上了一个崭新的台阶，这是教学论 ...

08-14 德育中如何体现爱心

　　教师都有一颗爱生之心，但往往有些教师认为有好心没好报。那么教师怎样做才能把爱心体现出来呢？笔者认为应该从以下几方面着手：　　首先是尊重和信任学生。用一句学生常用的话，“老师应该对我们有礼貌，我们也是人。”这里的人，指的就是学生的人格。　　有一位教育学专家说过这样有意思的话：在今天中国的教室里，坐着的是学生，站着的是先生，而在精神上，这种局面恰恰打了个颠倒-站着的先生占据着至尊之位，而坐着的 ...

02-25 拟办医药公司申请材料

　　目录　　1、“xx医药公司”筹建申请表……………………………….2 　　2、关于拟办“xx医药公司”的可行性研究报告……………5　　3、拟建“计算机信息管理系统”规划书………………………………9 　　4、拟建“药品储存专用货架及现代物流系统装置和设备”的可行性规划书………17 　　5、关于拟建营业场所、设备、仓储设施及周边卫生环境的报告…22 　　6、拟办企业名称、注册地址、仓库地址、经营药 ...

05-12 企业管理经验材料(采油厂实施目标管理过程中的一些做法)

　　　　　　　　创建油藏经营网络化目标管理　努力提高采油厂成本管理水平采油八厂由于受极复杂小断块油田地质条件的制约，油田生产经营管理面临着单井产量低、管理幅度大、吨油成本高的挑战。1996年以来，按照有计划、有目标、有评价排名、有考核兑现的管理思路，将采油厂降本增效涉及的各项工作全部纳入目标管理。围绕控制维持生产规模的操作成本、生产辅助单位成本、措施成本、自然产量四个分目标，将降低成本，提高产量 ...

10-23 地方税务局税收的发展工作方案

“*”时期（*-*年）是*经济社会发展的关键时期，也是*地税事业继往开来、全面实现可持续发展的重要时期。科学编制并有效实施*壮族自治区地税发展“*”时期规划，对统一思想认识，明确发展目标，把握工作重点，进一步推进*地税事业发展具有重要意义。根据《*壮族自治区国民经济和社会发展第十一个五年规划纲要》和《国家税务总局“*”时期税收发展与改革的基本思路》，现结合*地税工作实际，制定《*壮族自治区地税发展 ...

10-23 读书方案

《爱的教育》读书方案读本的内容《爱的教育》是一个意大利四年级小学生在一个学年十个月中所记的日记。全书共一百篇文章，主要由三部分构成：主人公的日记；他的父母在他日记本上写的劝戒启发性的文章；以及十则老师在课堂上宣读的小故事。《爱的教育》这本风行全球、脍炙人口的著作，由意大利作家亚米契斯耗时近十年完成。无论哪一章，哪一节，都把“爱”表现得精髓深入，淋漓尽致，大至国家、社会、民族的大我之爱，小至父 ...

随机推荐

猜你喜欢

马尔可夫决策过程在防空系统目标分配中的应用

·令人讨厌谈话方式态度

·综合部副经理岗位职责

·小学四年级上学期语文教学工作计划

·2014研究生毕业赠言

·消防栓的使用及注意方法

·案例分析:论服饰礼仪

·2016东莞提取公积金最新政策解读

·学法用法的心得体会3

·三年级专题课程教案

·关于暑假生活的作文:畅谈暑假生活_350字

·毛泽东哲理名言赏析

·xx市国家建设项目审计办法

·银行个人实习报告

·一个小村庄的故事教学设计doc

·女性心理学

·[经验]招商引资不得不看的标杆:昆山模式

·国画熊猫:水墨画熊猫教程

·苏教版五年级上册作文教案

·人教版小学四年级语文下册[全神贯注]教学设计

·新湘少版四年级英语上册知识点