马尔可夫决策过程在防空系统目标分配中的应用
第2卷第5期
2001年10月
空 军 工 程 大 学 学 报(自然科学版) JOURNAL OF AIR FORCE EN GINEERIN G UNIVERSITY (NATURAL SCIENCE EDITION ) Vol. 2No. 5Oct. 2001
马尔可夫决策过程在防空系统目标分配中的应用
张庆波, 周延延
(空军工程大学导弹学院, 陕西三原 713800)
摘 要:综合考虑了目标分配中的一些重要问题, 将马尔可夫决策过程理论应用于目标分配决策中, 这种方法充分考虑了攻防对抗这个动态系统本身的特征, , 使决策的长期效益趋于最优。
关键词:武器系统; 目标分配; 马尔可夫决策过程
中图分类号:TJ 71611 文献标识码:A 2(0073-03
。作战中的一[1]。通常来袭目标威胁程度和各种型号武器系统的, 加上目标采用投放诱饵、超低空飞行等对抗措施, 使搜, 目标分配变得更加困难。建立优化的目标分配决策, 有效地利用有限的发身平台将目标的威胁程度减到最小, 成为地面防空自动化指挥系统研究的一个重要课题。1 数学模型
111 假设条件
1) 某防空系统由n 个同类发射平台组成, 射击一个目标所需时间服从参数为μ的负指数分布; 2) 目标到达时刻间隔τm +1-τm (m =0, 1, 2…, τ0=0) 是相互独立同分布的随机变量, 其分布函数记为A (x ) , 目标属于第k (1≤k ≤m ) 类的概率为p k >0, ∑p k =1, 第k
类威胁系数为r k , 并假定r 1≥r 2≥……≥r m ; k =1m
3) 由于搜索雷达远程识别能力下降, 发现并识别目标到目标通过防区的时间间隔很小。当n 个发射平台都未完成发射时, 新到来的目标将突破防区; 当有发射平台处于等待发射状态, 系统就要做出分配决策;
此外, 为突出决策理论的作用和计算方便, 假设防空武器对不同类型目标的单发杀伤概率相同。
112 马尔可夫决策过程的有关问题
马尔可夫性是指系统未来状态的分布只与目前状态的分布有关而与过去状态的分布无关的这种属性。若系统的初始状态取做i , 决策人的策略为
f 0
f =f 1
f , 则决策人选择决策f i , 此时产生效益r (i , f i ) , 而动态系统按运动规律{P ij (f i ) }0≤j ≤n , 在下一
时刻转移到一个新的状态j ; 决策人再从策略f 中选择决策f j , 同时产生相应的效益r (j , f j ) , 而动态系统再按运动规律{P ij (
f i ) }0≤j ≤n , 转移到状态k , 如此继续, 这样一个由决策人的策略, 具有给定运动规律的动态系统和效益函数三者联合组成的总体就叫一个马尔可夫决策过程[3]。
113 目标分配决策模型的建立
由假设条件描述的过程构成了一个具有马尔可夫性的动态系统, 并把目标群的威胁程度作为目标函数Ξ收稿日期:2000206225 作者简介:张庆波(19732) , 男, 安徽芜湖人, 硕士, 主要从事防空运筹学研究.
74空军工程大学学报(自然科学版) 2001年来制定决策, 这样作战过程中的目标分配决策过程就化成了一个马尔可夫决策过程。决策f i 是一个正整数集, f i 中的元素为决策f i 射击目标的类型。决策f i 是指当系统处于i 时(i 个发射装置正在射击) , 对新到来的k 类目标进行分配的充要条件是k ∈f i 。
令第k 个目标到达时, 决策系统已分配的目标数为q t , t =1, 2, …. 设对防区内的目标采用策略f , 则知
q t +1-v t k t ∈f q t (1) q t +1=q t -v t k t ∈f q t
式中, k t 为第t 个目标的类型, v t 为第t 与第t +1个目标到达间隔内完成射击的发射平台数, f q t 为状态q t 时的决策。取{q t , t =1, 2, …,}为马尔可夫决策过程中的动态系统, 其转换矩阵为
p 00(f 0) p 01(f 0) … p 0n (f 0p (f ) p 10(f 1) p 11(f 1) … p 1n (f 1)
… … ω …
p n 0(f n ) p n 1(f n ) … p nn (f n )
e ∞j t -d A (t ) +∑p 0i -e k ∈f i (2) 式中, k ∈f ∞j --∑p k ∫0c i +1(1-e
i jut ) i +1-j -μj t i -j -t t ) , j ≤i ≤n ;
(3) p ij (f i ) =k ∈f (i +1) μt ∞-∑p k ∫d A (t ) , j =i , n ; 0-e
i
0, , i ;
∞j -t j -∫0c 1-对于每一决策f i t d A t ) j ≤i =n
r (f i ) =∑p k r k k ∈f i (4)
表示在选择决策f i 的条件下, 分配射击一个目标后所能获得的期望效益。则系统长期的平均效益为
N N n
n N k =1j =0q k =j ; f ) ×P{q k =j |q 1=i ; f }=1im N →∞N k =1j =0∑∑r (f j ) P{q k =j |q 1=i ; f }N
(5)
式中, R k (i , f ) 为第k 个目标到达后产生的效益; P{q k =j |q 1=i ; f }为矩阵[p (f ) ]k -1的第i 行第j 列元素; 记为
Φ(0, f )
Φ(1, f )
…
Φ(n , f )
r (f 0) ; r (f ) r (f 1)
114 算法
最优策略可按文献[2]提供的算法通过有限次迭代求得。具体过程是:
1) 先任意选取—初始策略f , 结合给定的初始数据, 求出效益函数r (f ) 和转移矩阵p (f ) , 通过解方程p 01(f 0) (v 1(f ) -v 0(f ) ) =u (f ) -r (f 0) (p 11(f 1) -1) (
v 1(f ) -v 0(f ) ) +p 12(f 1) (v 2(f ) -v 0(f ) ) =u (f ) -r (f 1)
p 21(f 1) (v 1(f ) -v 0(f ) ) +(p 22(f 2) -1) (v 2(f ) -v 0(f ) ) +p 23(f 2) (v 3(f ) -v 0(f ) ) =u (f ) -r (f 2)
…………………………………………
p n -1, 1(f n -1) (v 1(f ) -v 0(f ) ) +…+(p n -1, n -1(f n -1) -1) (v n -1(f ) -V 0(f ) ) +p n -1, n (f n -1) (v n (f ) -v 0(f ) ) =u (f ) -r (f n -1)
p n , 1(f n ) (v 1(f ) -v 0(f ) ) +…+(p n , n -1(f n ) (v n -1(f ) -v 0(f ) ) +(p n , n (f n , n ) -1) (v n (f ) -v 0(f ) ) =
u (f ) -r (f n )
第5期张庆波等:马尔可夫决策过程在防空系统目标分配中的应用7 5求出v i (f ) -v 0(f ) , i 1, 2, …, n 和u (f ) ;
p k [r k - I i (f ) ]对于i =1, 2, …, n 是否均为空集, 若是, 策略f 即为最优; 2) 检查G (i , f ) α:K ∑α∈否则取f =g 重复步骤1) , 2) 直至在有限步内求得最优策略为止。G (i , f ) 中 I i (f ) ≡I i (f ) -I i +1(f ) , i
I 0(f ) ≡0
I l (f ) ≡∫0∑c l (1-e j =0g (i ) α, α∈G (i , j ) ≠
2 算例与分析
假设某型防空武器系统的发射平台数n =3, μ=1的负指数分布; 通过该系统防区的目标的类型数m =2, 各种类型目标的出现概率为1=015, 威胁系数分别为r 1=7, r 2=3, 目标到达间隔的分布为A (t ) =1-e -3t 求出目标分配最优策略为f 0={1, 2}, f 1={1, 2}, 23=A (t ) =1-e -t , 则可求出相应的目标分配的最优策略为}f 12, f 2={1, 2}, f 3=
1) , 发射平台来不及对所有的目标进行射击时, 放弃对威胁系, 以提高防空武器系统的射击效率。
2) , 发射平台有足够的火力对所有的目标进行射击时, 可以不放弃任何目标, 使目标群的总的威胁变为最小。
3 结束语
基于马尔可夫动态系统输入过程的最优控制建立目标分配决策模型的方法, 是一种考虑到目标到达间隔与平台的一次射击时间等随机系统本身特征的建模方法。实战中不同类型目标(如核武器、重型轰炸机、诱饵弹等) 的威胁程度相差很大, 利用这种方法得到的决策结果能有效地减小重点目标突防的概率。参考文献:
[1] 楚耶夫H B 1军事技术运筹学基础[M ]1冷 拓, 键 链1北京:国防工业出版社,19761
[2] 徐光辉1随机服务系统[M ]1北京:科学出版社,19881
[3] Mine H ,Osaki S 1Markowian decision processes[M ]1Ner Y ork :Elsevier ,19701
An Application of the Markov Decision Process to the T arget Assignment
ZHAN G Qing
-bo , ZHOU Yan -yan
(The Missile Institute ,Air Force Engineering University , Sanyuan 713800,China )
Abstract :The target assignment of weapon system in military command is of great importance 1The theory of Markov decision process has been applied to the target assignment process 1This method takes the characterisitics of the dynamic offence -and -defence system into account ,and makes the long -term benefit of decision opti 2mal 1
K ey w ords :weapon system ;target assignment ;Markov decision process