兵棋推演空中任务智能预测方法研究

创建时间:2023-02-02 16:51

源自:系统仿真学报     作者:张大永  杨镜宇  吴曦

摘 要

对战场敌空中目标作战任务进行高效、准确地自动判断,是态势认知的基础和辅助作战资源分配的关键。结合前馈深度神经网络和长短时记忆网络模型计算特点,设计了2个针对性基指标学习器,然后根据基指标交叉熵进行加权组合,用于进一步学习器训练评价指标,既能有效防止模型过拟合,又能提高模型训练效率。测试结果表明,所提模型能较好防止模型过拟合,并能以较高的准确率判断战场敌目标作战任务。

关键词

​ 空中任务 ; 深度学习 ; 态势认知 ; 兵棋推演 ; 资源分配

引言

未来联合作战,态势演进加快,博弈复杂剧烈。空中任务顺利实施,是争取战场主动,达成以快制慢,快速灵活聚能,准确适时释能的有效依托。智能预测对手空中作战任务,对于指挥员战场态势认知,辅助调配资源,部署作战行动具有重要意义。兵棋推演是对未来战争的预实践,受到越来越多重视。

 

一直以来,战场态势认知都是研究的热点。美国著名信息融合专家Linas J L将战场态势分为观测态势(observational situation, OS)、估计态势(assessment situation, AS)和预测态势(predictive situation, PS)三级态势,较好阐述了态势内涵。文献[1]结合战场态势三级结构和“OODA环”提出了“态势能力演化模型”,认为真正推动态势发展的是对抗双方的行动,指导行动的是对态势的判断和预测。

 

兵棋推演空中任务预测是基于具体行动的预测。目前已有不少研究文献,基于模板匹配、专家系统和贝叶斯网络等经典方法组合[2-4],以及深度学习等流行人工智能方法[5-6],实现不同作战背景下战术层级的对手任务预测。这些方法主要为满足战术需要而设计的模型,在联合战役层面应用时仍有一些局限:① 模板匹配、专家系统和贝叶斯网络等需要抽象领域专家经验知识,在知识表示和工程实现方面难度大,比如模板库建立,贝叶斯网络概率分布构建等。② 一些基于深度学习设计的智能方法,考虑战术细节过多,且只针对同一场数据,在联合战役层级应用时,一方面数据冗余,另一方面没有充分利用以往推演数据,加大了模型训练难度,降低了模型的有效性、准确性。同时,对抗条件下的作战行动如果采用纯人工预测,不仅对预测人员能力要求比较高,且不能输出稳定的预测结果,更不适宜大范围推广使用。

 

本文从兵棋推演的角度,研究对抗条件下空中任务智能预测方法。以联合战役级兵棋推演对抗环境为基础,对有关概念进行界定,设计了兵棋推演空中任务预测的2层神经网络模型,第1层包括目标资源特征信息的多层感知机[7]和目标时序特征信息留存的长短时记忆LSTM网络[8]2个模型,第2层设计了针对第1层2个模型训练得出的特征信息进行加权综合的多层感知机。通过实验验证了兵棋推演空中任务智能预测模型的有效性。

1 问题描述

兵棋推演空中任务预测,是从动态演变推演态势中捕获提取对手空中目标状态和时序信息,结合作战经验推测其执行空中任务的过程。目标状态信息包括空中目标的机型数量组合等资源类信息,时序状态信息包括空中目标位置、留空时间、方向和速度等环境交互类信息。如图1所示,可以将问题抽象为2个二部图G1=(Xe, Y, E1)和G2=(Xt, Y, E2);点集Xe={xe1, xe2,⋯, xen},xei表示可能空中目标资源信息组合;Xt={xt1, xt2,⋯,xtl},

 

图1   空中任务预测中二部图示意

 

xt1表示可能空中目标时序环境交互信息组合;Y={y1, y2,⋯, ym},yj表示具体执行的任务;边e1i=(xei, yj)∈E1表示目标资源组合xei执行yj任务可能,边e2i=(xti, yj)∈E2表示目标时序状态xti执行yj任务可能。

 

问题困难主要在以下几个方面:① 空中目标资源组合为开放的。对手在执行推演空中任务规划资源信息时,相关的机型数量组合就没有固定模式。② 空中目标时序环境交互状态也是开放的。对手规划具体空中任务的航线是不定的,空中目标表现时序状态信息也没有固定模式。③ 对抗状态下双方都会想方设法隐藏自身企图,采取各种手段欺骗对方,推演中获得的对手空中目标信息往往是片面的。可见,空中任务预测是指挥人员综合各方面知识,结合目标属性和时序状态信息的高度复杂的思维活动,很难建立明确的映射规则。

2 模型构建

兵棋推演空中任务预测过程,参演指挥人员根据探测的战场态势,反复斟酌各类征候信息,不断挖掘对比历史信息,找到预测空中任务的关键征候信息和征候信息序列,根据征候信息和征候信息序列做出空中任务的正确预判,某种程度上说是将推演态势中不确定性问题的大概率化。

2.1    模型总体框架设计

兵棋推演中参演指挥人员执行空中作战任务,需要动用各种资源,采取一系列行动,这必然会和环境产生交互,释放多种类型信息,通过探测手段能够侦获部分信息,这是兵棋推演空中任务预测的物质信息基础。为便于研究明确几个定义。

定义1 征候信息

能被一方探测手段感知的对手执行空中任务所需资源的固有属性信息,对于∀xei∈Xe一方执行空中任务所需资源组合向量,征候信息表现为机种数量组合,雷达反射面RCS和电磁辐射信号等,通过整合以上信息,同时结合我方重要目标部署,即可初步预测出对手作战意图。为了使研究问题简化,本文在兵棋推演空中任务预测研究中,只考虑侦获的机种组合信息。

定义2 时序征候信息

能被一方探测手段感知的对手执行空中任务所需资源与环境交互表现出的有时序特征的信息,对于∀xt1∈Xt 对手执行空中任务与环境交互表现的时序信息向量,时序征候信息表现为目标在空时间、空间位置、速度、方向等。

 

对手执行相似空中任务时,被探测到的征候信息和时序特征信息会表现出某种相似共现特征,本文采取3种策略学习这种共现特征。

策略1 征候信息权重更新策略

设f1(xe|ω)为根据征候信息对对手空中任务进行预测的模型,ω为通过某种方式随机得到的权重参数,y表示实际执行的任务,根据误差平方和loss的梯度∇(⋅)更新权重参数ω直到满足要求的收敛位置,在学习率为η时,参数更新公式为

(1)

策略2 时序征候信息留存策略

探测到的对手空中任务时序征候信息通常是不完整的,需要采取策略记录这些信息,以便对其空中任务做出正确预测,如图2所示。本文借鉴长短时记忆网络模型的遗忘门、输入门、状态组合门、输出门思想,留存时序征候信息,预判其空中任务。

 

图2   时序征候信息留存示意

策略3 综合预测权重参数更新

如图3所示,综合预测权重是对策略1和2学习经验的综合,设f((xe, xt)|θ) 根据综合预测信息进行对手空中任务预测的模型,θ 为通过某种方式随机得到的权重参数,y 表示实际执行的任务,根据误差平方和交叉熵的梯度∇(⋅) 更新权重参数θ直到满足要求的收敛位置,在学习率为η 时,参数更新公式为

(2)

图3   综合预测权重参数更新示意

2.2  基于MLP网络的征候信息权重更新

兵棋推演空中任务预测算法,主要设想从对手目标资源属性信息Xe={xe1, xe2,⋯, xen} 出发,使用前馈神经网络学出初级特征分类器f=f*(xe) 映射为f(xe|ω) ,或者,通过前馈神经网络训练学习参数ω来得到模型基特征分类器f*(xe)。

 

在模型整体网络设计方面,将资源属性信息xexe,如机型、数量等,从输入端流入,经过中间计算,从输出端得到yy。中间计算以网络形式进行,表示为几个函数组合。假设有5个链式相连的函数f(1),f(2),f(3),f(4),f(5),其中,f=f(5)(f(4)(f(3)(f(2)(f(1)(xe)))))。训练目标是输出f(x) 与f*(xe) 或y尽可能一致。

 

网络结构计算方面,以一个计算节点为例,主要由2部分组成:① 对输入元素资源属性xe={xe1, xe2,⋯, xen} 进行线性加权求和并加上偏置项b;② 通过激活函数传递前一步获得的值。令b 为偏置项,α(⋅) 为激活函数,则网络第1层计算数学公式可以表示为

(3)

中间层计算方面,假设神经网络第k层有nk个节点,本层输出表示为h(k),其中代表输出第i个元素,表示偏置项,表示之间的权重参数,则第k+1的第j 元素的计算公式为

(4)

在激活函数α(⋅)方面,采用线性整流函数ReLU=max{0, z},当输入为负值时输出为0,当输入为正值时输出为本身。采用线性整流函数主要为了提高梯度计算效率。

 

在输出与损失函数方面,考虑到兵棋推演空中任务预测是典型离散多分类问题,假设z为经过神经网络计算输出的n维向量,使用Softmax函数将z转换为相关离散概率分布,令zi表示向量z的第i元素,表示Softmax函数第i元素,具体公式为

(5)

得到预测值后,使用交叉商计算实际标签与预测标签之间的差别,计算公式为

(6)

2.3  基于LSTM时序征候信息留存

针对对手执行空中任务表现出时序征候信息Xt={xt1, xt2,⋯, xtm},本文设计长短时记忆(long short-term memory, LSTMLSTM)网络模型,用于留存时序征候信息。LSTMLSTM模型在传统RNN基础上的改进,引入一组门单元控制信息流,既可以防止梯度消失或梯度爆炸,又能有效克服传统RNN在训练时的问题,其核心控制模块如图2所示,C(ti−1)是信息流序列单元状态,H(ti−1)是隐藏状态。

LSTMLSTM对时序征候信息计算过程,主要有4步:

step 1:由遗忘门决定那些时序征候信息被丢弃。假设先前隐藏状态h(ti−1)和新输入xt,遗忘门可表示为

(7)

式中:Wf 和Uf为参数;bf为偏差项;σ为sigmoid函数,控制如何丢弃C(ti−1)信息。

step 2:由输入门决定新输入时序征候信息xtixti中那些信息存储在新状态单元中,其表达式如下:

(8)

xti经过神经网络处理后生成候选值生成过程表示为

(9)

step 3:组合旧单元状态C(ti−1)和候选单元状态,生成新单元状态Cti,该过程可描述为

(10)

⨀表示Hadamard乘积[9],也就是逐元素相乘。

step 4:基于更新的单元状态Cti和输出门生成新的隐藏状态hti 。其中输出门为

(11)

新的隐藏状态hti 生成方式为

(12)

在此基础上,构建LSTM网络,仿照前馈神经网络公式(5)和(6),求各分类的相关离散分布和交叉商。

(13)

2.4   智能组合预测算法

在前述2个模型基础上,设计综合兵棋推演空中任务预测模型。由式(6)产生对手空中目标资源属性征候信息与作战任务或意图的关联关系评价指标——实际标签与预测标签之间的差别交叉商[10]score1;由式(13)产生战场敌目标时序征候信息与作战任务或意图关联关系评价指标——交叉商score2。为了将第一阶段学习成果score1和score2组合起来,利用式(14)、(15)得出初始综合评价指标score,其中0≤α≤1为模型超参,然后,利用该评价指标score进行前馈神经网络模型学习。

score=score1⋅α+score2⋅(1−α)

(14)

score=ln (score)

(15)

经过以上模型训练,产生预测结果矩阵,根据结果进行概率统计,本文关注平均命中准确率和首次命中概率hit@1,前2次命中概率hit@2,以及前3次命中概率hit@3。为了防止学习模型过拟合,采取了2种策略:①设置最大训练次epoch限制;②设置评价指标score限制。当训练模型满足指标限制时退出训练,算法如下。

 

Input:训练集合Xe={xe1, xe2,⋯, xen},Xt={xt1, xt2,⋯, xtm};标签集Y={y1, y2,⋯, yn};学习率μ;最小误差限制δ;固定模型超级参数θ;模型学习参数W0,总训练次数限制epochmax。

Output:模型学习到的参数W

1) for

每个参数W0 in模型参数W0设置W0

2) 计算

3 实验分析

3.1    数据来源

实验数据来源于5场基于特定想定背景的兵棋系统演习的推演数据。主要提取推演过程中,某一具体空中目标执行作战任务相关数据,如目标雷达反射面RCS和电磁辐射信号等机型组合相关的资源属性信息,以及在空时间、空间位置、速度、方向等与环境交互相关时序特征信息等24个维度相关信息。为确保实验可行,依据兵棋推演数据特点、模型计算要求[11],以及研究人员认知经验,主要采集作战时间、蓝方空中目标ID、实体属性、经纬度、方向角和作战任务等6个维度数据,然后进行统一编码和归一化处理,在此基础上构建数据样本集(40 214条),部分整理后数据如表1所示。然后按照训练测试比85% : 15%的比例,在综合考虑时间效率基础上,对整个数据样本集进行16次独立随机划分,产生16组训练测试集合,用于智能组合学习模型训练测试。

 

表1   部分整理后采集数据样本

数据清洗方面,针对采集数据可能存在的缺失、冗余等情况,利用经验知识对数据进行补充与平滑处理,删除冗余数据。

数据变换方面,根据模型需要,对采集数据进行编码,利用下式对相应数据进行归一化处理。

(16)

式中:max和min分别表示该维度的最大最小值;δ为一个极小数,防止分母为0。

3.2   收敛性能分析

采用torch的n方法,构建了长短时记忆网络LSTM学习模型和前馈深度学习模型,以及特征判别综合前馈深度学习模型,然后用训练集和测试集对模型进行了训练测试,训练模型超参设置如下:

batch_size=600;learning_rate=0.001;

in_dim_attr=6;n_hidden_1=64;

num_layers=2;n_hidden_2=128;

out_dim=13;n_hidden_3=256;

in_dim_copy=2;n_hidden_4=128;

regularization=0.01;n_hidden_5=64;

device=CPU;n_epochs=1 000;

训练总次数最大限制在1 000次,训练评价指标交叉商b_loss不小于0.032,基分类器权重为0,0.3,0.5,0.7,1时,其中5组数据训练收敛效果如图4~8所示。

图4   第1组数据训练收敛情况

 

图5   第2组数据训练收敛情况

 

图6   第3组数据训练收敛情况

 

图7   第4组数据训练收敛情况

 

图8   第5组数据训练收敛情况

 

通过对比分析不难看出,本文设计的模型收敛性很好,模型训练一般不超过500次就能很好收敛,再者权重α能很好控制过拟合,在α接近为0或者接近为1时,模型容易产生过拟合,α在区间[0.3, 0.7]范围时,控制过拟合和收敛性方面都表现不错。

 

图9   α=0时测试结果

 

图10   α=0.3时测试结果

 

图11   α=0.5时测试结果

 

3.3   测试结果分析

分别针对α为0,0.3,0.5,0.7,1时,基于16组数据训练的模型进行测试,结果如图9~13所示。

 

图12   α=0.7时测试结果

 

图13   α=1时测试结果

 

综合分析图9~13可以看出,α值分别为不同值时模型命中概率Mrrs和hits@1在α=0和0.3时表现偏好,说明基模型分类指标score1属性在模型预测敌目标空中任务方面比重更高些;α=0.3和0.7时命中概率Mrrs和hits@1的振幅偏小,说明通过调和score1和score2值,模型在预测敌目标空中任务方面泛化性更平滑;hits@2和hits@3在α=0.7时表现更好,说明在α=0.7时能进行战场敌空中任务预测时,预测结果矩阵在第1次没有命中目标时,第2次基本能命中目标,这基本能满足战场指挥员对战场敌目标空中任务预测的辅助判断需求,即具有准确性要求,又能充分发挥指挥人员的能动性。

4 结论

兵棋推演空中任务预测是一项高度对抗的复杂思维活动,需要综合分析空中目标资源属性征候信息和环境交互时序征候信息。针对这2类信息,本文设计了基于MLP网络的征候信息权重更新和基于LSTM时序征候信息留存2种策略,在此基础上,根据交叉熵设计了综合智能预测算法。实验结果表明,本文提的基于兵棋推演的敌空中任务智能预测学习模型,在提高学习效率和防止过拟合方面都有很好表现,能够较准确的对对手空中任务进行预测,初步具备了辅助战役层级参演指挥人员预判对手空中任务的信息需求。如何综合运用这些判断信息进行战场控制和如何进一步提高模型可靠性,是下一步研究重点。

本文仅用于学习交流,如有侵权,请联系删除 !!

浏览量:0
收藏