【RL+干扰】基于分层多Agent强化学习的协同干扰智能决策方法【附代码】

作品简介
微信公众号:EW Frontier
关注可了解更多的雷达、通信、人工智能相关代码。问题或建议,请公众号留言;
如果你觉得EW Frontier对你有帮助,欢迎加入我的知识星球或面包多,更多代码等你来学
知识星球:https://wx.zsxq.com/dweb2/index/group/15552518881412
面包多:https://mbd.pub/o/author-a2mYl2tsbA==/work
QQ交流群:729981694
如有侵权请联系删除~
图片

摘要

针对认知电子战中针对频率捷变和频率分集的智能协同干扰策略决策问题,提出了基于分层多智能体强化学习的智能协同干扰策略决策方法。利用多智能体马尔可夫决策过程(MDP)构建了多干扰机协同决策过程。建立了协同干扰频域决策模型。介绍了分层强化学习(HRL)的设计思想。为了寻找最优策略,采用了和树结构的基于优先级经验重放的双深度Q网络(PER-DDQN)优化方法。对基于PER-DDQN的FD-CJDM模型进行了性能仿真。仿真结果表明,所提出的PER-DDQN方法在动作估计方面明显上级深度Q网络(DQN)方法,且收敛速度快于双深度Q网络(DDQN)方法。此外,本文提出的协同干扰智能决策方法能够根据实时探测到的雷达威胁的先后顺序,制定出频域参数决策策略,有效地实现了频域智能决策的设计。

引言

随着电子攻防对抗技术的迅速发展,认知电子战结合人工智能技术逐渐向智能化、网络化的特点转变[1],并已成为现代电子对抗战争[2]、[3]的主要形式。认知电子战主要包括认知雷达对抗和认知通信对抗[4]、[5]。它侧重于自主交互环境学习和动态智能对抗。智能干扰决策是认知对抗系统的核心。它可以根据战场情况动态制定最佳干扰策略。在干扰资源有限的情况下,可以有效提高干扰成功率[6]。目前,专家学者们大多采用强化学习(RL)的相关方法,提出了一些有效的干扰决策智能技术[7]。该方法可以快速、准确地为指挥员提供辅助决策,甚至可以应用于无人机作战平台。RL是一种机器学习理论,它不需要先验知识,Agent通过与环境的交互训练,使数值最大化。与传统的基于模板匹配[8]、博弈论[9]和推理[10]的干扰决策方法相比,进一步提高了方法的灵活性和实时性。更有利于解决战场条件下多维、大空间、小样本的决策问题[11]。

Zhang等研究了一种多功能雷达认知干扰决策系统[12]。分析了RL和DRL的基本原理及其在认知干扰决策系统中的应用。Zhuansun等人研究了认知干扰下的学徒学习。仿真结果表明,在一些已知的电子战环境下,学徒学习学习干扰策略是可行和现实的[13]。Tian等提出了一种基于DQN的认知雷达对抗方法,用于优化多信号共存场景下的目标跟踪性能[14]。实验证明,RL具有较强的自主性和适应性,能够解决此类问题。但是,研究主要是基于敌方雷达工作状态的变化。具体而言,从干扰样式入手,通过建立雷达方与干扰方的对抗模型,寻求最佳策略。而干扰决策不仅仅是物理层的方式,从多维度的综合决策中可以有效发挥智能干扰的优势。

频域作为重要的信号特征域,是雷达干扰的重要切入点,波形设计是干扰对抗的重要立足点[15],[16]。特别是频率捷变、频率分集等雷达抗干扰技术的出现。一方面,频率捷变采用脉间宽带跳变,速度极快,难以被干扰机跟踪[17];另一方面,频率分集由于辐射的载波频率不同,可以同时在多个载波频率上发射信号[18]。因此,窄带频率瞄准干扰和欺骗转发干扰难以快速跟踪,宽带阻塞干扰由于干扰功率谱密度的降低,仍然不能达到很好的干扰效果[19],如何优化干扰资源的分配,以较少的干扰兵力达到最佳的干扰效果,并且在不过多占用电磁频谱资源的同时,节省干扰信号的发射功率,是目前亟待解决的问题.雷达频域抗干扰措施下的智能频域干扰资源决策研究具有重要意义。

在解决频域参数智能决策问题时,战场条件下目标多、频率分布复杂多变。随着解的数量呈指数级增长,计算量令人难以忍受。面对求解大量目标的问题,传统的强化学习通过查Q表的方式大大降低了决策效率,不利于战场的实际环境需求。深度强化学习在先验知识很少或没有先验知识的情况下,通过交互式学习给出最优决策结果。在神经网络的拟合下输出行动计划。同时,所确定的干扰动作具有一个以上的参数,将多个参数组合作为动作策略的输出。沿着干扰动作数量的增加,深度强化学习在效率上的优势凸显

Li等提出了一种基于分层深度强化学习的抗干扰频率决策算法[20]。该算法根据分层强化学习的思想来确定通信频率。该方法的优点是可以避免未知干扰模式的干扰。Kulkarni等提出了一种基于Bootstrap专家轨迹和HRL的干扰资源分配决策算法[21]。该方法可以根据干扰目标的优先级顺序,以最小的干扰带宽达到最佳的干扰效果。Zhang等人将MARL的思想应用于多用户抗干扰信道接入问题[22],利用马尔可夫博弈框架对该问题进行分析,提出了一种基于RL的多用户协同抗干扰信道选择算法,可以获得最优的抗干扰策略。Wang等人提出了一种基于多智能体深度强化学习(MADRL)的协同分布式计算与分析机制[23]。仿真结果显示,MADRL方法的引入降低了网络中单跳数据包的时延,提高了系统的性能。全球网络资源分配的公平性。Xu等人将基于价值分解的MARL引入多任务和多智能体环境,以解决智能交通系统中的车辆应用问题[24]。

本文的主要贡献可概括为:

·提出了一种基于分层强化学习的多智能体协同频域决策方法。将全局频域干扰任务分解为多个子任务,有效地解决了大干扰作用空间和雷达状态空间下的干扰决策问题,提高了干扰效率。

·提出了一种基于PER-DDQN的频域多智能体干扰资源分配方法。通过优先级经验重放优化智能体的干扰决策过程。与DQN和DDQN相比,该算法在动作估计和收敛速度方面有了显著的提高。

文章插图

图片

图1.多对多雷达认知对抗典型场景图。

图片

图2.基于集中式学习范式的完全协作多智能体强化学习任务。

图片

图3.分层强化学习。

图片

图4.FD-CJDM的框架。

图片

图5.和树的结构。

图片

图6.频点的分布情况。(a)探测到的四个雷达频点的分布范围。(b)放大后的频率分布为9.5GHz ~ 9.6GHz。(c)进一步详细显示频率分布。

图片

图7.训练后单次干扰的实施过程。(a)五个干扰舱的训练效果。(b)六个干扰舱的训练效果。(c)七个干扰舱的训练效果。(d)八个干扰舱的训练效果。

图片

图8。整个培训过程的培训效果。(a)五个干扰舱的训练效果。(b)六个干扰舱的训练效果。(c)七个干扰舱的训练效果。(d)八个干扰舱的训练效果。

图片

图9。比较了DDQN和DQN的高估性能。

图片

图10.算法中损失值的比较。(a)以DQN为单位的损失值。(b)以DDQN为单位的损失值。

图片

图11.拟合曲线的趋势比较。(a)DQN中损耗值的拟合曲线。(b)DDQN中损耗值的拟合曲线。

图片

图12.算法中损失值的比较。(a)以DDQN为单位的损失值。(b)以PER-DDQN为单位的损失值。

图片

图13.算法中累积Q值的比较。(a)DDQN中每个选定操作的累积Q值。(b)PER-DDQN中每个所选操作的累积Q值。

结论

在干扰资源有限的约束下,以尽可能少的干扰资源优先干扰威胁等级高的目标。提出了一种基于分层多智能体强化学习的协同干扰智能策略决策方法。构建了基于集中式学习范式的多Agent MDP的FD-CJDM模型。根据HRL的思想,有效地解决了决策系统的维数灾难问题。为了加快算法的收敛速度,采用和树结构对PER DDQN算法进行了优化。从理论上讲,所提出的干扰智能策略决策方法可以适用于几乎所有的干扰代理在频段和带宽参数上的资源分配问题,无论是单一资源分配还是集中式多资源分配,无论是针对单雷达系统还是多目标雷达组网。该方法通过优化可以避免复杂的大动作空间,具有较强的适用性。

限面包多


创作时间: