Please wait a minute...
空天防御  2026, Vol. 9 Issue (2): 8-17    
0
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于人工势场法的无人机集群突防博弈研究
王瑞昌1, 石琛2, 张科1, 呼卫军1, 马先龙1
1. 西北工业大学 航天学院,陕西 西安 710072; 2. 上海机电工程研究所,上海 201109
Research on Penetration Games of UAV Swarms Based on the Artificial Potential Field Method
WANG Ruichang1, SHI Chen2, ZHANG Ke1, HU Weijun1, MA Xianlong1
1. School of Astronautics, Northwestern Polytechnical University, Xi'an 710072, Shaanxi, China; 2. Shanghai Electro-Mechanical Engineering Institute, Shanghai 201109, China
全文: PDF(2805 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 针对三维空域内红蓝四旋翼集群多对多零和突防博弈中高维连续决策难以收敛、探索效率低下以及策略鲁棒性欠佳的问题,本文提出一种融合人工势场先验与对手策略预测的多智能体深度确定性策略梯度算法(MADDPG)求解框架。首先,将无人机三自由度运动学嵌入完全信息微分博弈,设计“任务-威胁-协同”三阶收益,并引入势场可微势能,把稀疏终端奖励转化为稠密梯度信号,实现“趋利避害”先验的显式表征;其次,构建势场引导的混合探索,在线以势能方向调制奥恩斯坦-乌伦贝克过程(OU)噪声,离线以势场正则平滑目标Q值,提升样本利用率并抑制过估计;最后,集成轻量化对手策略预测器,在Actor梯度中引入元博弈项,使红方策略更新时即最小化对手预期收益,主动破坏敌方决策一致性,加速逼近纳什均衡。仿真结果表明,本文所提方法在2V2与4V4密集对抗中胜率稳定超过90%,系统诱导蓝方产生冗余加速度与能量耗散,持续撕开时空间隔完成无碰撞突防,显著优于无预测的MADDPG,验证了框架在多对多零和博弈中的可扩展性、实时性与鲁棒性。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 人工势场多对多零和突防博弈强化学习策略预测    
Abstract:Targeting the challenges of high-dimensional continuous decision non-convergence, low exploration efficiency, and insufficient policy robustness in multi-to-multi red-blue quadrotor swarm zero-sum penetration games within three-dimensional airspace, this paper proposes a Multi-Agent Deep Deterministic Policy Gradient (MADDPG) solution framework integrating artificial potential field priors with opponent strategy prediction. First, the three-degree-of-freedom UAV kinematics are embedded into a complete-information differential game, designing a "mission-threat-cooperation" three-tier reward structure, and introducing differentiable potential field energy to transform sparse terminal rewards into dense gradient signals, achieving explicit representation of the "seeking-advantage-avoiding-disadvantage" prior. Second, a potential field-guided hybrid exploration mechanism is constructed, online modulating Ornstein-Uhlenbeck process (OU) noise using potential energy directions, and offline smoothing target Q-values with potential field regularization, improving sample utilization and suppressing overestimation. Furthermore, a lightweight opponent strategy predictor is integrated, introducing a meta-game term into the Actor gradient, enabling red-team policy updates to simultaneously minimize opponent expected payoffs, proactively disrupting enemy decision consistency and accelerating convergence to Nash equilibrium. Simulation results demonstrate that the proposed method achieves stable win rates exceeding 90% in 2v2 and 4v4 dense confrontations, systematically induces blue team to generate redundant accelerations and energy dissipation, continuously creates spatial-temporal gaps to complete collision-free penetration, significantly outperforming MADDPG without prediction, validating the framework's scalability, real-time performance, and robustness in multi-to-multi zero-sum games.
Key wordsartificial potential field    many-versus-many zero-sum penetration game    reinforcement learning    policy prediction
收稿日期: 2025-11-29      出版日期: 2026-05-06
ZTFLH:  V 279  
基金资助:中国航天科技集团有限公司上海航天科技创新基金项目(SAST2022-006)
通讯作者: 张科(1968—),男,博士,教授。   
作者简介: 王瑞昌(1999—),男,博士研究生。
引用本文:   
王瑞昌, 石琛, 张科, 呼卫军, 马先龙. 基于人工势场法的无人机集群突防博弈研究[J]. 空天防御, 2026, 9(2): 8-17.
WANG Ruichang, SHI Chen, ZHANG Ke, HU Weijun, MA Xianlong. Research on Penetration Games of UAV Swarms Based on the Artificial Potential Field Method. Air & Space Defense, 2026, 9(2): 8-17.
链接本文:  
https://www.qk.sjtu.edu.cn/ktfy/CN/      或      https://www.qk.sjtu.edu.cn/ktfy/CN/Y2026/V9/I2/8

参考文献
[1] 袁景美, 赵亮, 孙卓然, 徐志朝, 牛亚雷. 基于深度强化学习的导航信号自适应干扰决策方法[J]. 空天防御, 2026, 9(2): 41-52.
[2] . 触觉辅助导航车辆:增强盲区和透明物体场景中的障碍物检测[J]. J Shanghai Jiaotong Univ Sci, 2026, 31(1): 167-175.
[3] . 融合鸟瞰图特征的模仿与强化学习自动驾驶规划方法[J]. J Shanghai Jiaotong Univ Sci, 2026, 31(1): 154-166.
[4] . 基于李雅普诺夫奖励塑造的移动机器人自适应LSAC-PID控制方法[J]. J Shanghai Jiaotong Univ Sci, 2025, 30(6): 1085-1102.
[5] 陈实, 杨林森, 刘艺洪, 罗欢, 臧天磊, 周步祥. 小样本数据驱动模式下的新建微电网优化调度策略[J]. 上海交通大学学报, 2025, 59(6): 732-745.
[6] . 使用课程学习的动态布料折叠[J]. J Shanghai Jiaotong Univ Sci, 2025, 30(5): 988-997.
[7] 张婉滢, 司马珂, 张育禾, 孟健, 杨振, 周德云. 基于近端策略优化的多弹协同围捕机动目标制导控制方法[J]. 空天防御, 2025, 8(4): 94-103.
[8] 王志博, 呼卫军, 马先龙, 全家乐, 周皓宇. 感知驱动控制的无人机拦截碰撞技术[J]. 空天防御, 2025, 8(4): 78-84.
[9] 赵莹莹, 仇越, 朱天晨, 李凡, 苏运, 邰振赢, 孙庆赟, 凡航. 基于分层强化学习的新型电力系统在线稳态调度[J]. 上海交通大学学报, 2025, 59(3): 400-412.
[10] 王博, 王磊, 蒋玮东. 能量感知型A*与人工势场混合算法在自主浮标路径避碰规划中的应用[J]. 海洋工程装备与技术, 2025, 12(3): 102-111.
[11] 杜君南, 帅逸仙, 陈顶, 汪敏, 周金鹏. 基于约束强化学习的海上编队探测节点协同部署算法[J]. 空天防御, 2025, 8(3): 95-103.
[12] 李奕佳, 李嘉诺, 柯良军. 基于强化学习的无人机协作防守策略设计与验证[J]. 空天防御, 2025, 8(3): 73-85.
[13] 周文杰, 付昱龙, 郭相科, 戚玉涛, 张海宾. 基于博弈树与数字平行战场的空战决策方法[J]. 空天防御, 2025, 8(3): 50-58.
[14] 刘雁行, 乔如妤, 梁楠, 陈宇, 于凯, 吴汉霄. 基于负荷准线和深度强化学习的含电动汽车集群系统新能源消纳策略[J]. 上海交通大学学报, 2025, 59(10): 1464-1475.
[15] 杨映荷, 魏汉迪, 范迪夏, 李昂. 基于高斯过程回归和深度强化学习的水下扑翼推进性能寻优方法[J]. 上海交通大学学报, 2025, 59(1): 70-78.
沪ICP备15013849号-1
版权所有 © 2017《空天防御》编辑部
主管单位:中国航天科技集团有限公司 主办单位:上海机电工程研究所 上海交通大学出版社有限公司