基于近端策略优化的多弹协同围捕机动目标制导控制方法

全文: PDF(4210 KB)
输出: BibTeX | EndNote (RIS)

摘要针对三维空间下多枚导弹对一机动目标的协同围捕问题，提出一种基于近端策略优化算法的攻击时间协同制导方法。首先，基于增广比例导引律设计攻击时间协同制导律的模型，改进协同制导时间误差项；其次，对马尔可夫决策过程的状态空间模型及动作空间模型进行设计，并将奖励函数构造为稠密奖励和稀疏奖励相结合的变步长奖励模型；然后，利用近端策略优化算法对协同制导模型进行训练，将制导的状态信息映射为协同制导律；最后，通过构建多弹协同围捕场景，证实该协同制导方法可以实现无模型、端到端的攻击时间协同打击效果，并通过蒙特卡罗实验验证了其在干扰环境下的制导鲁棒性。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章

关键词 ：多弹协同, 制导律, 强化学习, 近端策略优化, 变步长奖励函数

Abstract：To resolve cooperative encirclement by multiple missiles against a manoeuvring target in three-dimensional space, this study proposed an impact-time-control cooperative guidance using proximal policy optimisation (PPO). Firstly, the impact-time-control cooperative guidance model was constructed based on the extended proportional guidance, and the cooperative guidance time error term was improved. Then, the state and action space models for the Markov Decision Process were designed, and the reward function was constructed as a variable-step model combining dense and sparse rewards. The cooperative guidance model was trained using PPO, mapping the guidance state information to the cooperative guidance law. Finally, a multiple-missile cooperative encirclement scenario was established, showcasing the cooperative guidance's ability to achieve model-free, end-to-end coordinated attack timing. Monte Carlo experiments further verified the robustness of its guidance in disturbed environments.

Key words： multi-missile coordination guidance law reinforcement learning proximal policy optimization variable step size reward function

收稿日期: 2025-04-27 出版日期: 2025-09-10

ZTFLH:

V 448

基金资助:国家自然科学基金项目（52502515）；航空科学基金项目（2022Z023053001）；陕西省重点研发计划项目（2024GX-YBXM-115）

作者简介: 张婉滢（2001—），女，硕士研究生。

引用本文:

张婉滢, 司马珂, 张育禾, 孟健, 杨振, 周德云. 基于近端策略优化的多弹协同围捕机动目标制导控制方法[J]. 空天防御, 2025, 8(4): 94-103.
ZHANG Wanying, SIMA Ke, ZHANG Yuhe, MENG Jian, YANG Zhen, ZHOU Deyun. The Guidance and Control Method of Multi-Missile Cooperative Encirclement of Maneuvering Targets Based on Proximal Policy Optimization. Air & Space Defense, 2025, 8(4): 94-103.

链接本文:

https://www.qk.sjtu.edu.cn/ktfy/CN/ 或 https://www.qk.sjtu.edu.cn/ktfy/CN/Y2025/V8/I4/94

参考文献

[1]	王志博, 呼卫军, 马先龙, 全家乐, 周皓宇. 感知驱动控制的无人机拦截碰撞技术[J]. 空天防御, 2025, 8(4): 78-84.
[2]	周文杰, 付昱龙, 郭相科, 戚玉涛, 张海宾. 基于博弈树与数字平行战场的空战决策方法[J]. 空天防御, 2025, 8(3): 50-58.
[3]	李奕佳, 李嘉诺, 柯良军. 基于强化学习的无人机协作防守策略设计与验证[J]. 空天防御, 2025, 8(3): 73-85.
[4]	杜君南, 帅逸仙, 陈顶, 汪敏, 周金鹏. 基于约束强化学习的海上编队探测节点协同部署算法[J]. 空天防御, 2025, 8(3): 95-103.
[5]	张雨格, 耿建强, 杨光宇, 朱苏朋, 侯振乾, 符文星. 基于IMM-SRCKF对机动目标的多弹协同被动定位算法[J]. 空天防御, 2025, 8(2): 58-65.
[6]	刘华华, 王青. 基于强化学习的多飞行器目标分配方法[J]. 空天防御, 2024, 7(5): 65-72.
[7]	熊婧伊, 呼卫军, 殷玮, 张伟杰, 颜涛. 多弹集群协同优化决策算法研究[J]. 空天防御, 2024, 7(3): 86-93.
[8]	冯振欣, 赵斌, 贾世伟, 顾嘉耀, 郑天宇, 卢青. 大气层外动能拦截器制导控制技术研究进展与展望[J]. 空天防御, 2024, 7(2): 22-28.
[9]	全家乐, 马先龙, 沈昱恒. 基于近端策略动态优化的多智能体编队方法[J]. 空天防御, 2024, 7(2): 52-62.
[10]	郭建国, 胡冠杰, 许新鹏, 刘悦, 曹晋. 基于强化学习的多对多拦截目标分配方法[J]. 空天防御, 2024, 7(1): 24-31.
[11]	王旭, 蔡远利, 张学成, 张荣良, 韩成龙. 基于分层强化学习的低过载比拦截制导律[J]. 空天防御, 2024, 7(1): 40-47.
[12]	马驰, 张国群, 孙俊格, 吕广喆, 张涛. 基于深度强化学习的综合电子系统重构方法[J]. 空天防御, 2024, 7(1): 63-70.
[13]	李梦璇, 郭建国, 许新鹏, 沈昱恒. 基于近端策略优化的制导律设计[J]. 空天防御, 2023, 6(4): 51-57.
[14]	罗统, 张民, 梁承宇. 多无人机协同目标跟踪制导律设计[J]. 空天防御, 2023, 6(3): 113-118.
[15]	孙兴龙, 马克茂, 姜宇, 侯振乾. 临近空间高速目标拦截策略设计[J]. 空天防御, 2022, 5(4): 10-18.