Please wait a minute...
空天防御  2025, Vol. 8 Issue (4): 94-103    
0
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于近端策略优化的多弹协同围捕机动目标制导控制方法
张婉滢1, 司马珂2, 张育禾3, 孟健3, 杨振3, 周德云3
1. 西北工业大学 微电子学院,陕西 西安 710072; 2. 上海机电工程研究所,上海 201109; 3. 西北工业大学 电子信息学院,陕西 西安 710072
The Guidance and Control Method of Multi-Missile Cooperative Encirclement of Maneuvering Targets Based on Proximal Policy Optimization
ZHANG Wanying1, SIMA Ke2, ZHANG Yuhe3, MENG Jian3, YANG Zhen3, ZHOU Deyun3
1. College of Microelectronics, Northwestern Polytechnical University, Xi’an 710072, Shaanxi, China; 2. Shanghai Electro-Mechanical Engineering Institute, Shanghai 201109, China; 3. College of Electronics and Information, Northwestern Polytechnical University, Xi’an 710072, Shaanxi, China
全文: PDF(4210 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 针对三维空间下多枚导弹对一机动目标的协同围捕问题,提出一种基于近端策略优化算法的攻击时间协同制导方法。首先,基于增广比例导引律设计攻击时间协同制导律的模型,改进协同制导时间误差项;其次,对马尔可夫决策过程的状态空间模型及动作空间模型进行设计,并将奖励函数构造为稠密奖励和稀疏奖励相结合的变步长奖励模型;然后,利用近端策略优化算法对协同制导模型进行训练,将制导的状态信息映射为协同制导律;最后,通过构建多弹协同围捕场景,证实该协同制导方法可以实现无模型、端到端的攻击时间协同打击效果,并通过蒙特卡罗实验验证了其在干扰环境下的制导鲁棒性。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 多弹协同制导律强化学习近端策略优化变步长奖励函数    
Abstract:To resolve cooperative encirclement by multiple missiles against a manoeuvring target in three-dimensional space, this study proposed an impact-time-control cooperative guidance using proximal policy optimisation (PPO). Firstly, the impact-time-control cooperative guidance model was constructed based on the extended proportional guidance, and the cooperative guidance time error term was improved. Then, the state and action space models for the Markov Decision Process were designed, and the reward function was constructed as a variable-step model combining dense and sparse rewards. The cooperative guidance model was trained using PPO, mapping the guidance state information to the cooperative guidance law. Finally, a multiple-missile cooperative encirclement scenario was established, showcasing the cooperative guidance's ability to achieve model-free, end-to-end coordinated attack timing. Monte Carlo experiments further verified the robustness of its guidance in disturbed environments.
Key wordsmulti-missile coordination    guidance law    reinforcement learning    proximal policy optimization    variable step size reward function
收稿日期: 2025-04-27      出版日期: 2025-09-10
ZTFLH:  V 448  
基金资助:国家自然科学基金项目(52502515);航空科学基金项目(2022Z023053001);陕西省重点研发计划项目(2024GX-YBXM-115)
作者简介: 张婉滢(2001—),女,硕士研究生。
引用本文:   
张婉滢, 司马珂, 张育禾, 孟健, 杨振, 周德云. 基于近端策略优化的多弹协同围捕机动目标制导控制方法[J]. 空天防御, 2025, 8(4): 94-103.
ZHANG Wanying, SIMA Ke, ZHANG Yuhe, MENG Jian, YANG Zhen, ZHOU Deyun. The Guidance and Control Method of Multi-Missile Cooperative Encirclement of Maneuvering Targets Based on Proximal Policy Optimization. Air & Space Defense, 2025, 8(4): 94-103.
链接本文:  
https://www.qk.sjtu.edu.cn/ktfy/CN/      或      https://www.qk.sjtu.edu.cn/ktfy/CN/Y2025/V8/I4/94

参考文献
[1] 陈实, 杨林森, 刘艺洪, 罗欢, 臧天磊, 周步祥. 小样本数据驱动模式下的新建微电网优化调度策略[J]. 上海交通大学学报, 2025, 59(6): 732-745.
[2] 王志博, 呼卫军, 马先龙, 全家乐, 周皓宇. 感知驱动控制的无人机拦截碰撞技术[J]. 空天防御, 2025, 8(4): 78-84.
[3] 杜君南, 帅逸仙, 陈顶, 汪敏, 周金鹏. 基于约束强化学习的海上编队探测节点协同部署算法[J]. 空天防御, 2025, 8(3): 95-103.
[4] 李奕佳, 李嘉诺, 柯良军. 基于强化学习的无人机协作防守策略设计与验证[J]. 空天防御, 2025, 8(3): 73-85.
[5] 周文杰, 付昱龙, 郭相科, 戚玉涛, 张海宾. 基于博弈树与数字平行战场的空战决策方法[J]. 空天防御, 2025, 8(3): 50-58.
[6] 赵莹莹, 仇越, 朱天晨, 李凡, 苏运, 邰振赢, 孙庆赟, 凡航. 基于分层强化学习的新型电力系统在线稳态调度[J]. 上海交通大学学报, 2025, 59(3): 400-412.
[7] 张雨格, 耿建强, 杨光宇, 朱苏朋, 侯振乾, 符文星. 基于IMM-SRCKF对机动目标的多弹协同被动定位算法[J]. 空天防御, 2025, 8(2): 58-65.
[8] 杨映荷, 魏汉迪, 范迪夏, 李昂. 基于高斯过程回归和深度强化学习的水下扑翼推进性能寻优方法[J]. 上海交通大学学报, 2025, 59(1): 70-78.
[9] 刘华华, 王青. 基于强化学习的多飞行器目标分配方法[J]. 空天防御, 2024, 7(5): 65-72.
[10] 周毅, 周良才, 史迪, 赵小英, 闪鑫. 基于安全深度强化学习的电网有功频率协同优化控制[J]. 上海交通大学学报, 2024, 58(5): 682-692.
[11] 董玉博1, 崔涛1, 周禹帆1, 宋勋2, 祝月2, 董鹏1. 基于长周期极坐标系追击问题的多智能体强化学习奖赏函数设计方法[J]. J Shanghai Jiaotong Univ Sci, 2024, 29(4): 646-655.
[12] 李舒逸, 李旻哲, 敬忠良. 动态环境下基于改进DQN的多智能体路径规划方法[J]. J Shanghai Jiaotong Univ Sci, 2024, 29(4): 601-612.
[13] 熊婧伊, 呼卫军, 殷玮, 张伟杰, 颜涛. 多弹集群协同优化决策算法研究[J]. 空天防御, 2024, 7(3): 86-93.
[14] 赵英策1,张广浩2,邢正宇2,李建勋2. 面向确定进攻对手策略的层次强化学习对抗算法研究[J]. J Shanghai Jiaotong Univ Sci, 2024, 29(3): 471-479.
[15] 苗镇华1, 黄文焘2, 张依恋3, 范勤勤1. 基于深度强化学习的多模态多目标多机器人任务分配算法[J]. J Shanghai Jiaotong Univ Sci, 2024, 29(3): 377-387.
沪ICP备15013849号-1
版权所有 © 2017《空天防御》编辑部
主管单位:中国航天科技集团有限公司 主办单位:上海机电工程研究所 上海交通大学出版社有限公司