Please wait a minute...
空天防御  2023, Vol. 6 Issue (4): 51-57    
0
  专业技术 本期目录 | 过刊浏览 | 高级检索 |
基于近端策略优化的制导律设计
李梦璇1, 郭建国1, 许新鹏2, 沈昱恒2
1. 西北工业大学 精确制导与控制研究所,陕西 西安 710072; 2.上海机电工程研究所,上海 201109
Guidance Law Based on Proximal Policy Optimization
LI Mengxuan1, GUO Jianguo1, XU Xinpeng2, SHEN Yuheng2
1. Institute of Precision Guidance and Control, Northwestern Polytechnical University, Xi’an 710072, Shaanxi, China;2. Shanghai Electro-Mechanical Engineering Institute, Shanghai 201109, China
全文: PDF(1083 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 制导律设计是拦截系统中的关键问题,常用的变结构制导律在拦截复杂机动目标时制导精度下降,且容易出现抖振。本文提出了一种基于近端策略优化的制导律设计方法,将拦截机动目标的制导问题抽象为马尔科夫决策过程,并设计了能够评价脱靶量和视线角速率抖振的奖励函数。对比实验表明:基于近端策略优化及其输出连续化的制导律拦截效果更加优秀,且能有效抑制滑模制导律中抖振现象,展现出良好的研究前景和潜在的应用价值。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 制导律强化学习滑模控制近端策略优化    
Abstract:The design of guidance law is critical in the interception system. The accuracy of the commonly used variable structure guidance law decreases while intercepting complex manoeuvring targets, and chattering occurs frequently. This paper has proposed a guidance law design method based on near-end strategy optimization. The guidance problem of intercepting manoeuvring targets was abstracted as a Markov decision process, and a reward function evaluating miss distance and line-of-sight angular rate chattering was applied. Comparative experiments show that the interception effect of the guidance law based on near-end strategy optimization and continuous output performs more effectively and can successfully restrain the chattering phenomenon in the sliding mode guidance law, thus providing a significant research prospect and potential application value.
Key wordsguidance law    reinforcement learning    sliding mode control    proximal policy optimization
收稿日期: 2023-07-03      出版日期: 2024-01-09
ZTFLH:  TN 974  
基金资助:国家自然科学基金(61973254);西北工业大学硕士研究生实践创新能力培育基金(PF2023044)
作者简介: 李梦璇(1999—),女,硕士研究生,主要研究方向为飞行器精确制导控制与仿真技术。
引用本文:   
李梦璇, 郭建国, 许新鹏, 沈昱恒. 基于近端策略优化的制导律设计[J]. 空天防御, 2023, 6(4): 51-57.
LI Mengxuan, GUO Jianguo, XU Xinpeng, SHEN Yuheng. Guidance Law Based on Proximal Policy Optimization. Air & Space Defense, 2023, 6(4): 51-57.
链接本文:  
https://www.qk.sjtu.edu.cn/ktfy/CN/      或      https://www.qk.sjtu.edu.cn/ktfy/CN/Y2023/V6/I4/51

参考文献
[1] 王旭, 蔡远利, 张学成, 张荣良, 韩成龙. 基于分层强化学习的低过载比拦截制导律[J]. 空天防御, 2024, 7(1): 40-47.
[2] 郭建国, 胡冠杰, 许新鹏, 刘悦, 曹晋. 基于强化学习的多对多拦截目标分配方法[J]. 空天防御, 2024, 7(1): 24-31.
[3] 马驰, 张国群, 孙俊格, 吕广喆, 张涛. 基于深度强化学习的综合电子系统重构方法[J]. 空天防御, 2024, 7(1): 63-70.
[4] 刘新宇, 王森, 曾龙, 原绍恒, 郝正航, 逯芯妍. 双馈风电场抑制电网低频振荡的自适应附加控制策略[J]. 上海交通大学学报, 2023, 57(9): 1156-1164.
[5] 罗统, 张民, 梁承宇. 多无人机协同目标跟踪制导律设计[J]. 空天防御, 2023, 6(3): 113-118.
[6] 孙婕, 李子昊, 张书宇. 机器学习在化学合成及表征中的应用[J]. 上海交通大学学报, 2023, 57(10): 1231-1244.
[7] 孙兴龙, 马克茂, 姜宇, 侯振乾. 临近空间高速目标拦截策略设计[J]. 空天防御, 2022, 5(4): 10-18.
[8] 刘双喜, 王一冲, 朱梦杰, 李勇, 闫斌斌. 小弹目速度比下拦截高超声速飞行器微分对策制导律研究[J]. 空天防御, 2022, 5(2): 49-57.
[9] 尚熙, 杨革文, 戴少怀, 蒋伊琳. 基于强化学习的一对多雷达干扰资源分配策略研究[J]. 空天防御, 2022, 5(1): 94-101.
[10] 李鹏, 阮晓钢, 朱晓庆, 柴洁, 任顶奇, 刘鹏飞. 基于深度强化学习的区域化视觉导航方法[J]. 上海交通大学学报, 2021, 55(5): 575-585.
[11] 王家琪, 郭建国, 郭宗易, 赵斌. 基于干扰观测器的高马赫数飞行器滑模控制[J]. 空天防御, 2021, 4(3): 85-91.
[12] 何林坤, 张冉, 龚庆海. 基于强化学习的可回收运载火箭着陆制导[J]. 空天防御, 2021, 4(3): 33-40.
[13] 吴光辉, 方东洋, 陈意芬, 李瑞, 邵翔. 基于浸入与不变流形估计器的滑模制导律研究[J]. 空天防御, 2021, 4(1): 91-96.
[14] 张显库, 韩旭. 大型油轮艏摇混沌现象的仿真与滑模控制[J]. 上海交通大学学报, 2021, 55(1): 40-47.
[15] 梅蓉. 森林环境下的无人直升机安全飞行控制[J]. 上海交通大学学报, 2020, 54(9): 994-999.
沪ICP备15013849号-1
版权所有 © 2017《空天防御》编辑部
主管单位:中国航天科技集团有限公司 主办单位:上海机电工程研究所 上海交通大学出版社有限公司