Please wait a minute...
空天防御  2021, Vol. 4 Issue (3): 17-23    
0
  智能技术空天防御应用专栏 本期目录 | 过刊浏览 | 高级检索 |
基于深度Q网络的改进RRT路径规划算法
李昭莹1, 欧一鸣2, 石若凌1
1. 北京航空航天大学 宇航学院,北京  100191; 2.哈尔滨工业大学(深圳) 机电工程与自动化学院, 广东 深圳  518055
Improved RRT Path Planning Algorithm Based on Deep Q-network
LI Zhaoying1, OU Yiming2, SHI Ruoling1
1. School of Astronautics, Beihang University, Beijing 100191, China; 2. Department of Mechanical Engineering and Automation, Harbin Institute of Technology, Shenzhen 518055, Guangdong, China
全文: PDF(1691 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 针对快速搜索随机树(rapidly-exploring random tree,RRT)路径规划算法存在的随机性大、搜索效率低等问题,结合强化学习可根据先验知识选择策略的特点,提出了一种基于深度Q网络(deep Q-network, DQN)的改进RRT优化算法。首先设计复数域变步长的避障策略,并建立RRT算法中随机树生长的马尔科夫决策过程(Markov decision process, MDP)模型;然后将避障策略和MDP模型接入RRT-Connect算法的接口,并设计训练和路径规划的具体流程;最后在MATLAB软件平台上进行仿真实验。仿真结果表明,改进后的基于深度Q网络的RRT-Connect算法(DQN-RRT-C)在快速性和搜索效率上有显著提高。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 快速搜索随机树深度Q网络路径规划马尔科夫决策过程    
Abstract:Aiming at the problems of large randomness and low search efficiency of rapid exploring random tree (RRT) path planning algorithm, combined with the characteristics that reinforcement learning can select strategies according to prior knowledge, an improved RRT optimization algorithm based on deep Q-network (DQN) is proposed. Firstly, the obstacle avoidance strategy with variable step in complex domain is designed, and the Markov decision process (MDP) model of random tree growth in RRT algorithm is established. Then, the obstacle avoidance strategy and MDP model are connected to the interface of RRT-Connect algorithm, and the specific process of training and path planning is designed. Finally, the simulation experiment is carried out on the MATLAB software platform. The simulation results show that the improved RRT-Connect algorithm based on deep Q-network (DQN-RRT-C) has a significant improvement in rapidity and search efficiency.
Key wordsrapidly-exploring random tree(RRT)    deep Q-network    path planning    Markov decision process(MDP)
收稿日期: 2021-07-13      出版日期: 2021-09-06
ZTFLH:  TP18  
基金资助:分布式电推进飞行器控制技术湖南省重点实验室(2020TP1017)
作者简介: 李昭莹(1983—),女,博士,讲师,主要研究方向为飞行器姿态控制与航迹规划技术。
引用本文:   
李昭莹, 欧一鸣, 石若凌. 基于深度Q网络的改进RRT路径规划算法[J]. 空天防御, 2021, 4(3): 17-23.
LI Zhaoying, OU Yiming, SHI Ruoling. Improved RRT Path Planning Algorithm Based on Deep Q-network. Air & Space Defense, 2021, 4(3): 17-23.
链接本文:  
https://www.qk.sjtu.edu.cn/ktfy/CN/      或      https://www.qk.sjtu.edu.cn/ktfy/CN/Y2021/V4/I3/17

参考文献
[1] 郭建国, 胡冠杰, 许新鹏, 刘悦, 曹晋. 基于强化学习的多对多拦截目标分配方法[J]. 空天防御, 2024, 7(1): 24-31.
[2] 董德金, 范云锋, 蔡云泽. 一种具有必经点约束的非结构化环境路径规划方法[J]. 空天防御, 2024, 7(1): 71-80.
[3] 黄鹤, 高永博, 茹锋, 杨澜, 王会峰. 基于自适应黏菌算法优化的无人机三维路径规划[J]. 上海交通大学学报, 2023, 57(10): 1282-1291.
[4] 裘柯钧, 鲍中凯, 陈璐. 民用客机总装车间自动引导车任务分配及路径规划[J]. 上海交通大学学报, 2023, 57(1): 93-102.
[5] . 基于栅格图特征点提取下的蚁群算法路径规划[J]. J Shanghai Jiaotong Univ Sci, 2023, 28(1): 86-99.
[6] 刘亚辉, 申兴旺, 顾星海, 彭涛, 鲍劲松, 张丹. 面向柔性作业车间动态调度的双系统强化学习方法[J]. 上海交通大学学报, 2022, 56(9): 1262-1275.
[7] 陈禹伊, 陈璐. 车辆路径规划问题的逆向优化方法[J]. 上海交通大学学报, 2022, 56(1): 81-88.
[8] 田雪雁, 王孟雅, 潘尔顺. 基于马尔科夫决策过程的带缓存双机系统不完美维护策略[J]. 上海交通大学学报, 2021, 55(4): 480-488.
[9] 李征, 陈建伟, 彭博. 基于伪谱法的无人机集群飞行路径规划[J]. 空天防御, 2021, 4(1): 52-59.
[10] 刘洋,陈璐. 养护车辆路径规划的鲁棒性优化方法[J]. 上海交通大学学报(自然版), 2018, 52(4): 388-394.
[11] 乐健,张华,叶艳辉,范宇. 基于旋转电弧传感机器人立焊焊缝的跟踪[J]. 上海交通大学学报(自然版), 2015, 49(03): 348-352.
[12] 许波,闵华清,肖芳雄. 蚁群算法求解离散最小约束去除问题[J]. 上海交通大学学报(自然版), 2015, 49(03): 383-386.
[13] 杨乘东,钟继勇,陈玉喜,陈善本. 基于视觉识别的多层多道路径规划修正[J]. 上海交通大学学报(自然版), 2015, 49(03): 297-300.
[14] 张铁,欧阳帆. 双机器人协调跟随运动的运动学分析与路径规划[J]. 上海交通大学学报(自然版), 2013, 47(08): 1251-1256.
[15] 胡彬a, 王冰a, 王春香b, 杨明a. 一种基于时间窗的自动导引车动态路径规划方法
[J]. 上海交通大学学报(自然版), 2012, 46(06): 967-971.
沪ICP备15013849号-1
版权所有 © 2017《空天防御》编辑部
主管单位:中国航天科技集团有限公司 主办单位:上海机电工程研究所 上海交通大学出版社有限公司