摘要: 基于强化学习的能量管理策略具有环境和驾驶员的自适应性,但是存在采样效率较低、开发阶段无法保证算法可靠性的问题。尝试将动态规划算法融入基于模型的强化学习框架中——实时收集工况数据和动力系统数据用于更新预测模型,并使用动态规划求解最优策略,通过决策树算法挖掘其中最优控制规则,用以迭代能量管理策略。一方面,动态规划对完整工况重新解算极大增强了样本效率,且具有较好的可靠性和可解释性。另一方面,通过数据采集和更新实现能量管理策略的对驾驶工况和系统老化的自适应性,能够有效应对极端工作环境、动力系统元器件老化等传统能量管理策略会失效的场景。实验结果表明,在未知驾驶工况下,可以达到全局最优解的92%以上的管理效果;而且可以有效通过类似工况改善能量管理策略,例如日常通勤场景。当动力系统参数发生改变时,通过策略迭代也可以有效地调整能量管理策略。
中图分类号:
罗来军, 隋巧梅, 郭楠鸿. 基于迭代规划的P2混合动力能量管理策略[J]. 传动技术, 2022, 36(3): 3-11.
[1] | 赵莹莹, 仇越, 朱天晨, 李凡, 苏运, 邰振赢, 孙庆赟, 凡航. 基于分层强化学习的新型电力系统在线稳态调度[J]. 上海交通大学学报, 2025, 59(3): 400-412. |
[2] | 薛昂, 姜恩宇, 张文涛, 林顺富, 米阳. 基于窗口自注意力网络与YOLOv5融合的输电线路通道异物检测[J]. 上海交通大学学报, 2025, 59(3): 413-423. |
[3] | 李扬, 张显涛, 肖龙飞. 自适应双稳态浮子式波浪能发电装置在不规则波中的参数控制[J]. 上海交通大学学报, 2025, 59(3): 293-302. |
[4] | . 基于可变子区数字图像相关的飞艇蒙皮测量[J]. J Shanghai Jiaotong Univ Sci, 2025, 30(2): 239-251. |
[5] | 李龙跃, 王文豪, 皮雳, 贾忠慧, 赵慧珍. 防空反导作战模拟推演分析方法综述[J]. 空天防御, 2025, 8(1): 48-53. |
[6] | 劳文洁, 史林军, 吴峰, 杨冬梅, 李杨. 计及转速及功率限制的双馈抽蓄自适应调频控制[J]. 上海交通大学学报, 2025, 59(1): 28-37. |
[7] | 杨映荷, 魏汉迪, 范迪夏, 李昂. 基于高斯过程回归和深度强化学习的水下扑翼推进性能寻优方法[J]. 上海交通大学学报, 2025, 59(1): 70-78. |
[8] | BALASUBRAMANIAN S1, NARUK Mahaveer Singh2, TEWARI Gaurav3. 基于经验小波变换优化自适应混合滤波器的心电信号去噪[J]. J Shanghai Jiaotong Univ Sci, 2025, 30(1): 66-80. |
[9] | 林森, 文书礼, 朱淼, 戴群, 鄢伦, 赵耀, 叶惠丽. 考虑碳交易机制的海港综合能源系统电-热混合储能优化配置[J]. 上海交通大学学报, 2024, 58(9): 1344-1356. |
[10] | 李芬, 孙凌, 王亚维, 屈爱芳, 梅念, 赵晋斌. 基于CEEMDAN-GSA-LSTM和SVR的光伏功率短期区间预测[J]. 上海交通大学学报, 2024, 58(6): 806-818. |
[11] | 付文溪, 窦真兰, 张春雁, 王玲玲, 蒋传文, 熊展. 计及动态碳排放因子的多H2-IES双层优化运行方法[J]. 上海交通大学学报, 2024, 58(5): 610-623. |
[12] | 刘华华, 王青. 基于强化学习的多飞行器目标分配方法[J]. 空天防御, 2024, 7(5): 65-72. |
[13] | 周毅, 周良才, 史迪, 赵小英, 闪鑫. 基于安全深度强化学习的电网有功频率协同优化控制[J]. 上海交通大学学报, 2024, 58(5): 682-692. |
[14] | 刘文倩, 单梁, 张伟龙, 刘成林, 马强. 复杂环境下基于改进Informed RRT*的无人机路径规划算法[J]. 上海交通大学学报, 2024, 58(4): 511-524. |
[15] | 董玉博1, 崔涛1, 周禹帆1, 宋勋2, 祝月2, 董鹏1. 基于长周期极坐标系追击问题的多智能体强化学习奖赏函数设计方法[J]. J Shanghai Jiaotong Univ Sci, 2024, 29(4): 646-655. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||