基于长周期极坐标系追击问题的多智能体强化学习奖赏函数设计方法

DONG Yubo¹ (董玉博), CUI Tao¹ (崔涛), ZHOU Yufan¹ (周禹帆), SONG Xun² (宋勋), ZHU Yue² (祝月), DONG Peng^1∗ (董鹏)

J Shanghai Jiaotong Univ Sci . 2024, (4): 646 -655 . DOI: 10.1007/s12204-024-2713-4