中国空间科学技术 ›› 2024, Vol. 44 ›› Issue (5): 75-82.doi: 10.16708/j.cnki.1000-758X.2024.0075
郑鑫宇,张轶,周杰,唐佩佳,彭升人,党朝辉
ZHENG Xinyu,ZHANG Yi,ZHOU Jie,TANG Peijia,PENG Shengren,DANG Zhaohui
摘要: 航天器回合制追逃博弈中的变轨感知延迟使得微分对策法求解困难,基于深度强化学习的博弈算法可解释性弱,在工程上的运用仍存在风险。针对航天器回合制追逃博弈问题,提出了一种预测价值积累的蒙特卡洛树搜索(PVA-MCTS)算法。该算法基于航天器轨道运动的可预知性,对博弈过程中的决策价值进行预测并积累,解决了航天器回合制追逃博弈奖励稀疏、时间跨度大的问题,采用的自适应扩展方法提升了学习效率。将其用于求解航天器回合制追逃博弈问题,并与蒙特卡洛树搜索(MCTS)算法求解得到的结果对比,结果表明PVA-MCTS算法对追踪航天器和逃逸航天器分别有约27.6%的追捕用时缩短和约6.8%的逃逸时间延长。该算法的提出可加快推进后续轨道博弈技术在非合作目标接近、碰撞规避等领域应用的落实落地。