Rocket Landing Control with Random Annealing Jump Start Reinforcement Learning

简介

火箭回收是航空航天技术中至关重要的追求，旨在减少太空探索的成本和环境影响。主要关注点集中在火箭着陆控制上，涉及实时引导非线性欠驱动的火箭在有限燃料条件下着陆。这项具有挑战性的任务促使应用强化学习（RL），但问题的目标导向性质由于中间奖励信号的缺失而给标准RL算法带来困难。本文首次使用名为随机退火跳跃起始（RAJS）的方法，通过利用先前的反馈控制器作为指导策略来促进RL中的环境探索和策略学习，从而显著提高了使用RL在高保真火箭模型上的火箭着陆控制的成功率，从基准控制器的8%提高到97%。在每个episode中，指导策略在指导视野内导航环境，然后探索策略接管完成剩余步骤。这种跳跃起始策略修剪了探索空间，使问题更易于RL算法处理。指导视野从均匀分布中采样，其上限基于性能指标退火至零，缓解了现有方法中的分布漂移和不匹配问题。其他增强措施，包括级联跳跃起始、优化奖励和终止条件以及行动平滑度调节，进一步提高了策略的性能和实际适用性。通过广泛的评估和硬件在环测试验证了所提出的方法，证实了所提出的控制器的有效性、实时可行性和平滑性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决火箭回收中的控制问题，以减少太空探索的成本和环境影响。然而，问题的目标导向性使得标准的强化学习算法难以应用。
关键思路

本文提出了一种名为随机退火跳跃启动（RAJS）的方法，通过利用先前的反馈控制器作为指导策略来促进环境探索和策略学习，从而针对真实世界的目标导向性问题进行了优化。
其它亮点

本文的方法将成功率从基线控制器的8％显着提高到了97％，并通过广泛的评估和硬件在环测试进行了验证。实验结果表明了该方法的有效性、实时可行性和控制平滑性。
相关研究

最近的相关研究包括“Multi-Objective Reinforcement Learning for Robust Rocket Landing Control”和“Deep Reinforcement Learning for Autonomous Landing of a Class of Reusable Launch Vehicles”。

Rocket Landing Control with Random Annealing Jump Start Reinforcement Learning

提问交流

提问交流