- 简介本文提出了一种学习自由终端时间闭环控制的新方法,使得动态调整任务持续时间和控制输入以提高性能成为可能。我们将监督学习方法扩展到自由终端时间场景,即解决选定的最优开环问题并将其用作策略网络的训练数据。在这个扩展中,我们解决了三个主要挑战。首先,我们引入了一种行进方案,通过逐步细化时间离散化来提高解决方案的质量并增加开环求解器的成功率。其次,我们将Nakamura-Zimmerer等人(2021b)的QRnet扩展到自由终端时间设置中,以解决不连续性并改善终端状态的稳定性。第三,我们提出了一个更自动化的初始值问题(IVP)增强采样方法,以自适应地更新训练数据集,显著提高其质量。通过整合这些技术,我们开发了一个闭环策略,可以在广泛的域中有效运行,实现接近全局最优总成本。
- 图表
- 解决问题该论文旨在解决机器人操作任务中自由终端时间闭环控制的学习问题,以实现任务持续时间和控制输入的动态调整,从而提高性能。
- 关键思路论文提出了一种新的方法,将监督学习方法扩展到自由终端时间场景中,通过解决选定的最优开环问题并将其用作策略网络的训练数据,实现学习自由终端时间闭环控制。
- 其它亮点论文解决了三个主要挑战:引入一种逐步细化时间离散化的行进方案以提高解决方案质量和开环求解器的成功率;将QRnet扩展到自由终端时间设置中以解决不连续性并提高终端状态的稳定性;提出了一种更自动化的初始值问题增强采样方法以自适应更新训练数据集,显著提高了其质量。实验结果表明,该方法在广泛的领域内有效操作,实现了接近全局最优总成本。
- 最近的相关研究包括Nakamura-Zimmerer等人在2021年的QRnet论文和Zhang等人在2022年的初始值问题增强采样方法论文。
沙发等你来抢
去评论
评论
沙发等你来抢