From Imitation to Refinement -- Residual RL for Precise Visual Assembly

2024年07月23日
  • 简介
    本文探讨了使用强化学习(RL)微调来改进在精确操作任务中基于行为克隆(BC)训练的策略。在需要局部纠正行为的任务(如多部件组装)中,仅从人类演示中学习鲁棒的策略仍然具有挑战性。强化学习可以通过任务奖励监督和探索来使策略获得局部纠正行为,从而缓解这些限制。我们分析并克服了使用RL直接训练策略网络所涉及的技术挑战,这些网络包括现代架构组件,如扩散模型和动作分块。我们建议在冻结的BC训练的扩散模型之上训练残差策略,使用标准策略梯度方法和稀疏奖励,我们称之为ResiP(Residual for Precise manipulation)。我们的实验结果表明,这种残差学习框架可以通过学习纠正动作,在高精度组装任务中显着提高成功率,超越基本的BC训练模型。我们还展示了将ResiP与师生蒸馏和视觉域随机化相结合,我们的方法可以直接从RGB图像中学习机器人组装的真实世界策略。在\url{https://residual-assembly.github.io}上可以找到视频和代码。
  • 图表
  • 解决问题
    论文旨在解决在需要局部纠正行为的多部件装配等精细操作中,从人类演示中学习强大策略的挑战。
  • 关键思路
    通过使用强化学习fine-tuning来改进基于行为克隆(BC)训练的策略,使用残差学习框架在冻结的BC训练扩散模型之上训练残差策略,并使用稀疏奖励,以学习纠正性动作,从而显著提高高精度装配任务的成功率。
  • 其它亮点
    论文采用了ResiP方法,通过将残差策略训练在冻结的BC训练扩散模型之上,以学习纠正性动作,从而显著提高高精度装配任务的成功率。此外,论文还将ResiP与教师-学生蒸馏和视觉域随机化相结合,实现了直接从RGB图像学习机器人装配策略的目标,并提供了视频和代码。
  • 相关研究
    在该领域的相关研究包括:End-to-End Robotic Assembly from Instruction with Reinforcement Learning、Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论