- 简介在基于网络规模数据训练的基础模型已彻底改变了机器人技术的背景下,这些模型在底层控制中的应用仍主要局限于行为克隆。受强化学习阶段在微调大语言模型中取得成功的启发,我们提出了一种面向机器人的两阶段后训练方法。第一阶段为监督微调(SFT),通过两种方式对预训练的基础模型进行微调:a)行为克隆,以及 b)步数预测目标。第二阶段为自我提升(Self-Improvement),利用步数预测能力提取出具有良好形态的奖励函数和鲁棒的成功检测器,从而使一组机器人能够在极少人工监督的情况下自主练习下游任务。通过对真实世界和模拟机器人实体的大量实验,我们这一新颖的后训练方法在具身基础模型上取得了显著成果。首先,我们证明了监督微调与自我提升相结合的方法,在样本效率上显著优于单纯扩大监督学习中的模仿数据采集;并且由此得到的策略具有明显更高的成功率。进一步的消融实验表明,网络规模的预训练与自我提升的结合,是实现这种高样本效率的关键。其次,我们展示了所提出方法的独特优势——这是当前其他方法无法实现的能力:机器人能够自主练习并掌握全新的技能,且这些技能的泛化能力远远超出了训练期间所用模仿学习数据集中观察到的行为范围。这些发现凸显了将预训练基础模型与在线自我提升相结合,在推动机器人实现自主技能获取方面的变革性潜力。我们的项目网站位于 https://self-improving-efms.github.io 。
-
- 图表
- 解决问题论文试图解决如何将大规模预训练的基座模型有效应用于机器人低层控制的问题,尤其是突破当前主要依赖行为克隆(behavioral cloning)的局限。尽管基座模型在其他领域表现出色,但在机器人控制中缺乏自主持续学习和技能泛化的机制,导致对大量人工标注数据的依赖且难以扩展到新任务。这是一个重要且相对新的问题,尤其是在实现机器人自主技能获取方面。
- 关键思路提出一种两阶段后训练方法:第一阶段是监督微调(SFT),结合行为克隆与‘到目标的步数’(steps-to-go)预测;第二阶段是自我提升(Self-Improvement),利用steps-to-go预测构建形状良好的奖励函数和成功检测器,使机器人能在极低人类监督下自主练习并掌握新技能。其创新在于将大语言模型中的强化学习微调思想迁移到机器人领域,并通过steps-to-go实现无需人工设计奖励的在线自我改进。
- 其它亮点在真实和模拟机器人平台上进行了广泛实验,验证了该方法显著优于单纯扩大模仿学习数据的效果,具备更高的样本效率和任务成功率。关键消融实验表明,web-scale预训练与Self-Improvement的结合是样本高效的核心。最突出的是,系统能自主练习并学会训练数据中未出现的新技能,展现出强泛化能力。项目已开源,官网为 https://self-improving-efms.github.io 。未来可深入探索多任务迁移、更复杂环境下的奖励塑造以及与其他RL算法的结合。
- 1. "LLaMA-Adapter: Efficient Fine-tuning of Language Models for Visual Instruction Tuning" - 2023 2. "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robot Control" - 2023 3. "Octo: A Modular, General-Purpose Reinforcement Learning Agent for Robotics" - 2023 4. "PALM-E: An Embodied Multimodal Language Model" - 2023 5. "Flamingo: a Visual Language Model for Few-Shot Learning" - 2022
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流