SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

2025年09月11日
  • 简介
    视觉-语言-动作(VLA)模型最近成为机器人操作领域中一种非常强大的范式。尽管大规模预训练和监督微调(SFT)带来了显著进展,但这些模型仍面临两个根本性挑战:(i)监督微调所需的大量人工操作机器人轨迹数据稀缺且成本高昂;(ii)在面对任务分布发生改变时,模型的泛化能力有限。近期,大规模推理模型(LRMs)取得的突破表明,强化学习(RL)可以显著提升模型在逐步推理方面的能力,这引发了一个自然的问题:强化学习是否也能同样改善VLA模型在长视野、逐步动作规划方面的能力?在本研究中,我们提出了SimpleVLA-RL,这是一个专为VLA模型设计的高效强化学习框架。该框架基于veRL,并引入了针对VLA的轨迹采样方法、可扩展的并行化处理、多环境渲染技术以及优化后的损失计算方式。将SimpleVLA-RL应用于OpenVLA-OFT模型后,我们在LIBERO任务集上达到了当前最先进的性能,并在RoboTwin 1.0和2.0平台上通过我们引入的增强探索策略,表现超过了$\pi_0$模型。SimpleVLA-RL不仅减少了对大规模数据的依赖,实现了强大的泛化能力,而且在真实世界任务中显著优于监督微调方法。此外,我们在强化学习训练过程中发现了一个新现象——“推动截断”(pushcut),即策略在训练中发现了此前训练阶段未曾见过的行为模式。Github地址:https://github.com/PRIME-RL/SimpleVLA-RL
  • 作者讲解·1
  • 图表
  • 解决问题
    论文试图解决Vision-Language-Action (VLA) 模型在机器人操作中的两个核心问题:(1)监督微调(SFT)所需的大规模人类操作机器人轨迹数据稀缺且成本高昂;(2)模型在面对分布外任务时泛化能力有限。同时,论文探讨了强化学习(RL)是否能像在大型推理模型(LRMs)中一样,提升VLA模型的长视野动作规划能力。这是一个在VLA领域尚未被充分探索的新问题。
  • 关键思路
    论文提出SimpleVLA-RL,一个专为VLA模型设计的高效强化学习框架。其核心思路是基于veRL方法,并引入VLA特定的轨迹采样、可扩展的并行化、多环境渲染以及优化的损失计算,从而在无需大量SFT数据的情况下提升模型的长期动作规划与泛化能力。相比当前研究依赖大规模人工标注数据,该方法通过RL增强策略探索,实现更高效的学习与更强的泛化性能。
  • 其它亮点
    1. 提出SimpleVLA-RL框架,显著减少对大规模SFT数据的依赖 2. 在LIBERO和RoboTwin 1.0&2.0任务上达到SOTA表现,甚至超越预训练策略π₀ 3. 引入探索增强策略,在真实任务中显著优于SFT模型 4. 发现并命名RL训练中的新现象“pushcut”,即策略发现训练数据中未见的新行为模式 5. 代码开源,便于后续研究与复现实验
  • 相关研究
    1. OpenVLA: Open-Vocabulary Robotic Manipulation with Vision-Language-Action Models 2. veRL: Efficient Reinforcement Learning for Vision-Based Robotic Control 3. RoboTwin: Sim-to-Real Transfer for Long-Horizon Manipulation Tasks 4. LIBERO: A Benchmark for Long-Horizon, Multi-Task, and Lifelong Robotic Manipulation 5. Efficient Reinforcement Learning through Imitation and Exploration in Vision-Language Policies
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问