RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

2025年10月08日
  • 简介
    最近,视觉与语言基础模型的进展显著推动了多模态理解、推理和生成能力的发展,激发了人们将这些能力扩展到具身智能场景中的浓厚兴趣,由此催生了视觉-语言-动作(VLA)模型的研究热潮。然而,目前大多数VLA模型仍依赖监督微调(SFT)进行训练,这种方法由于误差累积问题,在面对分布偏移时泛化能力有限。相比之下,强化学习(RL)通过与环境交互直接优化任务性能,提供了一种颇具前景的替代方案;但现有的相关尝试仍较为零散,缺乏一个统一平台来对不同模型架构和算法设计进行公平而系统的比较。为填补这一空白,我们提出了RLinf-VLA——一个用于VLA模型可扩展强化学习训练的统一且高效的框架。该系统采用高度灵活的资源分配设计,有效解决了在RL+VLA训练中整合渲染、训练与推理的难题。特别是针对GPU并行化仿真器,RLinf-VLA实现了一种新颖的混合细粒度流水线分配模式,使训练速度提升了1.61倍至1.88倍。通过统一接口,RLinf-VLA无缝支持多种VLA架构(如OpenVLA、OpenVLA-OFT)、多种强化学习算法(如PPO、GRPO)以及多个仿真环境(如ManiSkill、LIBERO)。在仿真环境中,一个统一模型在130项LIBERO任务上达到了98.11%的平均成功率,在25项ManiSkill任务上达到97.66%的成功率。除了实证性能表现外,我们的研究还总结出一套将强化学习应用于VLA训练的最佳实践,并揭示了这一融合方向中出现的关键规律。此外,我们初步将该框架部署于真实世界的Franka机器人上,实验表明,经强化学习训练的策略相比监督微调方法展现出更强的泛化能力。我们期望RLinf-VLA能够成为加速和标准化具身智能研究的基石。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决当前视觉-语言-动作(VLA)模型在具身智能环境中依赖监督微调(SFT)导致泛化能力差、误差累积的问题。现有强化学习(RL)方法在VLA中的应用缺乏统一、高效的训练框架,难以进行公平和系统的比较。这是一个正在兴起但尚未充分解决的问题,尤其在跨模型架构与算法设计的标准化平台方面存在明显空白。
  • 关键思路
    提出RLinf-VLA,一个统一且高效的可扩展强化学习训练框架,用于VLA模型。其核心创新在于灵活的资源分配设计,特别是针对GPU并行化模拟器提出的混合细粒度流水线分配模式,显著提升了训练速度(1.61x-1.88x)。该框架通过统一接口支持多种VLA架构、RL算法和仿真环境,实现了模块化与可比性。
  • 其它亮点
    在仿真中,单一统一模型在130个LIBERO任务上达到98.11%性能,在25个ManiSkill任务上达到97.66%,表现优异;框架支持OpenVLA等主流模型及PPO、GRPO等算法,并集成ManiSkill、LIBERO等标准仿真环境;实验设计系统,覆盖多任务、多场景;初步在真实Franka机器人上的部署显示RL策略相比SFT具有更强的泛化能力;研究总结了将RL应用于VLA训练的一套最佳实践,为后续研究提供指导;代码已开源,促进社区发展;未来可深入探索更复杂的现实交互、样本效率提升以及多智能体协同。
  • 相关研究
    1. OpenVLA: An Open-Source Vision-Language-Action Model for Embodied Instruction Following 2. ManiSkill: A Unified Benchmark for Generalizable Manipulation Skills 3. LIBERO: A BenchMark Suite for Lifelong Imbalanced BaSe Object Manipulation 4. Generalization through Simulation: Learning Robotics Policies in the Wild with Reinforcement Learning 5. Vision-Language Models Don’t Know What They Don’t See: Evaluating and Improving VLMs for Robotics
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问