SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

向作者提问

NEW

简介

视觉-语言-动作（VLA）模型最近成为机器人操作领域中一种非常强大的范式。尽管大规模预训练和监督微调（SFT）带来了显著进展，但这些模型仍面临两个根本性挑战：（i）监督微调所需的大量人工操作机器人轨迹数据稀缺且成本高昂；（ii）在面对任务分布发生改变时，模型的泛化能力有限。近期，大规模推理模型（LRMs）取得的突破表明，强化学习（RL）可以显著提升模型在逐步推理方面的能力，这引发了一个自然的问题：强化学习是否也能同样改善VLA模型在长视野、逐步动作规划方面的能力？在本研究中，我们提出了SimpleVLA-RL，这是一个专为VLA模型设计的高效强化学习框架。该框架基于veRL，并引入了针对VLA的轨迹采样方法、可扩展的并行化处理、多环境渲染技术以及优化后的损失计算方式。将SimpleVLA-RL应用于OpenVLA-OFT模型后，我们在LIBERO任务集上达到了当前最先进的性能，并在RoboTwin 1.0和2.0平台上通过我们引入的增强探索策略，表现超过了$\pi_0$模型。SimpleVLA-RL不仅减少了对大规模数据的依赖，实现了强大的泛化能力，而且在真实世界任务中显著优于监督微调方法。此外，我们在强化学习训练过程中发现了一个新现象——“推动截断”（pushcut），即策略在训练中发现了此前训练阶段未曾见过的行为模式。Github地址：https://github.com/PRIME-RL/SimpleVLA-RL
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图解决Vision-Language-Action (VLA) 模型在机器人操作中的两个核心问题：（1）监督微调（SFT）所需的大规模人类操作机器人轨迹数据稀缺且成本高昂；（2）模型在面对分布外任务时泛化能力有限。同时，论文探讨了强化学习（RL）是否能像在大型推理模型（LRMs）中一样，提升VLA模型的长视野动作规划能力。这是一个在VLA领域尚未被充分探索的新问题。
关键思路

论文提出SimpleVLA-RL，一个专为VLA模型设计的高效强化学习框架。其核心思路是基于veRL方法，并引入VLA特定的轨迹采样、可扩展的并行化、多环境渲染以及优化的损失计算，从而在无需大量SFT数据的情况下提升模型的长期动作规划与泛化能力。相比当前研究依赖大规模人工标注数据，该方法通过RL增强策略探索，实现更高效的学习与更强的泛化性能。
其它亮点

1. 提出SimpleVLA-RL框架，显著减少对大规模SFT数据的依赖 2. 在LIBERO和RoboTwin 1.0&2.0任务上达到SOTA表现，甚至超越预训练策略π₀ 3. 引入探索增强策略，在真实任务中显著优于SFT模型 4. 发现并命名RL训练中的新现象“pushcut”，即策略发现训练数据中未见的新行为模式 5. 代码开源，便于后续研究与复现实验
相关研究

1. OpenVLA: Open-Vocabulary Robotic Manipulation with Vision-Language-Action Models 2. veRL: Efficient Reinforcement Learning for Vision-Based Robotic Control 3. RoboTwin: Sim-to-Real Transfer for Long-Horizon Manipulation Tasks 4. LIBERO: A Benchmark for Long-Horizon, Multi-Task, and Lifelong Robotic Manipulation 5. Efficient Reinforcement Learning through Imitation and Exploration in Vision-Language Policies

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问