- 简介视觉-语言-动作(VLA)模型在现实世界的机器人操作中展现出巨大的潜力。然而,通过监督学习微调这些模型难以实现稳健的性能,主要是由于演示数据有限且不一致,尤其是在接触丰富的环境中。本文提出了一种强化微调方法,名为ConRFT,该方法结合了离线和在线微调,并采用统一的一致性训练目标来应对这些挑战。在离线阶段,我们的方法将行为克隆和Q学习相结合,从而有效地从少量演示数据中提取策略并稳定价值估计。在在线阶段,VLA模型通过一致性策略进一步微调,并借助人工干预确保安全探索和高样本效率。我们在八个不同的真实世界操作任务上评估了该方法。结果显示,在45到90分钟的在线微调后,平均成功率为96.3%,相比之前的监督学习方法,成功率提高了144%,并且每集长度缩短了1.9倍。这项工作突显了将强化学习整合到VLA模型中以提升其在实际机器人应用中的性能的潜力。
- 图表
- 解决问题该论文旨在解决视觉-语言-动作(VLA)模型在实际机器人操作任务中通过监督学习微调时遇到的性能不稳健问题,特别是在接触丰富的环境中,由于演示数据有限且不一致导致的挑战。这并非一个全新的问题,但针对VLA模型在这一特定环境下的优化是一个相对新颖的研究方向。
- 关键思路论文提出了一种名为ConRFT的强化微调方法,结合了离线和在线微调,并采用统一的一致性训练目标。离线阶段通过行为克隆和Q学习从少量演示中提取策略并稳定价值估计;在线阶段则通过一致性策略进一步微调VLA模型,同时加入人类干预以确保安全探索和高样本效率。这种方法在解决现有监督学习方法局限性方面具有创新性。
- 其它亮点该研究在八个不同的真实世界操纵任务上进行了评估,结果显示平均成功率为96.3%,仅需45-90分钟的在线微调时间。相比之前的监督方法,成功率提高了144%,每集长度缩短了1.9倍。此外,作者提到实验设计考虑了安全性与高效性,虽然未明确提及代码开源情况,但这种强化学习与VLA模型结合的方式为未来研究提供了新的思路。
- 近期相关研究包括: 1. "Learning Dexterous In-Hand Manipulation" - 探讨了灵巧的手部操作。 2. "Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Parallel Simulation" - 利用深度强化学习进行机器人操作。 3. "Visual Imitation Learning via Multi-task Representation Learning" - 研究视觉模仿学习。 这些研究均涉及机器人操作中的不同方面,而本论文则专注于通过强化学习改进VLA模型在实际应用中的表现。
沙发等你来抢
去评论
评论
沙发等你来抢