Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning

2025年05月01日
  • 简介
    使用强化学习(RL)对在线视觉-语言模型(VLM)智能体进行微调,已被证明能够赋予智能体在动态环境中具备多步骤、目标导向的能力。然而,由于其开放式的文本动作空间以及动作生成的非端到端特性,这为强化学习中的有效在线探索带来了重大挑战,例如探索空间的爆炸性增长。我们提出了一种新颖的在线微调方法——反事实软强化学习(CoSo),该方法更适合 VLM 智能体的文本输出空间。与之前为所有标记(tokens)分配均匀不确定性的方法相比,CoSo 利用反事实推理动态评估单个标记对后处理动作的因果影响。通过优先探索对动作至关重要的标记,同时降低语义冗余或低影响力的标记的影响,CoSo 实现了更集中且高效的在线 rollout 过程。我们提供了理论分析,证明了 CoSo 的收敛性和策略改进保证,并通过广泛的实证评估支持其有效性。我们在多种智能体任务中取得的结果,包括安卓设备控制、卡牌游戏和具身人工智能(Embodied AI),突显了 CoSo 在提升探索效率并带来一致性能增益方面的卓越能力。代码可在以下地址获取:https://github.com/langfengQ/CoSo。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决在使用强化学习(RL)对视觉-语言模型(VLM)代理进行在线微调时,由于开放文本动作空间和非端到端生成导致的探索效率低下问题。这是一个重要的研究问题,尤其是在多步骤、目标导向任务中,但并非全新的问题,因为已有研究关注过类似挑战。
  • 关键思路
    论文提出了一种名为Counterfactual Soft Reinforcement Learning (CoSo)的新方法,通过利用反事实推理动态评估单个标记(token)对后处理动作的因果影响,从而优先探索关键动作标记并减少冗余或低影响力的标记的影响。相比现有方法通常对所有标记分配均匀的不确定性,CoSo更高效且具有针对性,显著改善了在线探索过程。
  • 其它亮点
    论文提供了理论分析以证明CoSo的收敛性和策略改进保证,并通过广泛的实验证明其有效性。实验涵盖了多种任务,如Android设备控制、卡牌游戏和具身AI,展示了其跨领域的适用性。此外,作者开源了代码(https://github.com/langfengQ/CoSo),为后续研究提供了便利。未来可以进一步研究如何将CoSo扩展到更大规模的动作空间或更复杂的动态环境。
  • 相关研究
    近期相关研究包括:1) 使用基于语言模型的策略直接生成动作序列的研究(例如,'Language as Shaping for Robot Learning');2) 结合视觉与语言的多模态强化学习方法(例如,'Vision-Language Navigation with Reinforcement Learning');3) 针对离散动作空间优化的强化学习算法改进(例如,'Distributional Policy Gradient for Text-based Games')。这些研究共同推动了多模态智能体在复杂环境中的能力提升。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问