- 简介使用强化学习(RL)对在线视觉-语言模型(VLM)智能体进行微调,已被证明能够赋予智能体在动态环境中具备多步骤、目标导向的能力。然而,由于其开放式的文本动作空间以及动作生成的非端到端特性,这为强化学习中的有效在线探索带来了重大挑战,例如探索空间的爆炸性增长。我们提出了一种新颖的在线微调方法——反事实软强化学习(CoSo),该方法更适合 VLM 智能体的文本输出空间。与之前为所有标记(tokens)分配均匀不确定性的方法相比,CoSo 利用反事实推理动态评估单个标记对后处理动作的因果影响。通过优先探索对动作至关重要的标记,同时降低语义冗余或低影响力的标记的影响,CoSo 实现了更集中且高效的在线 rollout 过程。我们提供了理论分析,证明了 CoSo 的收敛性和策略改进保证,并通过广泛的实证评估支持其有效性。我们在多种智能体任务中取得的结果,包括安卓设备控制、卡牌游戏和具身人工智能(Embodied AI),突显了 CoSo 在提升探索效率并带来一致性能增益方面的卓越能力。代码可在以下地址获取:https://github.com/langfengQ/CoSo。
-
- 图表
- 解决问题该论文试图解决在使用强化学习(RL)对视觉-语言模型(VLM)代理进行在线微调时,由于开放文本动作空间和非端到端生成导致的探索效率低下问题。这是一个重要的研究问题,尤其是在多步骤、目标导向任务中,但并非全新的问题,因为已有研究关注过类似挑战。
- 关键思路论文提出了一种名为Counterfactual Soft Reinforcement Learning (CoSo)的新方法,通过利用反事实推理动态评估单个标记(token)对后处理动作的因果影响,从而优先探索关键动作标记并减少冗余或低影响力的标记的影响。相比现有方法通常对所有标记分配均匀的不确定性,CoSo更高效且具有针对性,显著改善了在线探索过程。
- 其它亮点论文提供了理论分析以证明CoSo的收敛性和策略改进保证,并通过广泛的实验证明其有效性。实验涵盖了多种任务,如Android设备控制、卡牌游戏和具身AI,展示了其跨领域的适用性。此外,作者开源了代码(https://github.com/langfengQ/CoSo),为后续研究提供了便利。未来可以进一步研究如何将CoSo扩展到更大规模的动作空间或更复杂的动态环境。
- 近期相关研究包括:1) 使用基于语言模型的策略直接生成动作序列的研究(例如,'Language as Shaping for Robot Learning');2) 结合视觉与语言的多模态强化学习方法(例如,'Vision-Language Navigation with Reinforcement Learning');3) 针对离散动作空间优化的强化学习算法改进(例如,'Distributional Policy Gradient for Text-based Games')。这些研究共同推动了多模态智能体在复杂环境中的能力提升。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流