floq: Training Critics via Flow-Matching for Scaling Compute in Value-Based RL

2025年09月08日
  • 简介
    现代大规模机器学习技术的一个显著特点是使用了能够为中间计算提供密集监督的训练目标,例如在语言模型中强制使用教师信号(teacher forcing)来预测下一个词,或是在扩散模型中逐步去噪。这种方式使模型能够以更具泛化性的方式学习复杂的函数。受此启发,我们研究了在强化学习(RL)中的时序差分(TD)方法中引入迭代计算所带来的优势。传统上,这些方法以一种整体化的方式表示价值函数,缺乏迭代计算的过程。我们提出了 floq(流匹配 Q 函数),这种方法通过速度场来参数化 Q 函数,并使用来自流匹配技术的训练方法——这些技术通常应用于生成模型中。在流模型背后的速度场是通过一个 TD 学习目标进行训练的,该目标通过目标速度场的多个数值积分步骤计算出的值来进行自举(bootstrap)。关键在于,通过适当设置积分步骤的数量,floq 比整体式架构能更精细地控制和扩展 Q 函数的容量。在一系列具有挑战性的离线 RL 基准测试和在线微调任务中,floq 的性能提升了近 1.8 倍。相比标准的 TD 学习架构,floq 在容量扩展方面表现得更为出色,突显了迭代计算在价值函数学习中的潜力。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决强化学习中时间差分(TD)方法通常以单一步骤、整体化方式表示值函数的问题,这种方式限制了模型对复杂函数的表达能力和泛化能力。论文试图验证迭代计算是否可以提升TD方法的性能,并探索如何通过连续积分步骤来更精细地控制Q函数的容量。
  • 关键思路
    论文提出floq(flow-matching Q-functions)方法,将Q函数参数化为一个速度场,并使用流匹配(flow-matching)技术进行训练,这种方法借鉴了生成模型中的思想。其核心创新在于通过多步数值积分进行TD学习,从而实现对Q函数的迭代计算,使得模型在容量控制和泛化性方面优于传统的单步TD架构。
  • 其它亮点
    1. 在多个具有挑战性的离线强化学习基准和在线微调任务中,floq的性能提升了近1.8倍。 2. 相比传统TD架构,floq在扩展模型容量方面表现更优,显示出迭代计算在值函数学习中的潜力。 3. 论文通过设计基于速度场的连续时间Q函数表示,提出了新的函数逼近范式。 4. 实验结果显示了在复杂任务中使用连续流方法的有效性,为后续研究提供了新方向。
  • 相关研究
    1. Denoising Diffusion Probabilistic Models (DDPM) 2. Flow Matching for Generative Modeling 3. Deep Q-Networks (DQN) and its variants 4. Distributional RL and TD Learning with Iterative Updates 5. Neural Ordinary Differential Equations (Neural ODEs) 6. Offline RL with Conservative Q-Function Learning (如CQL) 7. Trajectory Transformers and Flow-based Planning in RL
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问