- 简介基于执行的反馈(例如单元测试)在通过测试时扩展(TTS)和强化学习(RL)开发编码智能体的过程中被广泛使用。这一范式需要可扩展且可靠的单元测试用例收集机制,以提供准确的反馈;然而,由此产生的反馈通常较为稀疏,难以有效区分两条同样成功或同样失败的执行轨迹。相比之下,来自奖励模型的无需执行的反馈能够在不依赖单元测试用例的情况下提供更细粒度的信号。尽管具备这种潜力,针对现实世界软件工程(SWE)智能体的无需执行反馈仍缺乏深入探索。为了构建在TTS和RL中均有效的通用型奖励模型,我们发现:即使两个验证器在TTS性能上几乎完全相同,它们在RL训练中的表现仍可能差异显著。直观来看,TTS主要反映的是模型从多条轨迹中选择最优路径的能力,但这种能力并不一定能够迁移到RL训练中。为克服这一局限,我们识别出对RL训练至关重要的另外两个方面:分类准确率与校准性(calibration)。随后,我们开展了一系列受控的全面实验,系统研究如何训练一个在这三项指标上均表现优异的鲁棒奖励模型。具体而言,我们分析了训练数据规模、策略混合方式以及数据来源构成等多种因素的影响。基于这些研究结果,我们提出了SWE-RM——一种高精度、强鲁棒性的奖励模型,采用专家混合架构,总参数量达300亿,推理时激活30亿参数。SWE-RM显著提升了SWE智能体在TTS和RL两方面的性能表现。例如,在SWE-Bench Verified基准上,借助TTS方法,它将Qwen3-Coder-Flash的准确率从51.6%提升至62.0%,将Qwen3-Coder-Max的准确率从67.0%提升至74.6%,在开源模型中首次实现当前最优性能。
-
- 图表
- 解决问题论文旨在解决在软件工程(SWE)智能体开发中,基于执行的反馈(如单元测试)存在的局限性:依赖大量高质量测试用例、反馈稀疏、难以区分成功或失败轨迹之间的细微差异。同时,尽管无执行反馈的奖励模型具有提供细粒度信号的潜力,但在真实SWE场景下的应用仍被低估。此外,作者发现,在测试时扩展(TTS)中表现相似的验证器在强化学习(RL)训练中可能表现迥异,表明TTS性能不能充分反映RL适用性,因此需要构建跨TTS与RL均有效的通用奖励模型。
- 关键思路提出应超越仅关注TTS表现的奖励模型设计,强调分类准确性和校准性对强化学习训练的重要性。通过系统性的受控实验分析训练数据规模、策略混合和数据源组成等因素的影响,构建了一个高精度、强鲁棒性的奖励模型SWE-RM。该模型采用300亿参数的混合专家(MoE)架构,推理时激活30亿参数,在保持效率的同时实现卓越性能。
- 其它亮点引入SWE-RM,是首个专为SWE任务设计并公开报道的高性能奖励模型;在SWE-Bench Verified基准上显著提升Qwen系列编码模型的表现(Qwen3-Coder-Flash从51.6%提升至62.0%,Qwen3-Coder-Max从67.0%提升至74.6%),达到开源模型中的新SOTA;进行了全面的消融研究以指导奖励模型训练;实验设计严谨,覆盖多个关键训练因素;虽未明确提及代码是否开源,但其方法论和发现为后续研究提供了重要参考;未来可探索将此类奖励模型应用于更广泛的编程任务、结合其他形式的反馈进行多模态训练。
- 1. Large Language Models as Automated Test Generators for Code 2. Process Reward Modeling: Shaping LLMs with Process-Based Feedback 3. Reinforcement Learning from Imperfect Evaluations: A Case Study in Code Generation 4. Test-Time Scaling for Program Synthesis with Verifiers 5. CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning 6. SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流