- 简介测试时扩展(test-time scaling)已成为提升大语言模型性能的一种强大手段。然而,现有方法最适用于输出较短、范围有限的任务场景,因为这类任务的输出可直接进行比较、排序或精炼优化。而面向长周期任务的编程智能体(long-horizon coding agents)恰恰违背了这一前提:每次尝试都会生成一条冗长的执行轨迹(rollout trajectory),其中包含智能体所采取的一系列动作、观察结果、报错信息以及阶段性进展。在此类场景下,核心挑战已不再是简单地生成更多尝试,而是如何将过往经验以一种便于高效筛选与复用的形式加以表征。 为此,我们提出了一种面向智能体式编程(agentic coding)的测试时扩展框架,其核心在于对执行轨迹构建紧凑、结构化的表征。该框架将每一次执行轨迹压缩为一份结构化摘要,既保留其中关键的假设、取得的实质性进展以及典型失败模式,又主动剔除低信息量的原始执行痕迹细节。这种表征方式支撑起两种互补的推理时扩展范式: 其一,在并行扩展(parallel scaling)方面,我们提出了“递归锦标赛投票”(Recursive Tournament Voting, RTV)机制——该机制通过组织小规模分组对比,对大量轨迹摘要构成的候选集进行逐轮递归筛选,从而快速收敛至最优解; 其二,在串行扩展(sequential scaling)方面,我们将原用于纯文本生成的“并行—蒸馏—精炼”(Parallel-Distill-Refine, PDR)方法适配至智能体场景,即让后续新执行轨迹的启动明确依赖于对先前多次尝试所提炼出的摘要信息进行条件化建模。 我们的方法在 SWE-Bench Verified 和 Terminal-Bench v2.0 两大前沿编程基准上,持续提升了当前顶尖编程智能体的性能表现。例如,采用本方法后,Claude-4.5-Opus 在 SWE-Bench Verified(mini-SWE-agent 子集)上的准确率由 70.9% 提升至 77.6%,在 Terminal-Bench v2.0(Terminus 1 子集)上的准确率则从 46.9% 显著提升至 59.1%。实验结果表明,面向长周期任务智能体的测试时扩展,本质上是一个关于经验表征(representation)、有效筛选(selection)与灵活复用(reuse)的根本性问题。
-
- 图表
- 解决问题现有test-time scaling方法依赖于 short, bounded outputs(如 single-step completions),适用于直接比较、排序或精炼的场景;但长周期编码智能体(long-horizon coding agents)生成的是包含多步动作、观测、错误和渐进式进展的复杂轨迹,无法被传统方法有效处理。核心问题不是生成更多尝试,而是如何将高维、冗余的轨迹压缩为可选择、可复用的紧凑表征——这是一个尚未被系统解决的新问题。
- 关键思路提出一种面向agentic coding的test-time scaling新范式:将每个rollout轨迹结构化压缩为语义浓缩的summary(保留关键假设、进展与失败模式,丢弃低信噪比执行细节);在此基础上构建两种互补的推理时扩展机制——并行的Recursive Tournament Voting(RTV,通过分层小群比较实现高效筛选)和串行的PDR变体(Parallel-Distill-Refine adapted to agents,以历史summary为条件引导新rollout)。其根本创新在于将test-time scaling的本质重新定义为representation → selection → reuse的闭环,而非单纯增加采样数。
- 其它亮点在SWE-Bench Verified(mini-SWE-agent)和Terminal-Bench v2.0(Terminus 1)两个权威长周期编码基准上取得显著提升(如Claude-4.5-Opus在前者+6.7pp,后者+12.2pp);实验设计严谨,涵盖多模型(Claude、Terminus等)、多任务类型(debugging、CLI automation)和不同规模的rollout集合;未提及开源代码,但方法高度模块化、不依赖特定模型架构;值得深入的方向包括:summary生成的可解释性评估、跨任务迁移性、与规划/记忆机制的联合建模。
- Test-Time Scaling for LLMs (Xie et al., NeurIPS 2023); Self-Consistency and Majority Voting (Wang et al., ICLR 2023); Reflexion: Language Agents with Verbal Reinforcement Learning (Shinn et al., ICML 2024); SWE-Agent: An Agent Framework for Software Engineering (Chen et al., arXiv 2024); TerminalBench: A Benchmark for CLI-Based Agentic Reasoning (Liu et al., arXiv 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流