Agentic Systems as Boosting Weak Reasoning Models

向作者提问

NEW

简介

一个由多个推理能力较弱的模型调用所组成的委员会，能否达到远为强大的模型的性能水平？我们研究了“验证器支持的委员会搜索”（verifier-backed committee search）这一方法，将其作为一种面向推理型语言模型的推理时增强（inference-time boosting）技术。该机制的本质并非简单地“代理数量越多越好”：样本中会自然暴露出潜在的正确解，而批评者（critic）与比较器（comparator）则必须在无法访问隐藏验证器的前提下，独立识别并恢复这些正确解。我们通过将该过程形式化为四个正交维度——提案覆盖度（proposal coverage）、局部可辨识性（local identifiability）、进展性（progress）和多样性（diversity）——来系统刻画这一视角。我们证明：覆盖度可通过重复采样得以放大，但仅靠覆盖度本身无法构建出有效的批评者或比较器；可靠的性能放大还需额外的局部健全性信号（local soundness signal），例如代码执行、证明检验、类型检查、单元测试或约束求解。我们进一步给出了基于排序的理论界（rank-based bounds），明确刻画了局部选择错误在何种条件下仍能组合成可靠的推理轨迹；同时，我们也刻画了提案端（proposer side）的性能上限：理想化的“最优k选一”（oracle best-of-\(k\)）性能，其收敛极限仅为任务空间中那些被提案系统赋予了非零且有效概率的任务子集的测度（即占比）。实证结果表明，在 SWE-bench Verified 基准上，单次调用轻量级模型 \texttt{GPT-5.4 nano} 作为提案者，即可解决 67.0% 的任务；而采用同一款 \texttt{GPT-5.4 nano} 模型构建批评者–比较器协同机制，并在 \(k=8\) 的提案规模下，性能提升至 76.4%，不仅追平了独立运行的 \texttt{Gemini 3 Pro} 和 \texttt{Claude Opus 4.5 Thinking} 的表现，更已逼近该设置下 79.0% 的“最优八选一”（oracle best-of-8）理论上限。由此可见，大量正确补丁其实早已存在于弱模型生成的提案池中；当前的主要瓶颈并非生成能力不足，而是如何精准甄别与选取这些正确解。剩余未解决的失败案例，绝大多数源于提案覆盖度本身的缺失——这反映出不同弱模型间存在共性的盲区，而仅靠提升选择机制的强度，是无法弥补此类系统性覆盖缺陷的。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文探讨：能否通过组合多个弱推理模型（如小型语言模型）的提案，并辅以基于形式化验证信号（如执行、类型检查、约束求解）的批评与比较机制，实现媲美强模型（如Gemini 3 Pro、Claude Opus 4.5 Thinking）的推理性能？核心假设是——正确答案常已隐含在弱模型的采样池中，瓶颈不在生成能力，而在识别与筛选能力；该问题在推理增强领域具有新颖性，聚焦于‘ verifier-backed committee search’这一非参数化、推理时（inference-time）的boosting范式，而非传统模型缩放或微调。
关键思路

提出‘验证器支撑的委员会搜索’（verifier-backed committee search）：将推理过程解耦为三个角色——弱 proposer（生成k个候选解）、critic（基于局部可验证信号评估单个解的soundness）、comparator（在无全局标签下对k个解进行相对排序）。关键创新在于形式化分离proposal coverage（覆盖率）、local identifiability（局部可识别性）、progress（进展性）和diversity（多样性），并严格证明：仅靠增加采样（coverage amplification）无法提升选择质量；必须引入外部local soundness signal（如代码执行、证明检查等）作为不可替代的‘锚点’，才能使critic/comparator可靠放大性能。这颠覆了‘更多样本即更强’的直觉，强调验证信号的结构性作用。
其它亮点

实验在SWE-bench Verified（带自动验证反馈的代码修复基准）上完成：单次GPT-5.4 nano仅达67.0%，而相同nano模型经critic-comparator编排（k=8）达76.4%，匹配Gemini 3 Pro与Claude Opus 4.5 Thinking水平，并逼近oracle best-of-8上界（79.0%）；失败分析表明剩余3.6%缺口主因proposal coverage缺失（即所有k个提案均未覆盖正确解），而非选择错误——证实‘盲区在生成端，不在判别端’；论文提供理论rank-based误差传播界与oracle convergence分析；虽未明确提及开源代码，但数据集SWE-bench Verified已公开；值得深入的方向包括：跨任务迁移soundness信号设计、低开销轻量级验证器构建、以及针对coverage盲区的主动proposal引导机制。
相关研究

近期相关工作包括：1) 'Self-Consistency Improves Chain of Thought Reasoning in Language Models' (Wang et al., 2023) —— 提出多数投票式集成，但缺乏验证信号驱动；2) 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models' (Yao et al., 2023) —— 引入搜索树结构，但依赖LLM自身打分，未解耦验证；3) 'Verifiable Reasoning via Contrastive Search' (Li et al., 2024) —— 利用对比搜索提升可验证性，但未建模committee dynamics；4) 'AlphaProof & AlphaGeometry 2' (DeepMind, 2024) —— 将形式化验证深度嵌入搜索，属强验证先验场景；5) 'Test-Time Scaling for Reasoning Models' (Liu et al., 2024) —— 探索测试时计算分配，但未聚焦验证信号的必要性证明。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问