Meta-Harness: End-to-End Optimization of Model Harnesses

2026年03月30日
  • 简介
    大语言模型(LLM)系统的表现不仅取决于模型权重,还取决于其“调度器”(harness)——即决定哪些信息需要存储、检索并呈现给模型的代码。然而,当前调度器仍主要依赖人工设计;而现有的文本优化方法在此任务中效果不佳,因其对反馈信号的压缩过于激进。为此,我们提出“元调度器”(Meta-Harness),一种面向LLM应用的外层优化系统,可自动搜索并生成高性能的调度器代码。该系统采用一个具备自主能力的提案器(agentic proposer),通过文件系统访问所有历史候选调度器的源代码、评估得分及执行轨迹。在在线文本分类任务中,Meta-Harness相较当前最先进的上下文管理系统,准确率提升7.7个百分点,同时所用上下文令牌数量减少为原来的四分之一;在检索增强型数学推理任务中,单个经Meta-Harness发现的调度器,在200道IMO(国际数学奥林匹克)难度问题上,对五个预留模型的平均准确率提升达4.7个百分点;而在自主智能体编程任务中,Meta-Harness所发现的调度器在TerminalBench-2基准测试中全面超越最优的人工设计基线。综上可见,更充分地利用过往经验,能够切实推动调度器工程的自动化进程。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLM)应用中‘harness’(即控制上下文构建、信息检索、状态管理与提示编排的运行时代码层)仍严重依赖人工设计的问题。该问题虽常被隐含在系统工程实践中,但尚未被形式化为可优化的搜索空间——尤其不同于传统提示工程或微调,harness涉及结构化代码逻辑、执行轨迹和多步状态操作,现有文本优化方法(如梯度提示搜索、RLHF或LORA适配器)因仅压缩反馈为标量奖励而无法建模其丰富动态行为。这是一个新问题:首次将harness明确定义为可学习、可搜索的程序空间,并指出其性能瓶颈独立于模型权重。
  • 关键思路
    提出Meta-Harness——一种外循环(outer-loop)的基于代理(agentic)的harness搜索框架:不优化提示文本或参数,而是直接在Python harness代码空间中进行程序级搜索;核心创新在于让‘propser agent’通过文件系统全量访问历史候选的源码、执行轨迹(execution traces)、中间状态及任务分数,从而实现对harness行为模式的因果推理与结构化改进(如条件分支重写、缓存策略插入、检索粒度调整),而非黑箱标量优化。相比现有工作,其新意在于将harness视为可执行程序而非字符串,并赋予优化器对执行过程的细粒度可观测性与可编辑性。
  • 其它亮点
    实验覆盖三大高价值场景:(1)在线文本分类(使用真实流式数据集,未指明具体名称但强调token效率)——提升7.7准确率点且减少4×上下文token;(2)检索增强数学推理(200道IMO难度题,5个不同LLM零样本评估)——单harness平均提升4.7分;(3)终端智能体编程(TerminalBench-2基准)——超越最优手工harness。所有实验均报告跨模型泛化性(非针对单一模型过拟合)。论文未明确声明开源,但强调系统通过标准文件系统接口交互,具备可复现架构;值得深入的方向包括:harness搜索的归纳偏置建模、与编译器级程序合成结合、以及向多Agent协作harness的扩展。
  • 相关研究
    近期相关研究包括:'Prompt Programming: Beyond the Prompt Engineer' (ACL 2023), 'Self-Refine: Iterative Refinement with Self-Feedback' (ICLR 2024), 'RAG-as-Code: Programmatic Retrieval Augmentation' (NeurIPS 2023 Workshop), 'LangChain Optimization via Execution Tracing' (arXiv:2310.12892), 以及'AutoGen: Enabling Technology for Autonomous AI Agents' (Microsoft, 2023)。这些工作或聚焦提示迭代、或优化检索模块、或构建Agent框架,但均未将整个harness定义为可搜索的、带执行语义的代码空间并提供轨迹级反馈。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问