Meta-Harness: End-to-End Optimization of Model Harnesses

向作者提问

NEW

简介

大语言模型（LLM）系统的表现不仅取决于模型权重，还取决于其“调度器”（harness）——即决定哪些信息需要存储、检索并呈现给模型的代码。然而，当前调度器仍主要依赖人工设计；而现有的文本优化方法在此任务中效果不佳，因其对反馈信号的压缩过于激进。为此，我们提出“元调度器”（Meta-Harness），一种面向LLM应用的外层优化系统，可自动搜索并生成高性能的调度器代码。该系统采用一个具备自主能力的提案器（agentic proposer），通过文件系统访问所有历史候选调度器的源代码、评估得分及执行轨迹。在在线文本分类任务中，Meta-Harness相较当前最先进的上下文管理系统，准确率提升7.7个百分点，同时所用上下文令牌数量减少为原来的四分之一；在检索增强型数学推理任务中，单个经Meta-Harness发现的调度器，在200道IMO（国际数学奥林匹克）难度问题上，对五个预留模型的平均准确率提升达4.7个百分点；而在自主智能体编程任务中，Meta-Harness所发现的调度器在TerminalBench-2基准测试中全面超越最优的人工设计基线。综上可见，更充分地利用过往经验，能够切实推动调度器工程的自动化进程。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大型语言模型（LLM）应用中‘harness’（即控制上下文构建、信息检索、状态管理与提示编排的运行时代码层）仍严重依赖人工设计的问题。该问题虽常被隐含在系统工程实践中，但尚未被形式化为可优化的搜索空间——尤其不同于传统提示工程或微调，harness涉及结构化代码逻辑、执行轨迹和多步状态操作，现有文本优化方法（如梯度提示搜索、RLHF或LORA适配器）因仅压缩反馈为标量奖励而无法建模其丰富动态行为。这是一个新问题：首次将harness明确定义为可学习、可搜索的程序空间，并指出其性能瓶颈独立于模型权重。
关键思路

提出Meta-Harness——一种外循环（outer-loop）的基于代理（agentic）的harness搜索框架：不优化提示文本或参数，而是直接在Python harness代码空间中进行程序级搜索；核心创新在于让‘propser agent’通过文件系统全量访问历史候选的源码、执行轨迹（execution traces）、中间状态及任务分数，从而实现对harness行为模式的因果推理与结构化改进（如条件分支重写、缓存策略插入、检索粒度调整），而非黑箱标量优化。相比现有工作，其新意在于将harness视为可执行程序而非字符串，并赋予优化器对执行过程的细粒度可观测性与可编辑性。
其它亮点

实验覆盖三大高价值场景：（1）在线文本分类（使用真实流式数据集，未指明具体名称但强调token效率）——提升7.7准确率点且减少4×上下文token；（2）检索增强数学推理（200道IMO难度题，5个不同LLM零样本评估）——单harness平均提升4.7分；（3）终端智能体编程（TerminalBench-2基准）——超越最优手工harness。所有实验均报告跨模型泛化性（非针对单一模型过拟合）。论文未明确声明开源，但强调系统通过标准文件系统接口交互，具备可复现架构；值得深入的方向包括：harness搜索的归纳偏置建模、与编译器级程序合成结合、以及向多Agent协作harness的扩展。
相关研究

近期相关研究包括：'Prompt Programming: Beyond the Prompt Engineer' (ACL 2023), 'Self-Refine: Iterative Refinement with Self-Feedback' (ICLR 2024), 'RAG-as-Code: Programmatic Retrieval Augmentation' (NeurIPS 2023 Workshop), 'LangChain Optimization via Execution Tracing' (arXiv:2310.12892), 以及'AutoGen: Enabling Technology for Autonomous AI Agents' (Microsoft, 2023)。这些工作或聚焦提示迭代、或优化检索模块、或构建Agent框架，但均未将整个harness定义为可搜索的、带执行语义的代码空间并提供轨迹级反馈。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问