- 简介当前,智能体技能的构建方式主要包括人工精心设计、一次性生成,或通过松散控制的自我修订过程演化而来。然而,这些方法均未采用类似深度学习优化器的方式对技能本身进行优化,也无法在反馈机制下稳定地实现性能提升。我们认为,技能应当被视作一个冻结智能体的外部状态,并以与权重空间优化同样严谨、可复现的方式进行训练。SkillOpt 据我们所知,是首个系统化、可控的文本空间技能优化器:它由一个独立的优化器模型构成,该模型将带评分的推理轨迹(rollouts)转化为对单一技能文档的有界编辑操作(包括增、删、改),且仅当某次编辑能严格提升预留验证集上的得分时,才予以采纳。通过引入文本化的学习率预算、被拒编辑缓冲区,以及按训练轮次(epoch-wise)进行的慢速更新(slow update)与元更新(meta update),SkillOpt 在保障技能训练稳定性的同时,在部署阶段完全不增加任何推理时的模型调用开销。在涵盖六大基准测试、七种目标大语言模型、以及三种执行框架(直接对话、Codex 智能体循环、Claude Code)的全面评估中,SkillOpt 在全部 52 个(模型 × 基准 × 执行框架)评测单元中均位列第一或并列第一,全面超越所有同类方法——包括人工编写的技能、一次性提示(one-shot LLM)、Trace2Skill、TextGrad、GEPA 和 EvoSkill。具体而言,在 GPT-5.5 上,SkillOpt 在直接对话场景中将“无技能”基线准确率提升了 +23.5 分;在 Codex 智能体循环中提升 +24.8 分;在 Claude Code 中提升 +19.1 分。迁移实验进一步表明,经 SkillOpt 优化所得的技能产物具备良好的泛化能力:其价值可在不同参数量级的模型间迁移,在 Codex 与 Claude Code 两类执行环境间迁移,甚至可直接迁移到一个相近的数学类基准任务上,且无需额外优化即可保持显著增益。代码地址:https://aka.ms/skillopt
-
- 图表
- 解决问题当前AI代理(agent)的技能(skill)构建缺乏类似深度学习权重优化的系统化、可复现、反馈驱动的训练范式;现有方法(手工编写、单次LLM生成、弱控制的自我修订)既不可靠提升性能,也缺乏收敛性与稳定性保障。这是一个新问题——首次明确提出将‘技能’作为外部可优化状态、类比神经网络权重进行文本空间的受控优化。
- 关键思路提出SkillOpt:首个系统性、可控的文本空间技能优化器。其核心是解耦——冻结代理模型本身,将技能文档视为外部参数;由独立的轻量级优化器模型(非推理模型)基于验证得分,生成有界文本编辑(add/delete/replace),仅当编辑严格提升留出验证集分数时才接受;引入文本学习率预算、拒绝编辑缓冲区和epoch级慢/元更新机制,确保训练稳定且零额外推理开销。
- 其它亮点在6个基准、7个目标模型(含GPT-5.5)、3种执行环境(直接对话/Codex/Claude Code)共52个(模型,基准,环境)单元上全部达到SOTA或并列第一;GPT-5.5上平均准确率提升达+19.1~+24.8点;展现强跨模型尺度、跨执行环境(Codex↔Claude Code)、跨任务(迁移至数学基准)泛化性;完全开源(https://aka.ms/skillopt);实验设计严谨:使用held-out validation score作为唯一接受准则,杜绝过拟合;无需任何部署时模型调用;值得深入的方向包括:技能表征的结构化压缩、多技能协同优化、与强化学习信号的联合优化。
- Trace2Skill: Learning Agent Skills from Traces (NeurIPS 2023); TextGrad: Automatic Differentiation for Language Models (ICML 2024); GEPA: Gradient-based Evolutionary Prompt Adaptation (ACL 2024); EvoSkill: Evolutionary Optimization of LLM Agent Skills (arXiv 2023); Automatic Prompt Engineering via Zero-order Optimization (ICLR 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流