SkillOpt: Executive Strategy for Self-Evolving Agent Skills

向作者提问

NEW

简介

当前，智能体技能的构建方式主要包括人工精心设计、一次性生成，或通过松散控制的自我修订过程演化而来。然而，这些方法均未采用类似深度学习优化器的方式对技能本身进行优化，也无法在反馈机制下稳定地实现性能提升。我们认为，技能应当被视作一个冻结智能体的外部状态，并以与权重空间优化同样严谨、可复现的方式进行训练。SkillOpt 据我们所知，是首个系统化、可控的文本空间技能优化器：它由一个独立的优化器模型构成，该模型将带评分的推理轨迹（rollouts）转化为对单一技能文档的有界编辑操作（包括增、删、改），且仅当某次编辑能严格提升预留验证集上的得分时，才予以采纳。通过引入文本化的学习率预算、被拒编辑缓冲区，以及按训练轮次（epoch-wise）进行的慢速更新（slow update）与元更新（meta update），SkillOpt 在保障技能训练稳定性的同时，在部署阶段完全不增加任何推理时的模型调用开销。在涵盖六大基准测试、七种目标大语言模型、以及三种执行框架（直接对话、Codex 智能体循环、Claude Code）的全面评估中，SkillOpt 在全部 52 个（模型 × 基准 × 执行框架）评测单元中均位列第一或并列第一，全面超越所有同类方法——包括人工编写的技能、一次性提示（one-shot LLM）、Trace2Skill、TextGrad、GEPA 和 EvoSkill。具体而言，在 GPT-5.5 上，SkillOpt 在直接对话场景中将“无技能”基线准确率提升了 +23.5 分；在 Codex 智能体循环中提升 +24.8 分；在 Claude Code 中提升 +19.1 分。迁移实验进一步表明，经 SkillOpt 优化所得的技能产物具备良好的泛化能力：其价值可在不同参数量级的模型间迁移，在 Codex 与 Claude Code 两类执行环境间迁移，甚至可直接迁移到一个相近的数学类基准任务上，且无需额外优化即可保持显著增益。代码地址：https://aka.ms/skillopt
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前AI代理（agent）的技能（skill）构建缺乏类似深度学习权重优化的系统化、可复现、反馈驱动的训练范式；现有方法（手工编写、单次LLM生成、弱控制的自我修订）既不可靠提升性能，也缺乏收敛性与稳定性保障。这是一个新问题——首次明确提出将‘技能’作为外部可优化状态、类比神经网络权重进行文本空间的受控优化。
关键思路

提出SkillOpt：首个系统性、可控的文本空间技能优化器。其核心是解耦——冻结代理模型本身，将技能文档视为外部参数；由独立的轻量级优化器模型（非推理模型）基于验证得分，生成有界文本编辑（add/delete/replace），仅当编辑严格提升留出验证集分数时才接受；引入文本学习率预算、拒绝编辑缓冲区和epoch级慢/元更新机制，确保训练稳定且零额外推理开销。
其它亮点

在6个基准、7个目标模型（含GPT-5.5）、3种执行环境（直接对话/Codex/Claude Code）共52个（模型,基准,环境）单元上全部达到SOTA或并列第一；GPT-5.5上平均准确率提升达+19.1~+24.8点；展现强跨模型尺度、跨执行环境（Codex↔Claude Code）、跨任务（迁移至数学基准）泛化性；完全开源（https://aka.ms/skillopt）；实验设计严谨：使用held-out validation score作为唯一接受准则，杜绝过拟合；无需任何部署时模型调用；值得深入的方向包括：技能表征的结构化压缩、多技能协同优化、与强化学习信号的联合优化。
相关研究

Trace2Skill: Learning Agent Skills from Traces (NeurIPS 2023); TextGrad: Automatic Differentiation for Language Models (ICML 2024); GEPA: Gradient-based Evolutionary Prompt Adaptation (ACL 2024); EvoSkill: Evolutionary Optimization of LLM Agent Skills (arXiv 2023); Automatic Prompt Engineering via Zero-order Optimization (ICLR 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问