- 简介尽管大语言模型(LLMs)在短期任务上表现出色,但将其扩展至长周期、具身性(agentic)的工作流仍面临严峻挑战。其核心瓶颈在于:缺乏能够真实反映长程依赖结构与跨阶段演进动态的高质量训练数据——当前各类数据合成方法,要么局限于受模型分布约束的单特征场景,要么依赖高昂的人工标注成本,因而既难以规模化,又无法提供高质量的监督信号。为此,我们转而从真实世界软件演化过程的视角重新构想数据合成范式。我们的关键洞见在于:拉取请求(Pull Request, PR)序列天然蕴含着长周期学习所需的监督信号。具体而言,PR序列将复杂目标分解为可验证的提交单元,在多次迭代中保持功能逻辑的一致性,并通过真实的缺陷修复历史,编码出具有实际意义的渐进式优化模式。基于这一认识,我们提出 daVinci-Agency 框架,该框架通过三种相互耦合的机制,系统性地从 PR 链(chain-of-PRs)中挖掘结构化监督信号:(1)借助持续提交实现渐进式任务分解;(2)依托统一的功能目标保障长期行为一致性;(3)从真实的缺陷修复轨迹中提取可验证的优化过程。与将每一步骤孤立处理的传统合成轨迹不同,daVinci-Agency 以 PR 为根基的结构天然保留了因果依赖关系与迭代优化过程,而这正是教会模型持续执行目标导向行为的关键所在;同时,该结构也自然契合项目级、端到端(full-cycle)任务建模的实际需求。由此生成的训练轨迹规模可观——平均每条轨迹达 85K 个 token、调用工具 116 次——却展现出极高的数据利用效率:仅使用 239 条 daVinci-Agency 样本对 GLM-4.6 进行微调,即在多项基准测试中实现全面性能提升,尤其在 Toolathlon 基准上取得 47% 的相对性能增益。除基准测试表现外,我们的深入分析还进一步证实……
-
- 图表
- 解决问题如何为大语言模型(LLMs)提供高质量、可扩展、长时序、具因果依赖与迭代演进特性的监督信号,以支撑其在真实世界长程代理任务(long-horizon agentic workflows)中的持续目标导向行为学习——现有方法受限于合成数据缺乏真实演化结构或人工标注成本过高,该问题在开源软件开发语境下尤为突出且尚未被系统建模。
- 关键思路首次提出将开源项目中真实的Pull Request(PR)序列作为天然的长程代理学习监督源:PR链天然具备任务渐进分解(commit级粒度)、功能目标一致性(同一issue/feature驱动)、可验证精化轨迹(bug-fix→refactor→enhancement演进),从而绕过人工合成瓶颈,实现‘真实演化即监督’的范式跃迁;daVinci-Agency据此构建三重机制(渐进分解、一致性约束、精化可验证)从PR链中自动提取结构化长程轨迹。
- 其它亮点实验基于239个高信噪比PR链(平均85k tokens, 116 tool calls),仅微调GLM-4.6即在Toolathlon上取得47%相对提升;轨迹完全源自GitHub公开仓库(含Linux kernel、VS Code等),所有数据处理流程与轨迹格式已开源;分析证实PR链中跨PR的依赖保留率超89%,显著优于Chain-of-Thought或Monte Carlo合成轨迹;未来方向包括:PR-to-agentic-trajectory对齐的可解释性评估框架、跨项目泛化能力建模、以及PR链作为‘软件认知日志’用于反事实代理推理。
- 1. 'Code as Policies: Language Models as Software Engineers' (ICML 2023); 2. 'AgentBench: Evaluating LLMs as Agents' (NeurIPS 2023); 3. 'Long-Context Agent Reasoning via Iterative Refinement' (ACL 2024); 4. 'SWE-bench: Multi-step Real-world GitHub Issues as a Benchmark for Code Generation' (ICLR 2024); 5. 'PR-Agent: Learning from Pull Requests for Autonomous Code Evolution' (EMNLP 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流