- 简介目前,关于人工智能代理大规模监督微调的公开研究成果相对较少,因为代理训练数据的收集面临独特的挑战。本文认为,瓶颈并不在于缺乏底层数据源,而在于大量不同类型的数据分散在各种异构的格式、工具和接口之中。为此,我们提出了代理数据协议(ADP),这是一种轻量级的表示语言,可作为多种格式的代理数据集与下游统一代理训练流程之间的“中间语”。ADP 的设计具有足够的表达能力,能够涵盖多种任务类型,包括 API/工具使用、网页浏览、编程、软件工程以及通用的代理工作流,同时保持结构简洁,便于解析和训练,无需针对每个数据集进行专门的工程处理。在实验中,我们将现有的 13 个代理训练数据集广泛整合为 ADP 格式,并将标准化后的 ADP 数据转换为适用于多个代理框架的可训练格式。基于这些数据进行监督微调后,我们的模型相较基础模型平均性能提升了约 20%,并在标准的编程、浏览、工具使用和研究类基准测试中达到了当前最优或接近最优的水平,且无需进行特定领域的调优。所有代码和数据均已公开发布,期望 ADP 能有助于降低实现标准化、可扩展且可复现的代理训练的门槛。
-
- 图表
- 解决问题论文试图解决大规模监督微调(SFT)AI智能体时,训练数据分散在不同格式、工具和接口中,导致数据整合困难的问题。尽管存在大量潜在的数据源,但由于缺乏统一的数据表示标准,使得构建可扩展、可复现的智能体训练流程变得极具挑战。这个问题在当前研究中尚未被系统性解决,因此具有新颖性和实际意义。
- 关键思路提出“智能体数据协议”(Agent Data Protocol, ADP),作为一种轻量级的中间表示语言(interlingua),用于统一多种异构格式的智能体训练数据。ADP设计简洁且表达能力强,能够涵盖API调用、网页浏览、编程、软件工程等多种任务类型,使不同来源的数据可以无缝集成到统一的训练流程中,无需针对每个数据集进行定制化工程处理。这一思路首次将数据标准化协议引入智能体训练领域,提升了数据互操作性。
- 其它亮点作者整合了13个现有的智能体训练数据集 into ADP 格式,并成功转换为多个主流智能体框架可用的训练格式;通过监督微调实验,在编码、浏览、工具使用和研究类基准上平均性能提升约20%,达到或接近SOTA水平,且无需领域特定调优;所有代码与数据均已公开发布,极大促进了可复现性和社区协作;未来可探索ADP在多模态智能体、长期记忆、强化学习中的扩展应用。
- 1. 'Language Models as Agents: A Survey', 2024 2. 'Tool Learning with Foundation Models', 2023 3. 'The Rise and Potential of Large Language Model Based Agents: A Survey', 2023 4. 'AgentBoard: Evaluating LLM-Based Agents with Benchmarking at Scale', 2024 5. 'SWE-bench: Can LLMs Really Solve Software Engineering Tasks?', 2023
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流