ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

2025年11月26日
  • 简介
    大语言模型虽是强大的通才,但在解决诸如“人类最后考试”(HLE)这类深刻而复杂的问题时,仍面临概念上的挑战和高昂的计算成本。我们发现,由小型协调器(orchestrators)来管理其他模型和多种工具,既能提升智能能力的上限,也能在解决困难的代理型任务时提高效率。我们提出了ToolOrchestra,一种用于训练能够协调智能工具的小型协调器的方法。ToolOrchestra明确采用强化学习,并结合以结果、效率和用户偏好为导向的奖励机制。借助ToolOrchestra,我们训练出了名为Orchestrator的80亿参数模型,该模型在较低成本下实现了高于以往工具使用代理的准确率,同时能根据用户偏好决定针对特定查询应调用哪些工具。在HLE测试中,Orchestrator取得了37.1%的得分,超过GPT-5的35.1%,且效率高出2.5倍。在tau2-Bench和FRAMES两个基准测试中,Orchestrator以远超GPT-5的表现,仅消耗约30%的成本。大量分析表明,Orchestrator在多个评估指标下均实现了性能与成本之间的最佳平衡,并能稳健地泛化至未见过的工具。这些结果证明,通过轻量级的协调模型整合多样化工具,比现有方法更高效也更有效,为构建实用且可扩展的工具增强型推理系统开辟了新路径。
  • 作者讲解·4
  • 图表
  • 解决问题
    论文试图解决大语言模型在处理复杂、深层次问题(如Humanity's Last Exam, HLE)时面临的效率低下和成本高昂的问题。尽管大模型具备强大的泛化能力,但在执行需要调用多种工具的智能代理任务时,计算开销巨大,且难以兼顾用户偏好与执行效率。该问题在当前AI研究中日益重要,尤其是在追求高效、可扩展的工具增强推理系统的背景下,具有显著的新颖性和现实意义。
  • 关键思路
    提出ToolOrchestra方法,使用小型强化学习驱动的‘协调器’(orchestrator)模型来管理多个专用模型和工具,实现高效的任务分解与工具调度。关键创新在于:1)引入轻量级8B参数的Orchestrator模型,通过强化学习优化结果质量、执行效率和用户偏好三重奖励;2)将智能集中在调度策略而非单一巨型模型上,打破了‘越大越好’的传统范式,实现了更高性能与更低开销的统一。
  • 其它亮点
    Orchestrator在HLE上达到37.1%准确率,超过GPT-5的35.1%,同时效率提升2.5倍;在tau2-Bench和FRAMES基准上大幅领先GPT-5,仅消耗约30%的成本。实验设计全面评估了性能-成本权衡、跨工具泛化能力及用户偏好对齐。分析表明其在未见工具上仍表现稳健。目前尚未提及代码是否开源,但其架构为后续轻量级智能调度系统提供了新方向,值得深入探索多智能体协作、动态工具学习等方向。
  • 相关研究
    1. “Language Models as Tools: A Survey on Tool-Augmented Language Understanding” 2. “ReAct: Synergizing Reasoning and Acting in Language Models” 3. “Toolformer: Language Models Can Teach Themselves to Use Tools” 4. “API-Bank: A Benchmark for Tool-Augmented LLMs” 5. “AgentBoard: Evaluating LLMs as Agents with Interactive Tool Use”
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问