ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

向作者提问

NEW

简介

大语言模型虽是强大的通才，但在解决诸如“人类最后考试”（HLE）这类深刻而复杂的问题时，仍面临概念上的挑战和高昂的计算成本。我们发现，由小型协调器（orchestrators）来管理其他模型和多种工具，既能提升智能能力的上限，也能在解决困难的代理型任务时提高效率。我们提出了ToolOrchestra，一种用于训练能够协调智能工具的小型协调器的方法。ToolOrchestra明确采用强化学习，并结合以结果、效率和用户偏好为导向的奖励机制。借助ToolOrchestra，我们训练出了名为Orchestrator的80亿参数模型，该模型在较低成本下实现了高于以往工具使用代理的准确率，同时能根据用户偏好决定针对特定查询应调用哪些工具。在HLE测试中，Orchestrator取得了37.1%的得分，超过GPT-5的35.1%，且效率高出2.5倍。在tau2-Bench和FRAMES两个基准测试中，Orchestrator以远超GPT-5的表现，仅消耗约30%的成本。大量分析表明，Orchestrator在多个评估指标下均实现了性能与成本之间的最佳平衡，并能稳健地泛化至未见过的工具。这些结果证明，通过轻量级的协调模型整合多样化工具，比现有方法更高效也更有效，为构建实用且可扩展的工具增强型推理系统开辟了新路径。
作者讲解·4
- 讲解视频(1)
- 相关报道(3)
图表
解决问题

论文试图解决大语言模型在处理复杂、深层次问题（如Humanity's Last Exam, HLE）时面临的效率低下和成本高昂的问题。尽管大模型具备强大的泛化能力，但在执行需要调用多种工具的智能代理任务时，计算开销巨大，且难以兼顾用户偏好与执行效率。该问题在当前AI研究中日益重要，尤其是在追求高效、可扩展的工具增强推理系统的背景下，具有显著的新颖性和现实意义。
关键思路

提出ToolOrchestra方法，使用小型强化学习驱动的‘协调器’（orchestrator）模型来管理多个专用模型和工具，实现高效的任务分解与工具调度。关键创新在于：1）引入轻量级8B参数的Orchestrator模型，通过强化学习优化结果质量、执行效率和用户偏好三重奖励；2）将智能集中在调度策略而非单一巨型模型上，打破了‘越大越好’的传统范式，实现了更高性能与更低开销的统一。
其它亮点

Orchestrator在HLE上达到37.1%准确率，超过GPT-5的35.1%，同时效率提升2.5倍；在tau2-Bench和FRAMES基准上大幅领先GPT-5，仅消耗约30%的成本。实验设计全面评估了性能-成本权衡、跨工具泛化能力及用户偏好对齐。分析表明其在未见工具上仍表现稳健。目前尚未提及代码是否开源，但其架构为后续轻量级智能调度系统提供了新方向，值得深入探索多智能体协作、动态工具学习等方向。
相关研究

1. “Language Models as Tools: A Survey on Tool-Augmented Language Understanding” 2. “ReAct: Synergizing Reasoning and Acting in Language Models” 3. “Toolformer: Language Models Can Teach Themselves to Use Tools” 4. “API-Bank: A Benchmark for Tool-Augmented LLMs” 5. “AgentBoard: Evaluating LLMs as Agents with Interactive Tool Use”

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问