直播｜小模型协调大能力，英伟达研究院最新工作

报告主题：英伟达研究院｜ ToolOrchestra：通过高效模型与工具编排提升智能

报告日期：01月21日（本周三）10:30-11:30

报告要点：

本期报告将英伟达研究院刁诗哲进行分享。

传统大模型往往依赖单一超大模型完成复杂推理与工具调用任务，计算成本高、效率受限。该工作提出一种新的智能系统范式：使用一个轻量级的“编排器”模型，通过强化学习学习如何在不同任务中动态调度多种工具与模型，在正确性、成本和用户偏好之间进行联合优化。这种方法的关键创新包括：

编排器通过强化学习训练，在决策过程中同时考虑正确性、效率和用户偏好，实现多目标优化；

统一的工具调用接口，使各类工具（网络搜索、代码解释器、专业模型、大型通用模型等）均可参与协同；

多轮推理与工具调用机制，通过联动不同能力的模块来逐步推进复杂任务的求解。

实验表明，一个仅 8B 参数的编排模型即可在 Humanity’s Last Exam、FRAMES、Tau²-Bench 等高难度基准上取得优于或接近顶级大模型的性能，同时显著降低推理成本，展示了“以小模型协调大能力”的高效智能新路径。

报告嘉宾：

刁诗哲博士目前担任英伟达研究院研究员，主要从事高效推理模型训练与代理型基础模型（agentic foundation models）方向的研究。他于 2023 年在香港科技大学获得博士学位，师从张潼教授。在机器学习与自然语言处理领域的 ICML、ICLR、NeurIPS、ACL、EMNLP、NAACL 等顶级会议上发表论文 30 余篇。他曾担任 NAACL 2025 Demo Track 主席、ACL 领域主席，并多次担任 ICLR、ICML、NeurIPS 等顶会审稿人。他曾获得 NAACL 2024 Outstanding Paper Award 和 Best Demo Paper Award。与此同时，他是开源后训练框架 LMFlow 的第一作者，该项目在 GitHub 上获得超过 8,000 颗星标并被广泛采用。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

直播｜小模型协调大能力，英伟达研究院最新工作

评论列表

评论