图片
报告主题:英伟达研究院| ToolOrchestra:通过高效模型与工具编排提升智能

报告日期:01月21日(本周三)10:30-11:30

报告要点:

本期报告将英伟达研究院刁诗哲进行分享。

传统大模型往往依赖单一超大模型完成复杂推理与工具调用任务,计算成本高、效率受限。该工作提出一种新的智能系统范式:使用一个轻量级的“编排器”模型,通过强化学习学习如何在不同任务中动态调度多种工具与模型,在正确性、成本和用户偏好之间进行联合优化。这种方法的关键创新包括:

编排器通过强化学习训练,在决策过程中同时考虑正确性、效率和用户偏好,实现多目标优化;

统一的工具调用接口,使各类工具(网络搜索、代码解释器、专业模型、大型通用模型等)均可参与协同;

多轮推理与工具调用机制,通过联动不同能力的模块来逐步推进复杂任务的求解。

实验表明,一个仅 8B 参数的编排模型即可在 Humanity’s Last Exam、FRAMES、Tau²-Bench 等高难度基准上取得优于或接近顶级大模型的性能,同时显著降低推理成本,展示了“以小模型协调大能力”的高效智能新路径。


报告嘉宾:
刁诗哲博士目前担任英伟达研究院研究员,主要从事高效推理模型训练与代理型基础模型(agentic foundation models)方向的研究。他于 2023 年在香港科技大学获得博士学位,师从张潼教授。在机器学习与自然语言处理领域的 ICML、ICLR、NeurIPS、ACL、EMNLP、NAACL 等顶级会议上发表论文 30 余篇。他曾担任 NAACL 2025 Demo Track 主席、ACL 领域主席,并多次担任 ICLR、ICML、NeurIPS 等顶会审稿人。他曾获得 NAACL 2024 Outstanding Paper Award 和 Best Demo Paper Award。与此同时,他是开源后训练框架 LMFlow 的第一作者,该项目在 GitHub 上获得超过 8,000 颗星标并被广泛采用。

扫码报名


更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除