
报告日期:01月21日(本周三)10:30-11:30
报告要点:
本期报告将英伟达研究院刁诗哲进行分享。
传统大模型往往依赖单一超大模型完成复杂推理与工具调用任务,计算成本高、效率受限。该工作提出一种新的智能系统范式:使用一个轻量级的“编排器”模型,通过强化学习学习如何在不同任务中动态调度多种工具与模型,在正确性、成本和用户偏好之间进行联合优化。这种方法的关键创新包括:
编排器通过强化学习训练,在决策过程中同时考虑正确性、效率和用户偏好,实现多目标优化;
统一的工具调用接口,使各类工具(网络搜索、代码解释器、专业模型、大型通用模型等)均可参与协同;
多轮推理与工具调用机制,通过联动不同能力的模块来逐步推进复杂任务的求解。
实验表明,一个仅 8B 参数的编排模型即可在 Humanity’s Last Exam、FRAMES、Tau²-Bench 等高难度基准上取得优于或接近顶级大模型的性能,同时显著降低推理成本,展示了“以小模型协调大能力”的高效智能新路径。


扫码报名
更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢