- 简介大型语言模型(LLMs)在各种任务中展示出了出色的新兴能力,但在复杂的推理和规划任务上表现不佳。基于树搜索的推理方法通过超越思维链提示的能力来解决这个问题,鼓励探索中间步骤。然而,这种方法由于系统性地探索和评估多个思路路径而引入了显著的推理延迟。本文介绍了SeeD,一种新颖而高效的推理框架,以同时优化运行时速度和GPU内存管理。通过采用定时的推测执行,SeeD有效地处理了思维生成和状态评估的多次迭代,利用轮次调度策略来管理草案模型的分派。在三个推理数据集上进行的广泛实验评估展示了SeeD的卓越加速性能,为训练免费的推测解码批量推理提供了可行的路径。
-
- 图表
- 解决问题本文旨在解决基于树搜索的推理方法在思考路径探索时存在的推理延迟问题,提出一种名为SeeD的新型推理框架,以实现高效的批量推理。
- 关键思路SeeD框架采用预定的推理执行策略,同时处理思考生成和状态评估的多次迭代,利用轮排程策略管理草案模型的分派,从而提高推理速度和GPU内存管理效率。
- 其它亮点本文提出的SeeD框架在三个推理数据集上进行了广泛的实验评估,表现出优越的加速性能,为训练无需推理的推测解码提供了可行的路径。此外,本文还开源了SeeD框架的代码。
- 最近在这个领域中,也有一些相关研究,例如“Neural Logic Machines”和“Differentiable Reasoning Beyond First-Order Logic”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流