- 简介最近的研究表明,树搜索算法(例如蒙特卡罗树搜索)可以大大提高复杂数学推理任务的LLM性能。然而,由于浪费性的搜索策略,它们通常需要比贪婪解码多10倍以上的计算资源,因此难以在实际应用中部署。本研究引入了一种新颖的有引导的树搜索算法,其中包括动态节点选择和节点级别的探索预算(最大子节点数)计算,以解决这个问题。通过考虑搜索进度和来自价值网络的指导,我们的算法在分配的计算预算范围内迭代选择最有前途的树节点,然后扩展它。这个价值网络是在没有任何逐步注释的情况下进行训练的。在GSM8K和TabMWP数据集上进行的实验证明,与基准方法相比,我们的方法不仅提供了有竞争力的性能,而且计算成本显著降低。
- 图表
- 解决问题提出一种新的引导树搜索算法,以降低复杂的数学推理任务中的计算资源消耗
- 关键思路通过考虑对最终答案的搜索进展和值网络的指导,动态选择节点并计算节点级别的探索预算,以降低计算资源消耗
- 其它亮点实验表明,该算法不仅性能竞争力强,而且计算成本显著低于基线方法
- 最近的相关研究包括使用树搜索算法提高数学推理任务性能的研究,以及使用神经网络指导树搜索的研究
沙发等你来抢
去评论
评论
沙发等你来抢