Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search

简介

最近的研究进展表明，增加推理时的计算量可以显著提升大型语言模型（LLMs）的推理能力。尽管重复采样（即生成多个候选输出）是一种非常有效的策略，但它并未利用外部反馈信号进行优化，而在编程等任务中这些信号通常是可用的。在本文中，我们提出了一种新的推理时框架——自适应分支蒙特卡罗树搜索（AB-MCTS），它通过有原则的多轮探索和利用来推广重复采样的方法。在搜索树的每个节点上，AB-MCTS 根据外部反馈信号动态决定是“扩展宽度”生成新的候选响应，还是“深入挖掘”重新审视现有的响应。我们在复杂编程和工程任务中使用前沿模型对我们的方法进行了评估。实证结果表明，AB-MCTS 一致优于重复采样和标准蒙特卡罗树搜索（MCTS），突显了将 LLMs 的响应多样性与多轮解决方案优化相结合以实现有效推理时间扩展的重要性。
图表
解决问题

该论文试图解决如何通过增加推理时的计算量来显著提升大型语言模型（LLMs）在复杂任务（如编程和工程任务）中的推理能力。它特别关注于如何利用外部反馈信号来改进生成结果，这是重复采样方法无法实现的。这并不是一个全新的问题，但在结合外部反馈信号以改进LLM性能方面提出了新的挑战。
关键思路

论文的关键思路是提出了一种名为自适应分支蒙特卡洛树搜索（AB-MCTS）的新框架。与简单的重复采样不同，AB-MCTS能够根据外部反馈信号动态决定是在当前节点扩展更多候选响应（'更宽'），还是深入探索已有的候选（'更深'）。这种方法结合了LLM的响应多样性与多轮解决方案优化，从而提高了推理效率和准确性。这一思路在现有研究中具有创新性，因为它首次系统地将外部反馈整合到LLM的推理过程中。
其它亮点

论文的亮点包括：1) 提出了一个新颖的AB-MCTS框架，该框架不仅增加了响应的多样性，还通过外部反馈实现了对生成内容的有效优化；2) 在复杂的编程和工程任务上进行了广泛的实验验证，证明了AB-MCTS比重复采样和标准MCTS更为有效；3) 研究表明，结合响应多样性和多轮优化对于提高LLM的推理能力至关重要。此外，虽然未提及是否开源代码，但作者强调了其方法在前沿模型上的应用，为未来的研究提供了宝贵的方向。
相关研究

近期在这个领域内还有其他一些相关研究，例如《Reinforcement Learning for Text Generation》探讨了强化学习在文本生成中的应用；《Improving Neural Code Generation with Program Synthesis》则专注于通过程序合成改进神经代码生成；《Interactive Machine Translation: A Survey》综述了交互式机器翻译的研究进展。这些研究均旨在通过不同的方式增强语言模型的功能，而本论文提出的AB-MCTS提供了一种新的视角，即利用外部反馈进行推理时间优化。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论