An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models

简介

大语言模型（LLMs）的最佳训练配置，包括模型大小和计算预算，已经得到广泛研究。但是如何在推理过程中最优地配置LLMs尚未得到充分深入的探讨。我们研究了计算最优推理：设计模型和推理策略，以在推理时间中最优地权衡额外的计算和改进性能。作为了解和设计计算最优推理方法的第一步，我们评估了多种推理策略的有效性和计算效率，例如贪心搜索、多数投票、最佳N、加权投票及其变体，这些策略涉及不同的模型大小和计算预算的两种不同的树搜索算法。我们发现，一个较小的语言模型配合一种新的树搜索算法通常可以实现帕累托最优权衡。这些结果突显了在预算受限的场景下部署配备更复杂解码算法的较小模型的潜在好处，例如在终端设备上，以提高问题解决的准确性。例如，我们表明，在使用$2\times$更少的FLOPs的情况下，Llemma-7B模型可以在MATH500上实现与Llemma-34B模型相当的准确性。我们的发现可能适用于任何具有明确定义成功度量的生成任务。
图表
解决问题

本论文旨在探讨如何在推理过程中优化大型语言模型的配置，以实现更好的性能和计算效率。
关键思路

通过研究多种推理策略和树搜索算法，论文提出了在性能和计算效率之间进行Pareto最优权衡的方法，即通过使用更小的语言模型和更复杂的解码算法来提高问题解决的准确性。
其它亮点

论文使用多种数据集和实验设计来验证提出的方法的有效性和可行性，同时还提供了开源代码。此外，论文还发现，在预算受限的情况下，使用更小的模型配合更复杂的解码算法可以取得更好的性能和计算效率之间的权衡。
相关研究

相关研究包括大型语言模型的训练和配置方案，以及推理过程中的优化方法。

An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models

评论