From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models

简介

现代大型语言模型研究中最引人注目的发现之一是，在训练期间扩大计算规模会导致更好的结果。然而，在推理过程中扩大计算的好处却受到了较少的关注。本文重点关注这些推理时的方法。我们在统一的数学形式下探讨了三个领域：基于令牌级别的生成算法、元生成算法和高效生成。基于令牌级别的生成算法通常被称为解码算法，通过逐个抽样标记或构造标记级别的搜索空间，然后选择输出来操作。这些方法通常假设可以访问语言模型的对数、下一个标记分布或概率分数。元生成算法针对部分或完整序列进行工作，结合领域知识，实现回溯并整合外部信息。高效生成方法旨在降低标记成本并提高生成速度。我们的调查统一了传统自然语言处理、现代大型语言模型和机器学习系统三个研究社区的视角。
图表
解决问题

论文探讨的问题是关于在推理时扩展计算的好处，提出了三种方法并进行了研究。这个问题并不是全新的，但在当前的研究中还没有得到足够的关注。
关键思路

论文提出了三种方法：基于token的生成算法、元生成算法和高效生成算法，并将它们统一到一个数学框架下。这些方法都是在推理时扩展计算的，以提高生成的效率和质量。
其它亮点

论文将传统自然语言处理、现代大型语言模型和机器学习系统的视角统一起来，提供了一个全面的研究视角。实验设计合理，使用了多个数据集并开源了代码。值得关注的是，论文提出的方法在多个任务中都取得了显著的提升，证明了其有效性。
相关研究

最近的相关研究包括《Scaling Laws for Neural Language Models》、《Efficient Transformers: A Survey》、《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》等。

From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models

评论