Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass

简介

当今许多应用程序在用户输入时会提供多个自动完成的草稿，包括GitHub的代码完成、Gmail的智能撰写和Apple的消息自动建议。在幕后，语言模型通过运行自回归推理来提供草稿。因此，向用户提供$k$个草稿需要运行$k$次昂贵的语言模型。为了减轻运行$k$个推理传递的计算成本，我们提出了Superposed Decoding，这是一种新的解码算法，可以在运行一次自回归推理的计算成本下生成$k$个草稿。我们通过将$k$个草稿的最近标记嵌入的叠加作为输入提供给语言模型的下一个解码步骤来实现这一点。在每个推理步骤中，我们将$k$个草稿与前$k$个标记组合，得到$k^2$个新的草稿，并使用最小的计算开销进行n-gram插值，以过滤不连贯的生成。我们的实验表明，Superposed Decoding生成的$k$个草稿至少与Nucleus Sampling和Greedy Decoding的草稿一样连贯和准确，而对于$k\ge3$，速度至少快$2.44$倍。在计算标准化设置中，用户评价明显偏向于由Superposed Decoding生成的文本。代码和更多示例开源在https://github.com/RAIVNLab/SuperposedDecoding。
图表
解决问题

Superposed Decoding解决了多个自动完成草稿的生成问题，降低了计算成本。
关键思路

Superposed Decoding使用了超级位置的解码算法，将$k$个草稿的最新标记嵌入作为输入，从而在一次自回归推理中生成$k$个草稿，大大降低了计算成本。
其它亮点

论文通过实验表明，相对于Nucleus Sampling和贪心解码，Superposed Decoding生成的$k$个草稿至少同样连贯和准确，并且速度至少快$2.44$倍。此外，用户评价也表明，相对于Nucleus Sampling，使用Superposed Decoding生成的文本更受欢迎。
相关研究

最近在这个领域中，也有一些相关的研究，如Top-k Sampling, Nucleus Sampling, Beam Search等。

Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass

评论