Tandem Transformers for Inference Efficient LLMs

简介

传统的大型语言模型（LLMs）自回归性质固有地限制了推理速度，因为标记是按顺序生成的。虽然投机和并行解码技术试图缓解这一问题，但它们面临着限制：要么依赖于不太准确的较小模型进行生成，要么无法充分利用基本LLM的表示。我们引入了一种新颖的架构，Tandem transformers，以解决这些问题。该架构独特地结合了（1）小型自回归模型和（2）以块模式运行的大型模型（同时处理多个标记）。通过授予小模型对大模型更丰富的表示的关注，小模型的预测准确性得到了显著提高。在PaLM2预训练数据集上，PaLM2-Bison和PaLM2-Gecko的串联比单独的PaLM2-Gecko的下一个标记预测准确性提高了3.3％，相比具有可比下游性能的PaLM2-Otter模型，提供了1.16倍的加速。我们进一步将串联模型纳入投机解码（SPEED）框架中，其中大型模型验证小型模型的标记。这确保了PaLM2-Bison和PaLM2-Gecko的串联在保持相同下游任务准确性的同时实现了显着的加速（比使用普通的PaLM2-Gecko在SPEED中快约1.14倍）。
图表
解决问题

本文旨在解决传统大型语言模型（LLMs）的自回归特性限制推理速度的问题，并提出一种新的架构——Tandem transformers。
关键思路

Tandem transformers架构将小型自回归模型和大型块模型结合起来，通过让小模型关注大模型的更丰富表示来显著提高其预测准确性。同时，将Tandem模型融入到预测性解码框架（SPEED）中，使其在保持相同下游任务准确性的情况下实现了显著的加速。
其它亮点

实验结果显示，PaLM2-Bison和PaLM2-Gecko的Tandem在下一个令牌预测准确性方面比PaLM2-Gecko单独提高了3.3％，相比于具有可比下游表现的PaLM2-Otter模型，提供了1.16倍的加速。此外，将Tandem模型融入到SPEED框架中，使其比使用普通PaLM2-Gecko在SPEED中快1.14倍。
相关研究

最近在这个领域中，还有一些相关的研究。例如，GPT-3等大型语言模型的开发，以及一些旨在提高自回归模型推理速度的技术，如并行解码和推测性解码等。

Tandem Transformers for Inference Efficient LLMs

评论