- 简介传统的大型语言模型(LLMs)自回归性质固有地限制了推理速度,因为标记是按顺序生成的。虽然投机和并行解码技术试图缓解这一问题,但它们面临着限制:要么依赖于不太准确的较小模型进行生成,要么无法充分利用基本LLM的表示。我们引入了一种新颖的架构,Tandem transformers,以解决这些问题。该架构独特地结合了(1)小型自回归模型和(2)以块模式运行的大型模型(同时处理多个标记)。通过授予小模型对大模型更丰富的表示的关注,小模型的预测准确性得到了显著提高。在PaLM2预训练数据集上,PaLM2-Bison和PaLM2-Gecko的串联比单独的PaLM2-Gecko的下一个标记预测准确性提高了3.3%,相比具有可比下游性能的PaLM2-Otter模型,提供了1.16倍的加速。我们进一步将串联模型纳入投机解码(SPEED)框架中,其中大型模型验证小型模型的标记。这确保了PaLM2-Bison和PaLM2-Gecko的串联在保持相同下游任务准确性的同时实现了显着的加速(比使用普通的PaLM2-Gecko在SPEED中快约1.14倍)。
- 图表
- 解决问题本文旨在解决传统大型语言模型(LLMs)的自回归特性限制推理速度的问题,并提出一种新的架构——Tandem transformers。
- 关键思路Tandem transformers架构将小型自回归模型和大型块模型结合起来,通过让小模型关注大模型的更丰富表示来显著提高其预测准确性。同时,将Tandem模型融入到预测性解码框架(SPEED)中,使其在保持相同下游任务准确性的情况下实现了显著的加速。
- 其它亮点实验结果显示,PaLM2-Bison和PaLM2-Gecko的Tandem在下一个令牌预测准确性方面比PaLM2-Gecko单独提高了3.3%,相比于具有可比下游表现的PaLM2-Otter模型,提供了1.16倍的加速。此外,将Tandem模型融入到SPEED框架中,使其比使用普通PaLM2-Gecko在SPEED中快1.14倍。
- 最近在这个领域中,还有一些相关的研究。例如,GPT-3等大型语言模型的开发,以及一些旨在提高自回归模型推理速度的技术,如并行解码和推测性解码等。
沙发等你来抢
去评论
评论
沙发等你来抢