LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

简介

我们提出了LayerSkip，这是一个端到端的解决方案，可以加速大型语言模型（LLM）的推理。首先，在训练期间，我们应用层丢弃，对于较早的层使用低丢弃率，对于较晚的层使用更高的丢弃率，并使用早期退出损失，其中所有变压器层共享相同的退出。其次，在推理期间，我们展示了这种训练配方增加了早期层的早期退出的准确性，而不需要向模型添加任何辅助层或模块。第三，我们提出了一种新颖的自我推测解码解决方案，其中我们在早期层退出，然后使用模型的剩余层进行验证和校正。我们提出的自我推测解码方法具有比其他推测解码方法更少的内存占用，并且受益于草稿和验证阶段的共享计算和激活。我们在不同的LLM模型大小上进行了实验，采用了不同类型的训练：从头开始预训练，持续预训练，针对特定数据域进行微调和针对特定任务进行微调。我们实现了我们的推理解决方案，并在CNN / DM文档的摘要，编码和TOPv2语义解析任务上展示了高达2.16x，1.82x和2.0x的加速。
作者讲解·4
- 讲解视频
- 相关报道(4)
图表
解决问题

本论文旨在提出一种端到端的解决方案，以加速大型语言模型的推理速度。具体而言，论文主要解决了早期退出准确性和自我推测解码的问题。
关键思路

论文提出了一种训练方案，其中使用层丢弃和早期退出损失来提高早期退出的准确性，并通过自我推测解码来加速推理速度。
其它亮点

论文通过在不同类型的训练数据上进行实验，展示了该方法的有效性和可扩展性。此外，论文的自我推测解码方法具有较小的内存占用，并且在速度和准确性方面表现出色。
相关研究

近年来，研究人员已经提出了许多早期退出和自我推测解码的方法，例如《Towards Efficient Model Selection in Deep Learning with Early Exit》和《Self-Supervised Learning for Contextualized Extractive Summarization》。

LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

提问交流

提问交流