Layer Skip: Enabling Early Exit Inference and Self-Speculative Decoding

向作者提问

NEW

简介

我们提出了LayerSkip，这是一种端到端的解决方案，用于加速大型语言模型（LLMs）的推理。首先，在训练期间，我们应用层丢弃技术，前几层的丢弃率较低，后几层的丢弃率较高，并使用早期退出损失函数，其中所有变压器层共享同一退出点。其次，在推理期间，我们展示了这种训练方法可以增加较早层的早期退出准确性，而不需要向模型添加任何辅助层或模块。第三，我们提出了一种新颖的自我推测解码解决方案，其中我们在早期层退出，然后使用模型的其余层进行验证和纠正。我们提出的自我推测解码方法的内存占用比其他推测解码方法更小，并且受益于草案和验证阶段的共享计算和激活。我们在不同的Llama模型大小上进行了实验，包括从头开始的预训练、连续预训练、在特定数据领域上进行微调以及在特定任务上进行微调。我们实现了我们的推理解决方案，并在CNN/DM文档的摘要、编码和TOPv2语义解析任务上展示了高达2.16倍、1.82倍和2.0倍的加速效果。
作者讲解·4
- 讲解视频
- 相关报道(4)
图表
解决问题

LayerSkip试图解决的问题是如何加速大型语言模型的推理速度。这是否是一个新问题？
关键思路

LayerSkip的解决方案包括三个部分：1.在训练期间应用层丢弃和早期退出损失；2.在推理期间增加了早期退出的准确性；3.提出了一种新的自我推测解码方法。相比当前领域的研究，LayerSkip的思路的新意在于不需要添加任何辅助层或模块来加速推理，同时提出了一种新的自我推测解码方法。
其它亮点

论文在不同的语言模型上进行了实验，包括从头开始的预训练、连续预训练、特定数据域的微调和特定任务的微调。实验结果表明，LayerSkip可以在CNN/DM文档的摘要、编码和TOPv2语义分析任务中分别实现2.16x、1.82x和2.0x的加速。论文提出的自我推测解码方法具有较小的内存占用，并受益于草案和验证阶段的共享计算和激活。
相关研究

最近在这个领域中，还有一些相关的研究，包括《Efficient Transformers: A Survey》、《DeepSpeed: Extreme-scale Model Training for Deep Learning》、《Reformer: The Efficient Transformer》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问