- 简介我们提出了LayerSkip,这是一种端到端的解决方案,用于加速大型语言模型(LLMs)的推理。首先,在训练期间,我们应用层丢弃技术,前几层的丢弃率较低,后几层的丢弃率较高,并使用早期退出损失函数,其中所有变压器层共享同一退出点。其次,在推理期间,我们展示了这种训练方法可以增加较早层的早期退出准确性,而不需要向模型添加任何辅助层或模块。第三,我们提出了一种新颖的自我推测解码解决方案,其中我们在早期层退出,然后使用模型的其余层进行验证和纠正。我们提出的自我推测解码方法的内存占用比其他推测解码方法更小,并且受益于草案和验证阶段的共享计算和激活。我们在不同的Llama模型大小上进行了实验,包括从头开始的预训练、连续预训练、在特定数据领域上进行微调以及在特定任务上进行微调。我们实现了我们的推理解决方案,并在CNN/DM文档的摘要、编码和TOPv2语义解析任务上展示了高达2.16倍、1.82倍和2.0倍的加速效果。
-
- 图表
- 解决问题LayerSkip试图解决的问题是如何加速大型语言模型的推理速度。这是否是一个新问题?
- 关键思路LayerSkip的解决方案包括三个部分:1.在训练期间应用层丢弃和早期退出损失;2.在推理期间增加了早期退出的准确性;3.提出了一种新的自我推测解码方法。相比当前领域的研究,LayerSkip的思路的新意在于不需要添加任何辅助层或模块来加速推理,同时提出了一种新的自我推测解码方法。
- 其它亮点论文在不同的语言模型上进行了实验,包括从头开始的预训练、连续预训练、特定数据域的微调和特定任务的微调。实验结果表明,LayerSkip可以在CNN/DM文档的摘要、编码和TOPv2语义分析任务中分别实现2.16x、1.82x和2.0x的加速。论文提出的自我推测解码方法具有较小的内存占用,并受益于草案和验证阶段的共享计算和激活。
- 最近在这个领域中,还有一些相关的研究,包括《Efficient Transformers: A Survey》、《DeepSpeed: Extreme-scale Model Training for Deep Learning》、《Reformer: The Efficient Transformer》等。
- 4
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流