- 简介大型语言模型(LLMs)因自回归解码需求与大多数现代GPU设计不匹配而效率低下。具体来说,数十亿到数万亿的参数必须通过有限的内存带宽加载到GPU缓存中进行计算,但实际上只有一小批令牌被计算。因此,GPU花费大部分时间在内存传输而不是计算上。最近,一种称为并行解码的推测解码算法变得越来越流行,并在生成方面展示了令人印象深刻的效率提升。它为大型模型引入了额外的解码头,使它们能够同时预测多个后续令牌,并在单个解码步骤中验证这些候选继续。然而,这种方法偏离了预训练期间使用的下一个令牌预测的训练目标,导致候选令牌的命中率较低。在本文中,我们提出了一种新的推测解码算法Clover,它将顺序知识整合到并行解码过程中。这种增强提高了推测者的命中率,从而提高了整体效率。Clover通过回归连接传输来自预测令牌的顺序知识,然后使用注意力解码器来整合这些预测令牌。此外,Clover还包括一个增强块,用于修改隐藏状态,以更好地与推测生成的目的相匹配,而不是下一个令牌的预测。实验结果表明,Clover在Baichuan-Small和Baichuan-Large上的基线性能分别提高了91%和146%,并且在Baichuan-Small和Baichuan-Large上的性能超过了先前表现最佳的方法Medusa的37%和57%。
-
- 图表
- 解决问题本论文旨在解决大型语言模型在生成过程中内存带宽限制导致的低效率问题。同时,论文也试图提高并行解码算法的命中率。
- 关键思路论文提出了一种新的并行解码算法Clover,该算法通过将顺序知识传输到预测的标记中,从而提高了预测的命中率。Clover还使用增强块来修改隐藏状态,以更好地适应并行生成的目的。
- 其它亮点论文的实验结果表明,Clover在Baichuan-Small和Baichuan-Large数据集上的表现分别比基准方法提高了91%和146%,并且在Baichuan-Small和Baichuan-Large数据集上的表现分别比先前表现最好的方法Medusa提高了37%和57%。此外,论文还开源了代码。
- 与本论文相关的研究包括Medusa、并行解码算法等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流