Graph-Structured Speculative Decoding

2024年07月23日
  • 简介
    推测解码已经成为一种加速大型语言模型(LLM)推理的有前途的技术,它利用小型语言模型起草一个假设序列,然后由LLM进行验证。这种方法的有效性在很大程度上取决于起草模型的性能和效率之间的平衡。在我们的研究中,我们专注于通过生成多个假设而不仅仅是一个来提高被接受到最终输出的起草标记比例。这使LLM有更多的选择,并选择最长的符合其标准的序列。我们的分析显示,起草模型产生的假设共享许多常见的标记序列,表明有优化计算的潜力。利用这一观察结果,我们引入了一种创新的方法,利用有向无环图(DAG)来管理起草的假设。这种结构使我们能够有效地预测和合并经常出现的标记序列,大大减少了起草模型的计算需求。我们将这种方法称为图形结构化推测解码(GSD)。我们将GSD应用于一系列LLM,包括一个700亿参数的LLaMA-2模型,并观察到了1.73倍到1.96倍的显着加速,远远超过了标准的推测解码。
  • 图表
  • 解决问题
    优化大型语言模型推理效率的问题。
  • 关键思路
    通过生成多个假设序列来增加可接受的草案令牌比例。使用有向无环图(DAG)来管理假设序列,以有效地预测和合并重复的令牌序列,从而大大减少了草案模型的计算需求。
  • 其它亮点
    该论文提出的Graph-structured Speculative Decoding(GSD)方法可以加速大型语言模型的推理速度,实验结果显示相比标准的speculative decoding方法,速度提升了1.73-1.96倍。论文还使用了多个数据集进行了实验,并公开了代码。
  • 相关研究
    与本论文相关的研究包括:Speculative Batching for Large-Scale Language Model Inference、Efficient Large-Scale Language Model Inference with the 1-bit Sparse Attention、等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论