S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs

简介

"推测解码（SD）因其对LLM推理实现的显著加速而吸引了大量研究关注。然而，尽管它们提供了高速度，但是推测解码方法通常在高端设备上或具有大量GPU内存开销时才能实现最佳性能。鉴于内存有限和量化的必要性，高端GPU上的高性能模型可能会减慢7倍。为此，我们提出了Skippy Simultaneous Speculative Decoding（或S3D），这是一种基于同时多令牌解码和中间层跳过的成本效益自我推测SD方法。与最近有效的开源SD系统相比，我们的方法在需要最小的架构更改和训练数据的同时实现了最佳的性能-内存比之一。利用我们的内存效率，我们创建了一个基于Phi-3的更小但更有效的SD模型。它比量化的EAGLE模型快1.4到2倍，并在使用更少的VRAM的同时以半精度运行。"
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提高LLM推理速度的同时减少GPU内存占用的问题
关键思路

提出一种基于多标记解码和中间层跳过的自我推理SD方法，即S3D
其它亮点

S3D方法在性能-内存比方面表现出色，且无需大量改变架构和训练数据。基于S3D方法，提出了一个比EAGLE模型更快的SD模型Phi-3，运行在半精度模式下，使用更少的VRAM。
相关研究

最近的相关研究包括SpeculativeBERT，SpecAugment和EAGLE等。