- 简介降低大型语言模型(LLMs)的推理延迟非常关键,而推测解码(SD)是最有效的技术之一。推测解码不是让LLM直接生成所有令牌,而是采用有效的代理来预测潜在的输出,然后由LLM验证而不会影响生成质量。然而,在实际的在线LLM服务系统(连续批处理)中部署SD并不总是能够提高性能-在更高的请求速率或低推测准确性下,它反而会增加延迟。此外,在不同系统负载下,并没有适用于所有工作负载的最佳推测长度。基于这些观察,我们开发了一个动态框架SmartSpec。SmartSpec根据一个称为goodput的新指标动态确定每个请求的最佳推测长度(从0,即没有推测,到多个令牌)-因此关联的推测执行成本-该指标表征整个系统当前观察到的负载和推测准确性。我们展示了SmartSpec相对于非推测解码基线在不同目标模型、草案模型、请求速率和数据集大小下一致地将平均请求延迟降低了最多3.2倍。此外,SmartSpec可以应用于不同风格的推测解码,包括传统的基于模型的方法以及像提示查找和树形解码这样的无模型方法。
- 图表
- 解决问题论文旨在解决大型语言模型在实时在线服务中推理延迟问题,提出了一种动态确定最佳推测长度的框架SmartSpec。
- 关键思路SmartSpec动态确定每个请求的最佳推测长度,以此减少推理延迟,该长度基于一个新的度量标准goodput,该标准考虑了整个系统的负载和推测准确性。
- 其它亮点论文展示了SmartSpec相对于非推测解码基线在不同大小的目标模型、草稿模型、请求率和数据集上的一致降低平均请求延迟高达3.2倍。SmartSpec可应用于不同风格的推测解码,包括传统的基于模型的方法以及基于提示查找和树状解码等无模型方法。
- 相关研究包括但不限于:1. Speculative Decoding for Neural Machine Translation; 2. Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets; 3. Modeling Localness for Self-Attention Networks.
沙发等你来抢
去评论
评论
沙发等你来抢