- 简介本文介绍了一种改进的猜测解码方法,旨在提高为大型语言模型提供服务的效率。我们的方法利用了两种已有技术的优点:经典的双模型猜测解码方法和较新的单模型方法Medusa。受Medusa的启发,我们的方法采用了单模型策略进行猜测解码。然而,我们的方法通过采用单个轻量级的循环依赖设计的草稿头区别于其他方法,本质上类似于经典猜测解码中使用的小型草稿模型,但没有完整Transformer架构的复杂性。由于循环依赖,我们可以使用波束搜索快速筛选掉草稿头中的不需要的候选者。这种方法结合了单模型设计的简单性,并避免了在Medusa中仅用于推断的创建数据依赖树注意结构的需要。我们通过对几个流行的开源语言模型进行全面分析,实证演示了所提出方法的有效性,并分析了采用该方法所涉及的权衡。
- 图表
- 解决问题本论文旨在提出一种改进的推测解码方法,以提高为大型语言模型提供服务的效率。该方法结合了两种已有技术的优点:经典的双模型推测解码方法和较新的单模型方法Medusa。
- 关键思路该方法采用了单模型策略进行推测解码,但是采用了一种轻量级的循环依赖设计的草稿头,类似于经典推测解码中使用的小型草稿模型,但没有完整变压器架构的复杂性。由于循环依赖,我们可以使用波束搜索快速过滤掉草稿头中的不需要的候选项。
- 其它亮点实验结果表明,该方法在几个流行的开源语言模型上表现出了显著的效果,并对采用该方法的权衡进行了全面分析。本论文的贡献是提出了一种简单的单模型设计,避免了在Medusa中仅为推断而创建数据依赖树注意力结构的需求。
- 最近的相关研究包括:Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets,Efficient Transformer-based Large-scale Language Model Pretraining,Medusa: a Logarithmic-time Beam Search Decoder for Neural Machine Translation。
沙发等你来抢
去评论
评论
沙发等你来抢