- 简介级联和推测解码是提高语言模型推理效率的两种常见方法。这两种方法都涉及交错使用不同大小的模型,但通过根本不同的机制:级联采用延迟规则,仅在“困难”输入时调用较大的模型,而推测解码使用推测执行,主要以并行验证模式调用较大的模型。这些机制提供不同的好处:经验证明,级联通常能够产生比较大的模型更好的质量,而理论上,推测解码提供质量中立的保证。在本文中,我们通过设计新的推测级联技术,将它们的延迟规则通过推测执行来实现,从而利用了这两种方法的最佳优点。我们表征了我们的推测级联的最佳延迟规则,并采用了最佳规则的插件近似。通过在基准语言任务上使用T5模型进行实验,我们展示了所提出的方法比级联和推测解码基线产生更好的成本-质量权衡。
- 图表
- 解决问题本论文旨在设计新的技术,将级联和推测解码相结合,以提高语言模型的推断效率和质量。
- 关键思路论文提出了一种新的技术——推测级联,通过将级联的推迟规则实现为推测执行,结合了级联和推测解码的优点,从而实现更好的成本-质量权衡。
- 其它亮点论文通过实验验证了推测级联技术的有效性,该技术在T5模型上的表现优于级联和推测解码基准。论文使用了标准的语言任务数据集,并提供了开源代码。
- 与本论文相关的研究包括级联和推测解码技术的先前研究,以及其他语言模型推断效率和质量方面的研究。
沙发等你来抢
去评论
评论
沙发等你来抢