- 简介本文介绍了分布式推测推理(DSI)算法,这是一种新颖的分布式推理算法,其速度可以证明比推测推理(SI)[leviathan2023fast, chen2023accelerating, miao2023specinfer]和传统的自回归推理(非SI)更快,加速大型语言模型(LLMs)的推理是人工智能中的一个重要挑战。与其他SI算法一样,DSI适用于冻结的LLMs,无需训练或架构修改,并保留目标分布。 先前的SI研究已经证明了实证加速(与非SI相比),但需要快速准确的草稿LLM。在实践中,现成的LLMs通常没有足够快速准确的草稿,我们展示了一个差距:当使用较慢或不太准确的草稿时,SI比非SI更慢。我们通过证明DSI比SI和非SI更快,可以弥合这个差距。通过编排目标和草稿的多个实例,DSI不仅比SI更快,而且支持无法使用SI加速的LLMs。 我们的模拟显示,在现实设置下,DSI比SI快1.29-1.92倍。
- 图表
- 解决问题加速大型语言模型的推理是人工智能领域的重要挑战。本文介绍了一种分布式推理算法——分布式投机推理(DSI),旨在解决现有投机推理算法需要快速准确的草稿模型的问题。
- 关键思路DSI算法是一种分布式推理算法,相比于投机推理和传统自回归推理,它可以在任何草稿模型下实现更快的推理速度。
- 其它亮点本文的亮点包括:通过多个目标模型和草稿模型的协同,DSI不仅比投机推理更快,而且支持无法使用投机推理加速的大型语言模型;实验结果表明,DSI相比于投机推理可以将现有的大型语言模型加速1.29-1.92倍。
- 与本文相关的研究包括Leviathan、Chen和Miao等人提出的投机推理算法。
沙发等你来抢
去评论
评论
沙发等你来抢