Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy

2023年12月20日
  • 简介
    随着大型语言模型(LLMs)在各种任务(如问答、翻译、文本摘要和对话系统)上取得了显著进展,信息准确性对于像支付宝这样服务数十亿用户的严肃金融产品变得至关重要。为了解决这个问题,支付宝开发了一种检索增强生成(RAG)系统,将LLMs基于最准确和最新的信息。然而,对于一个服务数百万用户的实际产品来说,LLMs的推理速度比单纯的实验模型更为关键。因此,本文提出了一个通用框架来加速推理过程,从而大大提高了我们的RAG系统的速度和降低成本,同时不会损失生成的准确性。在传统的推理过程中,LLM按顺序逐个生成每个标记,导致时间消耗与生成标记数成正比。为了增强这个过程,我们的框架——名为“前瞻”——引入了一种“多分支”策略。我们提出了一种基于Trie的检索(TR)过程,可以同时生成多个分支,每个分支都是标记序列。随后,对于每个分支,执行“验证和接受”(VA)过程,以识别最长的正确子序列作为最终输出。我们的策略具有两个明显的优点:(1)它保证输出的绝对正确性,避免了任何近似算法;(2)我们的方法的最坏情况性能等同于传统过程。我们进行了大量实验,以证明应用我们的推理加速框架所取得的显著改进。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决如何提高Retrieval-Augmented Generation(RAG)系统的推理速度,以满足实际产品服务数百万用户的需求。
  • 关键思路
    论文提出了一种名为“lookahead”的通用框架,采用Trie-based Retrieval(TR)和Verification and Accept(VA)过程,实现了多支路生成和最长正确子序列的识别,以加速推理过程。
  • 其它亮点
    论文通过实验展示了使用lookahead框架的推理加速效果,同时保证了输出的绝对正确性;论文使用了Alipay的RAG系统作为案例研究,但框架可以应用于其他领域;论文没有公开代码,但提供了详细的算法描述和实验细节。
  • 相关研究
    在相关研究中,有一些关于加速自然语言处理模型推理速度的论文,如T5、GShard等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问