Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy

向作者提问

NEW

简介

随着大型语言模型（LLMs）在各种任务（如问答、翻译、文本摘要和对话系统）中取得了显著进展，信息准确性对于像支付宝这样服务数十亿用户的严肃金融产品变得至关重要。为了解决这个问题，支付宝开发了一个检索增强生成（RAG）系统，将LLMs与最准确和最新的信息联系起来。然而，对于一个服务于数百万用户的真实产品而言，LLMs的推理速度成为一个关键因素，而不仅仅是实验模型。因此，本文提出了一个通用框架来加速推理过程，从而大大提高了我们的RAG系统的速度和降低成本，同时保持生成准确性不变。在传统的推理过程中，LLMs按顺序生成每个标记，导致时间消耗与生成标记数量成正比。为了增强这个过程，我们的框架名为“lookahead”，引入了一种多分支策略。我们提出了一种基于Trie的检索（TR）过程，可以同时生成多个分支，每个分支都是标记序列。随后，对于每个分支，执行一个验证和接受（VA）过程，以确定最长的正确子序列作为最终输出。我们的策略具有两个明显的优点：（1）它保证输出的绝对正确性，避免任何近似算法；（2）我们方法的最坏情况性能等同于传统过程。我们进行了大量实验来展示应用我们的推理加速框架所取得的显著改进。代码可在https://github.com/alipay/PainlessInferenceAcceleration获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决在Alipay等金融产品中使用LLMs进行信息提取时，准确性和速度之间的平衡问题。作者提出了一种加速推理过程的通用框架，以实现对RAG系统的加速，同时保持生成准确性。
关键思路

本文提出了一种名为“lookahead”的多分支策略，通过Trie-based Retrieval（TR）过程实现同时生成多个分支，然后通过Verification and Accept（VA）过程确定最终输出的最长正确子序列，从而加速推理过程。
其它亮点

本文的方法不使用近似算法，保证输出的绝对正确性，并且最坏情况下的性能等同于传统方法。作者进行了大量实验来证明他们的方法的显着改进，并提供了开源代码。
相关研究

在最近的相关研究中，一些学者已经开始研究如何加速LLMs的推理过程。例如，有一些研究专注于使用近似算法来加速推理，而本文则提出了一种不使用近似算法的方法来保证输出的准确性。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问