- 简介检索增强生成(Retrieval-Augmented Generation)是一种通过整合信息检索技术来增强大语言模型性能的方法。在工业界,基于大语言模型的推理服务对成本效益比非常敏感,这促使了提高推理服务中硬件资源利用率的需求。具体来说,向量嵌入和检索过程可能占据总延迟的高达20%。因此,优化向量嵌入中的计算资源利用对于提升推理过程的成本效益比至关重要,而这反过来又能够增强产品的竞争力。本文分析了向量嵌入技术在推理服务中的部署成本,提出了一个理论公式,并通过数学表达式确定,提升并发查询处理能力是降低向量嵌入部署成本的关键。因此,本文专注于提升产品处理并发查询的能力。为了在不牺牲性能的情况下优化并发处理,我们设计了一个队列管理器,该管理器能够巧妙地将高峰时期的CPU查询卸载到其他资源上。该管理器使用线性回归模型来确定最优队列深度,这是一个显著影响系统效能的关键参数。此外,我们开发了一个名为WindVE的系统,该系统采用CPU-NPU异构架构来卸载高峰并发查询,通过利用两种处理器之间的性能差异,有效应对流量激增的情况。通过实验,我们将WindVE与最先进的向量嵌入框架FlagEmbedding进行了比较,结果表明,相较于没有卸载机制的方案,WindVE的并发处理能力最高可提升22.3%。
-
- 图表
- 解决问题论文试图解决在Retrieval-Augmented Generation(RAG)技术中,向量嵌入和检索过程占用较高推理延迟的问题。具体来说,如何通过优化计算资源利用来降低向量嵌入的部署成本,并提高并发查询处理能力是本文关注的核心问题。这是一个实际工业应用中的重要问题,但尚未有系统性解决方案。
- 关键思路论文提出通过增加并发查询处理能力来降低向量嵌入的部署成本,并设计了一个队列管理器和一个名为WindVE的系统。队列管理器使用线性回归模型确定最佳队列深度,而WindVE采用CPU-NPU异构架构,将高峰查询卸载到NPU以有效应对流量激增。相比现有研究,该方法结合了硬件性能差异与智能任务调度,提供了一种新的优化思路。
- 其它亮点1. 提出了理论公式分析并发查询对成本的影响,并验证了其有效性;2. 设计了基于线性回归模型的队列管理器,能够动态调整队列深度;3. WindVE系统通过CPU-NPU异构架构显著提升了并发处理能力,实验结果表明其性能比无卸载方案高出22.3%;4. 论文未提及数据集细节或开源代码,但提供了详细的实验设计和对比分析,值得进一步研究异构架构的优化潜力。
- 近期相关研究包括:1. FlagEmbedding框架,作为当前最先进的向量嵌入工具被用作基准对比;2. 其他关于RAG技术的研究,如《Optimizing Retrieval Efficiency in RAG Models》;3. 异构计算领域的研究,例如《Heterogeneous Computing for Natural Language Processing》;4. 并发处理优化方面的研究,如《Concurrency Optimization in Large-Scale Inference Systems》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流