Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation

向作者提问

NEW

简介

尽管大型语言模型（LLMs）取得了成功，但它们存在显著缺点，特别是在处理长文本时。它们的推理成本随着序列长度的增加呈二次比例增长，这使得它们在某些实际文本处理应用（如检索增强生成（RAG））中部署变得昂贵。此外，LLMs还表现出“分心现象”，即提示中的无关上下文会降低输出质量。为了解决这些缺点，我们提出了一种新的RAG提示方法，超叠提示，可以直接应用于预训练的基于Transformer的LLMs，无需进行微调。从高层次上讲，超叠提示允许LLM在并行的提示路径中处理输入文档，一旦被认为是无关的，就会丢弃路径。我们证明了我们的方法可以同时增强各种问答基准测试的时间效率，使用多个预训练的LLMs。此外，我们的技术在检索到的上下文与模型训练的上下文相对较大时显著提高了准确性。例如，我们的方法在NaturalQuestions-Open数据集上使用MPT-7B指令调整模型，相对于naive RAG，可以使计算时间减少93倍，同时提高43％的准确性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大型语言模型在处理长文本时的推理成本高、干扰现象等问题，提出了一种新的提示方法superposition prompting，以提高检索增强生成（RAG）的效率和准确性。
关键思路

Superposition prompting允许LLM在并行提示路径中处理输入文档，并在被认为不相关时丢弃路径，从而提高处理效率和准确性。与当前领域的研究相比，该方法可以直接应用于预训练的transformer-based LLMs，无需微调。
其它亮点

论文通过多个预训练LLMs在各种问答基准测试中的表现证明了superposition prompting的能力，同时提高了在检索到的上下文相对于模型训练上下文较大的情况下的准确性。例如，在NaturalQuestions-Open数据集上，使用MPT-7B instruction-tuned模型，我们的方法在减少计算时间93倍的同时，将准确性提高了43％。
相关研究

最近的相关研究包括使用多个提示路径的其他方法，如Parallel Decoding和Hopfield Attention。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问