- 简介本文介绍了一种创新的上下文压缩方法xRAG,专门为检索辅助生成而设计。xRAG重新解释了文档嵌入在密集检索中的作用,传统上仅用于检索,将其作为检索模态的特征。通过采用模态融合方法,xRAG将这些嵌入无缝地集成到语言模型表示空间中,有效地消除了它们的文本对应物的需求,实现了极端压缩率。在xRAG中,唯一可训练的组件是模态桥接器,而检索器和语言模型都保持冻结状态。这种设计选择允许重复使用离线构建的文档嵌入,并保留检索增强的即插即用性。实验结果表明,xRAG在六个知识密集型任务中平均提高了10%以上,适用于各种语言模型骨干,从密集7B模型到8x7B专家混合配置。xRAG不仅显着优于以前的上下文压缩方法,而且在减少总FLOPs 3.53倍的同时,还与未压缩模型在几个数据集上的表现相匹配。我们的工作从多模态融合的角度开创了检索辅助生成的新方向,希望为未来高效可扩展的检索增强系统奠定基础。
- 图表
- 解决问题本论文旨在提出一种新的文本压缩方法,用于检索增强生成,以提高效率和性能。
- 关键思路xRAG方法将检索模态中的文档嵌入重新解释为检索模态的特征,并通过模态融合方法将其无缝集成到语言模型表示空间中,从而实现极端压缩率。
- 其它亮点xRAG方法在六个知识密集型任务中平均提高了10%以上的性能,与未压缩模型相比,降低了FLOPs 3.53倍。该方法不仅优于以前的文本压缩方法,而且与未压缩模型在某些数据集上的性能相当。
- 最近的相关研究包括:1. Dense Passage Retrieval for Open-Domain Question Answering;2. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks;3. Efficient Contextualized Representation: Language Model Pruning versus Vocabulary Compression.
沙发等你来抢
去评论
评论
沙发等你来抢