An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation

简介

检索增强生成模型将大型语言模型的能力与从广泛语料库中检索到的相关信息相结合，但在面对真实世界的嘈杂数据时会遇到挑战。最近的一种解决方案是训练一个过滤模块来找到相关内容，但只能实现次优的噪声压缩。本文提出将信息瓶颈理论引入检索增强生成模型。我们的方法涉及通过同时最大化压缩和基础输出之间的互信息，同时最小化压缩和检索到的段落之间的互信息来过滤噪声。此外，我们推导出信息瓶颈的公式，以便在新的全面评估、选择监督微调数据和构建强化学习奖励方面应用。实验结果表明，我们的方法在各种问答数据集中取得了显著的改进，不仅在答案生成的正确性方面，而且在2.5％的压缩率下的简洁性方面也有所提高。
图表
解决问题

论文试图通过引入信息瓶颈理论来解决检索增强生成中的噪声过滤问题。
关键思路

通过最大化压缩和正确输出之间的互信息，同时最小化压缩和检索到的段落之间的互信息来过滤噪声。
其它亮点

论文的实验结果表明，该方法在各种问答数据集上都取得了显著的改进，不仅在生成答案的正确性方面，而且在2.5％压缩率下的简洁性方面也有所提高。
相关研究

最近的相关研究包括《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》、《Improving Retrieval-Augmented Generation with Context-aware Representations》等。

An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation

评论