InstructRAG: Instructing Retrieval-Augmented Generation with Explicit Denoising

2024年06月19日
  • 简介
    检索增强生成(RAG)已经显示出增强语言模型(LMs)的准确性和事实性的潜力。然而,不完美的检索器或嘈杂的语料库可能会向检索内容中引入误导性甚至错误的信息,给生成质量带来重大挑战。现有的RAG方法通常通过直接预测最终答案来应对这一挑战,尽管输入可能存在噪声,导致难以解释和验证的隐式去噪过程。另一方面,显式去噪监督的获取通常是昂贵的,需要大量人力。在这项工作中,我们提出了InstructRAG,其中LMs通过自我合成的理由来显式学习去噪过程。首先,我们指导LM解释如何从检索文档中得出正确答案。然后,这些理由可以用作上下文学习显式去噪的演示,或作为受监督的微调数据来训练模型。与标准的RAG方法相比,InstructRAG不需要额外的监督,允许更容易验证预测答案,并有效提高了生成的准确性。实验表明,InstructRAG在无需训练和可训练的情况下一直优于现有的RAG方法,在五个知识密集型基准测试中平均相对改进了8.3%。广泛的分析表明,InstructRAG随着检索文档数量的增加而扩展得很好,并且即使在域外数据集中也始终表现出强大的去噪能力,展示了强大的泛化能力。
  • 图表
  • 解决问题
    本文旨在解决Retrieval-augmented generation (RAG)方法中,retriever的不完美或嘈杂的语料库可能会引入误导性或甚至错误信息,从而影响生成质量的问题。同时,获取明确的去噪监督通常是昂贵的,需要大量人力投入。
  • 关键思路
    本文提出了InstructRAG方法,通过自我合成的理由明确地学习去噪过程,这些理由可用作上下文学习显式去噪的演示,或作为监督微调数据来训练模型。相比标准的RAG方法,InstructRAG不需要额外的监督,可以更容易地验证预测答案,并有效地提高了生成准确性。
  • 其它亮点
    本文的亮点在于,InstructRAG方法不需要额外的监督,可以更容易地验证预测答案,并有效地提高了生成准确性。实验表明,InstructRAG在训练和可训练的情况下一直优于现有的RAG方法,平均在五个知识密集型基准测试中相对于最佳基线方法提高了8.3%。InstructRAG能够很好地扩展到更多的检索文档数量,并在领域外数据集中始终表现出强大的去噪能力,具有很强的泛化能力。
  • 相关研究
    与本文相关的研究包括Retrieval-augmented generation (RAG)、自然语言处理中的生成模型等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论