RuleRAG: Rule-guided retrieval-augmented generation with language models for question answering

2024年10月15日
  • 简介
    检索增强生成(RAG)框架在知识密集型问答(QA)中展现出巨大的潜力,通过检索外部语料库并基于增强的上下文生成答案。然而,现有的方法仅考虑查询本身,既没有为检索器指定检索偏好,也没有告知生成器如何引用检索到的文档来生成答案,这给问答性能带来了重大挑战。为了解决这些问题,我们提出了规则引导的检索增强生成模型(Rule-Guided Retrieval-Augmented Generation with LMs),该模型明确引入符号规则作为上下文学习的示范(RuleRAG-ICL),以指导检索器根据规则的方向检索逻辑相关的文档,并统一指导生成器根据同一套规则生成答案。此外,查询和规则的组合可以进一步用作监督微调数据,以更新检索器和生成器(RuleRAG-FT),从而实现更好的基于规则的指令遵循能力,进而检索出更多支持性的结果并生成更可接受的答案。为了强调规则的重要性,我们构建了五个规则感知的问答基准测试,包括三个时间场景和两个静态场景,并为RuleRAG配备了多种检索器和生成器。实验表明,无需训练的RuleRAG-ICL在五个基准测试中平均提高了89.2%的Recall@10分数和103.1%的精确匹配分数,而进一步微调的RuleRAG-FT则持续表现出更显著的性能提升。广泛的分析表明,RuleRAG随着检索文档数量的增加表现良好,并且对未训练过的规则也具有泛化能力。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决现有检索增强生成(RAG)框架在知识密集型问答(QA)任务中的不足,即现有方法仅考虑查询本身,而未明确指定检索偏好或指导生成器如何参考检索到的文档来生成答案,从而影响了QA性能。
  • 关键思路
    论文提出了一种基于规则的检索增强生成模型(RuleRAG),通过引入符号规则作为上下文学习的示范,指导检索器和生成器。RuleRAG-ICL利用规则引导检索器检索逻辑相关的文档,并指导生成器生成符合规则的答案。此外,RuleRAG-FT通过结合查询和规则作为监督数据,进一步微调检索器和生成器,提高其遵循规则的能力。
  • 其它亮点
    实验表明,无需训练的RuleRAG-ICL在五个规则感知的QA基准测试中显著提高了检索质量和生成准确性,分别提升了89.2%的Recall@10分数和103.1%的精确匹配分数。进一步微调的RuleRAG-FT表现更加优异。此外,该方法在增加检索文档数量时表现出良好的可扩展性,并且对未见过的规则具有泛化能力。论文还提供了五个新的规则感知QA基准测试,涵盖了三个时间场景和两个静态场景。
  • 相关研究
    近期在检索增强生成(RAG)领域的相关研究包括:1)《Dense Passage Retrieval for Open-Domain Question Answering》(Karpukhin et al., 2020),提出了密集段落检索方法;2)《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》(Lewis et al., 2020),首次系统地介绍了RAG框架;3)《Learning to Retrieve Reasoning-Friendly Knowledge for Question Answering》(Wang et al., 2021),探讨了如何检索有助于推理的知识。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问