Mix-of-Granularity: Optimize the Chunking Granularity for Retrieval-Augmented Generation

2024年06月01日
  • 简介
    将来自不同参考数据源的信息整合是检索增强生成(Retrieval-Augmented Generation,RAG)系统的主要挑战,因为每个知识来源都采用独特的数据结构和不同的约定。使用一个固定策略从多个知识来源检索通常会导致信息的未充分利用。为了缓解这个缺点,受到专家混合(Mix-of-Expert)的启发,我们引入了一种名为粒度混合(Mix-of-Granularity,MoG)的方法,该方法使用路由器根据输入查询动态确定知识数据库的最佳粒度。该路由器使用一种新提出的损失函数进行高效训练,该函数使用软标签。我们进一步将MoG扩展为粒度混合图(Mix-of-Granularity-Graph,MoGG),其中参考文档被预处理成图形,从而使得可以从远距离的块中检索相关信息。广泛的实验表明,MoG和MoGG都能有效地预测最佳粒度水平,在下游任务中显著提高了RAG系统的性能。MoG和MoGG的代码将公开发布。
  • 图表
  • 解决问题
    解决Retrieval-Augmented Generation(RAG)系统中不同知识源的数据结构和惯例不同,导致信息利用不足的问题。
  • 关键思路
    提出Mix-of-Granularity(MoG)方法,通过动态确定知识数据库的最佳粒度,使用路由器来检索多个知识源中的相关信息。
  • 其它亮点
    MoG和Mix-of-Granularity-Graph(MoGG)有效预测最佳粒度级别,显著提高RAG系统在下游任务中的性能。实验结果表明,MoG和MoGG的性能优于当前领域的其他方法。
  • 相关研究
    最近的相关研究包括:《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》、《Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven Cloze Reward》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论