- 简介使用检索增强生成(RAG)从外部知识源中检索相关信息,使得大型语言模型(LLMs)能够回答关于私有和/或以前未见过的文档集合的问题。然而,RAG在针对整个文本语料库的全局问题上失败,例如“数据集的主要主题是什么?”,因为这本质上是一个查询聚焦摘要(QFS)任务,而不是显式的检索任务。与此同时,先前的QFS方法无法扩展到典型RAG系统索引的大量文本。为了结合这些对比方法的优点,我们提出了一种图形RAG方法,用于回答关于私有文本语料库的问题,它可以随着用户问题的普遍性和要索引的源文本数量而扩展。我们的方法使用LLM分两个阶段构建基于图形的文本索引:首先从源文档中推导出实体知识图,然后为所有密切相关的实体组预生成社区摘要。给定一个问题,每个社区摘要用于生成部分响应,然后所有部分响应再次在最终响应中进行摘要,以回答用户。对于在100万个标记范围内的数据集的一类全局感知问题,我们展示了图形RAG相对于naive RAG基线在生成的答案的全面性和多样性方面都有很大的改进。即将推出基于Python的全局和本地图形RAG方法的开源实现,网址为https://aka.ms/graphrag。
- 图表
- 解决问题本论文旨在解决大语言模型在回答全局问题时的困难,提出了一种基于图的检索增强生成(RAG)方法,用于回答私有文本语料库中的问题。
- 关键思路该方法使用大语言模型构建基于实体的知识图谱,然后预生成所有相关实体组的社区摘要,并使用这些摘要来生成部分响应,最后将所有部分响应汇总成最终响应。
- 其它亮点该方法在1百万个标记范围内的数据集上表现出较高的回答综合性和多样性。该论文提供了开源的Python实现,包括全局和本地Graph RAG方法。
- 在这个领域中,最近的相关研究包括使用RAG方法回答问题的其他工作,以及更传统的基于检索的方法和基于生成的方法。
沙发等你来抢
去评论
评论
沙发等你来抢