- 简介在这项工作中,我们对从输入文本中自动创建知识图谱(KGC)的方法感兴趣。大型语言模型(LLMs)的进展促使最近出现了一系列将它们应用于KGC的工作,例如通过零/少量提示。尽管在小型特定领域的数据集上取得了成功,但这些模型在扩展到许多实际应用中常见的文本时面临困难。一个主要问题是,在先前的方法中,KG模式必须包含在LLM提示中才能生成有效的三元组;更大更复杂的模式很容易超出LLMs的上下文窗口长度。为了解决这个问题,我们提出了一个名为Extract-Define-Canonicalize(EDC)的三阶段框架:开放信息提取,然后是模式定义和事后规范化。EDC是灵活的,可以应用于有预定义目标模式的设置和没有预定义目标模式的设置;在后一种情况下,它会自动构建模式并应用自我规范化。为了进一步提高性能,我们引入了一个经过训练的组件,用于检索与输入文本相关的模式元素;这种方法通过检索增强的生成方式,提高了LLMs的提取性能。我们在三个KGC基准测试上展示了EDC能够提取高质量的三元组,而不需要任何参数调整,并且与先前的工作相比具有显着更大的模式。
- 图表
- 解决问题本论文旨在解决从文本中自动创建知识图谱的问题,特别是当知识图谱的模式较大或较复杂时,当前的大型语言模型存在的困难。
- 关键思路该论文提出了一个名为EDC(Extract-Define-Canonicalize)的三阶段框架,通过开放式信息提取、模式定义和后期规范化来解决当前大型语言模型的限制。EDC框架可以应用于已定义目标模式和未定义目标模式的情况,后者可以自动构建模式并进行自我规范化。此外,论文还引入了一个经过训练的组件,以检索与输入文本相关的模式元素,从而提高了大型语言模型的提取性能。
- 其它亮点该论文的亮点包括:1. 提出了一个新的三阶段框架EDC,能够处理更大、更复杂的知识图谱模式;2. 引入了一个经过训练的组件来提高提取性能;3. 在三个知识图谱基准测试中展示了EDC的高质量三元组提取性能。
- 最近的相关研究包括使用零/少量提示的大型语言模型进行知识图谱创建,以及其他基于开放信息提取的方法。相关论文包括:《Few-Shot Knowledge Graph Creation with Pre-Trained Language Models》、《Open Information Extraction》等。
沙发等你来抢
去评论
评论
沙发等你来抢