- 简介大型语言模型(LLMs)展示了强大的知识库和重要的上下文推理能力。然而,先前的研究挑战了它们的非上下文推理能力,即从它们的训练数据中推断信息,而不是从上下文或提示中推断。本文关注非上下文推理的一个重要方面:非上下文知识推理(OCKR),即将多个知识结合起来推断新知识。我们设计了一个合成数据集,其中包含七个代表性的OCKR任务,以系统评估LLMs的OCKR能力。使用这个数据集,我们评估了LLaMA2-13B-chat模型,并发现它在这个方面的能力受到限制,无论知识是在单独的训练设置还是相邻的训练设置中进行训练。此外,将模型训练以使用完整的推理数据并没有带来显著的改进。训练模型执行显式知识检索仅在一个任务中有所帮助,这表明模型的OCKR能力有限是由于检索相关知识的困难。此外,我们将跨语言知识转移视为OCKR的一种不同形式,并评估该能力。我们的结果表明,评估的模型在跨语言知识转移方面也表现出有限的能力。本研究使用的数据集可在https://github.com/NJUNLP/ID-OCKR上获得。
- 图表
- 解决问题本篇论文旨在解决Out-of-Context Knowledge Reasoning(OCKR)的问题,即如何将多个知识点结合起来推断新的知识。同时,本篇论文还试图验证LLMs在这一方面的能力,并尝试提高其能力。
- 关键思路本文通过设计一个包含七个典型OCKR任务的数据集,对LLMs的OCKR能力进行了系统评估。结果表明,LLMs在这方面的能力较为有限,难以检索相关的知识点。
- 其它亮点本文的亮点在于设计了一个新的数据集来评估LLMs的OCKR能力,并通过实验发现,训练模型检索相关知识点的能力可以提高其中一个任务的表现。此外,本文还将跨语言知识转移视为OCKR的一种形式,并对LLMs在这方面的能力进行了评估。本文的数据集已经公开发布。
- 近期的相关研究包括:《Improving Multi-hop Knowledge Base Question Answering by Learning Intermediate Supervision Signals》、《Multi-hop Knowledge Reasoning with Hierarchical Graph Convolutional Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢