OpenKG

大模型专辑
文章目录
1. 语言vs知识
1.1 ChatGPT:世界知识的神经网络化
1.2 知识图谱和大型语言模型都是处理知识的手段
1.3 世界(知识)模型 vs(语言)推理机器
4. 总结与展望
文章作者 | 陈华钧 浙江大学计算机科学与技术学院教授/博导、OpenKG发起人
笔记整理 | 邓鸿杰(OpenKG)

01
语言 VS 知识
1.1 ChatGPT:世界知识的神经网络化

1.2 知识图谱和大型语言模型都是处理知识的手段

1.3 世界(知识)模型 vs (语言)推理机器

02
2.1 知识增强与结构增强


代码语言并不适合描述常识知识和完成常识推理,而知识图谱可用于描述常识知识。为进一步探讨知识结构对于常识推理的影响,我们尝试将KG中的结构化知识转化为对应的代码形式:例如KG中的类对应面向对象代码中的类,KG中的属性和关系转化为对应的成员变量。然后以这种代码形式的KG作为Prompt或者直接在Base模型预训练阶段进行注入,来测试其对下游任务的影响。实验结果表明,注入有知识图谱结构的模型在多个方面的能力得到提升,特别是在抽取任务方面得到显著提升。但在模型整体规模较小时,其能力仍然低于SOTA,说明模型规模和知识结构性都与推理能力都密切相关。



2.2 提示工程即知识工程
提示(Prompts)是指在训练或使用大模型时使用的一类引导性指令,如问题描述、上下文信息、举例示例、结构模板、思维链等。通过提供明确的提示或指令,模型可以更好的理解人的意图和要求,产生更加遵循人类指令要求的输出。事实上,大模型所体现出的“智能”很大程度上是由提示工程阶段所植入的知识所驱动的。
大量实践表明,提示设计的好坏和详细程度对模型输出结果影响巨大。在预训练阶段所使用的诸如“Next Token Prediction”的监督信号仅能编码基础的、通用的、浅层的语义和知识。而“提示”则包含有大量任务特定的知识,这些知识不只是描述人的意图和问题指令,还可能包括人的思维逻辑(如思维链)、类比逻辑(如举例示例)、与任务相关的实体及关联关系等事实性上下文信息等。特别是在模型微调训练阶段,大量以提示或指令形式存在的先验知识被编码进大模型,大幅提升语言模型的回答复杂问题和逻辑推理的能力。
提示工程本质就是知识工程。越来越多的研究表明提示知识的结构化和逻辑性,与模型推理能力密切相关。从最简单的文本提示(Textual Prompt)和带思维链的文本提示(CoT),到代码提示(Program of Thoughts)、树型提示(Tree of Thoughts)、图提示(KG of Thoughts)等结构化更强的提示,甚至直接以逻辑规则作为提示,随着提示知识表示水平的提升,模型推理能力可以得到提升。但推理能力的另外一个重要因素——规模涌现,又与提示知识表示水平相矛盾:表示水平越高,提示知识获取难度越高,模型的规模涌现越不容易实现。因此,在大模型时代,知识表示水平与推理能力的正比关系仍然存在,而表示复杂度与模型规模化的矛盾关系也依然存在。构建和获取高质量的提示语料(即提示工程)本质上就是获取人类先验知识过程,这和传统知识工程的目的本质上是相似的。高质量的提示工程和传统知识工程一样,也是耗时费力的。

知识图谱中的知识是可以用来增强提示学习过程的。例如,我们在WWW2022发表的一个工作KnowPrompt就提出将知识图谱中的语义关联关系注入到提示中,用于扩展提示学习的上下文知识,实验表明,注入知识后的提示能更好激活模型能力,增强下游任务效果。该工作也是WWW2022-PaperDigest的最具影响力论文。

知识图谱可与提示学习机制相结合。下面这篇工作是我们团队今年发表在Nature机器智能子刊上的文章:“Knowledge graph-enhanced molecular contrastive learning with functional prompt.”。文中介绍的KANO模型一方面利用基于维基百科构建的化学元素知识图谱来增强分子图的表示,另外一方面将官能团作为提示变量来提示模型激活官能团相关的参数。
2.3 知识图谱与思维链结构化
关于提示学习中的思维链CoT(Chain of Thoughts)还可以单独再深入探讨一下。思维链是一类特殊的提示,它模拟了人们在思考和解决问题时,通过联想将不同的概念或知识关联起来的过程,从而引导大模型模仿人的逻辑思维过程。显然知识图谱是表示和生成思维链的好帮手。前面已经谈到,采用结构化更好的思维链表示形式(如Tree of Thoughts,Graph of Thoughts等)比之自然语言形式的思维链更有利于诱导出大模型的推理能力。
一方面,人们可以按自己的兴趣和要求,将不同的概念和思维步骤关联起来,形成逻辑更加清晰的思维链知识图谱(KGoT),这种结构化的思维链可以直接作为提示的一部分输入到模型中,也可以利用KG2Text自动化生产所需的自然语言形式的思维链,再注入到模型中。另外一方面,知识图谱中的概念和实体提供了丰富的知识关联,通过实体链接技术与手工编写的思维链进行关联,可以便利的扩展和增强自然语言形式的思维链,使得思维链更加接近于人的联想思维模式。
2.4 知识图谱与指令精调
指令精调是指在预训练模型的基础之上,通过将任务特定的监督数据转化为指令或提示形式,进一步训练和微调以提升模型的性能和准确性。由于各种不同任务的数据都以统一的指令形式输入到模型进行训练,这使得模型具有更好的任务泛化能力,即解决新问题或完成新任务的能力。知识图谱中的知识可用来增强指令提示或直接用于生成指令数据集。例如,知识图谱中的实体属性和关联信息可以用于丰富指令的上下文信息。通过查询知识图谱,可以获取实体之间的关联和属性,并作为提示工程的一部分。
下图展示了一个利用知识图谱直接构建知识抽取指令的例子。该模型基于KG2Instructions技术产生的大量指令数据来提高语言模型对于人类抽取指令的理解。具体基于维基百科和WikiData知识图谱,通过远程监督、Schema约束过滤等方法构建大量的指令数据,并通过随机采样人工指令模板的方式提升指令的泛化性。

比之自由文本,知识图谱是逻辑结构关联更加丰富,知识密度更高的数据语料。很多领域的知识图谱数据来源于长久人工积累(如Gene Ontology)或天然的结构化数据转化而来。充分挖掘和利用好知识图谱中所包含知识结构(如层次概念、实体关系、事理时序、规则逻辑等)来增强和丰富提示指令或辅助构建逻辑性更强的指令数据集,可以帮助模型完成更加复杂的任务。
2.5 大模型的知识编辑与知识对齐
大模型的一个众所周知的问题是幻觉与知识谬误问题。由于模型给出的答案是从神经网络中通过参数的组合生成出来,而非从确定的文本内容检索出来,一旦模型出错,既不容易定位错误的来源,也不易于对参数化的知识进行更新。更为困难是知识参数化之后,彼此高度关联,改动一条知识更容易出现“牵一发动全身”的后果。
幻觉、出错以及不确切的回答是大模型智能得以涌现所需要付出的代价,同时也是大模型得以实际应用必须要客服的技术挑战。模型编辑技术实现在神经网络空间对参数化的知识进行增删改,以纠正错误的知识,删除有害的知识和约束错误的生成。但在极大规模的参数空间对知识进行编辑并不是件简单的工作,这首先需要在神经网络中定位错误的知识,确定修改的边界,更新参数的机制和方式等。由于神经网络的参数之间是高度关联的,改动其中任何一个神经元都会对与之相关的其他神经元产生“牵一发动全身”的影响。更改其中一条知识需要充分考虑知识之间的逻辑依赖关系。可以利用符号化知识图谱中显式定义的事实之间的关系,来辅助确定参数化知识之间的关联关系并确定参数更新的边界。
更一般而言,由于知识图谱中的知识很多都经过人工审核和校验,相对标准和正确,因而可以为矫正模型的对齐目标。例如可以利用知识图谱为奖励模型提供反馈信号,通过将大模型返回的结果与知识图谱中的事实、关联或约束进行比较,以提供反馈信号来改进生成的结果或衡量模型的性能。因此,定义良好的知识图谱可以作为矫正大模型的对齐目标。
2.6 知识图谱与工具调用及AI智能体

03
知识图谱技术栈中的大模型
3.1 ChatGPT的自动化图谱构建能力
大家所普遍关心的首先是大模型的自动化知识图谱构建能力。对此,我们对GPT4的图谱构建和抽取能力进行了深入评测,详细评测报告可参见PPT中给出的评测报告链接。经过评测,ChatGPT的确具备较强的知识图谱构建能力,包括给定主题(如:浙江大学)生成对应的知识图谱,但由于GPT极大依赖生成模型来生成知识图谱,其幻觉问题导致生成的知识图谱的正确率平均只有 58%。 如果给定文本要求GPT按要求抽取知识,其正确率平均可以达到88% ,但仍然低于现有小模型的SOTA。更为广泛的评测发现ChatGPT对于常见的语料准确率大部分在70%-80%,且长尾处的语料仅有20%。
需要特别指出的是,与传统图谱构建方法不同,GPT依靠模型的“见多识广”和“生成脑补”来作为抽取算法的补充。即它会从模型参数中提取知识或直接生成一些知识来补充抽取结果,尽管结果中的一些知识并没有出现在待抽取的文本中。


3.2 知识抽取大模型
前面已经提到,我们可以基于指令驱动的方法来构建专门面向知识抽取的大模型,研究表明这类抽取大模型在知识图谱构建方面具有独特的能力:
● 模型脑补:大模型本身就学习有海量的参数化知识,这使得可以同时从文本语料和参数空间抽取知识,通过模型的“见多识广”来对文本抽取的结果直接进行模型脑补,可以大幅提升知识图谱构建的效率。
● 更强泛化:大模型通过指令学习和人类反馈具备了较强的泛化能力,同样的通过指令驱动的抽取大模型也具备更强的抽取新类型、新关系、新事件的泛化能力。研究表明,即使对于从未见过的实体或关系类型,大模型同样具有高精度的识别效果。
● 生成补齐:大模型具有较强的生成能力,在模型或文本中均缺乏所需的知识时,大模型可利用其生成能力来通过知识生成来补齐知识图谱。生成式的知识图谱本质上利用了大模型的推理能力,但可能会生成错误知识。
DeepKE-LLM(KnowLM)是我们基于指令驱动的思想训练的抽取大模型。我们首先基于WikiData等知识图谱数据,并结合人工模板构建知识抽取指令数据集,再利用该指令数据集对基座模型(主要支持Llama系列模型)进行微调,来提高模型对抽取指令的理解。实验表明,经过抽取指令精调的DeepKE-LLM在多个抽取任务上均好于ChatGPT。

抽取实际上是一个比较基础的任务。从某个程度而言,抽取即理解,也就是说如果能对文本中的知识进行高质量的抽取,就代表模型能够一定程度上理解文本的语义。所以,我们也期望基于抽取指令精调过的模型在其他任务上性能也能有所提升。因此,我们将DeepKE-LLM扩展为具备其他知识处理能力的模型,并特别在知识编辑、知识提示与指令、知识交互与AI智能体方面进行能力增强。感兴趣的朋友可以持续关注KnowLM的后续工作。
3.3 结构化知识大模型
结构化知识大模型是指针对结构化知识(如知识图谱、表结构等)进行操作的预训练语言模型,例如可以利用LLM对知识图谱进行逻辑查询、问答及增删改等操作。大模型的语言理解能力使得我们可以较为精确的实现自然语言到结构化查询语言(如SPARQL、Cypher、Gremlin等)自动化翻译。这就极大的便利图数据的管理与维护,以及基于图数据库的应用开发。例如,大模型框架LangChain已经增加了Cypher插件,可以方便的从自然语言生成Cypher图查询语言。此外,大模型也可以通过检索增强的方式,融合结构化知识和语言模型共同增强查询问答结果。当然,我们也可以通过定制提示模板,直接把结构化知识库提交给大模型,以in context learning方式利用LLM对结构化知识进行查询和问答操作。

结构化知识大模型也可以指利用预训练模型对结构化知识进行独立训练,生成神经网络化的结构化知识,再用于增强下游各种任务。例如KG-Transformer基于三个简单任务来实现结构化知识图谱的预训练,在下游任务中(如零样本图像分类)再结合提示微调机制从预训练好的知识图谱中获取相关知识来增强下游任务效果。

3.4 大模型增强的知识图谱推理
3.5 自动化本体与概念抽象
知识图谱的本质是建模关于世界的概念抽象,也就是本体Ontology。人大脑中的Ontology是在人认识世界万物过程中,通过归纳和抽象形成的关于世界万物的概念、类别、属性、关系以及它们的层次体系。大型语言模型从海量的文字语料中学习到丰富的有关字词及概念的知识,因而对概念的识别、理解、抽象能力表现突出。这为自动化的概念层次构建、类目扩展、属性补齐、本体对齐、概念归一化及更新处理提供了更强有力的技术手段。
DeepMind联合创始人哈萨比斯曾经提到: “我们能否从自己的感知构建,利用深度学习系统,并从基本原则中学习?我们能否一直构建,直到高级思维和符号思维?”。当前的大型语言模型仍然是从人类所产生的文本语料库中萃取和学习关于世界的知识。未来的大模型是否可以更多直接从与客观世界的感知交互过程中,依靠模型本身来总结关于世界的知识,抽象出关于世界的概念和本体,并直接用于决策或问答。

04
总结与展望
知识的表示与处理是人工智能自诞生以来的核心目标之一,而作为同样用来处理知识的大型语言模型和知识图谱各有优缺点。大模型补足了理解语言的能力,知识图谱则丰富了表示知识的方式,两者的深度结合必将为人工智能提供更为全面、可靠、可控的知识处理方法。
以上就是本次分享的内容,谢谢。

作者简介
INTRODUCTION

陈华钧

浙江大学计算机科学与技术学院教授/博导,OpenKG牵头发起人。浙江省有突出贡献中青年专家,浙江省数智科技研究会副会长,中国人工智能学会知识工程专业委员会副主任,中国中文信息学会语言与知识计算专业委员会副主任。主要研究方向为知识图谱、大数据系统、自然语言处理等,以一作或通讯作在Nature Machine Intelligence、Nature Communications、NeurIPS、ICML、ICLR、IJCAI、AAAI、ACL、KDD、VLDB、ICDE、WWW、SIGIR、Nucleic Acids Res. 、Proceeding of IEEE等国际顶会顶刊上发表多篇论文。曾获国际语义网会议ISWC最佳论文奖、国际知识图谱联合会议IJCKG最佳论文奖、浙江省科技进步二等奖、教育部技术发明一等奖、中国中文信息学会钱伟长科技奖一等奖、阿里巴巴优秀学术合作奖、华为优秀学术合作奖、中国工信传媒出版集团优秀出版物一等奖、浙江大学首届优秀教材奖一等奖。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢