图片

知识库问答(Knowledge Base Question Answering,KBQA)借助知识库中精度高、关联性强的结构化知识,为给定的复杂事实型问句提供准确、简短的答案.语义解析是知识库问答的主流方法之一,该类方法在给定的问句语义表征形式下,将非结构化的问句映射为结构化的语义表征,再将其改写为知识库查询获取答案.目前,面向知识库问答的语义解析方法主要面临三个挑战:首先是如何选择合适的语义表征形式以表达问句的语义,然后是如何解析问句的复杂语义并输出相应的语义表征,最后是如何应对特定领域中数据标注成本高昂、高质量数据匮乏的问题.本文从上述挑战出发,分析了知识库问答中常用的语义表征的特点与不足,然后梳理现有方法并总结分析其如何应对问句的复杂语义,接着介绍了当前方法在标注数据匮乏的低资源场景下的尝试,最后展望并讨论了面向知识库问答的语义解析的未来发展方向.

https://www.ejournal.org.cn/CN/10.12263/DZXB.20220212

 

1. 引言

随着人工智能技术的快速发展,人机交互的现实应用日益广泛.知识库问答(Knowledge Base Question Answering,KBQA)作为人机交互的重要支撑,成为工业界与学术界共同关注的研究热点之一.相较于基于非结构化文本数据的问答(如文档检索、阅读理解等),知识库问答能借助知识库中精度高、关联性强的结构化知识,为给定的复杂事实型问句提供精确的语义理解或解析,并在知识库中查询推理来得到准确、简短的答案.如问句“法国在第一次世界大战时的总统是谁?”中需要对法国历任总统的就任与卸任时间分别同第一次世界大战的开始与结束时间进行数值比较,从而得到答案“雷蒙·普恩加莱”.
目前主要有两类知识库问答方法:一类基于语义解析(semantic parsing)[1~3],将自然语言问句按照特定文法(grammar)或者处理步骤映射为结构化的语义表征(meaning representation),再将其改写为知识库查询从而获得最终答案;另一类基于信息检索(information retrieval)[4~6],首先通过实体链接,识别出问句中关心的实体作为主题实体(topic entity),并获取以主题实体为中心的知识库子图,将子图中的每个节点都视作候选答案,再学习问句和候选答案的向量表示,最后通过排序模型或分类模型对候选答案进行筛选,从而获得最终答案.基于语义解析的方法以符号化表征表示问句的语义,基于信息检索的方法以稠密向量表示问句的语义.相比基于信息检索的方法,语义解析的方法能够应对更多类型的问句,例如含有实体约束、类别约束、数值比较、数值排序等的问句,从而有更好的应用前景.
早期的知识库问答系统以基于符号和规则的专家系统为主,具有代表性的如BASEBALL[7],将问句解析为规格列表(specification list),从而回答美国棒球比赛相关的问句.但是专家系统的核心是强依赖领域专家的规则,这导致其应用领域狭窄,可回答问句类型受限等问题.
近年来,随着自然语言处理和机器学习技术的进步,这些问题逐步得到缓解,面向知识库问答的语义解析技术也涌现出了大量高水平研究论文,在诸多评测数据集上显示出良好的性能.尽管如此,现有方法依旧面临了如下挑战.
(1) 如何选择合适的语义表征形式以表达问句的语义.语义解析的第一步是为问句选择具体的语义表征形式,现有方法采用了多种不同形式的语义表征.有些语义表征的表达能力强,能覆盖多数类型的自然语言问句,但结构复杂,构造困难;有些语义表征的结构紧凑,构造相对容易,但表达能力有所欠缺.因此,采用合适的语义表征才能平衡好表达完备性与构造便捷性,在覆盖更多类型的问句的同时,降低模型构造该语义表征的难度.
(2) 如何解析问句的复杂语义并输出相应的语义表征.复杂问句的语义丰富,包含了知识库中的多个关系,实体或类别约束,比较或排序等函数算子等.同时,相同的语义成分按照不同的顺序或结构组合,表达的语义则大不相同.因此,准确地识别出问句包含的语义成分,并将不同的语义成分按照特定顺序和结构组合,才能准确地反映问句的真实语义.
(3) 如何应对特定领域中数据标注成本高昂、高质量数据匮乏的问题.现有方法主要是数据驱动,但是给问句标注相应的语义表征或最终答案需要标注人员熟悉知识库的本体(ontology)和实例(instance),高昂的标注成本导致特定领域仅有少量标注数据,甚至没有标注数据,从而让问答模型训练困难.因此,在标注样本匮乏的情况下实现模型的有效训练与泛化,是知识库问答落地的必要条件.
现有的部分知识库问答综述[8~11]对语义表征的分析较少,对语义解析方法的介绍较笼统,未能体现不同解析方式的特点与适用场景.为了更好地帮助领域内研究者,本文通过梳理面向知识库问答的语义解析研究,总结和分析当前方法应对上述挑战的途径和发展趋势,为实现高质量的知识库问答系统提供可借鉴的思路.