Schema自动生成是一个很有意思的话题,我们在之前的多篇文章中进行了介绍。
在上一篇文章《事件图谱schema生成关键前沿技术:如何基于语言模型生成Event Schema代表工作解读》,中我们介绍了一种基于语言模型生成的方法。

而在之前的调研工作中,我们发现,schema自动生成工作除了在事件抽取这一信息抽取任务之外,在对话领域也有着十分重要的作用。因为在对话中,每一类意图都对应着一些槽位,如果将意图当做事件类型,那么槽位就是事件要素。

与制约事件抽取落地的问题一样,如何针对具体的问答场景自动的归纳出问题意图以及对应的槽位,也是提升业务能力的重要问题。

因此,本文围绕对话领域的schema induction这一话题,以两个代表性的工作为引,进行介绍。供大家一起参考。

一、平安寿险:面向对话的意图schema生成

1、问题的提出

准确地识别用户的意图,并从他们的口语中填充相关的槽,对于对话系统的成功至关重要。传统的方法需要手动定义DOMAIN-INTENT-SLOT模式,并要求许多专家对相应的语料进行注释,在此基础上训练神经模型。

例如,传统的程序需要领域专家手动注释到DOMAIN-INTENT-SLOT模式(见左上角方框)和许多手动注释的模式(见左中角方框)。

这个过程带来了信息共享障碍、模式外或开放领域对话系统中数据稀少的挑战。为了解决这些问题。

文章《Automatic Intent-Slot Induction for Dialogue Systems》探索了一个新的自动意图槽归纳任务,并提出了一个新的独立于领域的工具。


该工作设计了一个从粗到细的三步程序,包括角色标签、概念挖掘和模式挖掘(RCAP),将该schema形式化定义为:{Action, Argument, Problem, Question} ,

1、实现方式

下图展示了一个基本的流程图:

其中,意图-角色的提及和概念用不同的颜色突出显示

论点为蓝色,行动为灰色,问题为洋红色,问题为绿色。

每个意图角色上挖掘的概念在左下角的表格中用方括号显示。挖掘出来的意图角色模式是与顺序无关的。Argument中的圆括号意味着没有提及或数次提及。

整个流程分成三步,其中:

(1)角色标签识别IRL

从用户的话语中提取关键短语,并通过序列标签将它们分类到四种粗略定义的意图角色中。

具体的,在意图角色标签(IRL)上, 在一个有𝐿注释的语料库上训练IRL模型。也就是说,给定一个有𝑚个子词的语料,u = 𝑢1 . . 𝑢𝑚,训练一个IRL模型来输出相应的标签,r = 𝑟1 ...𝑟𝑚,𝑟𝑖可以从9个标签中选择一个,如B-Action和I-Argument。

为了进行对比,该步骤还进一步使用词性标注POS和依存分析DP进行处理,例如下图中将词性为n或nz的座位argument,带走否定词的动词作为问题problem。
(2) 概念挖掘
概念挖掘上, 概念挖掘的目标是获得确定的意图-角色提及提供精细的标签。为了实现这一目标,将同一意图角色中的提及分组,并通过一个细粒度的标签将每个分组分配给相应的概念。

在具体实现上,有两个主要步骤:提及嵌入和提及聚类。提及嵌入上,分别使用word2vec,phrase2vec以及CNN作为向量化表示,提及聚类上,使用kmeans,最小熵以及LPA等方法进行处理。

之后,再为集群分配抽象的细粒度的名称。在获得提及嵌入后,对同一意图-角色内的提及进行聚类,将其归入相应的概念

下图对比了不同方法的具体效果:

(3) 模式挖掘

应用Apriori算法挖掘意图角色模式,并利用这些粗粒度的意图角色标签和细粒度的概念自动推断出意图槽的位置,如下图所示。

下图展示了一个最终形成的结果,比较有意思。

二、美团:面向对话领域的事件图谱schema生成

文章《江会星:基于交互的推理⸺事件图谱在美团智能客服问答中的应用》 介绍了面向客服问答领域的事件图谱schema构建方法。

如下图所示,该工作将事件图谱表示成<s,p,o>的三元组结构,在缺省条件下,(subject,predicate)、(predicate, object)或者 (subject,predicate,object)构成其中:

s为事件或者实体,实体如功能、产品、人或物等专名;

p 为事件的触发(trigger)词, 通常为谓词,如“投诉、打赏、退订”等;

o 为事件所关联的业务,如电子商务平台所涉及的配送 服务、保险服务、商家服务、商品价格、营销活动、APP使用等。

而进一步的,一个事件的schema是具有层次性的,这种层次性体现出了事件的多级,如下图展示了EventtypeL1,eventtypel2两个层级,通过对客服场景中的会话事件进行整理归纳,分成了额办理、现象、咨询以及投诉四个细分大类。

首先,从会话session中生成关键词短语候选,由分词后的ngram构成。

其次,生成关键词短语候选的特征,具体特征如上图右边所示,包括位置、⻆色、左右熵、标 签模板等特征。

最后,模型预测每个关键词短语候选的得分,选择得分高的关键词短语作为会话的事件。

此外,实际业务中各业务Event Schema归纳的SOP流程为先从会话中进行事件抽取(keyphrase抽 取),然后与Event Schema中已有的事件进行匹配,判断是否是已有事件,如果是可以将说法添加到已有事件的具体说法中。

如果不是则可能是新事件,最后将所有识别的新事件候选进行聚类,并将聚好的类交由业务运营人员或者数据标注同学进行整理和归类归纳,进而扩充现有的事件体系。

总结

与制约事件抽取落地的问题一样,如何针对具体的问答场景自动的归纳出问题意图以及对应的槽位,也是提升业务能力的重要问题。

本文围绕对话领域的schema induction这一话题,以两个代表性的工作为引,进行了简要的介绍。

从中可以看到,不同的形式化定义会决定出不同的方法,但步骤可以大致分为角色标注以及聚类两个组成部分,这也是和我们之前文章中所民多次提过的一样。

当然,本文只是简要的介绍,对于进一步的细节,可以查看参考文献,阅读原文,相信会有更多收获。

参考文献

1、https://www.youtube.com/watch?v=rO0UoZssTvc
2、https://arxiv.org/abs/2103.08886
3、https://mp.weixin.qq.com/s/lVk5yxVQZeOk2VO_pbyT3g

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

内容中包含的图片若涉及版权问题,请及时与我们联系删除