做过事件图谱的工程师都明白,事件一方面目前缺乏标准的定义,另一方面在知识上包括动态性、领域性、概率性和复杂性的特点,而要将事件知识进行准确建模和表示,使之成为计算机可处理的形式,成为了一项十分重要的基础性工作。

一般而言,常见的事件表示方法包括形式化事件表示和分布式事件表示两种表示方法,形式化事件表示指运用形式化数据结构对事件进行表示,分布式表示方法与形式化相对,容易被机器所处理。

相比较而言,形式化事件表示的优势在于可以让人可清晰、明了的看到一个事件的整体描述,难度在于无法直接交给计算机进行处理,为此,往往需要对这种形式化的事件进行分布式表示,编码成一个低维稠密的事件分布式表示。

本文主要介绍事件图谱构建中事件表示的常用方法,包括基于自然文本的形式化表示、基于结构元组的脚本形式化表示、基于框架模板的形式化表示以及基于通用本体的形式化表示方法等四种类型。

一、基于自然文本的形式化表示

事件字符序列形式,指的是以自然语言形式对结构化事件进行口语化复述的自然语句片段,这个片段可以是一个短语,也可以是一个短句,也可以是一个长句或者段落。

因此,在实际处理过程中过,可以使用短句、主谓宾短语、词序列、核心动词等多种形式进行表示,如下对比了这几种常见的形式化表示方式的含义、示例以及优缺点。

使用一个核心动词来标记事件的方式也较为常见,诸如ACE等标注语料库中都是用一个核心动词来作为一个事件,这个核心动词通常需要对句子中的核心动词、形容词或名词进行提取,语义十分抽象,抽象事件是指具体事件中移除所有实体之后的描述,其表征就是描述事件的词,即事件词,如在关于故宫被盗的话题中,“盗窃”、“抓捕”等就是抽象事件,而将所有抽象事件有机的联系在一起就构成了抽象脚本,展览活动中展品被盗、立案、侦查、抓捕、起诉、 结案的过程,其形式化表示为一组相关的事件词的集合{“被盗”、“立案”、“侦查”、“抓捕”、“起诉”、“结案”}。


而若要最大程度上地保留原始信息,短句的表示方式最为直接。通过特定的中文符号如逗号、分号、顿号,将一个句子进行切分既可得到。这种方式十分简单,但会带来噪声大、后续处理难度大等问题。通常,在一个复杂句子中确定一个核心元素难度较大;短语是参与核心动词的一个序列,其在语义上相对凝固、简洁,并具有更广的语义信息,在提取方面常需要借助词法分析和句法分析,如典型的依存句法分析和语义角色标注,通过句法模版,识别出其中代表性的主谓宾短语、动宾短语以及主谓短语,但性能上受限于依存和恶语义角色分析的性能。

二、基于结构元组的脚本形式化表示

结构化元组的脚本形式化表示,即将一个事件,形式化为一组元素的组合形式,按照元素的数量,可分成二元组、三元组、多元组等多种事件形式。这种形式通常都是一个是阿金动作及其相关联的论元信息构成。

Chambers和Jurafsky(2008)将事件表示为<事件,依赖关系>对,其中事件是典型的动词,而依赖关系(depen- dency)是事件与主角之间的类型化依赖关系,如"主语"和"宾语"。在(Bala-subramanian et al. 2013)中,研究者观察到主角表征存在缺乏连贯性等弱点,他们提出了一种新的表征<Arg1,Relation,Arg2>,其中Arg1和Arg2是事件中的主语和宾语q。

与这一思想类似,Pichotta和Mooney(2014)提出了更丰富的多参数事件表示v(es,eo,ep),其中v是动词,es是主语,eo是宾语,ep是与v有介词关系的实体,随后的作品如(Pichotta和Mooney 2016a)和(Granroth-Wilding和Clark 2016)采用了这一表示。(Wang,Zhang,and Chang 2017)等采用了多参数事件表示法。因此,对于事件的表示而言,可以表示为二元组、三元组、四元组以及多元组的表示方法。

例如: 

1)二元组形式。Chambers将叙事性事件链(narrative chai)n中的事件event定义为二元组形式<event,dependency>,其中event通常为一个动词,dependency通常表示与该event或者主角(protagonist)在句法语义上的依存关系,通常表示成主语(subject)或者宾语(object),即经典的predicate-GR结构;

2)三元组形式。Kim将事件形式化表示为三元组(O_i,P,T),其中O_i表示一组对象,P表示对象之间的关系,T表示时间间隔;Balasubramanian提出(arg1,relation,arg2)的表示方式,其中relation通常指动词,arg1和arg2通常指与动词具有句法语义关系的主语成分(subject)和受事成分(object);

3)四元组形式。Ding将事件表示为E=(O_1,P,O_2,T),其中P表示动作,O_1表示参与者,O_2表示对象,T表示时间戳。Pichotta、Modi使用的E=(V,es,eo,ep)的事件四元组表示方法,其中V是一个动词,es表示在依存句法上与动词相连的主语成分(subject),eo表示与动词相连的宾语成分(object),ep表示在依存句法上与动词相关的介宾成分。es、eo、ep称为事件参数。

例如,我们可以从 "汤姆把书带给玛丽 "的句子中提取一个事件结构bring ( Tom, book, to Mary ),此外还有在原先事件的基础上,加入时间维度的信息,E=(O1,P,O2,T),其中P为动作,O1为行为者,O2为对象,T为时间戳例如,"2013年9月3日--微软同意以72亿美元收购诺基亚的手机业务。"这一事件表示为(Actor = Microsoft, Action = buy, Object = Nokia's mobile phone business, Time = Sep 3, 2013)。;

4)多元组形式。zhao描述事件的句子中,采用高频词对的形式,用动词和名词的集合来表示具体事件,并将高频词对中的动词通过Verbnet进行动词类别替换,将名词通过WordNet用上位词和高频同义词进行替换来表示抽象事件;以上几种事件表示方式,依赖于依存句法分析,并且大多数表示方式只考虑能够代表具体事件的谓词以及围绕动作相关的论元,所包含的事件信息相对较少,比较抽象,但优点在于该表示方式更为灵活,可以作为开放领域事件抽取中的信息表示方法。

三、基于框架模板的形式化表示

与开放式事件表示方式不同,框架式事件表示通常针对特定事件制定相应的描述框架,进行细致的事件表示。框架式事件表示比结构化元组事件表示描述的语义信息更为全面,代表性的工作主要有ACE、FrameNet、VerbNet、PropBank、WordNet、TimeBank等表示方法。 

1)ACE表示法。ACE作为典型的事件抽取评测任务,使用框架将事件形式化为恶<事件描述,触发词,时间范围,事件类型和子类型,事件论元>的形式,并为此定义出了8个大类事件,33种子类事件,35种论元角色,ACE还为每个事件标注了如下极性、时态、指属、形态等四种属性类型。

2)FrameNet表示法。Framenet将事件形式化为<事件类型,触发词,事件具体要素>,基于框架语义学理论的词汇资源库,语言词汇通过语义框架进行描述,框架包括框架元素,词汇单元,其中共有1244个框架。词汇单元类比ACE的事件触发词,框架元素类比ACE的模板。

3)VerbNet表示法。VerbNet将事件形式化为<一组动词,动词所支配或相关的论元角色,动词具有的句法格式>,基于Levin的动词分类理论的英语动词分类层级词汇库,使用句法框架对动词词义描述,目前VerbNet2.0一共定义了237个动词类别,每个动词类别下由一组动词、动词所能支配或相关的论元角色、动词具有的句法格式组成。其中,一共设定了29个角色和36种语义特征。其动词相关的论元角色与Framenet中的框架类似,在某种程度上可以看作事件的表示框架,同时,描绘出动词之间分类的层级关系,在事件泛化工作上也具有一定借鉴意义。

4)PropBank表示法。PropBank将事件形式化表示为<论元,一组语义角色或论元集合>,作为一个动词词库和动词语义角色标注语料库,每个动词由一个框架来表示,每个框架由多个框架集合构成,每个框架集合由一组语义角色或论元集合构成,并与论元标记严格对应.共收录有3600个动词,5050个框架集合,1400余个角色。

5)TimeBank表示法。TimeBank是基于TimeML语言标注形成的评测语料库,将事件标注成<事件表达,事件ID,事件类型,属性信息>的形式,主要应用于识别和抽取事件的时间元素以及事件之间的时序关系。该语料库将事件类型分为Occurrence、Perception、Reporting、Aspectual、State、Intensional State、Intensional Action 和 Modal 8 种,属性信息包括时态、体态、词性、极性、模态等。

6)TAC-KBP表示法。作为ACE事件抽取的延续,该评测将事件形式化为<事件块,事件类型和子类型,Realis值>的形式,其中,事件块指的是与事件类型相关的文字,Realis值是指对事件的描述,必须包含ACTUAL、GENERIC、OTHER一种。

四、基于通用本体的形式化表示

STUDER认为,“本体是共享概念模型明确的形式化规范说明”,在一般的本体表示中,事件类通常是作为一类特殊的类进行处理,难以描述事件的动态属性以及事件类之间时间空间上的语义关联。

因此,Lagoze C的ABC模型、Van hage的SEM本体模型、刘宗田的六要素事件表示本体等事件本体概念模型被提出。虽然事件本体式表示和框架式事件表示形式类似,但两者的根本区别在于框架式表示的事件是一个个的实例事件,而事件本体一旦定义,实例事件可能不止一个,下面就几个代表性的本体表示进行介绍。

1)SEM Ontology。SEM Ontology(Simple Event Model),由Willem Robert提出,<Type,Actor,Object,Role,Temporary,Event,Place,Time,hasSubEvent(Event,Event)>为其表示方式,旨在描述一个跨领域的事件本体通用表示模型,使用RDF语言定义核心概念即事件表示,该事件本体可以实现概念重用,描述不同领域之间的数据。

图片

2)Stories Ontology。故事本体由BARTOC与BBC合作开发,目的是为叙事表现创造一个本体论,它是建立在经常使用的事件和时间线本体上,确保与现有数据集的互操作性。

例如:<EventList,EventSlot,Interpretation,Story,events(Story,EventList),item(EventSlot,Event),slot(EventList,EventSlot),sub_story(Story,Story)>。

3)Storytelling Ontology。该本体利用修辞结构理论(RST)提出的关系,提出了一种基于事件组织的通用叙事本体模型,考虑了本体中最重要的故事组件和叙事规则,只适用于文本类数据,本体表示为<Concept,Event,Relation,Act,Scene,Agent,Role>。

4)Activity Ontology。Meditskos提出了一个活动模式本体,它作为域活动类上的元模型,基于在DUL中实现的DnS模式,捕获原子活动和复合活动的结构概念,目的是允许活动解释模型在活动类上的形式化表示,这些类通常具有复杂的时间关联,并且通常情况下,单个活动的聚合需要一个新的(组合的)活动存在。Activity由situations,descriptions、types,Meta-activities四部分组成。

5)WikiTimes Ontology。用于组织维基百科中的事件,对Event和Story,Event进行了区分,Story由一系列Event构成时间线(timeline),并持续多个时间跨度。例如:<Story,Event,Entity,Storyline,Location,subEvent(NewsEvent,NewsStory),superEvent (NewsEvent,NewsStory),belongstoStory(NewsEvent,NewsStory)> 

6)NOEM。NOEM定义了一套与事件5W1H要素相关的本体结构,利用事件的类型、时间、空间、结构、因果、媒体等方面进行事件的特征描述。

7)事件六要素模型。刘宗田提出了<A,O,T,P,S,L>的事件本体表示方法。以“事件类”为中心的事件本体可以很好地表达事件中的对象、时间、地点以及事件类之间的复杂关系,是一种知识表示单元。在事件的定义上,将事件形式化成六元组的形式。其中A表示动作要素,O表示动作集合,P表示地点,S表示状态集合,L表示语言表现,可以通过R(E1,E2)的形式来描述事件类之间的关系,并将具有共同特征的事件进行归类。

五、总结

本文主要介绍了事件图谱构建中事件表示的常用方法,从基于自然文本的形式化表示、基于结构元组的脚本形式化表示、基于框架模板的形式化表示以及基于通用本体的形式化表示方法等四种类型进行了论述。

从中,我们可以看到不同事件表示方法之间存在的差异之处。

在实际的事件图谱构建过程中,我们可以根据具体的业务需求选择相应的事件表示方法,以完成相应目标。

内容中包含的图片若涉及版权问题,请及时与我们联系删除