- 简介现有的跨文档事件共指解析模型,要么直接计算提及相似度,要么通过提取事件参数(如位置、时间、代理人和患者)来增强提及表示,缺乏利用文档级信息的能力。因此,它们难以捕捉长距离依赖关系。这个缺点导致它们在确定事件共指时表现不佳,特别是当它们的参数信息依赖于长距离依赖关系时。鉴于这些限制,我们提出构建文档级修辞结构理论(RST)树和跨文档词汇链,以建模文档的结构和语义信息。随后,构建跨文档异构图,并利用GAT学习事件表示。最后,一对评分器计算每对事件之间的相似度,可以使用标准聚类算法识别共指事件。此外,由于现有的跨文档事件共指数据集仅限于英语,我们开发了一个大规模的中文跨文档事件共指数据集来填补这个空白,该数据集包括53,066个事件提及和4,476个聚类。在分别应用于英语和中文数据集后,我们的模型都大幅优于所有基线模型。
- 图表
- 解决问题本文旨在解决跨文档事件共指解析中长距离依赖问题,提出了构建文档级Rhetorical Structure Theory(RST)树和跨文档词汇链的方法,并使用GAT学习事件表示,通过聚类算法识别共指事件。此外,为填补现有数据集的空白,作者还开发了一个大规模的中文跨文档事件共指数据集。
- 关键思路本文提出了一种新的跨文档事件共指解析方法,通过构建文档级RST树和跨文档词汇链,利用GAT学习事件表示,解决了现有方法中长距离依赖问题。
- 其它亮点本文使用了自己开发的中文跨文档事件共指数据集,并在该数据集和英文数据集上进行了实验,表现优于现有方法。此外,作者还提供了开源代码。
- 近期相关研究包括:《End-to-End Neural Coreference Resolution for Coherent Text Processing》、《A Survey of Cross-document Event Coreference Resolution》等。
沙发等你来抢
去评论
评论
沙发等你来抢