研究背景
文档级关系抽取(Document-level Relation Extraction)旨在从长文本中识别多个实体对之间的关系。在一个文档中往往存在多个实体以及他们的提及,并且分散在各个句子中。图一是公开的文档级关系抽取数据集 DocRED 的一个例子。与句子级关系抽取相比,文档级关系抽取更为复杂且更有前景。
▲ 图1:来自DocRED数据集的关系抽取样例
在大多数情况下,我们仅可以通过文档中的一小部分句子(即证据句)来充分表达一个关系事实。因此,预先抽取证据以排除大量噪声句子的影响对于文档级关系抽取非常重要。然而现有的方法要么忽略了证据句子,依靠模型设计或者将文档建模成图结构去习得实体对之间的长距离依赖;要么将证据句子抽取简单地定义为对单个句子进行二分类的任务。我们认为证据句之间往往存在很强的语义相关性,这些证据句共同描述了一种特定的关系,现有的方法对于该问题的建模过于简单化。
为了解决上述挑战,我们为文档级关系抽取提出了一种新的证据感知的方法。我们将证据抽取建模成一个序列决策问题,并利用精心设计的强化学习机制去抽取证据。考虑到句子的排列组合会导致搜索空间爆炸式增长,我们提出了一个有效的路径搜索策略,启发式地获取证据的候选集来缩小搜索空间,通过在两个公开数据集上的实验证明了我们方法的有效性。
该工作目前已被 CIKM 2022 接收,并被评为 Best Paper Honorable Mention。文章链接如下:
论文链接:
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢