语义角色标注(SRL)是 NLP 中一个基础且重要的任务,主要涉及谓词和论元的识别,以及相应的角色标签标注等等。
最近主流的 SRL 方法主要分为 BIO-based 和 span-based。前者将 SRL 视为序列标注,而后者则是将 SRL 视为对于 <谓词,论元头,论元尾> 这样三元组的预测。然而这两种方法都有一些共有的缺陷,忽视了对于论元内部结构建模。

这种内部结构在直觉上对于 SRL 很有效,例如在上面的图中,谓词 take 对应的论元「out of the market」的标签为 A2,这种关系可以反映在 take 到论元中心词 out 的弧中,此外,该论元的边界也和相应的子树边界完美对应。如果捕捉到内部结构信息,可以有效引导角色标签分类以及论元识别这两个子任务。然而由于 SRL 是一个 shallow parsing task,缺乏层次化的结构标注,这种内部结构还很少被前人工作利用。

基于这些观察,我们提出将平坦论元结构建模为隐式(latent)依存子树。通过这种方式,我们可以方便地将 SRL 归纳成一个依存句法分析任务。基于这种归纳,我们可以无缝利用已有的一些成熟的依存句法分析技术,例如 TreeCRF、高阶建模等等,来进行全局概率推断。

 

论文标题:Semantic Role Labeling as Dependency Parsing: Exploring Latent Tree Structures Inside Arguments

论文链接:https://arxiv.org/pdf/2110.06865.pdf

代码链接:https://github.com/yzhangcs/crfsrl

内容中包含的图片若涉及版权问题,请及时与我们联系删除