一篇AAAI2022的paper《Unified Named Entity Recognition as Word-Word Relation Classification》,刷新了14个中英文数据集的SOTA!

这篇论文整体上也比较简单,主要创新点是利用统一的Word-Pair标记方式建模不同类型的NER任务,并将这一NER统一模型称之为W2NER。

论文链接:

https://arxiv.org/abs/2112.10070

本文所采取的Word-Pair标记方式(如上图所示),不难看出,这种方式可以看作是Token-Pair一种拓展:即建模Word和Word之间的关系,主要有两种Tag标记:
  • NNW(Next-Neighboring-Word):表示当前Word下一个连接接的Word;
  • THW(Tail-Head-Word-):实体的tail-Word到head-Word的连接,并附带实体的label信息。
通过上述的两种Tag标记方式连接任意两个Word,就可以解决如上图中各种复杂的实体抽取:(ABCD分别是一个Word)
  • a): AB和CD代表两个扁平实体;
  • b): 实体BC嵌套在实体ABC中;
  • c): 实体ABC嵌套在非连续实体ABD;
  • d): 两个非连续实体ACD和BCE;

内容中包含的图片若涉及版权问题,请及时与我们联系删除