【论文标题】 Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition
【作者团队】Yangming Li,Lemao Liu,Shuming Shi
【发表时间】2020/12/11
【论文链接】https://arxiv.org/abs/2012.05426
【推荐理由】针对句子实体可能没有被完全标注影响模型性能的情况,提出了一种能够消除未标记实体带来的误导的通用方法。此论文被ICLR 2021接收。
在许多场景中,命名实体识别(NER)模型存在未标记实体问题,即句子的实体可能没有被完全标注。通过对综合数据集的实证研究,我们发现了导致性能下降的两个原因。一种是减少带标注的实体,另一种是将未标记的实体视为负面实例。第一个原因的影响小于第二个原因,可以通过采用训练前的语言模型加以缓解。二是严重误导训练模式,严重影响训练效果。基于上述观察,我们提出了一种能够消除未标记实体带来的误导的通用方法。其核心思想是使用负抽样来保持训练未标记实体的概率在一个非常低的水平上。在综合数据集和真实数据集上的实验表明,该模型对未标记实体问题具有较强的鲁棒性,且优于先验基线。在注释良好的数据集上,我们的模型与最先进的方法是SOTA的。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢