Augmenting Biomedical Named Entity Recognition with General-domain Resources

2024年06月15日
  • 简介
    训练基于神经网络的生物医学命名实体识别(BioNER)模型通常需要大量且昂贵的人工注释。虽然有几项研究采用了多任务学习与多个BioNER数据集以减少人力,但这种方法并不总是能够持续提高性能,并且可能会在不同的生物医学语料库中引入标签歧义。我们旨在通过从易于访问的资源中进行迁移学习来解决这些挑战,这些资源与生物医学数据集的概念重叠较少。在本文中,我们提出了GERBERA,这是一种简单而有效的方法,利用通用领域的NER数据集进行训练。具体而言,我们使用多任务学习来训练一个预训练的生物医学语言模型,同时使用目标BioNER数据集和通用领域数据集。随后,我们专门为BioNER数据集微调模型。我们对81,410个实例组成的八个实体类型的五个数据集进行了系统评估。尽管使用的生物医学资源较少,但我们的模型表现优于使用多个额外的BioNER数据集训练的基线模型。具体而言,我们的模型在八个生物医学实体类型中的六个实体类型中始终优于基线,平均性能提高了0.9%,这些实体类型来自五个不同的语料库。我们的方法特别适用于具有有限数据的BioNER数据集,在JNLPBA-RNA数据集上F1分数提高了4.7%。
  • 图表
  • 解决问题
    论文旨在通过转移学习,从易于获取的资源中提取信息,减少对人工注释的需求,以提高生物医学命名实体识别(BioNER)模型的性能。
  • 关键思路
    利用通用领域命名实体识别(NER)数据集进行多任务学习,与目标BioNER数据集一起对预训练的生物医学语言模型进行训练,并针对BioNER数据集进行微调。
  • 其它亮点
    GERBERA方法使用较少的生物医学资源,但在五个数据集中的八种实体类型中,表现优于使用多个BioNER数据集训练的基线模型。在限制数据的BioNER数据集上,F1分数提高了4.7%。实验设计详细,使用了多个数据集,作者提供了开源代码。
  • 相关研究
    在最近的相关研究中,一些学者提出了基于多任务学习的BioNER模型,但这些方法并不总是能够提高性能。还有一些学者尝试使用迁移学习,但这些方法主要针对少数特定领域。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论