- 简介目前最先进的深度学习实体链接方法依赖于大量的人工标注数据,这种数据获取成本高昂。当前的数据集规模有限,导致生物医学概念的覆盖不足,而且在应用于新数据时性能下降。在这项工作中,我们建议自动生成数据以创建大规模的训练数据集,这允许探索最初为生物医学实体链接任务开发的极端多标签排名方法。我们提出了混合型X-Linker管道,其中包括不同的模块,将疾病和化学实体提及链接到MEDIC和CTD-Chemical词汇表中的概念。X-Linker在几个生物医学数据集上进行了评估:BC5CDR-Disease、BioRED-Disease、NCBI-Disease、BC5CDR-Chemical、BioRED-Chemical和NLM-Chem,分别取得了0.8307、0.7969、0.8271、0.9511、0.9248和0.7895的top-1准确率。在三个数据集中,X-Linker表现出了优异的性能:BC5CDR-Disease、NCBI-Disease和BioRED-Chemical。相比之下,SapBERT在其余三个数据集中表现更好。这两个模型都只依赖于提及字符串进行操作。X-Linker的源代码及其相关数据可公开获取,可用于进行生物医学实体链接,而无需预先标记具有特定知识组织系统标识符的实体。
- 图表
- 解决问题该论文旨在解决生物医学实体链接中数据集有限的问题,提出了一种自动生成数据以创建大规模训练数据集的方法。
- 关键思路该论文的关键思路是使用自动生成数据的方法,探索在生物医学实体链接任务中应用极端多标签排名方法的方法。
- 其它亮点该论文提出了一个名为X-Linker的混合管道,包括不同的模块来将疾病和化学实体提及链接到MEDIC和CTD-Chemical词汇表中的概念。在多个生物医学数据集上进行了评估,达到了很高的准确率,且与SapBERT相比表现出卓越的性能。
- 在生物医学实体链接领域,最近的相关研究包括《State-of-the-art deep learning entity linking methods》、《A hybrid deep learning approach for named entity recognition and normalization on short texts》等。
沙发等你来抢
去评论
评论
沙发等你来抢