- 简介生物医学实体链接是从与健康有关的文本中自动提取信息的主要组成部分,它在将文本实体(例如患者提到的疾病、药物和身体部位)与结构化的生物医学知识库中的相应概念连接方面起着关键作用。尽管自然语言处理方面最近取得了一些进展,但这项任务仍然具有挑战性。本文提出了第一个针对荷兰语的生物医学实体链接模型,并使用MedRoBERTa.nl作为基础模型,通过对从UMLS和荷兰SNOMED中提取的荷兰生物医学本体进行自我对齐的第二阶段预训练。我们从维基百科中提取了本体链接的荷兰生物医学实体语料库,并在该数据集上对我们的模型进行微调。我们在Mantra GSC-corpus的荷兰部分上评估了我们的模型,实现了54.7%的分类准确度和69.8%的1-distance准确度。然后,我们对一组未标记的患者支持论坛数据进行了案例研究,并表明我们的模型受到前面实体识别步骤质量的限制。小样本的手动评估表明,在正确提取的实体中,大约65%与本体中的正确概念相关联。我们的结果表明,与英语不同的语言中的生物医学实体链接仍然具有挑战性,但我们的荷兰模型可以用于对患者生成的文本进行高级分析。
- 图表
- 解决问题本文旨在解决荷兰语生物医学实体链接的问题,即将文本实体与生物医学知识库中的相应概念连接起来。尽管自然语言处理的最新发展,但该任务仍具有挑战性。
- 关键思路本文提出了一种基于MedRoBERTa.nl为基础模型的生物医学实体链接模型,并通过自我对齐在从UMLS和荷兰SNOMED中提取的荷兰生物医学本体上进行第二阶段预训练。作者从维基百科中提取了一个本体链接的荷兰生物医学实体语料库,并在该数据集上对模型进行微调。
- 其它亮点本文的亮点包括使用了自我对齐的预训练方法,提出了一种荷兰语生物医学实体链接模型,并在Mantra GSC-corpus数据集上进行了评估。作者还进行了一个案例研究,证明了模型受到先前实体识别步骤质量的限制。
- 与此相关的最新研究包括英语生物医学实体链接模型的发展,以及其他语言的生物医学实体链接的探索。
沙发等你来抢
去评论

评论
沙发等你来抢