摘要:新兴的Transformer技术对自然语言处理的研究产生了巨大的影响。在一般英语领域,基于Transformer的模型在各种NLP基准上取得了最先进的性能。在临床领域,研究人员还研究了Transformer模型的临床应用。本研究的目的是系统地探索三种广泛使用的基于Transformer的临床关系抽取模型(即BERT、RoBERTa和XLNet),并开发一个开放源码软件包,其中包含临床预训练的基于Transformer的模型,以促进临床领域的信息抽取。我们开发了一系列基于三种Transformer架构的临床重建模型,即BERT、RoBERTa和XLNet。我们使用来自2018年MADE1.0和2018年n2c2挑战的2个公开数据集对这些模型进行了评估。我们比较了两种分类策略(二进制分类和多类分类),并研究了在不同实验环境下生成候选关系的两种方法。在这项研究中,我们比较了三种基于Transformer的关系抽取模型(BERT、RoBERTa和XLNet)。我们证明了RoBERTa临床重建模型在2018年MADE1.0数据集上取得了最佳性能,F1得分为0.8958。在2018年n2c2数据集上,XLNet临床模型的F1得分最高,为0.9610。我们的研究结果表明,二元分类策略在临床关系抽取方面的表现优于多类分类策略。我们的方法和模型在https://github.com/uf-hobi-informatics-lab/ClinicalTransformerRelationExtraction. 我们相信这项工作将改善目前在生物医学领域的临床关系抽取和其他相关自然语言处理任务的实践。

详情请参阅原文。

链接:https://arxiv.org/abs/2107.08957

内容中包含的图片若涉及版权问题,请及时与我们联系删除