受一般自然语言领域的巨大成功启发,预训练语言模型在生物医学领域引起了越来越多的关注。 在通用语言领域的预训练语言模型的两个主要分支中(即 BERT及其变体和 GPT及其变体),第一个在生物医学领域得到了广泛研究,例如 BioBERT 和 PubMedBERT。虽然它们在各种有鉴别力的下游生物医学任务上取得了巨大成功,但缺乏生成能力限制了它们的应用范围。

本文提出了 BioGPT,这是一种在大规模生物医学文献上预训练的特定领域生成式 Transformer 语言模型。 通过在六项生物医学 NLP 任务上评估了 BioGPT,并证明该模型在大多数任务上优于以前的模型。 特别是,在 BC5CDR、KD-DTI 和 DDI 端到端关系提取任务上分别获得了 44.98%、38.42% 和 40.76% 的 F1 分数,在 PubMedQA 上的准确率为 78.2%,创造了新的记录。较大的模型 BioGPT-Large 在 PubMedQA 上取得了 81.0% 的成绩。

关于文本生成的案例研究进一步证明了 BioGPT 在生物医学文献上的优势,可以为生物医学术语生成流畅的描述。 

论文链接:paper

代码链接:code

内容中包含的图片若涉及版权问题,请及时与我们联系删除