VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition

简介

目前生物命名实体识别（BioNER）的流行解决方案是使用表示学习技术结合序列标注。然而，这些方法本质上是任务特定的，表现出较差的泛化能力，并且通常需要针对每个数据集专门设计模型。为了利用最近非凡的大型语言模型（LLM）的多才多艺的能力，一些努力已经探索了实体提取的生成方法。然而，这些方法通常不如先前的序列标注方法有效。在本文中，我们使用开源的LLM LLaMA2作为骨干模型，并设计特定的指令来区分不同类型的实体和数据集。通过将LLM对指令的理解与序列标注技术相结合，我们使用混合数据集训练模型，使其能够提取各种类型的实体。鉴于骨干LLM缺乏专业的医学知识，我们还整合了外部实体知识库，并采用指令调整来促使模型密集识别精心策划的实体。我们的模型VANER，使用少量参数进行训练，明显优于先前基于LLM的模型，并且首次作为基于LLM的模型，超过了大多数传统的BioNER系统，实现了三个数据集中最高的F1分数。
图表
解决问题

本文旨在解决生物实体识别（BioNER）中的问题，即现有的方法通常需要针对特定任务进行定制化，并且缺乏泛化性能，需要为每个数据集专门设计模型。
关键思路

本文利用开源的大型语言模型（LLM）LLaMA2作为骨干模型，结合特定的指令和序列标记技术，设计出能够识别不同类型实体的模型VANER，并使用混合数据集训练模型，同时整合外部实体知识库和指令调整来提高模型的识别能力。
其它亮点

本文的模型VANER在三个数据集上的F1得分均超过了以往基于LLM的模型，并且超过了大多数传统的BioNER系统。实验结果表明，VANER的性能优于以往的基于生成方法的BioNER模型。此外，本文还开源了代码和数据集，为后续的研究提供了便利。
相关研究

最近的相关研究包括《BERT for Biomedical Named Entity Recognition: Is It Better Than Previous Methods?》和《BioBERT: a pre-trained biomedical language representation model for biomedical text mining》等。

VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition

评论