- 简介目前生物命名实体识别(BioNER)的流行解决方案是使用表示学习技术结合序列标注。然而,这些方法本质上是任务特定的,表现出较差的泛化能力,并且通常需要针对每个数据集专门设计模型。为了利用最近非凡的大型语言模型(LLM)的多才多艺的能力,一些努力已经探索了实体提取的生成方法。然而,这些方法通常不如先前的序列标注方法有效。在本文中,我们使用开源的LLM LLaMA2作为骨干模型,并设计特定的指令来区分不同类型的实体和数据集。通过将LLM对指令的理解与序列标注技术相结合,我们使用混合数据集训练模型,使其能够提取各种类型的实体。鉴于骨干LLM缺乏专业的医学知识,我们还整合了外部实体知识库,并采用指令调整来促使模型密集识别精心策划的实体。我们的模型VANER,使用少量参数进行训练,明显优于先前基于LLM的模型,并且首次作为基于LLM的模型,超过了大多数传统的BioNER系统,实现了三个数据集中最高的F1分数。
- 图表
- 解决问题本文旨在解决生物实体识别(BioNER)中的问题,即现有的方法通常需要针对特定任务进行定制化,并且缺乏泛化性能,需要为每个数据集专门设计模型。
- 关键思路本文利用开源的大型语言模型(LLM)LLaMA2作为骨干模型,结合特定的指令和序列标记技术,设计出能够识别不同类型实体的模型VANER,并使用混合数据集训练模型,同时整合外部实体知识库和指令调整来提高模型的识别能力。
- 其它亮点本文的模型VANER在三个数据集上的F1得分均超过了以往基于LLM的模型,并且超过了大多数传统的BioNER系统。实验结果表明,VANER的性能优于以往的基于生成方法的BioNER模型。此外,本文还开源了代码和数据集,为后续的研究提供了便利。
- 最近的相关研究包括《BERT for Biomedical Named Entity Recognition: Is It Better Than Previous Methods?》和《BioBERT: a pre-trained biomedical language representation model for biomedical text mining》等。
沙发等你来抢
去评论
评论
沙发等你来抢