LLMs in Biomedicine: A study on clinical Named Entity Recognition

简介

本文探讨了大型语言模型（LLMs）在医学领域中的应用，通过探索增强命名实体识别（NER）任务的性能策略，研究发现医学领域的语言复杂性和数据稀缺性给LLMs带来了不同的挑战。具体而言，本研究揭示了在生物医学领域中精心设计提示的重要性。通过策略性选择上下文示例，可以显著提高性能，在少样本临床NER的所有基准数据集中展示了15-20％的F1得分提高。此外，本研究发现，通过提示策略整合外部资源可以弥补通用LLM熟练度和医学NER的专业需求之间的差距。基于Retrieval-Augmented Generation（RAG）的医学知识库，我们提出的方法可以提高LLMs在零样本临床NER中的F1得分。我们将在发表后发布代码。
图表
解决问题

本文旨在探索提高大型语言模型在医学命名实体识别中的性能的策略，以解决医学领域中的语言复杂性和数据稀缺性问题。
关键思路

本文提出了一种精心设计的提示策略，通过在上下文中选择合适的示例来提高大型语言模型的性能，同时还提出了一种基于检索-增强生成（RAG）的方法，通过整合外部资源来提高大型语言模型的性能。
其它亮点

本文的实验结果表明，所提出的提示策略可使临床命名实体识别的F1分数提高约15-20％，并且所提出的基于RAG的方法可以提高大型语言模型的F1分数，从而弥补了通用大型语言模型在医学命名实体识别方面的不足。研究者将在发表后公开代码。
相关研究

最近的相关研究包括：1）使用预训练模型进行医学文本分类的研究；2）使用迁移学习和领域自适应方法来解决医学NER中的数据稀缺性问题的研究。

LLMs in Biomedicine: A study on clinical Named Entity Recognition

评论