- 简介尽管LLMs具有一般的能力,但在生物医学命名实体识别任务中仍然存在困难,这是由于存在专业术语和缺乏训练数据所致。在本研究中,我们旨在通过一种新的知识增强方法,在有限的数据设置下提高LLM在生物医学命名实体识别中的性能,该方法通过即时加入相关概念的定义。在这个过程中,为了提供知识增强的测试平台,我们进行了全面的提示策略探索。我们的实验表明,定义增强对于开源和闭源LLMs都是有用的。例如,它导致了GPT-4在我们所有(六个)测试数据集中的相对性能提高了15%(平均F1值)。我们进行了广泛的消融和分析,证明我们的性能改进来自于添加相关的定义性知识。我们发现,仔细的提示策略也可以提高LLM的性能,在少量训练数据的情况下,它们可以胜过微调语言模型。为了促进未来的研究,我们在https://github.com/allenai/beacon上发布了我们的代码。
-
- 图表
- 解决问题如何在有限的数据集上提高LMM在生物医学命名实体识别(NER)任务中的性能?
- 关键思路通过新的知识增强方法,即实时添加相关概念的定义,改善LMM在生物医学NER任务中的性能。
- 其它亮点论文通过探索提示策略和实时添加定义的知识增强方法,对开源和闭源LMM进行了实验。结果表明,该方法在六个测试数据集上相对提高了15%的F1性能。作者还公开了他们的代码。
- 最近的相关研究包括使用迁移学习和预训练模型来改善生物医学NER任务的性能,如《BioBERT: a pre-trained biomedical language representation model for biomedical text mining》和《Improving Biomedical Named Entity Recognition with Neural Architectures and Transfer Learning》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流