Biomedical Nested NER with Large Language Model and UMLS Heuristics

简介

本文介绍了我们针对BioNNE英文赛道开发的系统，旨在从生物医学文本中提取8种生物医学嵌套命名实体。我们使用了一个大型语言模型（Mixtral 8x7B instruct）和ScispaCy NER模型来识别文章中的实体，并基于统一医学语言系统（UMLS）语义类型构建自定义启发式算法来对实体进行分类。我们讨论了系统的结果和限制，并提出了未来的改进方向。我们的系统在BioNNE验证集上实现了0.39的F1得分，在测试集上实现了0.348的F1得分。
图表
解决问题

本文旨在从生物医学文本中提取8种嵌套的命名实体，并通过使用大型语言模型和ScispaCy NER模型来识别实体，并基于统一医学语言系统（UMLS）语义类型构建自定义启发式算法来对实体进行分类。
关键思路

本文的关键思路是使用大型语言模型和ScispaCy NER模型来识别实体，并基于UMLS语义类型构建自定义启发式算法来对实体进行分类，以提高命名实体识别的准确性。
其它亮点

本文使用了Mixtral 8x7B instruct和ScispaCy NER模型来识别生物医学文本中的命名实体，并通过自定义启发式算法将实体分类。实验结果表明，本文的方法在BioNNE验证集上获得了0.39的F1分数，在测试集上获得了0.348的F1分数。本文的方法可以应用于生物医学领域的实体识别任务，并为未来的相关研究提供参考。
相关研究

最近在这个领域中，还有一些相关的研究被进行，如《A survey on named entity recognition in the biomedical domain》、《Deep learning for biomedical named entity recognition: A review》等。

Biomedical Nested NER with Large Language Model and UMLS Heuristics

评论