A Benchmark Evaluation of Clinical Named Entity Recognition in French

The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), May 2024, Torino, Italy
2024年03月28日
  • 简介
    背景:基于Transformer的语言模型在许多自然语言处理(NLP)任务中表现出强大的性能。遮盖语言模型(MLM)因其可以通过在特定语料库上进行训练或微调来适应不同的语言和子领域,同时仍保持比现代大型语言模型(LLM)更轻巧的特点,因此引起了持续的关注。最近,已经发布了几个面向法语生物医学领域的MLM,实验表明它们优于标准的法语模型。然而,目前还没有系统的评估比较所有模型在相同语料库上的表现。 目标:本文在法语生物医学领域的遮盖语言模型上提出了一种评估方法,评估其在临床命名实体识别任务中的表现。 材料和方法:我们评估生物医学模型CamemBERT-bio和DrBERT,并将它们与标准的法语模型CamemBERT、FlauBERT和FrALBERT以及多语言mBERT进行比较,使用三个公开可用的法语临床命名实体识别语料库进行评估。评估设置依赖于语料库开发者发布的金标准语料库。 结果:结果表明,CamemBERT-bio在持续表现上优于DrBERT,而FlauBERT提供了有竞争力的表现,FrAlBERT实现了最低的碳足迹。 结论:这是第一次针对法语临床实体识别的生物医学遮盖语言模型的基准评估,通过涵盖性能和环境影响的指标,一致地比较了模型的表现。
  • 图表
  • 解决问题
    本论文旨在评估用于生物医学领域的法语掩码语言模型在临床命名实体识别任务上的性能表现,并比较其与标准法语模型以及多语言模型的差异。
  • 关键思路
    本论文通过评估CamemBERT-bio和DrBERT两种生物医学模型,发现CamemBERT-bio表现最佳,而FrALBERT具有最低的碳足迹。
  • 其它亮点
    本文是首个对法语临床实体识别任务中的生物医学掩码语言模型进行系统评估的研究。实验使用了公开可用的语料库,并比较了模型的性能和环境影响。
  • 相关研究
    最近的相关研究包括使用不同的语言模型进行生物医学实体识别的研究,如BioBERT和SciBERT。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论