- 简介本文介绍了一种新颖的实体感知度量方法,称为放射学报告(文本)评估(RaTEScore),用于评估由人工智能模型生成的医学报告的质量。RaTEScore强调关键的医学实体,如诊断结果和解剖细节,并且对于复杂的医学同义词具有鲁棒性,并对否定表达式敏感。在技术上,我们开发了一个全面的医学实体识别(NER)数据集RaTE-NER,并专门为此目的训练了一个NER模型。该模型使得将复杂的放射学报告分解为组成部分的医学实体成为可能。度量本身是通过比较从语言模型获得的实体嵌入的相似性来推导的,这些实体嵌入基于它们的类型和与临床意义的相关性。我们的评估表明,RaTEScore比现有的度量方法更接近人类偏好,这得到了在已建立的公共基准测试和我们新提出的RaTE-Eval基准测试上的验证。
- 图表
- 解决问题如何评估医学报告生成模型的质量?
- 关键思路提出一种新的实体感知的度量标准RaTEScore,通过实体嵌入的相似性比较来衡量医学报告生成模型的质量,该度量标准考虑了医学实体的重要性和复杂的同义词问题,并且针对否定表达式具有敏感性。
- 其它亮点论文开发了一个全面的医学实体识别数据集RaTE-NER,并针对该数据集训练了一个实体识别模型,用于将复杂的医学报告分解为组成部分的医学实体。RaTEScore的评估结果表明,该度量标准比现有的度量标准更接近人类的偏好,并在公共基准测试和新提出的RaTE-Eval基准测试中得到了验证。
- 近期的相关研究包括医学自然语言处理、医学实体识别和医学报告生成等方面的研究。
沙发等你来抢
去评论
评论
沙发等你来抢