LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation

简介

这项研究提出了一种新的评估框架，使用大型语言模型（LLMs）比较放射学报告以进行评估，因为现有的指标无法反映任务的临床要求，而评估生成的放射学报告对于放射学AI的发展至关重要。我们比较了各种LLMs的性能，并证明，当使用GPT-4时，我们提出的指标实现了与放射科医生评估一致性接近的评估结果。此外，为了降低成本并提高可访问性，使这种方法实用化，我们使用LLM评估结果构建数据集，并进行知识蒸馏以训练一个较小的模型。蒸馏模型实现了与GPT-4相当的评估能力。我们的框架和蒸馏模型为放射学报告生成提供了一种可访问和高效的评估方法，促进了更具临床相关性模型的发展。该模型将进一步开源并可访问。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一种使用大型语言模型（LLMs）评估放射学报告生成的新方法，以更好地反映临床要求。
关键思路

使用GPT-4构建评估指标，使用知识蒸馏训练较小的模型，提供一个更具可访问性和高效的评估方法。
其它亮点

使用不同的LLMs进行比较，提出了一种新的评估框架，该方法的评估一致性接近于放射学家；使用知识蒸馏训练出的模型的评估能力与GPT-4相当；该方法开源并可访问。
相关研究

最近的相关研究包括使用自然语言处理技术进行放射学报告的自动生成、放射学图像的自动分析等。

LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation

提问交流

提问交流