- 简介放射学报告生成(RRG)随着多模态生成模型的进步取得了显著进展。然而,在该领域的评估遭受了公正和鲁棒度不足的困扰。我们揭示了现有基于词汇的度量(例如BLEU)在RRG上的高性能可能更多是一种幻觉——模型只能通过学习报告的模板来获得高BLEU。由于这些报告具有高度模式化的特性,这已经成为RRG的紧迫问题。在本文中,我们通过提出Layman's RRG框架来不合常理地解决这个问题,这是一个基于常用语言的数据集、评估和训练框架,可以系统地改进RRG。我们首先贡献了翻译后的Layman's terms数据集。在此基础上,我们提出了一种基于语义的评估方法,证明它可以缓解BLEU的虚高问题并提供更公正的评估。最后,我们展示了在Layman's terms数据集上的训练有助于模型专注于报告的语义,而不是过度拟合于学习报告模板。我们揭示了一个有前途的缩放定律,该定律将我们的数据集提供的语义增益与原始格式带来的反向模式进行了比较。我们的代码可在\url{https://github.com/hegehongcha/LaymanRRG}上找到。
- 图表
- 解决问题RRG领域缺乏公正和稳健的度量标准,已有的基于词汇的度量标准可能导致高BLEU得分只是模板学习的结果,这是一个紧迫的问题。
- 关键思路提出Layman's RRG框架,使用日常语言构建数据集、评估和训练框架,从而系统地改进RRG。该框架包括翻译后的Layman's terms数据集、基于语义的评估方法和训练模型关注报告语义的方法。
- 其它亮点实验结果显示,使用Layman's terms数据集训练模型可以更好地关注报告语义,避免过度拟合模板。提出的基于语义的评估方法可以减轻BLEU得分的膨胀现象,提供更公正的评估结果。研究还发现,Layman's terms数据集的训练样本数量与语义收益之间存在一个有希望的扩展定律。
- 最近的相关研究集中在改进RRG模型的性能和评估方法。例如,一些研究关注使用注意力机制和生成对抗网络来提高RRG模型的性能,而另一些研究着眼于开发新的评估方法来更准确地评估RRG模型的性能。
沙发等你来抢
去评论
评论
沙发等你来抢