研究人员已提出多种深度学习体系结构,以将医疗成像检查作为输入生成书面报告。而大多数研究通过使用标准的自然语言处理(NLP)指标(例如,BLEU,ROUGE)评估生成报告。本文中,研究人员比较了现有的技术模型与基准来对比此进展。研究证明,对传统的NLP指标,很多简单的方法都能产生接近 SOTA 的性能。研究人员认为,应进一步研究评估此任务的评估方法,以正确测量临床准确性,医师的参与将更好地达到此目的。

论文链接

内容中包含的图片若涉及版权问题,请及时与我们联系删除