- 简介视觉语言模型已成为医学领域中先前具有挑战性的多模态分类问题的强有力工具。这一发展导致了对于多模态临床扫描的自动生成图像描述的探索,特别是用于放射学报告生成。现有的研究集中在特定模态或身体部位的临床描述上,留下了一个模型提供整体多模态描述的空白。在本文中,我们通过自动化生成多模态MR和CT放射学图像中整个身体的标准化身体站点和器官列表来解决这一空白。利用对比语言-图像预训练(CLIP)的多个实验,包括基线模型微调、添加站点作为超集以获得更好的器官相关性,以及图像和语言增强,我们改进和增强了现有方法的多样性。我们提出的方法表现出比基线PubMedCLIP高47.6%的性能提升。
- 图表
- 解决问题自动生成医学影像报告,尤其是针对多模态全身扫描,仍然是一个挑战性问题。本文旨在解决这个问题,并通过自动化生成多模态MR和CT放射学图像中整个身体的标准化身体站和器官列表来填补这一空白。
- 关键思路本文利用对比语言-图像预训练(CLIP)的多种实验方法,包括基线模型微调、添加身体站点作为超集以提高器官之间的相关性,以及图像和语言增强,来完善和增强现有的方法。
- 其它亮点本文提出的方法在PubMedCLIP的基础上,表现出47.6%的性能提升。实验设计了多种方法来测试模型的性能,使用了多模态MR和CT放射学图像数据集。本文的方法对于自动化医学影像报告的生成有重要意义,值得进一步研究。
- 最近的研究集中在特定模态或身体部位的临床描述上,还没有提供整个身体的多模态描述。
沙发等你来抢
去评论
评论
沙发等你来抢