- 简介理解3D医学图像体是医学领域中的一个关键任务。然而,现有的3D卷积和基于变压器的方法在图像体的语义理解方面存在局限性,同时需要大量的体积进行训练。最近,多模式大语言模型(MLLMs)的先进发展提供了一种新的、有希望的方式来理解图像,即通过文本描述。然而,大多数当前的MLLMs都是为2D自然图像设计的。为了增强2D MLLMs对3D医学图像的理解能力,我们提出了一个新颖的预训练框架Med3DInsight,它将现有的3D图像编码器与2D MLLMs相结合,并通过设计的平面-切片感知变压器(PSAT)模块进行桥接。广泛的实验证明了我们在两个下游分割和分类任务中的SOTA性能,包括三个公共数据集,其中包括CT和MRI模式,并与十多个基线进行比较。Med3DInsight可以轻松地集成到任何当前的3D医学图像理解网络中,并显著提高其性能。
-
- 图表
- 解决问题如何利用多模态大语言模型(MLLMs)来增强对3D医学图像的理解?
- 关键思路提出了一种名为Med3DInsight的预训练框架,将现有的3D图像编码器与2D MLLMs相结合,通过设计的Plane-Slice-Aware Transformer(PSAT)模块进行桥接,从而增强对3D医学图像的理解。
- 其它亮点通过实验展示了在两个下游分割和分类任务上的SOTA表现,包括三个公共数据集和与十多个基线的比较。Med3DInsight可以轻松集成到任何当前的3D医学图像理解网络中,并显著提高其性能。
- 最近的相关研究包括基于3D卷积和变压器的方法以及MLLMs在2D自然图像中的应用。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流