- 简介医学图像分析对于临床诊断和治疗至关重要,越来越多地得到多模态大语言模型(MLLMs)的支持。然而,之前的研究主要集中在二维医学图像上,对于富含更丰富空间信息的三维图像仍未得到充分探索。本文旨在利用MLLMs推进三维医学图像分析。为此,我们提出了一个大规模的三维多模态医学数据集M3D-Data,包括120K个图像-文本对和662K个针对各种三维医学任务的指令-响应对,例如图像-文本检索、报告生成、视觉问答、定位和分割。此外,我们提出了M3D-LaMed,一种多用途的三维医学多模态大语言模型。此外,我们还引入了一个新的三维多模态医学基准M3D-Bench,可以在八个任务上进行自动评估。通过全面评估,我们的方法证明是三维医学图像分析的一个强大模型,优于现有的解决方案。所有代码、数据和模型都可在以下网址公开获取:https://github.com/BAAI-DCAI/M3D。
- 图表
- 解决问题本论文旨在推进使用多模态大型语言模型(MLLMs)进行三维医学图像分析的研究,提出了一个大规模的三维多模态医学数据集M3D-Data,并设计了M3D-LaMed模型和M3D-Bench基准测试,以解决三维医学图像分析中的问题。
- 关键思路本论文的关键思路是使用多模态大型语言模型(MLLMs)进行三维医学图像分析,提出了一个大规模的三维多模态医学数据集M3D-Data,并设计了M3D-LaMed模型和M3D-Bench基准测试,以解决三维医学图像分析中的问题。
- 其它亮点本论文提出了一个大规模的三维多模态医学数据集M3D-Data,包含120K个图像文本对和662K个指令-响应对,用于各种三维医学任务,如图像文本检索、报告生成、视觉问答、定位和分割。此外,本文还介绍了一个新的3D多模态医学基准测试M3D-Bench,可自动评估八个任务。实验结果表明,本文提出的M3D-LaMed模型在三维医学图像分析中表现出鲁棒性,优于现有解决方案。
- 最近的相关研究包括:1)使用2D医学图像的MLLMs;2)使用3D医学图像的传统方法,如卷积神经网络(CNN)和循环神经网络(RNN);3)使用3D医学图像的深度学习方法,如3D CNN和3D RNN。相关论文包括:“Multi-modal Transformer for Unaligned Multi-modal Language Sequences”、“Deep Learning for Medical Image Analysis”、“3D Medical Image Analysis with Efficient CNNs”等。
沙发等你来抢
去评论
评论
沙发等你来抢