M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models

2024年03月31日
  • 简介
    医学图像分析对于临床诊断和治疗至关重要,越来越多地得到多模态大语言模型(MLLMs)的支持。然而,之前的研究主要集中在二维医学图像上,对于富含更丰富空间信息的三维图像仍未得到充分探索。本文旨在利用MLLMs推进三维医学图像分析。为此,我们提出了一个大规模的三维多模态医学数据集M3D-Data,包括120K个图像-文本对和662K个针对各种三维医学任务的指令-响应对,例如图像-文本检索、报告生成、视觉问答、定位和分割。此外,我们提出了M3D-LaMed,一种多用途的三维医学多模态大语言模型。此外,我们还引入了一个新的三维多模态医学基准M3D-Bench,可以在八个任务上进行自动评估。通过全面评估,我们的方法证明是三维医学图像分析的一个强大模型,优于现有的解决方案。所有代码、数据和模型都可在以下网址公开获取:https://github.com/BAAI-DCAI/M3D。
  • 图表
  • 解决问题
    本论文旨在推进使用多模态大型语言模型(MLLMs)进行三维医学图像分析的研究,提出了一个大规模的三维多模态医学数据集M3D-Data,并设计了M3D-LaMed模型和M3D-Bench基准测试,以解决三维医学图像分析中的问题。
  • 关键思路
    本论文的关键思路是使用多模态大型语言模型(MLLMs)进行三维医学图像分析,提出了一个大规模的三维多模态医学数据集M3D-Data,并设计了M3D-LaMed模型和M3D-Bench基准测试,以解决三维医学图像分析中的问题。
  • 其它亮点
    本论文提出了一个大规模的三维多模态医学数据集M3D-Data,包含120K个图像文本对和662K个指令-响应对,用于各种三维医学任务,如图像文本检索、报告生成、视觉问答、定位和分割。此外,本文还介绍了一个新的3D多模态医学基准测试M3D-Bench,可自动评估八个任务。实验结果表明,本文提出的M3D-LaMed模型在三维医学图像分析中表现出鲁棒性,优于现有解决方案。
  • 相关研究
    最近的相关研究包括:1)使用2D医学图像的MLLMs;2)使用3D医学图像的传统方法,如卷积神经网络(CNN)和循环神经网络(RNN);3)使用3D医学图像的深度学习方法,如3D CNN和3D RNN。相关论文包括:“Multi-modal Transformer for Unaligned Multi-modal Language Sequences”、“Deep Learning for Medical Image Analysis”、“3D Medical Image Analysis with Efficient CNNs”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论