M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models

简介

医学图像分析对于临床诊断和治疗至关重要，越来越多地得到多模态大语言模型（MLLMs）的支持。然而，之前的研究主要集中在二维医学图像上，对于富含更丰富空间信息的三维图像仍未得到充分探索。本文旨在利用MLLMs推进三维医学图像分析。为此，我们提出了一个大规模的三维多模态医学数据集M3D-Data，包括120K个图像-文本对和662K个针对各种三维医学任务的指令-响应对，例如图像-文本检索、报告生成、视觉问答、定位和分割。此外，我们提出了M3D-LaMed，一种多用途的三维医学多模态大语言模型。此外，我们还引入了一个新的三维多模态医学基准M3D-Bench，可以在八个任务上进行自动评估。通过全面评估，我们的方法证明是三维医学图像分析的一个强大模型，优于现有的解决方案。所有代码、数据和模型都可在以下网址公开获取：https://github.com/BAAI-DCAI/M3D。
图表
解决问题

本论文旨在推进使用多模态大型语言模型（MLLMs）进行三维医学图像分析的研究，提出了一个大规模的三维多模态医学数据集M3D-Data，并设计了M3D-LaMed模型和M3D-Bench基准测试，以解决三维医学图像分析中的问题。
关键思路

本论文的关键思路是使用多模态大型语言模型（MLLMs）进行三维医学图像分析，提出了一个大规模的三维多模态医学数据集M3D-Data，并设计了M3D-LaMed模型和M3D-Bench基准测试，以解决三维医学图像分析中的问题。
其它亮点

本论文提出了一个大规模的三维多模态医学数据集M3D-Data，包含120K个图像文本对和662K个指令-响应对，用于各种三维医学任务，如图像文本检索、报告生成、视觉问答、定位和分割。此外，本文还介绍了一个新的3D多模态医学基准测试M3D-Bench，可自动评估八个任务。实验结果表明，本文提出的M3D-LaMed模型在三维医学图像分析中表现出鲁棒性，优于现有解决方案。
相关研究

最近的相关研究包括：1）使用2D医学图像的MLLMs；2）使用3D医学图像的传统方法，如卷积神经网络（CNN）和循环神经网络（RNN）；3）使用3D医学图像的深度学习方法，如3D CNN和3D RNN。相关论文包括：“Multi-modal Transformer for Unaligned Multi-modal Language Sequences”、“Deep Learning for Medical Image Analysis”、“3D Medical Image Analysis with Efficient CNNs”等。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论