Medical Vision Generalist: Unifying Medical Imaging Tasks in Context

简介

本研究提出了医学视觉通用模型（MVG），这是第一个能够在统一的图像生成框架内处理各种医学图像任务的基础模型，包括跨模态综合、图像分割、去噪和修复等。具体而言，MVG采用上下文生成策略，将输入和输出标准化为图像。通过将这些任务视为在提示图像标签对和输入图像条件下的图像生成过程，这种方法使各种任务的灵活统一成为可能，即使这些任务跨越不同的模态和数据集。为了充分利用局部和全局上下文，我们设计了一种混合方法，将掩蔽图像建模与自回归训练相结合，用于条件图像生成。这种混合方法在所有涉及的医学图像任务中都表现出最强的鲁棒性。为了严格评估MVG的能力，我们编制了第一个全面的通用医学视觉基准，包括13个数据集，涵盖四种成像模态（CT、MRI、X射线和微超声）。我们的结果一致地证明了MVG的卓越性能，优于现有的视觉通用模型，如Painter和LVM。此外，MVG表现出很强的可扩展性，当训练任务集更加多样化时，其性能显著提高，并且可以通过仅使用少量特定任务的样本有效地适应未见过的数据集。代码可在\url{https://github.com/OliverRensu/MVG}上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种能够在统一的图像生成框架内处理多种医学图像任务的基础模型，并为此创建一个全面的医学视觉基准测试集。
关键思路

本文提出了Medical Vision Generalist（MVG）模型，采用上下文生成策略，将输入和输出标准化为图像，并结合掩膜图像建模和自回归训练的混合方法来处理各种医学图像任务。
其它亮点

本文设计了一个全面的医学视觉基准测试集，包含13个数据集和4种成像模式（CT，MRI，X射线和微型超声），并展示了MVG模型的优越性能。此外，MVG的性能随着训练任务的多样性而显著提高，并且可以在只有极少量任务特定样本的情况下有效地适应未见过的数据集。
相关研究

最近的相关研究包括Painter和LVM等视觉通用模型。

Medical Vision Generalist: Unifying Medical Imaging Tasks in Context

提问交流

提问交流