- 简介最近,使用大规模开放领域图像和文本对训练的基金会视觉语言模型(VLMs)已被改进,以开发视觉语言分割模型(VLSMs),允许在推理过程中提供文本提示以引导图像分割。如果可以为医学图像构建强大且稳健的VLSMs,它可以帮助医学专业人员在许多临床任务中节省大量时间,其中他们必须花费大量时间勾勒感兴趣的目标结构。由于医学图像数据集较少,因此对于医学图像的VLSMs,会利用在开放领域自然图像数据集上预训练的基础VLM或VLSM进行微调;这种微调需要更新预训练参数的全部或大部分,因此需要耗费大量的资源和金钱。最近,VLMs中提出了一种轻量级块,称为适配器,它可以保持预训练模型冻结,并仅在微调过程中训练适配器,从而大大减少所需的计算资源。我们引入了一种新型适配器,VLSM-Adapter,它可以使用变压器编码器微调预训练的视觉语言分割模型。我们在广泛使用的基于CLIP的分割模型中进行的实验表明,仅使用300万可训练参数,VLSM-Adapter的性能优于现有技术水平,并且与端到端微调的上限相当。源代码可在以下网址找到:https://github.com/naamiinepal/vlsm-adapter。
-
- 图表
- 解决问题本论文旨在开发一种新的适配器VLSM-Adapter,用于微调预训练的视觉-语言分割模型,以解决医学图像分割中数据集较少的问题,并减少计算资源的消耗。
- 关键思路VLSM-Adapter是一种轻量级的适配器,可以在微调预训练的视觉-语言分割模型时只训练适配器,而不是更新所有预训练参数,从而大大减少计算资源的消耗。
- 其它亮点论文在广泛使用的基于CLIP的分割模型上进行了实验,结果表明,VLSM-Adapter仅有300万可训练参数,就能胜过现有的最先进模型,并且与端到端微调相当。此外,作者还提供了开源代码。
- 最近的相关研究包括使用预训练的VLM和VLSM来开发VLSM,以及使用适配器来减少微调所需的计算资源消耗。相关论文包括:“Unicoder-VL: A Universal Encoder for Vision-Language Tasks”和“AdapterDrop: A Plug-in for Mitigating Forgetting in Visual Transformers”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流