VLSM-Adapter: Finetuning Vision-Language Segmentation Efficiently with Lightweight Blocks

向作者提问

NEW

简介

最近，使用大规模开放领域图像和文本对训练的基金会视觉语言模型（VLMs）已被改进，以开发视觉语言分割模型（VLSMs），允许在推理过程中提供文本提示以引导图像分割。如果可以为医学图像构建强大且稳健的VLSMs，它可以帮助医学专业人员在许多临床任务中节省大量时间，其中他们必须花费大量时间勾勒感兴趣的目标结构。由于医学图像数据集较少，因此对于医学图像的VLSMs，会利用在开放领域自然图像数据集上预训练的基础VLM或VLSM进行微调；这种微调需要更新预训练参数的全部或大部分，因此需要耗费大量的资源和金钱。最近，VLMs中提出了一种轻量级块，称为适配器，它可以保持预训练模型冻结，并仅在微调过程中训练适配器，从而大大减少所需的计算资源。我们引入了一种新型适配器，VLSM-Adapter，它可以使用变压器编码器微调预训练的视觉语言分割模型。我们在广泛使用的基于CLIP的分割模型中进行的实验表明，仅使用300万可训练参数，VLSM-Adapter的性能优于现有技术水平，并且与端到端微调的上限相当。源代码可在以下网址找到：https://github.com/naamiinepal/vlsm-adapter。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在开发一种新的适配器VLSM-Adapter，用于微调预训练的视觉-语言分割模型，以解决医学图像分割中数据集较少的问题，并减少计算资源的消耗。
关键思路

VLSM-Adapter是一种轻量级的适配器，可以在微调预训练的视觉-语言分割模型时只训练适配器，而不是更新所有预训练参数，从而大大减少计算资源的消耗。
其它亮点

论文在广泛使用的基于CLIP的分割模型上进行了实验，结果表明，VLSM-Adapter仅有300万可训练参数，就能胜过现有的最先进模型，并且与端到端微调相当。此外，作者还提供了开源代码。
相关研究

最近的相关研究包括使用预训练的VLM和VLSM来开发VLSM，以及使用适配器来减少微调所需的计算资源消耗。相关论文包括：“Unicoder-VL: A Universal Encoder for Vision-Language Tasks”和“AdapterDrop: A Plug-in for Mitigating Forgetting in Visual Transformers”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问