- 简介在当代的多模态学习中,遵循指令是至关重要的。然而,当将其扩展到多模态设置时,往往会出现特定文本指令和图像目标局部区域之间的错位。为了实现更准确、更细致的多模态指令跟随,我们引入了指令引导的视觉遮蔽(IVM),这是一种新的通用视觉定位模型,与多种多模态模型(如LMM和机器人模型)兼容。通过为指令无关区域构建视觉遮罩,增强了IVM的多模态模型可以有效地专注于任务相关的图像区域,以更好地与复杂的指令对齐。具体而言,我们设计了一个视觉遮蔽数据生成流程,并创建了一个包含100万个图像-指令对的IVM-Mix-1M数据集。我们进一步引入了一种新的学习技术,称为鉴别器加权监督学习(DWSL),用于优先进行IVM训练,优先处理高质量的数据样本。在通用的多模态任务(如VQA和具体化机器人控制)上的实验结果表明,IVM的通用性,作为一种即插即用的工具,显著提高了不同多模态模型的性能,在具有挑战性的多模态基准测试中产生了新的最先进结果。代码可在https://github.com/2toinf/IVM获得。
-
- 图表
- 解决问题解决在多模态设置下指令跟随存在的文本指令和图像局部区域不对齐的问题。
- 关键思路提出了一种Instruction-guided Visual Masking (IVM)的视觉定位模型,通过构建视觉掩蔽来减少指令-无关区域的影响,从而更好地对齐复杂的指令。
- 其它亮点通过构建视觉掩蔽数据生成管道,创建了一个包含100万个图像-指令对的IVM-Mix-1M数据集。引入了一个新的学习技术,称为Discriminator Weighted Supervised Learning (DWSL),用于优先训练高质量数据样本。在VQA和机器人控制等多模态任务中,IVM显著提高了多种多模态模型的性能,取得了新的最优结果。
- 与此相关的研究包括:Visual Question Answering (VQA)、Embodied AI、Multimodal Learning等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流