- 简介为大型多模态模型(LMMs)赋予视觉定位能力可以显著增强人工智能对视觉世界的理解和与人类的交互。然而,现有方法通常微调LMMs的参数以学习额外的分割标记,并过度拟合定位和分割数据集。这样的设计不可避免地会导致通用AI助手不可或缺的对话能力的灾难性减少。在本文中,我们全面评估了最先进的定位LMMs在一系列多模态问答基准测试中的表现,观察到明显的性能下降,表明消失了通用知识理解和弱化的指令跟随能力。为了解决这个问题,我们提出了F-LMM——在人工智能对话中冻结现成的LMMs进行定位——这是一种简单而有效的设计,基于这样一个事实,即有助于视觉定位的单词像素对应关系在经过良好训练的LMMs的注意力权重中本质上存在。我们只使用了几个可训练的CNN层,就可以将单词像素注意力权重转换为掩码logits,SAM-based掩码细化器可以进一步优化。我们的F-LMM既不学习特殊的分割标记,也不使用高质量的定位指令调整数据,但在指代表达分割和全景叙事定位基准测试中实现了竞争性能,同时完全保留了LMMs的原始对话能力。此外,我们的F-LMM在保留指令跟随能力和获取定位能力的同时,可以执行视觉思维链和更好地抵抗物体幻觉。
- 图表
- 解决问题本文试图解决在将视觉 grounding 能力引入到大型多模态模型中时,由于过拟合导致的对于常规对话能力的严重影响的问题。
- 关键思路本文提出了一种名为 F-LMM 的方法,通过将已经训练好的大型多模态模型与可训练的 CNN 层结合起来,将注意力权重转化为掩码 logits,从而实现视觉 grounding 能力,而不需要 fine-tune 模型。
- 其它亮点本文在多个数据集上进行了全面的实验评估,并证明了 F-LMM 方法的有效性。该方法不需要学习特殊的分割令牌,也不需要高质量的对话训练数据,但在视觉 grounding 任务上表现出了竞争性的性能。此外,该方法完全保留了原始模型的对话能力,并且能够执行视觉推理和抵抗物体幻觉。
- 最近的相关研究包括:《Visual Grounding in Video for Unsupervised Word Translation》、《Learning to Ground Multimodal Semantics from Vision-Language Pre-training》等。
沙发等你来抢
去评论
评论
沙发等你来抢