- 简介指代表达分割(Referring Image Segmentation, RIS)旨在根据自然语言描述,对图像中的目标物体进行分割。尽管近期方法通过采用预训练的视觉主干网络和更大规模的训练数据取得了显著成果,但它们主要聚焦于简单的表达形式——如“红色汽车”或“左侧女孩”这类简短清晰的名词短语。这种简化往往使RIS退化为关键词或概念匹配问题,限制了模型处理语言指代歧义的能力。本文中,我们识别出两个具有挑战性的现实场景:一是对象干扰性表达,即描述中涉及多个实体并包含上下文线索;二是类别隐含性表达,即目标物体的类别并未在语言中明确指出。为应对这些挑战,我们提出一种新颖的框架SaFiRe,该框架模拟人类两阶段的认知过程——首先形成整体理解,再通过细致审视逐步精炼结果。这一机制天然契合Mamba模型“先扫描、后更新”的特性,与我们的分阶段设计相一致,并支持以线性复杂度实现高效的多轮精炼。此外,我们构建了一个新基准数据集aRefCOCO,专门用于评估模型在存在指代歧义的语言表达下的表现。在标准数据集及新提出的数据集上的大量实验表明,SaFiRe显著优于当前最先进的基线方法。
-
- 图表
- 解决问题论文旨在解决指代表达分割(Referring Image Segmentation, RIS)在真实复杂场景下的局限性,特别是现有方法多集中于简单名词短语(如'红色汽车'),难以处理存在指代歧义的复杂表达。作者识别出两个更具挑战性的现实场景:对象干扰表达(多个实体伴随上下文线索)和类别隐式表达(未明确提及物体类别)。这是一个尚未被充分探索的新问题,尤其在模型对语言细粒度理解和上下文推理能力的要求方面。
- 关键思路提出SaFiRe框架,模拟人类认知的两阶段过程——先全局理解,再通过细节检查进行精细化调整。该框架利用Mamba架构特有的'扫描-更新'机制,天然支持分阶段建模,并实现线性复杂度下的多轮迭代优化,从而更好地解析复杂和模糊的指代表达。相比以往依赖静态注意力或Transformer的方法,SaFiRe引入了动态、渐进式的推理机制,具有更强的上下文分辨能力。
- 其它亮点构建了新基准aRefCOCO,专门用于评估模型在歧义指代表达下的性能;实验在标准数据集和aRefCOCO上均验证了SaFiRe优于当前最先进的方法;框架充分利用Mamba的序列建模效率,在保持高性能的同时降低计算开销;代码已开源,促进后续研究;未来可深入探索多轮推理机制在其他视觉-语言任务中的泛化能力。
- 近期相关研究包括:《Vision Transformer》推动了视觉骨干网络的发展;《CLIP}实现了大规模图文对齐预训练;《ReferItGame: Referring to Objects in Photographs of Natural Scenes》促进了RIS数据集构建;《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》探索了跨模态表示学习;《Mamba: Linear-time sequence modeling with selective state spaces》为本工作提供了核心架构基础;《Phrase Cut: Language-based Image Segmentation in the Wild》也关注复杂语言表达下的分割任务。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流