- 简介这篇论文讨论了如何从自然语言描述中分割出图像中的物体,其中的主要挑战是实现文本到像素的对应。以往的方法通常依赖于单一模态的特征,如视觉或语言特征,来引导多模态融合过程。然而,这种方法限制了视觉和语言之间的交互,导致在解码过程中语言描述和像素级细节之间缺乏细粒度的关联。本文介绍了FCNet,这是一个采用双向引导融合方法的框架,其中视觉和语言都扮演引导角色。具体而言,我们使用视觉引导方法进行初始的多模态融合,获取聚焦于关键视觉信息的多模态特征。然后,我们提出了一个语言引导校准模块来进一步校准这些多模态特征,确保它们理解输入句子的上下文。这种双向视觉语言引导方法产生了更高质量的多模态特征,传递了从文本特征到视觉特征的细粒度语义信息,有助于适应性地传播。在RefCOCO、RefCOCO+和G-Ref数据集上进行的实验,使用各种主干网络,结果一致表明我们的方法优于现有的最先进方法。
-
- 图表
- 解决问题本文旨在解决图像分割中的文本到像素的对应问题,即如何从自然语言描述中分割出图像中的对象。此前的方法主要依赖单模态特征,但这种方法限制了视觉和语言之间的交互,导致在解码过程中缺乏细粒度的语言和像素级细节之间的关联。
- 关键思路本文提出了一种双向引导融合方法的框架FCNet,其中视觉和语言都扮演引导角色。具体而言,我们使用视觉引导方法进行初始的多模态融合,获得关注关键视觉信息的多模态特征。然后,我们提出了一种语言引导校准模块,进一步校准这些多模态特征,确保它们理解输入句子的上下文。这种双向视觉语言引导方法产生了更高质量的多模态特征,从而促进了从文本特征到视觉特征的细粒度语义信息的自适应传播。
- 其它亮点本文的亮点包括:使用了双向引导融合方法进行图像分割,相比单模态特征,有更好的效果;在RefCOCO、RefCOCO+和G-Ref数据集上进行了实验,结果表明本文方法优于现有的最先进方法。
- 在这个领域中,最近的相关研究包括:《A Unified MRC Framework for Referring Expression Comprehension》、《Referring Image Segmentation via Cross-Modal Progressive Comprehension》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流