Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation

向作者提问

NEW

简介

这篇论文讨论了如何从自然语言描述中分割出图像中的物体，其中的主要挑战是实现文本到像素的对应。以往的方法通常依赖于单一模态的特征，如视觉或语言特征，来引导多模态融合过程。然而，这种方法限制了视觉和语言之间的交互，导致在解码过程中语言描述和像素级细节之间缺乏细粒度的关联。本文介绍了FCNet，这是一个采用双向引导融合方法的框架，其中视觉和语言都扮演引导角色。具体而言，我们使用视觉引导方法进行初始的多模态融合，获取聚焦于关键视觉信息的多模态特征。然后，我们提出了一个语言引导校准模块来进一步校准这些多模态特征，确保它们理解输入句子的上下文。这种双向视觉语言引导方法产生了更高质量的多模态特征，传递了从文本特征到视觉特征的细粒度语义信息，有助于适应性地传播。在RefCOCO、RefCOCO+和G-Ref数据集上进行的实验，使用各种主干网络，结果一致表明我们的方法优于现有的最先进方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决图像分割中的文本到像素的对应问题，即如何从自然语言描述中分割出图像中的对象。此前的方法主要依赖单模态特征，但这种方法限制了视觉和语言之间的交互，导致在解码过程中缺乏细粒度的语言和像素级细节之间的关联。
关键思路

本文提出了一种双向引导融合方法的框架FCNet，其中视觉和语言都扮演引导角色。具体而言，我们使用视觉引导方法进行初始的多模态融合，获得关注关键视觉信息的多模态特征。然后，我们提出了一种语言引导校准模块，进一步校准这些多模态特征，确保它们理解输入句子的上下文。这种双向视觉语言引导方法产生了更高质量的多模态特征，从而促进了从文本特征到视觉特征的细粒度语义信息的自适应传播。
其它亮点

本文的亮点包括：使用了双向引导融合方法进行图像分割，相比单模态特征，有更好的效果；在RefCOCO、RefCOCO+和G-Ref数据集上进行了实验，结果表明本文方法优于现有的最先进方法。
相关研究

在这个领域中，最近的相关研究包括：《A Unified MRC Framework for Referring Expression Comprehension》、《Referring Image Segmentation via Cross-Modal Progressive Comprehension》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问