ScanFormer: Referring Expression Comprehension by Iteratively Scanning

向作者提问

NEW

简介

Referring Expression Comprehension (REC) 旨在通过自然语言描述来定位图像中指定的目标对象。尽管最先进的方法取得了令人印象深刻的性能，但它们对图像进行了密集的感知，其中包括与语言查询无关的冗余视觉区域，从而导致额外的计算开销。这启发我们探索一个问题：我们能否消除语言无关的冗余视觉区域，以提高模型的效率？现有的相关方法主要关注基本的视觉任务，对视觉-语言领域的探索有限。为了解决这个问题，我们提出了一种粗到细的迭代感知框架，称为 ScanFormer。它可以迭代地利用图像尺度金字塔从上到下提取与语言相关的视觉补丁。在每次迭代中，我们设计了信息预测来丢弃无关的补丁。此外，我们还提出了一个补丁选择策略来加速推理。在广泛使用的数据集 RefCOCO、RefCOCO+、RefCOCOg 和 ReferItGame 上的实验验证了我们方法的有效性，可以在精度和效率之间取得平衡。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过消除与语言查询无关的冗余视觉区域来提高定位自然语言描述中指定的目标对象的效率。这是否是一个新问题？
关键思路

本文提出了一种名为ScanFormer的粗到细的迭代感知框架，可以利用图像尺度金字塔从上到下迭代地提取与语言相关的视觉补丁。在每次迭代中，我们使用信息量预测来丢弃不相关的补丁。此外，我们还提出了一种补丁选择策略来加速推理。
其它亮点

本文的亮点包括：使用ScanFormer框架提高了模型的效率；使用信息量预测来消除与语言查询无关的冗余视觉区域；使用补丁选择策略加速推理。实验使用了RefCOCO、RefCOCO+、RefCOCOg和ReferItGame等广泛使用的数据集，验证了我们方法的有效性。论文开源了代码。
相关研究

近年来，在相关领域中还进行了许多相关研究，例如：《Neural Motifs: Scene Graph Parsing with Global Context》、《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问