- 简介与目标检测不同,视觉定位任务需要检测由复杂自由形式语言描述的物体。为了同时建模这种复杂的语义和视觉表示,最近的最先进研究采用基于Transformer的模型来融合两种模态的特征,进一步引入各种模块来调节视觉特征以与语言表达相一致,并消除不相关的冗余信息。然而,他们的损失函数仍然采用常见的目标检测损失,仅控制边界框回归输出,未能完全优化上述目标。为了解决这个问题,在本文中,我们首先分析了基于Transformer的模型的注意机制。在此基础上,我们进一步提出了一种名为注意力驱动的约束平衡(AttBalance)的新框架,以优化语言相关区域内视觉特征的行为。广泛的实验结果表明,我们的方法带来了令人瞩目的改进。具体而言,我们在四个不同的基准测试上评估了五种不同的模型,持续取得改进。此外,我们将我们的方法整合到QRNet中,取得了新的最先进性能。
-
- 图表
- 解决问题本论文旨在解决视觉定位任务中存在的语言描述复杂的物体检测问题,提出了一种新的框架来优化视觉特征在与语言相关的区域内的行为。
- 关键思路论文提出了一种名为Attention-Driven Constraint Balancing (AttBalance)的新框架,通过优化transformer-based模型的注意机制,以实现更好的语言与视觉特征融合,从而提高视觉定位任务的性能。
- 其它亮点论文在五种不同的模型和四个不同的基准测试中进行了广泛的实验,结果表明,该方法在视觉定位任务中取得了显著的改进。此外,将该方法集成到QRNet中,还实现了新的最优性能。论文开源了代码。
- 近期的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流