DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution

简介

区域级多模态方法可以将参考图像区域翻译成人类首选的语言描述。不幸的是，大多数现有的使用固定视觉输入的方法仍然缺乏分辨率适应性，无法找到精确的语言描述。在这项研究中，我们提出了一种动态分辨率方法，称为DynRefer，通过模仿人类视觉认知的分辨率适应性来追求高精度的区域级参考。DynRefer首先实现随机视觉语言对齐。它将多模态任务的期望语言描述与随机分辨率的图像对齐，这些图像是通过在所参考的区域周围嵌套一组视图来构建的。然后，DynRefer实现了动态多模态参考，这是通过基于图像和语言先验选择视图来实现的。这使得用于参考的视觉信息更能匹配人类的偏好，从而提高了区域级多模态模型的表征适应性。广泛的实验表明，DynRefer在包括区域级字幕、开放式词汇区域识别和属性检测在内的任务上带来了互相改进。最后但并非最不重要的是，DynRefer使用单个模型在多个区域级多模态任务上实现了新的最先进水平。代码可在https://github.com/callsys/DynRefer上获得。
图表
解决问题

本论文旨在解决现有的固定视觉输入方法在区域级多模态任务中缺乏分辨率适应性的问题，提出了一种动态分辨率方法DynRefer，通过模仿人类视觉认知的分辨率适应性来追求高精度的区域级指代。
关键思路

DynRefer实现了随机视觉-语言对齐和动态多模态指代。随机视觉-语言对齐将多模态任务的期望语言描述与随机分辨率的图像对齐，随机分辨率是通过在指代区域周围嵌套一组视图来构造的。动态多模态指代是通过基于图像和语言先验选择视图来实现的，从而使用于指代的视觉信息更符合人类偏好，从而提高了区域级多模态模型的表示适应性。
其它亮点

论文通过实验展示了DynRefer在区域级字幕生成、开放词汇区域识别和属性检测等任务上的优越性，并使用单个模型在多个区域级多模态任务上实现了新的最先进水平。代码已经开源。
相关研究

在该领域的相关研究还包括：《Region-based Attention with Convolutional Neural Network for Visual Question Answering》、《Grounding of Textual Phrases in Images by Reconstruction》、《Deep Variation-structured Reinforcement Learning for Visual Relationship and Attribute Detection》等。

DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution

评论