HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding

简介

这段摘要讲述了视觉定位任务中的跨模态对齐问题。现有的方法使用单模态预训练模型分别转移视觉/语言知识，忽略了多模态对应信息。作者基于最近在对比语言-图像预训练和低秩适应方法方面的进展，提出了一种新的多模态预训练框架，名为HiVG。HiVG包括多层自适应跨模态桥梁和分层多模态低秩适应（Hi LoRA）范例。跨模态桥梁可以解决视觉特征与定位所需特征之间的不一致性，并建立多层次的视觉和文本特征之间的联系。Hi LoRA以分层的方式逐层适应跨模态特征，防止感知误差的积累。实验结果表明，HiVG方法具有显著的定位能力和能源效率优势。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决基于跨模态对齐的视觉 grounding 任务中存在的任务差距问题，提出了一种层次化的多模态细粒度调节框架 HiVG。
关键思路

HiVG 框架包括多层自适应跨模态桥接和层次化多模态低秩适应 (Hi LoRA) 范式。跨模态桥接解决了视觉特征与 grounding 所需特征之间的不一致性，并建立了多级视觉和文本特征之间的连接。Hi LoRA 防止了感知误差的积累，通过分层适应浅层到深层的跨模态特征。
其它亮点

实验结果表明，HiVG 框架在五个数据集上表现出有效的 grounding 能力和显著的能源效率优势。论文提供了开源代码。
相关研究

最近的相关研究包括 CLIP、ViLBERT 和 UNITER 等跨模态预训练模型，以及针对视觉 grounding 任务的其他多模态方法，如 M4C 和 VQA-MN。

HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding

提问交流

提问交流