- 简介这段摘要讲述了视觉定位任务中的跨模态对齐问题。现有的方法使用单模态预训练模型分别转移视觉/语言知识,忽略了多模态对应信息。作者基于最近在对比语言-图像预训练和低秩适应方法方面的进展,提出了一种新的多模态预训练框架,名为HiVG。HiVG包括多层自适应跨模态桥梁和分层多模态低秩适应(Hi LoRA)范例。跨模态桥梁可以解决视觉特征与定位所需特征之间的不一致性,并建立多层次的视觉和文本特征之间的联系。Hi LoRA以分层的方式逐层适应跨模态特征,防止感知误差的积累。实验结果表明,HiVG方法具有显著的定位能力和能源效率优势。
-
- 图表
- 解决问题论文旨在解决基于跨模态对齐的视觉 grounding 任务中存在的任务差距问题,提出了一种层次化的多模态细粒度调节框架 HiVG。
- 关键思路HiVG 框架包括多层自适应跨模态桥接和层次化多模态低秩适应 (Hi LoRA) 范式。跨模态桥接解决了视觉特征与 grounding 所需特征之间的不一致性,并建立了多级视觉和文本特征之间的连接。Hi LoRA 防止了感知误差的积累,通过分层适应浅层到深层的跨模态特征。
- 其它亮点实验结果表明,HiVG 框架在五个数据集上表现出有效的 grounding 能力和显著的能源效率优势。论文提供了开源代码。
- 最近的相关研究包括 CLIP、ViLBERT 和 UNITER 等跨模态预训练模型,以及针对视觉 grounding 任务的其他多模态方法,如 M4C 和 VQA-MN。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流