HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding

2024年04月20日
  • 简介
    这段摘要讲述了视觉定位任务中的跨模态对齐问题。现有的方法使用单模态预训练模型分别转移视觉/语言知识,忽略了多模态对应信息。作者基于最近在对比语言-图像预训练和低秩适应方法方面的进展,提出了一种新的多模态预训练框架,名为HiVG。HiVG包括多层自适应跨模态桥梁和分层多模态低秩适应(Hi LoRA)范例。跨模态桥梁可以解决视觉特征与定位所需特征之间的不一致性,并建立多层次的视觉和文本特征之间的联系。Hi LoRA以分层的方式逐层适应跨模态特征,防止感知误差的积累。实验结果表明,HiVG方法具有显著的定位能力和能源效率优势。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决基于跨模态对齐的视觉 grounding 任务中存在的任务差距问题,提出了一种层次化的多模态细粒度调节框架 HiVG。
  • 关键思路
    HiVG 框架包括多层自适应跨模态桥接和层次化多模态低秩适应 (Hi LoRA) 范式。跨模态桥接解决了视觉特征与 grounding 所需特征之间的不一致性,并建立了多级视觉和文本特征之间的连接。Hi LoRA 防止了感知误差的积累,通过分层适应浅层到深层的跨模态特征。
  • 其它亮点
    实验结果表明,HiVG 框架在五个数据集上表现出有效的 grounding 能力和显著的能源效率优势。论文提供了开源代码。
  • 相关研究
    最近的相关研究包括 CLIP、ViLBERT 和 UNITER 等跨模态预训练模型,以及针对视觉 grounding 任务的其他多模态方法,如 M4C 和 VQA-MN。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问