- 简介我们介绍了SynGround,这是一个新颖的框架,将数据驱动的学习和来自各种大规模预训练模型的知识转移相结合,以增强预训练的视觉语言模型的视觉定位能力。从模型中进行的知识转移通过图像描述生成器引发图像描述的生成。这些描述具有双重作用:它们作为文本到图像生成器合成图像的提示,同时也作为查询,用于合成文本,从中提取短语,使用大型语言模型。最后,我们利用开放词汇的对象检测器为合成图像和文本生成合成边界框。我们通过优化掩码-注意力一致性目标来微调预训练的视觉语言模型,该目标将区域注释与基于梯度的模型解释对齐。最终模型提高了现成的视觉语言模型的定位能力。特别地,SynGround将ALBEF在Flickr30k数据集上的指向游戏准确性从79.38%提高到87.26%,在RefCOCO+测试A上从69.35%提高到79.06%,在RefCOCO+测试B上从53.77%提高到63.67%。
- 图表
- 解决问题本论文旨在提高预训练的视觉-语言模型的视觉定位能力,解决图像描述和视觉定位之间的联系问题。
- 关键思路论文提出了一种名为SynGround的新框架,通过从多个预训练模型中转移知识,结合数据驱动学习和知识迁移的方式来增强预训练的视觉-语言模型的视觉定位能力。
- 其它亮点论文的实验表明,通过SynGround框架的训练,可以将ALBEF在Flickr30k、RefCOCO+ Test A和RefCOCO+ Test B数据集上的指向游戏准确率从79.38%、69.35%和53.77%分别提高到87.26%、79.06%和63.67%。此外,论文还使用了开放词汇的目标检测器来生成合成图像和文本的合成边界框,并通过优化掩码-注意力一致性目标来微调预训练的视觉-语言模型。
- 在相关研究方面,最近的研究包括VilBERT、LXMERT、VisualBERT等。
沙发等你来抢
去评论
评论
沙发等你来抢