- 简介视觉表征学习一直是计算机视觉领域的基石,包括典型的形式,如视觉嵌入、结构符号和基于文本的表征。尽管 CLIP 类型的视觉嵌入取得了成功,但它们常常缺乏对于视觉推理至关重要的世界知识。在本文中,我们提出了一种新型的视觉表征形式——视觉表格,专门为视觉推理而设计。视觉表格是视觉场景的分层描述,包括场景描述和多个基于对象的描述,涵盖类别、属性和知识。由于其结构和文本格式,视觉表格比单纯的视觉嵌入具有独特的优势,如可解释性和可控制的编辑。此外,它们提供实例级别的世界知识和详细的属性,这对于视觉推理是必不可少的。为了创建视觉表格,我们开发了一个生成器,该生成器经过小规模注释的数据集进行训练。在 11 个视觉推理基准测试中,广泛的结果表明,生成的视觉表格明显优于先前的结构和基于文本的表征。此外,它们在各种基准测试中始终提高了最先进的多模态大语言模型,展示了它们推进视觉推理任务的潜力。我们的代码可在 https://github.com/LaVi-Lab/Visual-Table 上获取。
- 图表
- 解决问题本文试图提出一种新的视觉表格(Visual Table)的形式,以解决当前视觉嵌入(visual embeddings)在视觉推理中缺乏世界知识的问题。
- 关键思路本文的关键思路是将视觉场景构建为包含场景描述和多个以物体为中心的描述的层次结构,涵盖类别、属性和知识等方面,并通过训练生成器来生成这些视觉表格。
- 其它亮点本文提出的视觉表格相对于纯视觉嵌入具有可解释性和可控性,并提供了必要的实例级世界知识和详细属性以支持视觉推理。作者在11个视觉推理基准测试上进行了广泛的实验,并表明生成的视觉表格显著优于以前的结构和文本表示方法。作者还展示了视觉表格对于提高当前最先进的多模态大语言模型的性能具有潜力。作者开源了代码。
- 最近的相关研究包括CLIP、VilBERT和LXMERT等多模态大语言模型,以及以往的视觉嵌入和结构表示方法,如GQA和CLEVR。
沙发等你来抢
去评论
评论
沙发等你来抢