Hyperbolic Image-Text Representations

解决问题:本文试图解决视觉和语言模型在捕捉图像和文本之间层次关系方面的问题。虽然这个问题很直观,但目前的大规模视觉和语言模型(如CLIP)并没有明确地捕捉到这种层次关系。这是一个新的问题。

关键思路:本文提出了MERU,一个对图像和文本进行对比学习的模型,可以生成超几何空间中的图像和文本表示。超几何空间具有适合嵌入树状数据的几何属性,因此MERU可以更好地捕捉图像和文本数据中的层次结构。相比当前领域的研究,本文的思路在于使用超几何空间进行表示,以更好地捕捉层次结构。

  • 动机:目前的大规模视觉和语言模型没有明确地捕捉图像和文本的层次结构,即文本概念“狗”包含所有包含狗的图像。
  • 方法:提出一种名为MERU的对比模型,使用超几何表示法来嵌入树状数据,更好地捕捉多模态数据中的视觉-语义层次结构。
  • 优势:MERU学习到高度可解释和结构化的表示空间,且在图像分类和图像-文本检索等标准多模态任务中表现出与CLIP相当的性能。

论文地址:https://arxiv.org/pdf/2304.09172.pdf

提出了一种名为MERU的模型,使用超几何空间来构建图像和文本的层次关系,从而更好地捕捉多模态数据中的视觉-语义层次结构。

其他亮点:本文的实验结果表明,MERU学习到了一个高度可解释的表示空间,并在图像分类和图像-文本检索等多模态任务上表现出与CLIP相当的竞争力。本文的代码已经开源。这项工作值得进一步研究。

关于作者:Karan Desai、Maximilian Nickel、Tanmay Rajpurohit、Justin Johnson和Ramakrishna Vedantam都是Facebook AI Research的研究员。他们之前的代表作包括:Desai在CVPR 2021上发表了一篇关于多模态学习的论文;Nickel在ICLR 2021上发表了一篇关于对抗性攻击的论文;Rajpurohit在CVPR 2021上发表了一篇关于多模态学习的论文;Johnson在CVPR 2021上发表了一篇关于多模态学习的论文;Vedantam在CVPR 2021上发表了一篇关于图像生成的论文。

相关研究:近期的相关研究包括:《Graph Contrastive Learning with Augmentations》(作者:Ziwei Liu、Piotr Dollár、Kaiming He,机构:Facebook AI Research)、《Learning to Learn with Feedback and Local Plasticity》(作者:Jie Hu、Liwei Wang、Tianyu Pang、Yongxin Yang、Wei Xu,机构:Tencent AI Lab)、《Contrastive Multiview Coding》(作者:Zhirong Wu、Yonglong Tian、Dilip Krishnan、Joshua B. Tenenbaum,机构:MIT)等。

图片

论文摘要:本文介绍了一种名为MERU的对图像和文本进行超几何表示的对比模型。在自然语言和视觉概念中,这些概念会自然地形成层次结构,例如文本概念“狗”涵盖了所有包含狗的图像。

然而,当前大规模的视觉和语言模型(如CLIP)并没有明确地捕捉到这种层次结构。MERU利用超几何空间的几何特性嵌入树状数据,从而更好地捕捉图像文本数据中的基础层次结构。研究结果表明,MERU学习到了一个高度可解释的表示空间,并在图像分类和图像文本检索等多模态任务上表现出与CLIP相当的竞争力。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除