Emergent Visual-Semantic Hierarchies in Image-Text Representations

2024年07月11日
  • 简介
    最近的视觉-语言模型(VLM)(如CLIP)是分析文本和图像在共享语义空间中的强大工具,但它们没有明确地对可能描述图像的文本集合的分层性质进行建模。相反,现有的多模态分层表示学习方法需要昂贵的从头训练,未能利用最先进的多模态基础模型所编码的知识。在这项工作中,我们研究了现有基础模型的知识,发现它们展现了视觉-语义层次结构的新兴理解,尽管并非直接为此目的进行训练。我们提出了径向嵌入(RE)框架,用于探测和优化分层理解,并贡献了HierarCaps数据集,这是一个基准,通过大型语言模型自动构建,促进了图像-文本表示中分层知识的研究。我们的结果表明,基础VLM展现了零-shot分层理解,超过了先前专门设计用于此目的的模型的性能。此外,我们还表明,基础模型可以通过仅文本微调阶段更好地与分层推理相一致,同时保留预训练知识。
  • 图表
  • 解决问题
    本论文旨在研究现有的基础多模态模型(如CLIP)是否具有视觉-语义层次结构的知识,并提出了探测和优化层次理解的径向嵌入(RE)框架。同时,构建了一个基准数据集HierarCaps,用于研究图像-文本表示中的层次知识。
  • 关键思路
    论文发现现有的基础多模态模型具有零-shot层次理解能力,并提出了一种基于文本的微调方法来提高层次推理的性能。
  • 其它亮点
    论文提出了一种新的径向嵌入(RE)框架,用于探测和优化图像-文本表示中的层次理解;构建了一个基准数据集HierarCaps,用于评估图像-文本表示中的层次知识;论文发现现有的基础多模态模型具有零-shot层次理解能力,并提出了一种基于文本的微调方法来提高层次推理的性能。
  • 相关研究
    相关研究包括视觉-语言模型(VLMs)如CLIP,以及多模态层次表示学习方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论