Beyond Embeddings: The Promise of Visual Table in Multi-Modal Models

简介

视觉表示学习一直是计算机视觉领域的基石，从人类注释标签的监督学习发展到对网络图像和文本对齐。尽管多模态大型语言模型（MLLMs）最近取得了进展，但它们所依赖的视觉表示，如CLIP嵌入，通常缺乏关键的外部世界知识，这对于实际视觉推理非常重要。在这项工作中，我们提出了一种新颖的视觉表示，称为Visual Table，专为MLLMs量身定制。它提供了关于整体视觉场景的分层文本描述，包括场景描述和多个以对象为中心的描述，涵盖类别、属性和实例级别的知识。我们进一步开发了一个可扩展的生成器，用于生成视觉表，并在GPT4V的小规模注释上进行训练。广泛的评估表明，使用生成的视觉表作为额外的视觉表示，我们的模型在各种基准测试中始终优于最先进的MLLMs。当视觉表作为独立的视觉表示时，我们的模型可以接近甚至超过建立在CLIP视觉嵌入上的最先进的MLLMs。我们的代码可在https://github.com/LaVi-Lab/Visual-Table上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在为多模态大语言模型提供一个新的视觉表示方法，通过提供具有层次结构的文本描述来解决当前视觉表示缺乏外部世界知识的问题。
关键思路

该论文的关键思路是使用Visual Table作为新的视觉表示方法，提供包含场景描述和多个物体中心描述的层次文本描述，以增加模型对外部世界知识的理解。
其它亮点

该论文提出了一种可扩展的Visual Table生成器，并使用GPT4V的小规模注释进行训练。实验结果表明，使用Visual Table作为额外的视觉表示，该模型在多个基准测试中始终优于当前最先进的多模态大语言模型。此外，当Visual Table作为独立的视觉表示时，该模型可以与甚至超过基于CLIP视觉嵌入的最先进多模态大语言模型。
相关研究

最近的相关研究包括使用预训练图像模型和文本模型来生成视觉表示，如CLIP和ViLBERT。

Beyond Embeddings: The Promise of Visual Table in Multi-Modal Models

提问交流

提问交流