TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification

简介

学习视觉语言模型的关键是从视觉和语言数据中提取语义对齐的信息。现有的尝试通常面临粗略对齐的问题，例如，视觉编码器在定位指定属性的对象方面存在困难。在这项工作中，我们提出了一种非常简单的方法，以更好地对齐图像和文本特征，无需除图像文本对之外的其他数据格式。具体而言，给定一张图像及其配对的文本，我们设法从描述中解析出对象（例如，猫）和属性（例如，黑色），这些对象和属性高度可能存在于图像中。值得注意的是，解析管道是完全自动化的，因此具有良好的可扩展性。有了这些解析的语义作为监督信号，我们可以将常用的图像-文本对比损失与多标签分类损失相结合。广泛的实验结果表明，我们的框架相对于现有的替代方案平均提高了3.65％。此外，可视化结果表明，属性监督使视觉语言模型能够准确地定位指定属性的对象。项目页面可以在https://qinying-liu.github.io/Tag-Align/找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决图像和文本数据的粗略对齐问题，提出了一种简单的方法来更好地对齐图像和文本特征，以提高视觉语言模型的性能。
关键思路

论文提出了一种简单的方法，通过解析与图像高度相关的对象和属性，使用多标签分类损失来补充常用的图像-文本对比损失，从而更好地对齐图像和文本特征。
其它亮点

该方法具有自动化、可扩展性强等亮点，实验结果表明该方法在广泛的语义分割数据集上相比现有方法平均提高了3.65％，并且可以准确地定位属性指定的对象。
相关研究

最近的相关研究包括：《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。

TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification

提问交流

提问交流