- 简介尽管图像-文本表示学习在近年来变得非常流行,现有的模型往往缺乏空间意识,并且在密集理解任务中的直接应用有限。因此,对于许多密集视觉应用(例如深度估计、语义分割)而言,自监督图像预训练仍然是首选方法,尽管缺乏明确的监督信号。在本文中,我们通过提出一种新的通用图像-文本模型,弥合了图像-文本学习与自监督学习之间的差距,该模型可以有效地用于密集和全局视觉任务。我们的方法称为具有空间意识的文本-图像预训练(TIPS),利用了两个简单而有效的见解。首先,在文本监督方面:我们发现用合成生成的文本描述替代噪声网络图像标题可以显著提高密集理解性能,因为这为学习空间感知表示提供了更丰富的信号。我们提出了一种改进的训练方法,将噪声和合成标题结合起来,从而在密集和全局理解任务中都取得了改进。其次,在学习技术方面:我们建议将对比图像-文本学习与自监督掩码图像建模相结合,以促进空间一致性,从而为下游应用带来显著提升。基于这两个想法,我们使用变压器架构扩展了我们的模型,并在精选的公共图像集上进行了训练。我们在涉及16个数据集的8项任务上进行了实验,展示了在密集和全局理解任务中强大的即用性能,涵盖了多种仅图像和图像-文本任务。
-
- 图表
- 解决问题该论文旨在解决现有图像-文本模型在密集理解任务中缺乏空间感知能力的问题,并尝试弥合图像-文本学习与自监督图像预训练之间的差距。
- 关键思路论文提出了Text-Image Pretraining with Spatial awareness (TIPS) 方法,通过结合合成文本描述和自监督掩码图像建模,增强模型的空间感知能力,从而在密集和全局视觉任务中表现出色。这一方法不仅利用了更丰富的文本信号,还通过对比学习和自监督技术提高了模型的泛化能力。
- 其它亮点论文在8个任务和16个数据集上进行了广泛的实验,展示了其在密集和全局理解任务中的强大性能。此外,该方法结合了噪声和合成的图像描述,显著提升了模型的表现。论文还提供了开源代码,方便其他研究者复现和进一步探索。
- 近期在图像-文本学习领域,相关研究包括《CLIP: Connecting Text and Images》和《ALIGN: Alignment Induced Pre-training for Vision and Language》。这些研究主要集中在提高多模态表示学习的性能,但较少关注空间感知能力。TIPS 在此基础上进一步改进,特别针对密集理解任务进行了优化。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流