- 简介Contrastive Language-Image Pre-training (CLIP)通过扩展从网站获得的图像-文本对数据集,显著提高了各种视觉-语言任务的性能。本文从数据和模型架构的角度进一步探索了CLIP。为了解决从互联网爬取的大规模图像-文本数据中存在的噪声数据并提高数据质量,我们引入了一个多样化的描述生成框架,可以利用大型语言模型(LLM)从网络文本、合成标题和检测标签中合成和优化内容。此外,我们提出了RWKV-CLIP,这是第一个将transformer的有效并行训练与RNN的高效推理相结合的基于RWKV的视觉-语言表示学习模型。在各种模型规模和预训练数据集上的全面实验表明,RWKV-CLIP是一个强大而高效的视觉-语言表示学习器,在多个下游任务中实现了最先进的性能,包括线性探测、零-shot分类和零-shot图像-文本检索。为了促进未来的研究,代码和预训练模型已在https://github.com/deepglint/RWKV-CLIP上发布。
-
- 图表
- 解决问题本文尝试通过扩充数据集中的图文对来提高视觉语言任务的性能,同时解决来自互联网爬取的大规模图文数据中存在的噪声数据问题。
- 关键思路本文提出了一种多样化描述生成框架,利用大型语言模型来合成和精炼来自网络文本、合成标题和检测标签的内容,进而提高数据集的质量。此外,本文还提出了RWKV-CLIP模型,该模型将transformers的有效并行训练与RNN的高效推理相结合,是一种鲁棒且高效的视觉语言表示学习模型。
- 其它亮点本文的实验表明,RWKV-CLIP是一种鲁棒且高效的视觉语言表示学习模型,能够在多个下游任务中实现最先进的性能,包括线性探针、零样本分类和零样本图像-文本检索。此外,本文还释放了代码和预训练模型,以便未来的研究。
- 最近在这个领域中,还有一些相关的研究,例如《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流