近期,华为诺亚方舟实验室、和中山大学联合研究提出一种自监督大规模细粒度语言-图像预训练(Fine-Grained Interactive Language Image Pre-Training)。实验表明这种方法在使用更少数据的情况下在多个下游视觉语言任务上能够优于现有方法。在零样本分类中,达到了77.1%的ImageNet Top-1分类精度,媲美全监督方法的精度(R50: 76%)。
最近,基于大量无标注图文对的大规模多模态预训练模型在大量下游任务上显示出优秀的零样本能力、泛化通用能力,这种大规模多模态预训练范式被认定为一种可能的通用人工智能之路。现有的大规模多模态预训练方法(如CLIP (Alec Radford 2021))通过对每种模态的全局特征的相似性进行对比学习,然而这种学习范式缺乏更细粒度的信息。

华为诺亚方舟实验室、和中山大学联合研究提出一种大规模细粒度语言-图像预训练(Fine-Grained Interactive Language Image Pre-Training)。它通过跨模态后期交互机制来实现更精细的对齐与交互,它使用最大相似度(token-wise maximum similarity)来指导视觉和文本之间的token的对比学习目标函数。这种方法成功地捕捉到了图片与文字的细粒度信息使模型有一定的定位能力,同时也保持了大规模训练和推理效率。在零样本分类中,使用更少数据达到了77.1%的ImageNet Top-1分类精度,超过OpenAI公布的CLIP模型,媲美全监督方法的精度。

当前诺亚实验室正从诺亚单模态模型(哪吒、盘古α)向多模态大模型演进,团队正在着手整理和清理一个对业界开放的亿级中文多模态数据集,另针对这个数据集的benchmarking也在构建当中,会同时发布开源文多模态大模型[悟空],供学术界和业界尝试和研究,敬请期待。

论文链接:http://arxiv.org/abs/2111.07783

内容中包含的图片若涉及版权问题,请及时与我们联系删除