华为诺亚方舟实验室、和中山大学联合研究提出一种大规模细粒度语言-图像预训练(Fine-Grained Interactive Language Image Pre-Training)。它通过跨模态后期交互机制来实现更精细的对齐与交互,它使用最大相似度(token-wise maximum similarity)来指导视觉和文本之间的token的对比学习目标函数。这种方法成功地捕捉到了图片与文字的细粒度信息使模型有一定的定位能力,同时也保持了大规模训练和推理效率。在零样本分类中,使用更少数据达到了77.1%的ImageNet Top-1分类精度,超过OpenAI公布的CLIP模型,媲美全监督方法的精度。
当前诺亚实验室正从诺亚单模态模型(哪吒、盘古α)向多模态大模型演进,团队正在着手整理和清理一个对业界开放的亿级中文多模态数据集,另针对这个数据集的benchmarking也在构建当中,会同时发布开源中文多模态大模型[悟空],供学术界和业界尝试和研究,敬请期待。
论文链接:http://arxiv.org/abs/2111.07783
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢