Google Brain 5月4日在arXiv上提交的论文 CoCa: Contrastive Captioners are Image-Text Foundation Models 是目前ImageNet任务的SOTA。知乎上中科大博士王宁指出,核心设计与Salesforce之前的工作ALBEF Align before Fuse: Vision and Language Representation Learning with Momentum Distillation 很像。

随后CoCa的作者表示,已经与ALBEF的一作联系,正在做相关的修改,提交新版本。

王宁还在答案中贴出了CoCa作者的说明:

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除