神经网络实际上就是在学习一种表示,在CV领域,良好的视觉和视觉语言(vision and vision-language)表征对于解决计算机视觉问题(图像检索、图像分类、视频理解)至关重要,并且可以帮助人们解决日常生活中的难题。例如,一个好的视觉语言匹配模型可以帮助用户通过文本描述或图像输入找到最相关的图像,还可以帮助像 Google Lens 这样的设备找到更细粒度的图像信息。
为了学习这样的表示,当前最先进的视觉和视觉语言模型严重依赖于需要专家知识和广泛标签的训练数据集。对于视觉相关的应用场景来说,视觉表示主要是在具有显式类标签的大规模数据集上学习的,如 ImageNet、 OpenImages 和 JFT-300M等。对于视觉语言的应用来说,常用的预训练数据集,如Conceptual Captions和Visual Genome Dense Captions,都需要大量的数据收集和清理工作,这限制了数据集的大小,从而阻碍了训练模型的规模。相比之下,自然语言处理的模型在 GLUE 和 SuperGLUE 基准测试中,他们达到sota性能是通过对原始文本进行大规模的预训练而不使用人工标签。
在 ICML 2021会议上,Google Research发表了Scaling up visual and vision-language representation learning with noisy text supervision一文,建议利用公开的图像替代文本数据(如果图像未能在用户屏幕上显示,则在网页上显示替代图像的书面文本)来弥补这一差距,以训练更大、最先进的视觉和视觉-语言模型。
更多详情可以戳原文。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢