- 简介我们介绍了一种新颖的序列建模方法,可以在不使用任何语言数据的情况下学习大型视觉模型(LVM)。为此,我们定义了一种通用格式“视觉句子”,可以用来表示原始图像和视频以及注释数据源,例如语义分割和深度重建,而无需任何超出像素范围的元知识。一旦将这种广泛的视觉数据(包括4200亿个标记)表示为序列,就可以通过训练模型以最小化交叉熵损失来进行下一个标记预测。通过在各种规模的模型架构和数据多样性之间进行训练,我们提供了经验证据,证明我们的模型具有有效的可扩展性。在测试时,通过设计适当的视觉提示,可以解决许多不同的视觉任务。
- 图表
- 解决问题如何在不使用任何语言数据的情况下学习大视觉模型(LVM)?如何在不需要元知识的情况下表示视觉数据?
- 关键思路提出一种称为“视觉句子”的通用格式,用于表示原始图像和视频以及注释数据源,将其表示为序列进行训练,以最小化下一个标记预测的交叉熵损失。
- 其它亮点实验表明,该模型可以有效地处理大规模视觉数据,并在许多不同的视觉任务上获得了最先进的结果。论文还提供了数据集和开源代码,以便其他研究者可以重现实验并构建自己的模型。
- 最近的相关研究包括:“End-to-End Object Detection with Transformers”、“VisualBERT: A Simple and Performant Baseline for Vision and Language”、“ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”。
沙发等你来抢
去评论
评论
沙发等你来抢