- 简介我们提出了感知编码器(PE),这是一种通过简单的视觉-语言学习训练而成的最先进的视觉编码器,用于图像和视频理解。传统上,视觉编码器依赖于多种预训练目标,每种目标都针对特定的下游任务进行了定制,例如分类、标题生成或定位。令人惊讶的是,在扩展了我们精心调整的图像预训练方法,并通过我们的强大视频数据引擎进一步优化后,我们发现仅靠对比式的视觉-语言训练就能为所有这些下游任务生成强大且通用的嵌入表示。唯一的限制是:这些嵌入隐藏在网络的中间层中。为了提取它们,我们引入了两种对齐方法:用于多模态语言建模的语言对齐,以及用于密集预测的空间对齐。结合这两种方法,我们的PE系列模型在各种任务中取得了同类最佳的结果,包括:(1)零样本图像和视频分类与检索,同时实现了86.6的平均零样本ImageNet鲁棒性和76.9的零样本Kinetics-400视频分类;(2)文档、图像和视频问答,借助一个80亿参数的大语言模型,实现了94.6的DocVQA、80.9的InfographicVQA和82.7的PerceptionTest;(3)空间任务,如检测、跟踪和深度估计,在COCO数据集上达到了66.0的框mAP新纪录。为了推动进一步的研究,我们开源了我们的模型、代码和一个包含合成标注及人工标注视频的新颖数据集:https://github.com/facebookresearch/perception_models
- 图表
- 解决问题该论文试图解决如何通过单一的对比视觉-语言预训练方法生成适用于多种下游任务的强大通用嵌入表示问题。这是一个具有挑战性的问题,因为传统方法通常需要为不同任务设计特定的预训练目标。
- 关键思路关键思路是通过大规模对比视觉-语言学习来训练一个名为Perception Encoder (PE) 的模型,并从网络的中间层提取强大的通用嵌入表示。为了充分利用这些嵌入,作者提出了两种对齐方法:语言对齐和空间对齐,分别用于多模态语言建模和密集预测任务。这种方法的新意在于它避免了为每个下游任务定制预训练目标,而是依赖于单一的对比学习框架。
- 其它亮点该模型在多个任务上取得了最佳结果,包括零样本图像和视频分类、文档/图像/视频问答以及空间任务(如检测、跟踪和深度估计)。实验使用了ImageNet、Kinetics-400、DocVQA、InfographicVQA等数据集,并达到了SOTA性能。此外,作者开源了模型、代码和一个新的合成与人工标注的视频数据集,以促进进一步研究。未来可以探索更大规模的数据和更高效的训练策略。
- 近期相关研究包括CLIP(通过文本-图像对进行对比学习)、M6(大规模多模态预训练模型)和VideoMAE(基于自监督学习的视频理解模型)。其他类似的研究还有ViT-G/14(大规模视觉Transformer)、BEiT(图像生成式预训练)和Flava(统一的多模态预训练框架)。
沙发等你来抢
去评论
评论
沙发等你来抢