Perception Encoder: The best visual embeddings are not at the output of the network

2025年04月17日
  • 简介
    我们提出了感知编码器(PE),这是一种通过简单的视觉-语言学习训练而成的前沿编码器,适用于图像和视频理解。传统上,视觉编码器依赖于多种预训练目标,每种目标都针对特定的下游任务进行了定制,例如分类、标题生成或定位。令人惊讶的是,在扩展了我们精心调整的图像预训练方案,并通过我们强大的视频数据引擎进一步优化后,我们发现仅通过对比式的视觉-语言训练即可生成适用于所有这些下游任务的强大且通用的嵌入表示。唯一的限制是:这些嵌入隐藏在网络的中间层中。为提取这些嵌入,我们引入了两种对齐方法:用于多模态语言建模的语言对齐,以及用于密集预测的空间对齐。结合核心的对比训练检查点,我们的PE模型系列在各种任务上实现了最先进的性能,包括零样本图像和视频分类与检索;文档、图像和视频的问答;以及空间相关任务,如检测、深度估计和跟踪。为了推动进一步的研究,我们将公开发布我们的模型、代码以及一个包含合成标注和人工标注视频的新颖数据集。
  • 图表
  • 解决问题
    该论文试图解决如何通过单一的预训练方法生成适用于多种下游任务的强大视觉嵌入表示问题。这并不是一个全新的问题,但以往的方法通常依赖于针对特定任务设计的预训练目标,而本文探索了仅使用对比视觉-语言训练是否可以实现通用的图像和视频理解。
  • 关键思路
    关键思路是利用对比视觉-语言学习(contrastive vision-language training)作为统一的预训练方法,并通过两种对齐技术(语言对齐和空间对齐)从模型中间层提取强大的通用嵌入表示。相比传统方法,这种方法避免了为不同任务设计专用预训练目标的需求,同时证明了这些嵌入在中间层中的有效性。
  • 其它亮点
    论文展示了其PE模型在零样本图像/视频分类、检索、问答以及密集预测任务(如检测、深度估计和跟踪)上的卓越性能。实验设计涵盖了广泛的视觉任务,并结合了合成和人工标注的数据集。此外,作者开源了模型、代码以及一个新的视频数据集,为未来研究提供了重要资源。值得进一步研究的方向包括改进对齐方法、扩展到更多模态的任务以及探索更大规模数据的效果。
  • 相关研究
    最近的相关研究包括CLIP(Contrastive Language-Image Pre-training)、 ALIGN 和 M6 等工作,它们同样关注视觉-语言模型的预训练。其他相关研究还有:ViLT(Vision-and-Language Transformer without Convolution or Region Supervision)、 Florence(A Unified Foundation for Multimodal Perception)以及 VideoBERT(BERT-based Cross-modal Pre-training for Video Understanding)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论