Image Generators are Generalist Vision Learners

2026年04月22日
  • 简介
    近期研究发现,图像与视频生成模型展现出零样本视觉理解能力,其表现方式令人联想到大语言模型(LLM)如何通过生成式预训练涌现出语言理解与推理等新能力。尽管长期以来学界普遍推测:能够生成视觉内容的能力,必然以对视觉内容的理解能力为前提;但迄今尚缺乏充分证据表明,生成式视觉模型已真正发展出强大的视觉理解能力。本文证明,图像生成训练所起的作用,与大语言模型的预训练高度相似,能够促使模型学习到强大且通用的视觉表征,从而在各类视觉任务上取得当前最优(SOTA)性能。我们提出“视觉香蕉”(Vision Banana)——一种通用型视觉模型,其构建方式是在 Nano Banana Pro(NBP)模型基础上,采用指令微调(instruction-tuning)技术,联合使用其原始训练数据与少量面向具体视觉任务的数据进行训练。通过将各类视觉任务的输出空间参数化为 RGB 图像,我们自然地将感知任务重新定义为图像生成任务。我们的通用型模型“视觉香蕉”在涵盖二维与三维理解的多种视觉任务上均达到当前最优水平,其性能超越或媲美各类零样本领域专用模型:在分割任务上优于或比肩 Segment Anything Model 3(SAM 3),在度量深度估计任务上优于或比肩 Depth Anything 系列模型。我们进一步证实,这些优异结果仅需轻量级的指令微调即可达成,且完全不损害基础模型原有的图像生成能力。这一系列突破性成果表明:图像生成预训练本身即是一种通用型视觉学习范式;同时亦表明,图像生成可作为统一、普适的视觉任务接口,正如文本生成之于语言理解与推理所扮演的核心角色。我们或许正亲历计算机视觉领域的一场重大范式变革——生成式视觉预训练将居于核心地位,成为构建兼具生成与理解能力的“基础视觉模型”(Foundational Vision Models)的关键路径。
  • 作者讲解·3
  • 图表
  • 解决问题
    验证图像生成式预训练是否能隐式学习强大、通用的视觉表征,从而支持零样本或少样本下的多种视觉理解任务(如分割、深度估计、3D理解等),挑战传统‘生成≠理解’的假设,并探索生成模型能否作为统一基础模型(Foundational Vision Model)同时胜任生成与理解。
  • 关键思路
    将视觉感知任务(如分割、深度估计)统一重参数化为RGB图像输出空间,使所有任务均可表述为‘条件图像生成’;在此基础上,仅通过轻量级指令微调(instruction-tuning)在生成主干模型(Nano Banana Pro)上注入多任务理解能力,无需修改架构或牺牲原有生成性能——类比LLM中通过指令微调解锁预训练语言模型的理解能力。
  • 其它亮点
    Vision Banana在分割(超越SAM-3)、单目深度估计(超越Depth Anything V2)、开放词汇检测与3D布局理解等多任务上达到SOTA;实验设计采用混合数据微调(95%原始生成数据 + 5%多任务标注数据),验证‘生成预训练即理解预训练’;使用公开基准(COCO, ADE20K, NYUv2, ScanNet);论文未明确声明开源代码,但强调模型轻量、可部署;值得深入的方向包括:生成空间语义对齐的理论解释、跨模态(图文-视频)统一生成理解接口、以及无标注生成数据驱动的理解泛化边界。
  • 相关研究
    Emergent Abilities of Vision Foundation Models (ICML 2024); Generative World Models as Unified Visual Learners (NeurIPS 2023); Image as a Foreign Language: BEiT-3 for Unified Multimodal Understanding and Generation (ICLR 2024); SegGPT: Segmenting Everything in Context (arXiv 2023); Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data (CVPR 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问