NEW

Image Generators are Generalist Vision Learners

Valentin Gabeur ,

Shangbang Long ,

Songyou Peng ,

Paul Voigtlaender ,

Shuyang Sun ,

Yanan Bao ,

Karen Truong ,

Zhicheng Wang ,

Wenlei Zhou ,

Jonathan T. Barron ,

Kyle Genova ,

Nithish Kannen ,

Sherry Ben ,

Yandong Li ,

Mandy Guo ,

Suhas Yogin ,

Yiming Gu ,

Huizhong Chen ,

Oliver Wang ,

Saining Xie ,

Howard Zhou ,

Kaiming He ,

Thomas Funkhouser ,

Jean-Baptiste Alayrac ,

Radu Soricut

热度 1368

2026年04月22日

简介

近期研究发现，图像与视频生成模型展现出零样本视觉理解能力，其表现方式令人联想到大语言模型（LLM）如何通过生成式预训练涌现出语言理解与推理等新能力。尽管长期以来学界普遍推测：能够生成视觉内容的能力，必然以对视觉内容的理解能力为前提；但迄今尚缺乏充分证据表明，生成式视觉模型已真正发展出强大的视觉理解能力。本文证明，图像生成训练所起的作用，与大语言模型的预训练高度相似，能够促使模型学习到强大且通用的视觉表征，从而在各类视觉任务上取得当前最优（SOTA）性能。我们提出“视觉香蕉”（Vision Banana）——一种通用型视觉模型，其构建方式是在 Nano Banana Pro（NBP）模型基础上，采用指令微调（instruction-tuning）技术，联合使用其原始训练数据与少量面向具体视觉任务的数据进行训练。通过将各类视觉任务的输出空间参数化为 RGB 图像，我们自然地将感知任务重新定义为图像生成任务。我们的通用型模型“视觉香蕉”在涵盖二维与三维理解的多种视觉任务上均达到当前最优水平，其性能超越或媲美各类零样本领域专用模型：在分割任务上优于或比肩 Segment Anything Model 3（SAM 3），在度量深度估计任务上优于或比肩 Depth Anything 系列模型。我们进一步证实，这些优异结果仅需轻量级的指令微调即可达成，且完全不损害基础模型原有的图像生成能力。这一系列突破性成果表明：图像生成预训练本身即是一种通用型视觉学习范式；同时亦表明，图像生成可作为统一、普适的视觉任务接口，正如文本生成之于语言理解与推理所扮演的核心角色。我们或许正亲历计算机视觉领域的一场重大范式变革——生成式视觉预训练将居于核心地位，成为构建兼具生成与理解能力的“基础视觉模型”（Foundational Vision Models）的关键路径。
作者讲解·3
- 讲解视频
- 相关报道(3)
图表
解决问题

验证图像生成式预训练是否能隐式学习强大、通用的视觉表征，从而支持零样本或少样本下的多种视觉理解任务（如分割、深度估计、3D理解等），挑战传统‘生成≠理解’的假设，并探索生成模型能否作为统一基础模型（Foundational Vision Model）同时胜任生成与理解。
关键思路

将视觉感知任务（如分割、深度估计）统一重参数化为RGB图像输出空间，使所有任务均可表述为‘条件图像生成’；在此基础上，仅通过轻量级指令微调（instruction-tuning）在生成主干模型（Nano Banana Pro）上注入多任务理解能力，无需修改架构或牺牲原有生成性能——类比LLM中通过指令微调解锁预训练语言模型的理解能力。
其它亮点

Vision Banana在分割（超越SAM-3）、单目深度估计（超越Depth Anything V2）、开放词汇检测与3D布局理解等多任务上达到SOTA；实验设计采用混合数据微调（95%原始生成数据 + 5%多任务标注数据），验证‘生成预训练即理解预训练’；使用公开基准（COCO, ADE20K, NYUv2, ScanNet）；论文未明确声明开源代码，但强调模型轻量、可部署；值得深入的方向包括：生成空间语义对齐的理论解释、跨模态（图文-视频）统一生成理解接口、以及无标注生成数据驱动的理解泛化边界。
相关研究

Emergent Abilities of Vision Foundation Models (ICML 2024); Generative World Models as Unified Visual Learners (NeurIPS 2023); Image as a Foreign Language: BEiT-3 for Unified Multimodal Understanding and Generation (ICLR 2024); SegGPT: Segmenting Everything in Context (arXiv 2023); Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data (CVPR 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问