Video models are zero-shot learners and reasoners

2025年09月24日
  • 简介
    大语言模型(LLMs)卓越的零样本能力推动了自然语言处理从特定任务模型向统一的通用基础模型转变。这一变革源于一些简单的基本要素:在网络规模数据上训练出的大型生成式模型。有趣的是,这些基本要素同样适用于当前的生成式视频模型。视频模型是否也可能像大语言模型发展出通用语言理解能力那样,正朝着通用视觉理解的方向演进?我们证明,Veo 3 能够完成大量未经过显式训练的任务:例如物体分割、边缘检测、图像编辑、理解物理属性、识别物体功能特性、模拟工具使用等。这些感知、建模和操控视觉世界的能力,使得模型初步具备了解决迷宫问题和对称性判断等视觉推理功能。Veo 所展现出的涌现式零样本能力表明,视频模型正走在成为统一的、通用型视觉基础模型的道路上。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文探讨了当前生成式视频模型是否能够像大语言模型(LLMs)那样,通过零样本迁移能力发展出通用的视觉理解能力。这个问题关注的是:视频模型能否超越生成任务,演变为统一、通用的视觉基础模型,执行未在训练中明确涵盖的复杂视觉推理任务。
  • 关键思路
    论文的核心思想是,基于大规模数据和强大生成架构训练的视频模型(如Veo 3)会自发涌现出多种零样本视觉能力,包括对象分割、边缘检测、图像编辑、物理属性理解、工具使用模拟等。这种‘涌现’能力表明,仅靠可扩展的生成建模这一简单范式,就可能通向通用视觉智能,类似于LLMs在语言领域的成功路径。
  • 其它亮点
    Veo 3 展示了广泛的零样本能力,涵盖了传统计算机视觉与认知推理任务;实验设计通过定性和定量方式评估模型在未训练任务上的表现,验证其视觉感知与操作能力;尽管未明确提及开源代码,但模型展现出的能力暗示了未来通用视觉模型的可能性;值得深入研究的方向包括如何系统引导这些涌现能力、构建评测基准以及探索更高效的训练范式。
  • 相关研究
    1. Emergent Abilities of Large Language Models 2. Scaling Laws for Neural Language Models 3. PaLM: Scaling Language Modeling with Pathways 4. Flamingo: a Visual Language Model for Few-Shot Learning 5. CoCa: Unified Multimodal Transformers with Mixture-of-Modality-Experts 6. VideoGPT: Video Generation using VQ-VAE and Transformers 7. Phenaki: Variable Length Video Generation from Text 8. Imagen Video: High Definition Video Generation with Diffusion Models 9. Sora: Creating Video from Text
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问