6月13日上午,智源大会“多模态”论坛在中关村国际创新中心举行。


本场论坛由南京大学人工智能学院助理教授赵敏主持,围绕多模态模型从图像理解、视频生成、图像生成走向世界状态建模和实时交互这一关键趋势展开。过去几年,多模态大模型已在视觉理解、文生图、文生视频和AIGC内容生产中快速突破。而当模型进入交互场景,单次离线生成已不足以支撑新的应用需求,模型必须能理解状态、维持记忆、响应控制信号,并在时间序列中持续预测下一状态。未来的多模态模型不仅要能够“看懂”世界或生成一段内容,而是要在视频、3D、音频、文本、动作和交互信号之间建立可持续演化的世界表示。


论坛邀请来自学术界和产业界的六位嘉宾,从生成建模新范式、实时可交互视频世界模型、三维空间感知基础模型、统一多模态世界模型、产业级AIGC产品体系和交互表演模型等角度展开分享。嘉宾演讲结束后,本场论坛开展了题为的“从看懂到交互:多模态如何重构世界模型?”圆桌讨论,进一步探讨了世界模型定义、原生自回归视频模型、Omni多模态趋势和未来关键问题。

编辑:宇轩 梦佳

邓明扬——Generative Modeling via Drifting

MIT博士生邓明扬围绕“Generative Modeling via Drifting”介绍了一种从训练动态角度理解生成模型的新范式。他从深度学习历史切入:在图像识别领域,端到端训练已成为主流,但在生成模型中,最成功的diffusion和autoregressive方法仍带有“分步训练、推理时拼接”的特点。Diffusion将生成过程拆解成逐步去噪的过程,autoregressive模型则是逐token生成,训练时每一步相对独立,推理时才把这些步骤串起来。邓明扬的问题是:能否让生成模型像识别模型一样,在训练过程中就端到端地把生成分布推向真实数据分布?

Drifting Models的核心思想是设计一个drifting field对当前生成分布中的每个样本点,模型计算一个向量场,使样本沿着该场移动。如果生成分布与真实数据分布相同,向量场在每个点都应为零,系统达到平衡。这样,训练不只是拟合一个静态loss,而是在训练迭代中让样本分布逐步漂移到真实数据分布。具体实现上,可以将每个点附近真实样本重心与生成样本重心的差作为drifting field,并用蒙特卡洛方式估计。这个设计并非唯一,邓明扬强调,很多满足“分布相等时场为零”的field都可能成立。

与已有方法相比,Drifting Models把很多看似不同的生成方法统一在一个更一般的框架中。MMD、DMD、GAN等都可对应某种底层的drifting field,但反过来,一个field未必对应传统意义上的loss。因此,以field为中心的视角可能比以loss为中心更一般。它与flow matching和diffusion的关键区别在于,后者主要在推理时让分布演化,而Drifting Models希望在训练时就让分布演化;它与一步生成方法的关系也在于,一些一步方法可被解释为隐含地沿某个field更新。

实验上,邓明扬先在低维toy数据上验证了两个理想行为。他发现,随着loss逐渐下降,生成分布逐步收敛到目标分布,且不会出现明显mode collapse。在ImageNet图像生成中,模型使用预训练feature encoder定义feature space上的loss。由于高维像素空间中直接估计field较难,feature space成为缓解维度灾难的关键。实验显示,drifting field设计是否满足平衡态条件非常重要;batch size越大、field估计越准,性能越好;feature encoder越强,生成效果也越好,说明该方法在loss space或feature space上具有新的scaling轴。

他还展示了机器人动作预测实验。给定observation,模型预测一段action chunk。由于机器人动作数据维度较低,方法无需复杂feature space,也不易出现误差累积,可以通过一次forward pass得到接近diffusion policy的效果。邓明扬总结,Drifting Models提供了一种“训练时演化”而非“推理时演化”的生成建模视角。未来的关键在于设计更好的field、更准确地估计field,以及探索更适合图像、视频和机器人数据的表征空间。

赵敏——视频世界模型:从离线内容生成到实时交互

赵敏以“视频世界模型:从离线内容生成到实时交互”为题,讨论如何将高质量双向视频基础模型蒸馏为低延迟、可交互的视频世界模型。她指出,视频生成经历了从将image diffusion微调为视频模型,到Sora、Seedance等通过大规模数据和Transformer scaling生成高质量动态内容的阶段。当前的新问题是,如何把这些强大的离线视频生成模型转化为实时交互范式:用户不是一次性输入prompt等待结果,而是在生成过程中随时改变相机、风格、场景或动作,模型实时响应并延续世界状态。

实时可交互视频世界模型需要满足三项要求。第一是实时性,生成下一秒视频的速度必须快于视频播放速度,让用户无需等待。第二是低延迟,即首个chunk或首帧要尽快生成,使交互响应足够快。第三是可交互,每个小生成单元都能接收新的条件输入。技术上,这对应AR diffusion路线:chunk之间自回归,chunk内部仍使用扩散生成。

赵敏重点分析了从双向视频扩散模型蒸馏到少步自回归模型的难点。传统Causal Forcing类似于AR的分布匹配蒸馏(DMD),如果teacher是双向多步模型,student是AR类型的少步模型,二者同时存在步数gap和架构gap。直接套用DMD效果不好,因为双向模型可以看到未来帧,而自回归模型只能看到历史帧。她进一步从理论上指出,ODE蒸馏要求带噪状态到干净状态存在逐帧单射性,但双向注意力会让同一首帧受到后续不同帧影响,导致同一输入对应多个目标,模型学到条件期望而不是真实分布,生成结果就会模糊。

为解决这一问题,赵敏提出先训练AR teacher,再进行ODE蒸馏。也就是说,不直接用双向teacher做蒸馏,而是通过teacher forcing得到具备自回归结构的teacher,再用它初始化AR few-step模型,保证逐帧映射的理论正确性。进一步地,她指出ODE蒸馏需要离线采大量teacher轨迹,成本很高,尤其面对十几B规模模型时难以scaling。因此,团队引入causal consistency distillation等更适合在线训练的蒸馏方式,减少离线采样成本,使从双向模型到AR few-step模型的技术路线逐步收敛。

在方法之外,赵敏还介绍了全链路开源的实时可交互视频世界模型框架。该框架覆盖数据构造、双向模型微调、AR微调、DMD/consistent distillation和AR推理,支持Wan和混元Video等不同架构,也面向WorldPlay等世界模型微调场景。团队还把工程经验沉淀为Claude Code skill,用于多卡同步、attention算子匹配等复杂工程调试。她强调,开源框架的重要性在于让社区不只获得推理脚本,而是能复现从双向基础模型到实时可交互模型的完整训练链路。

彭思达——面向三维世界模型的空间感知基础模型研究

浙江大学彭思达以“面向三维世界模型的空间感知基础模型研究”为题,将多模态论坛的讨论从视频和文本扩展到3D模态。他的研究工作关注自主移动机器人,包括无人车、仓储机器人、无人机等物流、巡检和出行场景。对这些系统而言,规模化评测和强化学习训练不能全部依赖真实世界,因为真实环境成本高、安全风险大且失败工况难复现。因此,高质量仿真环境成为训练和评测自主移动机器人不可或缺的基础设施。

彭思达指出,现有导航仿真器主要依赖网格资产,但网格渲染质量不高、Sim-to-real gap明显、资产构建慢,难以满足世界模型和机器人训练需求。他的研究目标是构建复杂动态环境下能稳定执行任务的自主移动机器人,路线包括三部分:规模化构建三维高斯场景资产,基于三维高斯构建导航仿真器,再在仿真器中设计和训练自主移动机器人模型,并迁移到真实世界。

在三维高斯资产构建方面,他指出传统三维高斯重建需要对每个场景逐场景优化,成本较高。近年前馈式三维高斯预测试图用网络一次推理跳过优化过程,但核心难点是如何从图像中获得准确几何。单目或多目深度估计在相对尺度上可较准,但绝对尺度往往不稳定。团队提出利用低成本LiDAR、iPhone ToF、Realsense等深度传感器作为“提示词”,将带噪深度信号注入深度基础模型,使模型输出绝对尺度更准确的深度图。更准确的深度也能提升具身抓取等下游策略表现。

他进一步指出,逐像素深度反投影到3D时,由于透视投影,远处像素间距变大,点云会出现裂缝。解决思路是在像素之间预测次像素深度,用隐式编码器根据查询坐标输出任意位置的深度值,从而补全几何空隙,并提升细杆、细线等细节重建质量。基于连续深度,团队构建表面组织点云,再在三维空间预测分布合理的三维高斯,使单张图片可进行大范围视角漫游,并在风景照、城市建筑和AI生成图像上展示较强泛化。

面对长序列图像重建,彭思达指出VGGT等工作证明Transformer在足够数据和模型规模下可以回归camera pose和map,但图像序列过长会爆显存。彭思达团队提出的Scal3R将长序列分为chunk,对每个chunk计算梯度,再对梯度做平均更新网络,将复杂度从全局二次降低,同时仍让网络全局处理所有图片。重要的是,它直接在长序列图片上训练,保证训练与测试一致。该方法在校园8公里范围和无纹理、反光严重的室内环境中展示了较好闭环效果。

在导航仿真器方面,团队扩展Habitat-Sim,将Mesh Renderer替换为3DGS Renderer,并接入三维高斯资产和数字人,实现更高质量的导航环境。平台继承Habitat-Sim任务训练和评测能力,支持StreamVLN、UniNavid等模型训练,也拓展到智驾挑战赛。

王腾飞——HY World:迈向统一的多模态世界模型

腾讯混元世界模型负责人王腾飞,系统介绍了混元World系列在视频世界模型、3D世界模型、重建模型和开源生态上的进展。他从世界模型的历史切入:世界模型原本是心理学概念,指智能体对世界的内在理解和认知模型;在2023至2024年,生成式模型尤其是扩散模型在图像、视频和3D生成上的突破,重新定义了世界模型的实验路径和能力边界。

王腾飞认为,当前生成式世界模型有不同路线。以Gemini为代表的视频模态世界模型,通过海量互联网视频学习未来画面预测,WorldLabs等路线更关注3D世界还原。腾讯混元的定位则是多模态世界模型,既做视频形式的WorldPlay,也做可以导入仿真引擎的3D资产生成。混元World系列从早期验证可行性,到WorldMirror端到端3D重建,再到WorldPlay视频世界模型和World2.0可用3D模型,目标是让生成内容真正进入可交互和可编辑的引擎系统。

在视频世界模型方面,WorldPlay的核心假设是,模型可通过自回归预测下一帧来建模物理世界因果规律。它支持720P、24FPS实时生成,可生成第一人称漫游视频,也可在场景中加入角色进行控制。训练采用四阶段范式:预训练阶段将双向视频扩散模型转为自回归范式;中间训练加入动作指令控制和memory机制;后训练阶段用WorldCompass强化学习提升长程生成中的指令遵从度和一致性;最后通过蒸馏提升推理速度,同时保持memory和强化学习带来的能力。

WorldPlay的memory机制针对长视频生成中的遗忘和冲突问题。模型会在历史帧中选择相关重要token保留,同时保留局部短时记忆,并将这些memory内化到网络中。数据管线同样关键。混元使用互联网游戏视频、Vlog漫游视频和UE合成数据,并进行水印检测、UI检测、质量筛选、光流和3D重建评分,以及动作文本、多模态标签和相机姿态标注。为解决自回归视频长程漂移,WorldCompass利用3D感知与重建模型从生成视频中恢复运动轨迹,并与输入指令对比形成reward,使复杂指令遵从度从26%提升到70%以上。

王腾飞指出,视频本质是3D世界的投影,而在许多场景中,大部分像素对应静态背景,真正变化的是少量主体。因此,World2.0试图生成可自由探索、可交互、可导入引擎的3D世界,而不是一段固定视频。模型支持文本、图像、视频、几何等多模态输入,输出3DGS、点云、深度、相机等多种格式。其核心流程包括:先生成全景或初始空间,再由空间理解与规划模型规划探索轨迹,随后生成对应视角视频,最后通过3D重建大模型转为3D资产。

在他看来,世界模型下一阶段的关键不是盲目scaling up,而是评判标准。当前评测多关注视觉质量,但世界模型真正重要的是可交互性和可维持世界状态。视频世界模型和3D世界模型会从并行走向交融。3D模型提供世界框架和物理/空间规则,视频模型作为渲染器提供人类可接受的画面表达,最终走向图、视频、3D空间统一的多模态世界模型。

成宇——从Skyreels V4到Mureka V9:昆仑万维的AIGC多模态布局

香港中文大学副教授、昆仑万维集团首席科学家成宇从产业视角介绍“从SkyReels V4到Mureka V9”的AIGC多模态布局。他指出,昆仑万维近年来围绕“3+1”战略展开:一个超级智能体方向,以及三个原生AIGC平台。多模态论坛中,他重点介绍视频生成平台SkyReels和AI音乐生成平台Mureka,展示多模态模型如何从单点技术走向创作工作流和商业应用。

在视频方向,SkyReels的目标是打造下一代视听创作范式。成宇认为,成熟AI视频生成不是简单生成一段好看的视频,而是重构视听创作逻辑。对普通用户而言,工具应降低创作门槛、融入大众文化并支撑自由表达;对产业创作者而言,工具应重构影视、广告、短剧和教育内容的生产流程,提高效率并提供可控编辑能力。SkyReels从2025年发布首个面向AI短剧的视频模型,到V2支持无限长电影级生成,再到V3、V4持续升级,已从单点突破进入底层架构和全流程能力突破阶段。

SkyReels V4的第一项核心突破是音画一体双流联合生成架构。它不再将文本、语音、视频分离处理,而是支持从文本到语音和视频的联合生成,解决分离式管线中的割裂。第二项突破是全模态理解和精准控制,支持多智能体参考、多图片参考、运动参考和视频编辑工具,可实现首帧续写、多帧参考生成、动漫片段生成、多人电影级对话、人物或IP替换、服饰和外观编辑、LOGO移除和多余人物删减等能力。

第三项突破是全模态强化学习体系。成宇将其类比为“首席监制”的上帝视角reward,覆盖全模态任务,解决传统视频生成“重像素、轻逻辑”的痛点。模型通过循序渐进的强化学习,从低分辨率到高分辨率、从简单任务到复杂任务逐步提升,使生成结果更贴合创作意图。第四项突破是电影级画质与高效生成之间的平衡,目前可生成1080P、32FPS、15秒高分辨率视频,并在全球视频生成榜单中取得较好表现。但成宇强调,榜单不是目标,真正目标是通过API开放和去中心化赋能,让短剧、在线平台、教育、影视和广告等行业获得可用解决方案。

在音乐生成方向,Mureka V9希望成为AI视听时代的技术灯塔。Mureka从2024年上线,逐步发展到V9,在精确控制、录音级混音和生成多样性上显著提升。V9不仅能根据创作意图控制段落表达,还能提高模型响应效率、成品音质稳定性和多语言、多风格生成能力。与Suno等头部模型相比,Mureka V9在旋律性、音乐表现力、编排编曲和精准控制上已接近或部分超过其性能。成宇指出,Mureka Studio让AI音乐不只是生成一首歌,而是覆盖创作、素材、编辑、Remix、分发和二创的完整工作室流程。多模态AIGC的真正价值,来自模型能力、工具链、Agent系统和商业闭环的联动。

曾爱玲——LPM 1.0:基于视频生成的交互表演模型

Anuttacon研究员曾爱玲首先界定了什么是“表演”。在她看来,表演指的是角色通过视觉、声音、时序行为外化意图、情感和个性的过程,是角色生命感的来源。传统3D管线能实现高质量角色表演,但依赖建模、绑定、动画、渲染等复杂流程,扩展到新身份、新行为风格和开放互动场景时成本极高。随着开放世界游戏、直播、数字人和影视生产对大规模角色表演的需求增长,仅靠手工资产堆叠已难以满足。

LPM的目标是从大规模视频中学习人类如何运动和表演,聚焦单人和全双工音视频对话场景。全双工意味着用户和角色两条音轨始终在线,角色可以说话、沉默、倾听、被打断,也可以打断用户;视频维度则要求角色不仅在说话时嘴型同步,还要在用户说话时表现出倾听、理解、迟疑、反应、情绪变化和小动作。当双方都不说话时,角色也应像活人一样呼吸和保持自然状态。

曾爱玲指出,现有音频驱动视频模型大多关注“说话”任务,倾听音频缺失;控制信号较弱,难以同时处理文本、说话音频、倾听音频、多参考图和身份保持;单首帧输入也会导致牙齿、手、外观等身份细节随机变化。LPM 1.0因此试图统一建模图像、文本、说话音频、倾听音频、多图参考和视频输出,在表现力、实时推理和长时稳定性之间取得平衡。她强调,这三者不是对称目标,而是分层目标:首先要达到足够表现力,再追求实时和长时稳定。

数据方面,LPM构建了大规模人物视频和对话数据。经过精细筛选,原始数据保留率为11.5%,最终用于训练的数据片段约3100万,抽样质检错误率低于1%。对话数据的关键是逐帧标注speak、listen和idle状态,并将音频拆成双音轨。难点在于,现实访谈和电话视频中,大部分镜头都给到说话者,倾听者镜头只有约10%,且其中大量几乎静止。团队从3000万整体数据中筛出350万倾听clip,再通过语义理解和运动caption选出47万条高质量倾听样本,增强听音频与视频表现之间的相关性。

为保持身份一致,LPM不仅输入首帧,还可输入1至4张多视角身体参考图和1至8张不同表情参考图。模型基于Wan 14B,在原有text cross attention基础上增加speak audio和listen audio注入,并采用奇偶层交错策略以节省50%计算量、减少梯度冲突。训练分为Base LPM和Online LPM。Base LPM在480P上做多阶段多模态对齐,并通过时序续写训练支持连续10分钟生成、每5秒精准文本控制。Online LPM则解决实时和长时误差问题,使模型可在2张H100上持续生成480P、24FPS视频。

LPM Benchmark关注运动动态性、身份保持、文本控制和音画同步四个维度。曾爱玲认为,LPM目前不是严格意义上的世界模型,因为它没有在给定当前状态和控制信号后预测下一状态,而是在做多模态对齐和表演生成;但它很容易向世界模型方向转化。未来,LPM还需沿时间轴拓展长时记忆,沿物理轴增加人与物、人与场景的交互和物理合理性,并进一步支持多人交互、人机交互和社交智能。

圆桌讨论——从看懂到交互:多模态如何重构世界模型?

本场论坛的圆桌讨论由赵敏主持,讨论聚焦世界模型定义、原生AR视频模型、Omni趋势等关键问题。

问题一:世界模型的定义和核心能力是什么?

曾爱玲认为,世界模型最直白的定义是:给定当前状态和后续控制信号,生成下一个状态。关键不只是短时维持时序一致性,更是长时因果关系。在完成长程任务时,模型需要是否知道自己状态发生了什么变化,任务是否完成,下一步应采取什么动作。她也区分了视频生成和世界模型:LPM主要做多模态对齐和表演生成,不直接预测下一状态,因此不是严格世界模型,但可向这个方向转化。

邓明扬从表征学习角度补充,视频中存在许多稳定性质,例如上一帧出现的物体下一帧仍应存在。若模型能学习到这些性质,就在某种意义上形成了世界模型。世界模型不仅是一种生成器,也是一种能捕捉世界结构和不变量的表征学习方法。

王腾飞给出两个关键词:可交互和可维持的世界状态。世界模型载体可以是视频、3D或其他形式,但与普通视频生成不同,它不以美学、叙事、质感为第一目标,而是关注能否基于当前状态和控制信号预测下一状态。机器人甚至不需要渲染像素,关键是场景中有多少物体、空间关系如何、物理属性和规律是什么。这种世界状态可以是显式3D状态,也可以是模型内部的latent feature或物理规律表示。

问题二:未来是否会出现原生自回归视频模型?

曾爱玲认为,当下从双向DiT蒸馏为单向causal模型,是因为双向视频DiT已经work,并提供了“文本-视频”对齐、身份保持和音频控制等基础能力。在这个基础上,研究者需要思考交互信号何时加入,以及交互信号应是语义层、动作层还是其他控制层。未来从头训练单向模型有希望,但前提是能够大规模构造交互数据,使交互视频预训练持续进行。

王腾飞则认为,语言模型的token具有相对独立的语义单位,而视频中单个像素信息量太低,因此视频生成更自然以帧或chunk为单位。长序列视频生成可能分阶段发展,即先在短窗口中使用双向diffusion训练,再基于此扩展序列长度。当前“短序列双向、长序列自回归”的方式仍是相对合理的折中。

赵敏在主持中补充,视频自回归面临连续token误差累积问题,原生AR后训练仍有挑战;但若能让原生AR视频模型具备稳定生成和交互能力,将是这一方向的重要突破。

问题三:多模态未来会走向Omni统一吗?

邓明扬认为,Omni统一当然是理想趋势,因为不同模态的representation应能互相帮助。但目前实践中,将不同模态简单放在一起训练,往往效果不升反降。原因可能在于不同训练目标强调的东西不同,例如diffusion和flow matching强调视觉细节,可能过于模态特化。真正有价值的是找到能让不同模态表征共享和互相促进的方法,类似多语言共同训练中的迁移效果。

赵敏从视频生成实践出发指出,理解确实能帮助生成,例如更强的语言模型、VLM和RLM可提供更好的caption和语义条件。但目前还没有充分证明生成能反过来提升理解。她认为,未来统一训练需要处理好理解任务和生成任务之间的目标差异。

王腾飞同意理解对生成的价值。早期DiT中的encoder更像外观条件输入,后来MMDiT引入双向交互,再到原生多模态模型,会更多利用语言模型预训练经验,将理解能力嵌入图像和视频生成。他判断,未来生成模型会越来越多借鉴语言模型和统一理解模型的技术路线。

问题四:未来1至3年最值得投入的问题是什么?

曾爱玲认为第一关键问题是评测。只有问题可验证,领域才会快速进步。多模态视频生成和视频理解应建立面向应用场景、物理特性和机器人可用性的评测,并配套自动化算子,使模型迭代可量化。第二是video tokenizer和视频表征学习。当前视频理解多靠抽帧,对细粒度时序理解不足,而视频生成逐帧生成时,评测器和理解模型却常常没有建模时序,这会成为瓶颈。

邓明扬认为表征学习仍远未解决。图像生成中,长文本描述能帮助生成,但人眼看到的世界并不能被语言无损描述。缺少描述时,模型是否真正学到图像和视频分布的性质,仍值得研究。视频若直接自回归训练,容易出现漂移、变灰等问题,说明模型未必真正理解视频分布的结构。如何让模型学到更好的visual/video representation,是未来重要方向。

王腾飞同样把评测列为关键问题。当前评测多关注视觉质量和审美对齐,但世界模型最重要的是交互性和物理规律掌握。没有好的交互评测,就无法判断哪些进展是真实进步,也无法把评测信号转化为强化学习reward。他认为,世界模型评测不仅是衡量工具,也可能成为下一阶段训练方法的重要组成部分。

大会回放 https://2026.baai.ac.cn

内容中包含的图片若涉及版权问题,请及时与我们联系删除