- 简介当前主流的大规模视觉-语言模型(VLMs)在根本上仍受限于一种长期存在的二元割裂:理解与生成被视作彼此独立的问题,由此导致架构碎片化、流程级联化,以及表征空间不一致。我们认为,这种割裂并非仅是工程实现上的权宜之计,而是一种结构性局限,严重阻碍了原生多模态智能的自然涌现。为此,我们提出SenseNova-U1——一种基于NEO-unify框架构建的原生统一多模态范式。在该范式中,理解与生成不再是割裂的任务,而是同一底层认知过程所呈现的协同互补视角。我们同步发布两个原生统一变体:SenseNova-U1-8B-MoT(基于稠密结构的80亿参数理解基座)与SenseNova-U1-A3B-MoT(基于混合专家架构的300亿参数、激活30亿参数的理解基座)。二者均从第一性原理出发进行系统性设计,在文本理解、视觉-语言感知、知识推理、具身决策与空间智能等关键理解能力维度上,全面媲美当前顶尖的纯理解型视觉-语言模型。与此同时,它们在语义一致性与视觉保真度方面表现强劲,不仅在常规或知识密集型的任意模态到图像(X2I)生成任务中游刃有余,亦能高质量完成富含文本的复杂信息图生成,以及图文交错的多模态联合生成任务——无论是否引入显式的“思维链”(think patterns)机制。除性能表现外,我们还详尽公开了模型整体设计、数据预处理流程、预训练与后训练策略,以及推理优化方法,以切实支持学术界与工业界开展深入研究。尤为值得关注的是,初步实证表明,我们的模型能力已显著超越传统感知与生成范畴,在视觉-语言-动作(VLA)及世界模型(WM)等更前沿场景中亦展现出卓越性能。这昭示着一条更为宏大的发展路径:未来的模型不再需要在不同模态之间进行机械翻译或映射,而是能够以原生方式跨模态地思考与行动。多模态人工智能的发展重心,正从连接彼此割裂的子系统,转向构建一个内在统一的整体;我们不再人为拼装能力,而是信任并培育那些必要能力——它们将自然地、有机地从统一架构内部涌现。
-
- 图表
- 解决问题现有大视觉语言模型(VLMs)将理解(understanding)与生成(generation)视为割裂任务,导致架构碎片化、流水线级联、表征空间不一致,阻碍了原生多模态智能的涌现——这不是工程缺陷,而是结构性瓶颈。
- 关键思路提出‘原生统一多模态范式’(native unified multimodal paradigm),以NEO-unify为基础,将理解与生成建模为同一底层过程的协同视角;摒弃传统pipeline或双头设计,通过统一架构、共享表征空间和联合优化,实现语义-视觉-动作的端到端原生共演。
- 其它亮点发布两个开源模型SenseNova-U1-8B-MoT(稠密8B)和SenseNova-U1-A3B-MoT(MoE 30B-A3B);在理解任务(文本/视觉-语言/知识推理/具身决策/空间智能)上媲美SOTA理解型VLMs;在X2I合成、文本密集信息图生成、交错VL生成等生成任务中保持高语义一致性与视觉保真度;首次系统验证其在视觉-语言-动作(VLA)与世界模型(WM)场景的泛化能力;完整公开模型设计、数据预处理、预/后训练策略及推理方法;暂未提及代码是否已开源,但强调‘支持社区研究’。
- Flamingo (2022), KOSMOS-1/2 (2023), LLaVA-1.5/NeXT (2023–2024), Qwen-VL/Qwen2-VL (2023–2024), InternVL 2 (2024), GPT-4V(ision) (2023), Emu2 (2024), Video-LLaMA2 (2024), RT-2 & VLA-Bench (2023), Monet & World Model Pretraining (2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流