NEW

SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

Haiwen Diao ,

Penghao Wu ,

Hanming Deng ,

Jiahao Wang ,

Shihao Bai ,

Silei Wu ,

Weichen Fan ,

Wenjie Ye ,

Wenwen Tong ,

Xiangyu Fan ,

Yan Li ,

Yubo Wang ,

Zhijie Cao ,

Zhiqian Lin ,

Zhitao Yang ,

Zhongang Cai ,

Yuwei Niu ,

Yue Zhu ,

Bo Liu ,

Chengguang Lv ,

Haojia Yu ,

Haozhe Xie ,

Hongli Wang ,

Jianan Fan ,

Jiaqi Li ,

Jiefan Lu ,

Jingcheng Ni ,

Junxiang Xu ,

Kaihuan Liang ,

Lianqiang Shi ,

Linjun Dai ,

Linyan Wang ,

Oscar Qian ,

Peng Gao ,

Pengfei Liu ,

Qingping Sun ,

Rui Shen ,

Ruisi Wang ,

Shengnan Ma ,

Shuang Yang ,

Siyi Xie ,

Siying Li ,

Tianbo Zhong ,

Xiangli Kong ,

Xuanke Shi ,

Yang Gao ,

Yongqiang Yao ,

Yves Wang ,

Zhengqi Bai ,

Zhengyu Lin ,

Zixin Yin ,

Wenxiu Sun ,

Ruihao Gong ,

Quan Wang ,

Lewei Lu ,

Lei Yang ,

Ziwei Liu ,

Dahua Lin

热度 1047

2026年05月12日

简介

当前主流的大规模视觉-语言模型（VLMs）在根本上仍受限于一种长期存在的二元割裂：理解与生成被视作彼此独立的问题，由此导致架构碎片化、流程级联化，以及表征空间不一致。我们认为，这种割裂并非仅是工程实现上的权宜之计，而是一种结构性局限，严重阻碍了原生多模态智能的自然涌现。为此，我们提出SenseNova-U1——一种基于NEO-unify框架构建的原生统一多模态范式。在该范式中，理解与生成不再是割裂的任务，而是同一底层认知过程所呈现的协同互补视角。我们同步发布两个原生统一变体：SenseNova-U1-8B-MoT（基于稠密结构的80亿参数理解基座）与SenseNova-U1-A3B-MoT（基于混合专家架构的300亿参数、激活30亿参数的理解基座）。二者均从第一性原理出发进行系统性设计，在文本理解、视觉-语言感知、知识推理、具身决策与空间智能等关键理解能力维度上，全面媲美当前顶尖的纯理解型视觉-语言模型。与此同时，它们在语义一致性与视觉保真度方面表现强劲，不仅在常规或知识密集型的任意模态到图像（X2I）生成任务中游刃有余，亦能高质量完成富含文本的复杂信息图生成，以及图文交错的多模态联合生成任务——无论是否引入显式的“思维链”（think patterns）机制。除性能表现外，我们还详尽公开了模型整体设计、数据预处理流程、预训练与后训练策略，以及推理优化方法，以切实支持学术界与工业界开展深入研究。尤为值得关注的是，初步实证表明，我们的模型能力已显著超越传统感知与生成范畴，在视觉-语言-动作（VLA）及世界模型（WM）等更前沿场景中亦展现出卓越性能。这昭示着一条更为宏大的发展路径：未来的模型不再需要在不同模态之间进行机械翻译或映射，而是能够以原生方式跨模态地思考与行动。多模态人工智能的发展重心，正从连接彼此割裂的子系统，转向构建一个内在统一的整体；我们不再人为拼装能力，而是信任并培育那些必要能力——它们将自然地、有机地从统一架构内部涌现。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有大视觉语言模型（VLMs）将理解（understanding）与生成（generation）视为割裂任务，导致架构碎片化、流水线级联、表征空间不一致，阻碍了原生多模态智能的涌现——这不是工程缺陷，而是结构性瓶颈。
关键思路

提出‘原生统一多模态范式’（native unified multimodal paradigm），以NEO-unify为基础，将理解与生成建模为同一底层过程的协同视角；摒弃传统pipeline或双头设计，通过统一架构、共享表征空间和联合优化，实现语义-视觉-动作的端到端原生共演。
其它亮点

发布两个开源模型SenseNova-U1-8B-MoT（稠密8B）和SenseNova-U1-A3B-MoT（MoE 30B-A3B）；在理解任务（文本/视觉-语言/知识推理/具身决策/空间智能）上媲美SOTA理解型VLMs；在X2I合成、文本密集信息图生成、交错VL生成等生成任务中保持高语义一致性与视觉保真度；首次系统验证其在视觉-语言-动作（VLA）与世界模型（WM）场景的泛化能力；完整公开模型设计、数据预处理、预/后训练策略及推理方法；暂未提及代码是否已开源，但强调‘支持社区研究’。
相关研究

Flamingo (2022), KOSMOS-1/2 (2023), LLaVA-1.5/NeXT (2023–2024), Qwen-VL/Qwen2-VL (2023–2024), InternVL 2 (2024), GPT-4V(ision) (2023), Emu2 (2024), Video-LLaMA2 (2024), RT-2 & VLA-Bench (2023), Monet & World Model Pretraining (2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问