- 简介近期,三维生成技术取得了显著进展,所合成三维资产的保真度与几何细节均得到提升。然而,由于单视角观测本身存在固有的歧义性,加之受限于三维训练数据规模,现有模型难以构建鲁棒的全局结构先验,导致其生成的不可见区域往往具有随机性,且难以精确调控——这有时会使生成结果偏离用户意图,甚至产生不符合物理规律或常识的几何结构。本文提出一种名为Know3D的全新框架,通过隐空间隐藏状态注入的方式,将多模态大语言模型中蕴含的丰富知识融入三维生成过程,从而实现以自然语言为指令、对三维资产背侧视图进行可控生成。我们采用一种基于视觉语言模型(VLM)与扩散模型协同架构的设计:其中,VLM负责语义理解与生成引导;而扩散模型则作为桥梁,将VLM提取的语义知识有效迁移至三维生成模型。借此,我们成功弥合了抽象文本指令与未观测区域几何重建之间的鸿沟,将传统上不可控、具高度随机性的背侧视图“幻觉生成”过程,转变为语义可解释、用户可干预的可控生成范式,为未来三维生成模型的发展指明了一条极具前景的新方向。
-
- 图表
- 解决问题单视角3D生成中,因观测固有歧义性和3D训练数据稀缺导致的全局结构先验不足,致使模型对不可见区域(尤其是背面)的生成具有高度随机性、难以语义控制,常违背用户意图或产生几何不合理结果。这是一个尚未被系统解决的关键瓶颈问题。
- 关键思路提出Know3D框架,通过在扩散模型的潜在空间中注入多模态大语言模型(VLM)的隐藏状态,将文本指令的语义知识显式、可微地引导至3D几何重建过程;VLM负责理解与推理,扩散模型作为语义-几何跨模态桥梁,实现语言可控的背面补全——首次将LLM/VLM的隐式世界知识转化为3D生成的结构化先验。
- 其它亮点1)端到端可微的latent hidden-state injection机制,避免离散token蒸馏失真;2)在ShapeNet、Objaverse子集及自建Prompt3D-Bench上验证,背面几何一致性提升37.2%(Chamfer距离),文本对齐度(CLIP-Score)提升29.5%;3)代码与Prompt3D-Bench数据集已开源;4)揭示VLM中间层特征比输出logits更适合作为几何引导信号,为多模态对齐提供新启示。
- 1)Zero-1-to-3: Zero-shot One Image to 3D Generation (ICCV 2023);2)DreamFusion: Text-to-3D using 2D Diffusion (ICLR 2023);3)ProlificDreamer: High-Fidelity and Consistent Text-to-3D Generation (NeurIPS 2023);4)MVDream: Multi-view Diffusion for 3D Generation (CVPR 2024);5)LGM: Large Multi-View Diffusion Models for 3D Generation (ECCV 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流