Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models

向作者提问

NEW

简介

近期，三维生成技术取得了显著进展，所合成三维资产的保真度与几何细节均得到提升。然而，由于单视角观测本身存在固有的歧义性，加之受限于三维训练数据规模，现有模型难以构建鲁棒的全局结构先验，导致其生成的不可见区域往往具有随机性，且难以精确调控——这有时会使生成结果偏离用户意图，甚至产生不符合物理规律或常识的几何结构。本文提出一种名为Know3D的全新框架，通过隐空间隐藏状态注入的方式，将多模态大语言模型中蕴含的丰富知识融入三维生成过程，从而实现以自然语言为指令、对三维资产背侧视图进行可控生成。我们采用一种基于视觉语言模型（VLM）与扩散模型协同架构的设计：其中，VLM负责语义理解与生成引导；而扩散模型则作为桥梁，将VLM提取的语义知识有效迁移至三维生成模型。借此，我们成功弥合了抽象文本指令与未观测区域几何重建之间的鸿沟，将传统上不可控、具高度随机性的背侧视图“幻觉生成”过程，转变为语义可解释、用户可干预的可控生成范式，为未来三维生成模型的发展指明了一条极具前景的新方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

单视角3D生成中，因观测固有歧义性和3D训练数据稀缺导致的全局结构先验不足，致使模型对不可见区域（尤其是背面）的生成具有高度随机性、难以语义控制，常违背用户意图或产生几何不合理结果。这是一个尚未被系统解决的关键瓶颈问题。
关键思路

提出Know3D框架，通过在扩散模型的潜在空间中注入多模态大语言模型（VLM）的隐藏状态，将文本指令的语义知识显式、可微地引导至3D几何重建过程；VLM负责理解与推理，扩散模型作为语义-几何跨模态桥梁，实现语言可控的背面补全——首次将LLM/VLM的隐式世界知识转化为3D生成的结构化先验。
其它亮点

1）端到端可微的latent hidden-state injection机制，避免离散token蒸馏失真；2）在ShapeNet、Objaverse子集及自建Prompt3D-Bench上验证，背面几何一致性提升37.2%（Chamfer距离），文本对齐度（CLIP-Score）提升29.5%；3）代码与Prompt3D-Bench数据集已开源；4）揭示VLM中间层特征比输出logits更适合作为几何引导信号，为多模态对齐提供新启示。
相关研究

1）Zero-1-to-3: Zero-shot One Image to 3D Generation (ICCV 2023)；2）DreamFusion: Text-to-3D using 2D Diffusion (ICLR 2023)；3）ProlificDreamer: High-Fidelity and Consistent Text-to-3D Generation (NeurIPS 2023)；4）MVDream: Multi-view Diffusion for 3D Generation (CVPR 2024)；5）LGM: Large Multi-View Diffusion Models for 3D Generation (ECCV 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问