- 简介最近的条件式3D补全工作主要依赖于CLIP或BERT对文本信息进行编码,这不能支持复杂的指令。同时,大型语言模型(LLMs)在多模态理解和生成任务中展现出了巨大的潜力。受到LLM近期进展的启发,我们提出了Volume Patch LLM (VP-LLM),它利用LLMs在单次前向传递中执行条件式3D补全。为了将3D模型整合到LLM的标记配置中,不完整的3D对象首先被分成小块,可以独立编码。这些编码后的块与文本提示一起输入到LLM中,指示LLM捕捉这些块之间的关系,并将语义含义注入到3D对象中。我们的结果表明,LLMs具有解释复杂文本指令和理解3D对象的强大能力,超过了最先进的基于扩散的3D补全模型在生成质量上。
-
- 图表
- 解决问题论文旨在解决条件3D完成中的复杂指令问题,并通过使用LLMs进行单向传递来提高生成质量。
- 关键思路论文提出了一种名为VP-LLM的方法,将不完整的3D对象划分为小块,然后将这些编码块与文本提示一起馈入LLM中,以捕捉它们之间的关系并注入语义含义。
- 其它亮点论文通过实验表明,VP-LLM方法具有强大的解释复杂文本指令和理解3D对象的能力,生成质量优于当前最先进的扩散式3D完成模型。
- 最近的相关研究包括使用CLIP或BERT对文本信息进行编码的条件3D完成方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流