Apply Hierarchical-Chain-of-Generation to Complex Attributes Text-to-3D Generation

2025年05月07日
  • 简介
    近期的文本到3D模型能够生成高质量的资产,但在处理具有复杂属性的对象时仍面临挑战。主要障碍包括:(1)现有的文本到3D方法通常通过提升文本到图像模型并借助文本编码器提取语义,但文本编码器对长描述的理解能力有限,导致交叉注意力机制聚焦偏差,从而在生成结果中出现错误的属性绑定。(2)被遮挡的对象部分需要有条理的生成顺序和明确的部分解耦。尽管一些研究引入了人工干预以缓解上述问题,但其生成质量不稳定且高度依赖于手动提供的信息。 为了解决这些问题,我们提出了一种自动化方法——分层生成链(Hierarchical-Chain-of-Generation, HCoG)。该方法利用大型语言模型将长描述分解为表示不同对象部分的块,并根据遮挡关系从内到外对这些块进行排序,形成一个分层链。在每个块内,我们首先粗略地创建组件,然后通过目标区域定位及相应的3D高斯核优化,精确地绑定属性。在块之间,我们引入了高斯扩展(Gaussian Extension)和标签消除(Label Elimination),通过扩展新的高斯核、重新分配语义标签以及移除不必要的核,无缝生成新部分,确保只添加相关部分而不干扰已优化的部分。 实验结果表明,HCoG能够生成结构连贯、属性准确的复杂属性3D对象。代码可在以下链接获取:https://github.com/Wakals/GASCOL 。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决现有文本到3D模型生成技术在处理复杂属性对象时的两大问题:1)长文本描述导致语义提取偏差,从而产生错误的属性绑定;2)遮挡部分需要有序生成和显式的部件解耦。这是一个需要进一步优化的问题,尤其是在自动化程度和生成质量上。
  • 关键思路
    论文提出了一种名为Hierarchical-Chain-of-Generation (HCoG) 的方法,利用大型语言模型将长文本描述分解为不同对象部件的块,并根据遮挡关系从内到外形成层次链。通过目标区域定位和3D高斯核优化实现属性精确绑定,并引入高斯扩展和标签消除技术确保新部件的无缝生成,同时不影响已优化的部分。这种方法相比传统方法更加自动化且减少了对人工干预的依赖。
  • 其它亮点
    实验表明,HCoG能够生成结构连贯、属性准确的复杂3D对象。论文设计了详细的对比实验,验证了方法在属性绑定和部件生成上的优势。代码已经开源(https://github.com/Wakals/GASCOL),便于后续研究者复现和改进。未来可以进一步探索更复杂的场景和更大规模的数据集。
  • 相关研究
    最近的相关研究包括:1)使用扩散模型进行文本到3D生成的工作,如Point-E 和 DreamFusion;2)基于神经辐射场(NeRF)的方法,例如Text2NeRF;3)结合语言模型和视觉生成的研究,如Make-A-Scene 和 Parti。这些研究大多集中在提升生成质量和语义理解能力,但较少关注自动化的部件生成顺序和属性绑定问题。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问