- 简介本文通过“选择”功能推动了生成式视觉AI中的创意控制。与传统的基于文本或素描的方法不同,我们首次允许用户按部件选择视觉概念进行创意创作。结果是精细的生成,精确捕捉所选视觉概念,确保整体上忠实和可信的结果。为了实现这一目标,我们首先通过无监督特征聚类将对象解析为部件。然后,我们将部件编码为文本标记,并引入基于熵的标准化注意力损失对它们进行操作。这种损失设计使我们的模型能够学习关于对象部件组成的通用先验拓扑知识,并进一步推广到新的部件组合,以确保生成的整体外观忠实可信。最后,我们采用瓶颈编码器对部件标记进行投影。这不仅增强了保真度,而且通过利用共享知识和促进实例间的信息交流,加速了学习。本文和补充材料中的视觉结果展示了PartCraft在塑造高度定制、创新的作品方面的强大能力,其中“迷人”的创意鸟类就是一个例子。代码已发布在https://github.com/kamwoh/partcraft。
- 图表
- 解决问题本文旨在通过让用户进行“选择”,推动生成视觉AI的创造性控制。相比传统的基于文本或草图的方法,本文首次允许用户按部件选择视觉概念,以便进行创意活动。这样可以生成细粒度的结果,精确捕捉所选的视觉概念,确保整体上忠实和合理的结果。
- 关键思路本文通过无监督特征聚类将对象分解为部分,然后将部分编码为文本令牌,并引入基于熵的归一化注意力损失来操作这些令牌。这种损失设计使我们的模型能够学习关于对象部分组成的通用先验拓扑知识,并进一步推广到新颖的部分组成,以确保生成的整体外观忠实可信。
- 其它亮点本文的亮点包括:使用无监督特征聚类将对象分解为部分;引入基于熵的归一化注意力损失来操作部分令牌;使用瓶颈编码器来投影部分令牌,以提高保真度和加速学习;在实验中展示了PartCraft在高度定制、创新性创作方面的强大能力;提供了开源代码。
- 最近在该领域的相关研究包括:《Generative Part Modeling with Implicit Functions》、《PartNet: A Large-Scale Benchmark for Fine-Grained and Hierarchical Part-Level 3D Object Understanding》、《Part-Based Image Synthesis with Learnable Per-Part Neural Rendering》等。
沙发等你来抢
去评论
评论
沙发等你来抢