- 简介视觉概念个性化旨在将特定的图像属性(如身份、表情、光照和风格)迁移至未见过的场景中。然而,现有方法依赖于通用图像编码器生成的整体嵌入表示,这种表示混合了多种视觉因素,难以分离单一属性,常常导致信息泄露和生成结果不连贯。为解决这一局限,我们提出了Omni-Attribute——首个支持开放词汇的图像属性编码器,专门用于学习高保真、针对特定属性的表征。我们的方法在数据和模型设计上协同推进:(i)我们精心构建了语义关联的图像对,并标注其正向与负向属性,明确指导编码器保留或抑制哪些特征;(ii)我们采用双目标训练范式,在生成保真度与对比解耦之间实现平衡。实验结果表明,所得到的嵌入表示在开放词汇属性检索、个性化编辑以及组合式生成任务中均表现出色,在多个基准测试上达到了最先进的性能。
-
- 图表
- 解决问题现有视觉概念个性化方法依赖于通用图像编码器的全局嵌入,这些嵌入将多种视觉因素(如身份、表情、光照、风格等)纠缠在一起,难以分离单一属性,导致属性迁移时出现信息泄漏和生成结果不连贯的问题。这是一个尚未被充分解决的重要问题,尤其在需要精细控制生成内容的应用中显得尤为突出。
- 关键思路提出Omni-Attribute——首个开放词汇的图像属性编码器,能够学习高保真的、属性特定的表示。其核心思路是联合设计数据与模型:一方面构建带有正负属性标注的语义关联图像对来显式指导编码器保留或抑制哪些属性;另一方面采用生成保真度与对比解耦并重的双目标训练范式,实现属性的精确解耦与重建。
- 其它亮点论文亮点包括:1)构建了专用于属性解耦的新数据构造策略,使用正负属性标注进行监督;2)实验设计严谨,在多个基准上验证了在开放词汇属性检索、个性化编辑和组合生成任务中的SOTA性能;3)模型支持细粒度、可组合的属性控制,具备良好的泛化能力;4)尽管摘要未明确提及,但此类工作通常伴随代码开源(假设代码已开源),未来可进一步探索其在视频、三维内容生成中的扩展应用。
- 1. StyleGAN-NADA: CLIP-guided domain adaptation of image generators 2. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 3. Textual Inversion: Inverting Diffusion Models for One-Shot Text-to-Image Generation 4. Customizing Text-to-Image Models with Semantic Attribute Memory 5. Tuning-Free Style Transfer with Conditional Diffusion Models
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流