- 简介文本到图像模型已迅速从随意的创意工具发展为专业级系统,在图像质量和真实感方面达到了前所未有的水平。然而,大多数模型被训练为将简短提示映射为详细图像,导致稀疏的文本输入与丰富的视觉输出之间存在鸿沟。这种不匹配降低了对生成过程的可控性:模型往往以任意方式填补缺失细节,偏向于普通用户的偏好,从而限制了在专业场景中的精确控制能力。为解决这一局限,我们首次在长篇结构化描述上训练开源文本到图像模型,其中每个训练样本均标注有一组相同的细粒度属性。该设计最大限度地扩展了表达覆盖范围,并实现了对视觉因素的解耦控制。为了高效处理长文本描述,我们提出了DimFusion——一种融合机制,可在不增加序列长度的前提下,整合来自轻量级大语言模型的中间层token。我们还引入了一种名为“文本作为瓶颈的重建”(TaBR)的评估协议。通过评估真实图像在“描述生成—图像重建”循环中的还原程度,TaBR能够直接衡量模型的可控性和表达能力,即使在现有评估方法失效的极长描述情况下亦能有效工作。最后,我们通过训练大规模模型FIBO验证了上述贡献,在开源模型中实现了最先进的提示对齐性能。模型权重已公开发布于 https://huggingface.co/briaai/FIBO
-
- 图表
- 解决问题现有的文本到图像模型通常使用简短的提示语生成图像,导致输入文本信息稀疏与输出图像细节丰富之间存在不匹配,从而降低生成结果的可控性。模型往往根据训练数据中的常见模式填补缺失细节,偏向普通用户偏好,难以满足专业场景对精确控制的需求。这是一个尚未被充分解决的重要问题,尤其在需要高精度属性控制的应用中显得尤为突出。
- 关键思路提出首个基于长结构化描述(long structured captions)训练的开源文本到图像模型,通过统一标注细粒度属性实现更全面的语言表达和解耦的视觉控制;设计DimFusion机制,利用轻量级大语言模型的中间token进行高效融合而不增加序列长度,提升长文本处理能力;引入新的评估协议Text-as-a-Bottleneck Reconstruction (TaBR),通过‘图像→描述→重建’循环直接衡量模型的可控性与表达力。
- 其它亮点构建了大规模模型FIBO,在开源模型中实现了最先进的提示对齐性能;DimFusion有效解决了长文本输入带来的计算负担问题;TaBR为长提示下的模型评估提供了可靠新标准,弥补了传统指标(如CLIP Score)在复杂语义上的不足;所有模型权重已公开发布于Hugging Face,促进可复现研究与社区发展;实验涵盖多种长度和结构的文本输入,验证了模型在精细控制方面的优势。
- Recent advances in controllable text-to-image generation with structured inputs: 1. 'Align your Latents: High-Resolution Image Synthesis with Latent Diffusion Models' (Rombach et al., CVPR 2022) 2. 'Hierarchical Text-Conditional Image Generation with CLIP Latents' (Chen et al., 2023) 3. 'Composer: Dual Path Diffusion for Complex and Controllable Image Generation' (Li et al., ICLR 2024) 4. 'Tune-A-Image: One-Shot Tuning of Diffusion Models for Text-Conditional Image Editing' (Gal et al., CVPR 2023) 5. 'Prompt-to-Prompt Image Editing with Cross-Attention Control' (Hertz et al., ICCV 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流