Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

向作者提问

NEW

简介

文本到图像模型已迅速从随意的创意工具发展为专业级系统，在图像质量和真实感方面达到了前所未有的水平。然而，大多数模型被训练为将简短提示映射为详细图像，导致稀疏的文本输入与丰富的视觉输出之间存在鸿沟。这种不匹配降低了对生成过程的可控性：模型往往以任意方式填补缺失细节，偏向于普通用户的偏好，从而限制了在专业场景中的精确控制能力。为解决这一局限，我们首次在长篇结构化描述上训练开源文本到图像模型，其中每个训练样本均标注有一组相同的细粒度属性。该设计最大限度地扩展了表达覆盖范围，并实现了对视觉因素的解耦控制。为了高效处理长文本描述，我们提出了DimFusion——一种融合机制，可在不增加序列长度的前提下，整合来自轻量级大语言模型的中间层token。我们还引入了一种名为“文本作为瓶颈的重建”（TaBR）的评估协议。通过评估真实图像在“描述生成—图像重建”循环中的还原程度，TaBR能够直接衡量模型的可控性和表达能力，即使在现有评估方法失效的极长描述情况下亦能有效工作。最后，我们通过训练大规模模型FIBO验证了上述贡献，在开源模型中实现了最先进的提示对齐性能。模型权重已公开发布于 https://huggingface.co/briaai/FIBO
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的文本到图像模型通常使用简短的提示语生成图像，导致输入文本信息稀疏与输出图像细节丰富之间存在不匹配，从而降低生成结果的可控性。模型往往根据训练数据中的常见模式填补缺失细节，偏向普通用户偏好，难以满足专业场景对精确控制的需求。这是一个尚未被充分解决的重要问题，尤其在需要高精度属性控制的应用中显得尤为突出。
关键思路

提出首个基于长结构化描述（long structured captions）训练的开源文本到图像模型，通过统一标注细粒度属性实现更全面的语言表达和解耦的视觉控制；设计DimFusion机制，利用轻量级大语言模型的中间token进行高效融合而不增加序列长度，提升长文本处理能力；引入新的评估协议Text-as-a-Bottleneck Reconstruction (TaBR)，通过‘图像→描述→重建’循环直接衡量模型的可控性与表达力。
其它亮点

构建了大规模模型FIBO，在开源模型中实现了最先进的提示对齐性能；DimFusion有效解决了长文本输入带来的计算负担问题；TaBR为长提示下的模型评估提供了可靠新标准，弥补了传统指标（如CLIP Score）在复杂语义上的不足；所有模型权重已公开发布于Hugging Face，促进可复现研究与社区发展；实验涵盖多种长度和结构的文本输入，验证了模型在精细控制方面的优势。
相关研究

Recent advances in controllable text-to-image generation with structured inputs: 1. 'Align your Latents: High-Resolution Image Synthesis with Latent Diffusion Models' (Rombach et al., CVPR 2022) 2. 'Hierarchical Text-Conditional Image Generation with CLIP Latents' (Chen et al., 2023) 3. 'Composer: Dual Path Diffusion for Complex and Controllable Image Generation' (Li et al., ICLR 2024) 4. 'Tune-A-Image: One-Shot Tuning of Diffusion Models for Text-Conditional Image Editing' (Gal et al., CVPR 2023) 5. 'Prompt-to-Prompt Image Editing with Cross-Attention Control' (Hertz et al., ICCV 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问