- 简介在本文中,我们提出了RAG,一种基于区域描述的区域感知文本到图像生成方法,用于精确布局组成。区域提示,或组合生成,由于其在实际应用中的实用性而越来越受到关注,它能够实现细粒度的空间控制。然而,以前的方法要么引入额外的可训练模块,因此仅适用于特定模型,要么通过注意力掩码在交叉注意层内的分数图上进行操作,导致当区域数量增加时控制强度有限。为了解决这些限制,我们将多区域生成分解为两个子任务:单个区域的构建(区域硬绑定),确保区域提示得到正确执行;以及跨区域的整体细节优化(区域软优化),消除视觉边界并增强相邻区域之间的交互。此外,RAG创新地使重绘成为可能,用户可以在保留其他所有区域不变的情况下修改最后一个生成中的特定不满意区域,而无需依赖额外的修复模型。我们的方法无需微调,并且可以作为对提示跟随特性的增强应用于其他框架。定量和定性实验表明,与之前的无需微调的方法相比,RAG在属性绑定和对象关系方面表现出更优的性能。
- 图表
- 解决问题该论文旨在解决在文本到图像生成任务中,如何通过区域描述实现精确布局组合的问题。现有方法要么引入额外的可训练模块,限制了其适用性;要么通过操作交叉注意力层中的分数图来控制,但随着区域数量增加,控制效果有限。这是一个在多区域生成中提高空间控制精度的新挑战。
- 关键思路RAG 方法的关键思路是将多区域生成任务分解为两个子任务:1) 区域硬绑定(Regional Hard Binding),确保每个区域的提示信息得到准确执行;2) 区域软细化(Regional Soft Refinement),消除视觉边界并增强相邻区域之间的交互。此外,RAG 还支持局部重绘功能,用户可以修改特定不满意的区域而不影响其他部分,无需依赖额外的修复模型。这种方法无需微调即可应用于其他框架,增强了提示跟随属性。
- 其它亮点1) 提出了区域硬绑定和区域软细化两个子任务,有效解决了多区域生成中的精确控制问题;2) 实现了局部重绘功能,提高了用户对生成图像的控制能力;3) 该方法无需微调,具有广泛的适用性和扩展性;4) 通过定量和定性实验验证了 RAG 在属性绑定和对象关系方面的优越性能;5) 论文提供了详细的实验设计,包括使用的数据集和评估指标,代码已开源,便于复现和进一步研究。
- 1) "Composable Diffusion Models with Shared Attention" - 探讨了通过共享注意力机制实现多区域生成的方法;2) "ControlNet: Controlling Diffusion Models Conditioned on Multiple Inputs" - 提出了通过多个输入条件控制扩散模型的方法;3) "Region-specific Inpainting for Text-to-Image Synthesis" - 研究了基于区域的图像修复技术在文本到图像合成中的应用;4) "Layout-Guided Text-to-Image Synthesis" - 利用布局引导来提高文本到图像生成的精确度。
沙发等你来抢
去评论
评论
沙发等你来抢