Learning Flow Fields in Attention for Controllable Person Image Generation

向作者提问

NEW

简介

可控的人物图像生成旨在根据参考图像生成人物图像，允许对人物的外观或姿态进行精确控制。然而，先前的方法尽管在整体图像质量上取得了较高的成就，但往往会使参考图像中的细粒度纹理细节失真。我们认为这些失真是由于对参考图像中对应区域的关注不足所致。为了解决这一问题，我们提出了在注意力机制中学习流场（Leffa）的方法，该方法在训练过程中显式地引导目标查询关注正确的参考键。具体而言，这是通过在基于扩散模型的基线中对注意力图添加正则化损失来实现的。我们的大量实验表明，Leffa 在控制外观（虚拟试穿）和姿态（姿态转移）方面达到了最先进的性能，显著减少了细粒度细节的失真，同时保持了高图像质量。此外，我们还证明了我们的损失函数与模型无关，可以用于提高其他扩散模型的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决可控人物图像生成中，尽管整体图像质量较高，但参考图像中的细粒度纹理细节常被扭曲的问题。这是一个在可控人物图像生成领域中存在的具体问题。
关键思路

论文提出了一种名为学习流场注意力（Leffa）的方法，通过在注意力层训练过程中显式引导目标查询关注正确的参考键来解决这一问题。具体实现是在扩散模型基线的注意力图上施加一个正则化损失。这种方法创新地利用了流场来指导注意力机制，从而提高了对细粒度细节的控制。
其它亮点

论文通过广泛的实验展示了Leffa在控制外观（虚拟试穿）和姿态（姿态转移）方面的优越性能，显著减少了细粒度细节的失真，同时保持了高图像质量。此外，该方法具有模型无关性，可以用于改进其他扩散模型的性能。论文使用了多个数据集进行实验，并且提供了开源代码，便于后续研究者复现和进一步探索。
相关研究

近年来，在可控人物图像生成领域，一些相关研究包括：1)《ControlGAN: Towards Controllable Image Generation》；2)《Pose-Guided Person Image Generation》；3)《SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization》。这些研究都在不同程度上探讨了如何通过不同的条件信息（如姿态、语义分割等）来生成高质量的人物图像。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问