From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation

简介

最近，可控制的人类图像生成技术取得了进展，通过结构信号（例如姿势、深度）或面部外貌实现了零样本生成。然而，基于人类外貌多个部分的条件生成仍然具有挑战性。为了解决这个问题，我们介绍了一个名为Parts2Whole的新框架，旨在从多个参考图像（包括姿势图像和人类外貌的各个方面）生成定制肖像。为了实现这一目标，我们首先开发了一个语义感知的外貌编码器，以保留不同人体部位的细节，该编码器根据文本标签将每个图像处理为一系列多尺度特征图，而不是一个图像标记，从而保留了图像的维度。其次，我们的框架通过一个共享的自注意机制支持多图像条件生成，在扩散过程中在参考和目标特征之间进行操作。我们通过将参考人类图像的掩码信息纳入注意机制中来增强基本的注意机制，从而实现对任何部位的精确选择。广泛的实验表明，我们的方法优于现有的替代方法，为多部位可控制的人类图像定制提供了先进的能力。请访问我们的项目页面https://huanngzh.github.io/Parts2Whole/。
图表
解决问题

论文旨在解决多部分人类形象生成的问题，包括姿势、深度和面部外貌等方面的参考图像。这是否是一个新问题？
关键思路

论文提出了Parts2Whole框架，该框架通过语义感知外貌编码器和共享自注意力机制实现多图像条件生成。语义感知外貌编码器可以保留不同人体部位的细节，并通过文本标签将每个图像处理为一系列多尺度特征图，而不是一个图像标记。共享自注意力机制可以在扩散过程中跨参考和目标特征操作，通过从参考人体图像中融合掩码信息来精确选择任何部分。
其它亮点

论文通过实验表明，Parts2Whole框架优于现有的替代方案，具有先进的多部分可控人类图像定制能力。作者还提供了开源代码和数据集。
相关研究

在这个领域中，最近的相关研究包括：1. 'Controllable Person Image Synthesis with Spatial-Aware Locality Hypothesis'；2. 'Deep Image Synthesis for Multiple Humans with Part-Specific Representations'；3. 'Learning to Generate Multi-Part People Images with Semantic Conditioned Layout'。

From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation

评论