- 简介本文介绍了一种新颖的适配器模型Stable-Pose,通过引入一种粗到细的注意力掩蔽策略,将其嵌入到视觉Transformer(ViT)中,以获得T2I模型的准确姿势指导,从而解决了当前方法在骨架人体姿势指导下的局限性,特别是在侧面或后方视角的人体姿势复杂情况下。Stable-Pose被设计为能够处理预训练的Stable Diffusion中的姿势条件,提供了一种精细而高效的方法来在图像合成期间对齐姿势表示。我们利用ViTs的查询-键自注意机制探索人体姿势骨架中不同解剖部位之间的相互关系。掩蔽姿势图像被用来平滑地基于目标姿势相关特征逐级细化注意力图,从粗到细的层次过渡。此外,我们的损失函数被制定为在姿势区域分配更多的重视,从而增加模型捕捉复杂姿势细节的精度。我们在五个公共数据集中评估了Stable-Pose的性能,涵盖了各种室内和室外人体姿势场景。在LAION-Human数据集中,Stable-Pose的AP得分为57.1,相对于已建立的技术ControlNet有约13%的改进。该项目的链接和代码可在https://github.com/ai-med/StablePose找到。
- 图表
- 解决问题本论文旨在解决当前T2I模型在受限于骨架人体姿势的情况下表现欠佳的问题,特别是在侧面或后面视角的情况下。
- 关键思路本论文提出了一种新的适配器模型Stable-Pose,将粗到细的注意力掩蔽策略引入ViT中,以获取准确的姿势指导,以提高T2I模型的性能。同时,利用ViT的查询-键自注意机制探索人体姿势骨架中不同解剖部位之间的相互关系,使用掩蔽姿势图像以一种分层的方式平滑地调整注意力图,从粗到细的级别进行过渡。此外,该论文的损失函数被设计为在姿势区域分配更多的重点,从而提高模型捕捉复杂姿势细节的精度。
- 其它亮点本论文在五个公共数据集中评估了Stable-Pose的性能,涵盖了室内和室外的各种人体姿势场景。在LAION-Human数据集中,Stable-Pose获得了57.1的AP分数,相比于已有技术ControlNet提高了约13%。此外,该论文提供了项目链接和代码,值得进一步研究。
- 在最近的相关研究中,还有一些关于T2I模型的研究,例如《Generative Adversarial Networks for Image-to-Image Translation on Multi-Modal Datasets》、《Controllable Text-to-Image Generation with Transformers》等。
沙发等你来抢
去评论
评论
沙发等你来抢