HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance

向作者提问

NEW

简介

文本到图像扩散模型在条件图像生成方面已经有了显著的进展。然而，这些模型通常难以准确地渲染人物图像，导致肢体扭曲和其他异常。这个问题主要源于扩散模型对肢体特征的识别和评估不足。为了解决这个问题，我们介绍了AbHuman，第一个专注于解剖异常的大规模合成人类基准。该基准由56K个合成人类图像组成，每个图像都带有详细的、边界框级别的标签，识别出18个不同类别中的147K个人类异常。基于此，人类异常的识别可以得到建立，从而通过传统的负面提示和指导等技术增强图像生成。为了进一步提高改进效果，我们提出了HumanRefiner，一种新颖的插入式方法，用于文本到图像生成中粗到精细的人体异常细化。具体而言，HumanRefiner利用自我诊断程序来检测和纠正与粗粒度异常人体姿势和细粒度异常水平有关的问题，促进可逆姿态扩散生成。在AbHuman基准测试中的实验结果表明，HumanRefiner显著减少了生成差异，与最先进的开源生成器SDXL相比，肢体质量提高了2.9倍，比DALL-E 3提高了1.4倍。我们的数据和代码可在https://github.com/Enderfga/HumanRefiner上获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决条件图像生成中人类肢体畸形问题，提出了AbHuman数据集和HumanRefiner方法来改善生成结果。
关键思路

AbHuman数据集是第一个大规模合成的人类畸形标准，HumanRefiner方法则是一种粗到细的人类畸形修正方法，通过自诊断程序检测和纠正粗细畸形问题，从而改善生成结果。
其它亮点

论文提出了AbHuman数据集，包含56K个合成人类图像，每个图像都有详细的标注，共涉及18个类别的147K个人类畸形。HumanRefiner方法显著改善了生成结果，实验结果表明，与SDXL和DALL-E 3相比，HumanRefiner分别实现了2.9倍和1.4倍的肢体质量改善。论文提供了数据和代码。
相关研究

与本论文相关的研究包括条件图像生成、人类姿态识别和畸形检测等方面的研究，例如：《DALL-E 3: Imagining Anything》、《Learning to Generate Images of Humans with Hierarchical Body Segments》、《Deep Learning for Human Part Discovery in Images》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问