CosmicMan: A Text-to-Image Foundation Model for Humans

向作者提问

NEW

简介

我们介绍了CosmicMan，这是一个专门用于生成高保真人类图像的文本到图像基础模型。与当前的通用基础模型不同，它们在人类图像的质量和文本-图像对齐方面陷入了困境，CosmicMan能够生成外观精细、结构合理、文本-图像对齐精确的照片级人类图像，具有详细的密集描述。CosmicMan的成功关键在于数据和模型方面的新反思和观点：（1）我们发现，数据质量和可扩展的数据生成流程对于训练模型的最终结果至关重要。因此，我们提出了一种新的数据生产范式，即“Annotate Anyone”，它作为一个永久的数据飞轮，可以随着时间的推移产生高质量、准确而具有成本效益的注释数据。基于此，我们构建了一个大规模数据集CosmicMan-HQ 1.0，其中包含600万张高质量的真实世界人类图像，平均分辨率为1488x1255，并附有来自1.15亿个属性的精确文本注释，这些属性具有不同的粒度。（2）我们认为，专门针对人类的文本到图像基础模型必须是实用的——易于集成到下游任务中，同时在生成高质量人类图像方面也要有效。因此，我们提出了一种分解式注意力重点（Daring）训练框架，用于建模密集文本描述和图像像素之间的关系。它无缝地分解了现有文本到图像扩散模型中的交叉注意力特征，并在不添加额外模块的情况下强制进行注意力重点调整。通过Daring，我们展示了将连续的文本空间明确离散化为几个与人体结构对齐的基本组是轻松解决对齐问题的关键。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文旨在解决当前通用基础模型在生成高保真度人类图像方面存在的问题，即图像质量较低和文本-图像不对齐的困境。
关键思路

关键思路：论文提出了Annotate Anyone数据生产范式和Decomposed-Attention-Refocusing（Daring）训练框架。Annotate Anyone是一种持续的数据生产模式，可以产生高质量的数据，并附带准确而经济的注释，而Daring框架则通过将交叉注意力特征分解并强制进行注意力重心，以离散化连续文本空间来解决人体结构不对齐的问题。
其它亮点

其他亮点：论文构建了一个大规模数据集CosmicMan-HQ 1.0，其中包含600万张高质量真实世界人类图像和115亿个属性的精确文本注释。实验结果表明，CosmicMan可以生成外观精细、结构合理、文本-图像对齐准确的逼真人类图像。此外，论文还开源了代码。
相关研究

相关研究：最近的相关研究包括《Generative Adversarial Text-to-Image Synthesis》、《StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问