Fine-tuning Diffusion Models for Enhancing Face Quality in Text-to-image Generation

简介

Diffusion models（DMs）在生成图像方面已经取得了显著的成功，但在处理细节复杂的现实场景时可能会出现问题。文本到图像生成中低质量、不真实的人脸是最突出的问题之一，这阻碍了DMs在实践中的广泛应用。为了解决这个问题，我们首先通过人类标注员的帮助评估了流行的预训练DMs的生成人脸质量，然后评估了现有指标（如ImageReward、人类偏好分数、美学分数预测器和人脸质量评估）与人类判断之间的一致性。观察到现有指标可能无法令人满意地量化人脸质量，我们通过在由DMs的修复管道廉价制作的（好、坏）人脸对数据集上微调ImageReward来开发一种新的指标，称为Face Score（FS）。广泛的研究表明，FS与人类的一致性更好。另一方面，FS为改进DMs的人脸生成打开了大门。为了实现这一目标，我们在前述人脸对的去噪轨迹上引入了指导损失，以微调预训练的DMs，如稳定扩散V1.5和逼真视觉V5.1。直观地说，这种损失将不好的人脸的轨迹推向好的人脸的轨迹。全面的实验验证了我们的方法在提高人脸质量的同时保持了DMs的通用能力的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决Diffusion models (DMs)在生成高质量真实人脸图像方面的问题，以及现有度量方法不足以准确评估人脸质量的问题。
关键思路

论文提出了一种新的人脸质量度量方法Face Score (FS)，并利用这个度量方法进行fine-tuning pre-trained DMs来提高生成人脸的质量。
其它亮点

论文通过人工标注和多个度量方法的比较，发现现有度量方法无法准确评估人脸质量，因此提出了一种新的人脸质量度量方法FS。此外，论文还提出了一种fine-tuning pre-trained DMs的方法，通过引入denoising trajectories的guidance loss来提高生成人脸的质量。实验结果表明，这种方法能够有效地提高生成人脸的质量。
相关研究

最近相关的研究包括：Generative Adversarial Networks (GANs)和Variational Autoencoders (VAEs)等。

Fine-tuning Diffusion Models for Enhancing Face Quality in Text-to-image Generation

提问交流

提问交流