FairHuman: Boosting Hand and Face Quality in Human Image Generation with Minimum Potential Delay Fairness in Diffusion Models

2025年07月03日
  • 简介
    随着大规模文本到图像模型的发展,尤其是扩散模型的应用,图像生成领域取得了显著进展。然而,由于训练过程中对局部区域的监督不足,生成具有合理细节的人体图像(如面部或手部)仍然是一项具有挑战性的任务。为了解决这一问题,我们提出了FairHuman,这是一种多目标微调方法,旨在公平地提升整体和局部的生成质量。具体来说,我们首先构建了三个学习目标:一个来自默认扩散模型的目标函数的全局目标,以及两个基于预标注位置先验信息的手部和面部局部目标。随后,在最小潜在延迟(MPD)准则的指导下,我们推导出最优的参数更新策略,从而实现对该多目标问题的公平感知优化。在此基础上,我们提出的方法能够在保持整体生成质量的同时,显著改善具有挑战性的局部细节生成效果。大量实验表明,我们的方法在不同场景下均能有效提升人体图像生成的性能。
  • 图表
  • 解决问题
    论文试图解决在生成人类图像时,局部细节(如面部和手部)不够真实、缺乏监督的问题。这仍然是一个持续存在的挑战,尤其是在大规模文本到图像生成模型中。
  • 关键思路
    提出了一种名为FairHuman的多目标微调方法,通过引入全局目标和基于位置先验的局部目标(针对面部和手部),并利用最小潜在延迟(MPD)准则优化参数更新策略,以公平地提升全局与局部生成质量。
  • 其它亮点
    1. 构建了三个学习目标:一个全局目标和两个局部目标(面部和手部) 2. 基于MPD准则设计了公平感知的优化策略 3. 实验表明该方法在生成复杂局部细节方面表现优异,同时保持整体图像质量 4. 可能开源代码或使用公开可用的人类图像数据集进行训练
  • 相关研究
    1. Diffusion Models for Image Generation: A Survey (2023) 2. Towards Fair Multi-Objective Optimization in Deep Learning (2022) 3. Positional Priors in Human Image Generation (2024) 4. Improving Local Detail Synthesis via Region-Aware Diffusion Models (2023)
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论