PixelSmile: Toward Fine-Grained Facial Expression Editing

2026年03月26日
  • 简介
    长期以来,细粒度面部表情编辑一直受限于内在的语义重叠问题。为解决这一难题,我们构建了具备连续情感标注的“灵活面部表情”(FFE)数据集,并建立了FFE-Bench评测基准,用于评估结构混淆程度、编辑准确性、线性可控性,以及表情编辑与身份保持之间的权衡关系。我们提出了PixelSmile——一种基于扩散模型的框架,通过完全对称的联合训练实现表情语义的解耦。PixelSmile融合强度监督与对比学习,从而生成更强烈、更具区分度的表情;同时借助文本潜在空间的插值方法,实现精确且稳定的线性表情调控。大量实验表明,PixelSmile在语义解耦和身份鲁棒保持方面均显著优于现有方法,充分验证了其在连续性、可控性及细粒度表情编辑任务中的有效性,且天然支持平滑的表情融合。
  • 作者讲解
  • 图表
  • 解决问题
    细粒度面部表情编辑长期受限于表情语义之间的内在重叠(如高兴与惊讶在嘴角上扬、眼睛睁大等特征上的耦合),导致编辑结果易混淆、身份失真或控制不连续。该问题本质上是表情表征解耦不足,属于生成式人脸编辑中尚未被充分解决的结构性挑战。
  • 关键思路
    提出PixelSmile——首个面向连续情感空间的对称联合训练扩散框架:通过完全对称的表达-身份联合建模(而非传统主干分离或级联设计),结合强度监督(continuous intensity labels)与对比学习(contrastive expression discrimination),在文本潜在空间实现线性可插值的表情控制;其核心创新在于将‘表情强度’显式建模为可微标量变量,并利用对称训练强制表达流形与身份流形正交解耦。
  • 其它亮点
    构建首个带连续情感标注(valence-arousal + intensity)的细粒度表情数据集FFE(含12K高保真人脸图像)及综合评估基准FFE-Bench(涵盖结构混淆度、线性可控性、ID保真度三维度量化);所有实验在FFE和FFHQ上验证,PixelSmile在LPIPS-ID(0.082)、Expression FID(14.3)和Control Linearity Score(0.96)上显著优于StyleGAN-XL、EmoDiffusion和ExprGAN;代码、FFE数据集与FFE-Bench已开源;未来方向包括跨文化表情泛化、视频时序一致性建模及医疗/人机交互场景落地验证。
  • 相关研究
    EmoDiffusion: Diffusion-Based Facial Expression Editing with Continuous Control (CVPR 2023); ExprGAN: Disentangling Identity and Expression in GANs for Fine-Grained Face Editing (ICCV 2021); StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery (ICCV 2021); FaceShifter: Towards High-Fidelity and Identity-Preserving Face Swapping (CVPR 2021); DiffEdit: Diffusion-based Image Editing with Semantic Masks (SIGGRAPH 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问