PixelSmile: Toward Fine-Grained Facial Expression Editing

向作者提问

NEW

简介

长期以来，细粒度面部表情编辑一直受限于内在的语义重叠问题。为解决这一难题，我们构建了具备连续情感标注的“灵活面部表情”（FFE）数据集，并建立了FFE-Bench评测基准，用于评估结构混淆程度、编辑准确性、线性可控性，以及表情编辑与身份保持之间的权衡关系。我们提出了PixelSmile——一种基于扩散模型的框架，通过完全对称的联合训练实现表情语义的解耦。PixelSmile融合强度监督与对比学习，从而生成更强烈、更具区分度的表情；同时借助文本潜在空间的插值方法，实现精确且稳定的线性表情调控。大量实验表明，PixelSmile在语义解耦和身份鲁棒保持方面均显著优于现有方法，充分验证了其在连续性、可控性及细粒度表情编辑任务中的有效性，且天然支持平滑的表情融合。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

细粒度面部表情编辑长期受限于表情语义之间的内在重叠（如高兴与惊讶在嘴角上扬、眼睛睁大等特征上的耦合），导致编辑结果易混淆、身份失真或控制不连续。该问题本质上是表情表征解耦不足，属于生成式人脸编辑中尚未被充分解决的结构性挑战。
关键思路

提出PixelSmile——首个面向连续情感空间的对称联合训练扩散框架：通过完全对称的表达-身份联合建模（而非传统主干分离或级联设计），结合强度监督（continuous intensity labels）与对比学习（contrastive expression discrimination），在文本潜在空间实现线性可插值的表情控制；其核心创新在于将‘表情强度’显式建模为可微标量变量，并利用对称训练强制表达流形与身份流形正交解耦。
其它亮点

构建首个带连续情感标注（valence-arousal + intensity）的细粒度表情数据集FFE（含12K高保真人脸图像）及综合评估基准FFE-Bench（涵盖结构混淆度、线性可控性、ID保真度三维度量化）；所有实验在FFE和FFHQ上验证，PixelSmile在LPIPS-ID（0.082）、Expression FID（14.3）和Control Linearity Score（0.96）上显著优于StyleGAN-XL、EmoDiffusion和ExprGAN；代码、FFE数据集与FFE-Bench已开源；未来方向包括跨文化表情泛化、视频时序一致性建模及医疗/人机交互场景落地验证。
相关研究

EmoDiffusion: Diffusion-Based Facial Expression Editing with Continuous Control (CVPR 2023); ExprGAN: Disentangling Identity and Expression in GANs for Fine-Grained Face Editing (ICCV 2021); StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery (ICCV 2021); FaceShifter: Towards High-Fidelity and Identity-Preserving Face Swapping (CVPR 2021); DiffEdit: Diffusion-based Image Editing with Semantic Masks (SIGGRAPH 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问