DreamVTON: Customizing 3D Virtual Try-on with Personalized Diffusion Models

2024年07月23日
  • 简介
    基于图像的三维虚拟试穿(VTON)旨在根据人物和服装图像对三维人体进行雕刻,这是一种数据高效的方法(即摆脱昂贵的三维数据),但也具有挑战性。最近的文本到三维方法在高保真三维人体生成方面取得了显著进展,展示了它在三维虚拟试穿方面的潜力。受个性化扩散模型(例如Dreambooth和LoRA)在二维VTON方面的卓越成功启发,将个性化技术整合到基于扩散的文本到三维框架中,实现3D VTON是直接的。然而,在预训练的扩散模型(例如StableDiffusion(SD))中使用个性化模块会降低模型的多视角或多域综合能力,这对于由得分蒸馏采样(SDS)损失引导的几何和纹理优化是有害的。在这项工作中,我们提出了一种新的定制化3D人体试穿模型,名为\textbf{DreamVTON},以分别优化三维人体的几何和纹理。具体而言,提出了一个个性化的SD与多概念LoRA,为特定的人物和服装提供生成先验,同时利用Densepose引导的ControlNet保证了各种摄像机视角下身体姿势的一致先验。此外,为了避免个性化SD中的不一致多视角先验主导优化,DreamVTON引入了基于模板的优化机制,采用掩模模板进行几何形状学习,采用法线/RGB模板进行几何/纹理细节学习。此外,在几何优化阶段,DreamVTON将法线样式LoRA整合到个性化SD中,增强法线图生成先验,便于平滑几何建模。
  • 图表
  • 解决问题
    本论文旨在解决基于图像的三维虚拟试穿(VTON)的问题,即如何通过个人和衣服图像来塑造三维人体,以实现数据高效性。
  • 关键思路
    文中提出了一种名为DreamVTON的定制三维人体试穿模型,通过个性化的稳定扩散模型和多概念的LoRA提供特定人物和服装的生成先验,通过Densepose引导的ControlNet确保各种摄像机视角下的一致先验,同时引入基于模板的优化机制来避免个性化模型的多视角先验支配优化,并整合了正常风格的LoRA来增强正常图生成先验,从而实现三维人体的几何和纹理优化。
  • 其它亮点
    该模型的亮点包括使用个性化的稳定扩散模型和多概念的LoRA提供生成先验、使用Densepose引导的ControlNet确保一致先验、引入基于模板的优化机制来避免多视角先验支配优化、整合了正常风格的LoRA来增强正常图生成先验等。实验使用了DeepFashion和iPER数据集,并提供了开源代码。
  • 相关研究
    与本论文相关的研究包括:Text2Shape、LoRA、Dreambooth和StableDiffusion等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论