CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models

2024年07月21日
  • 简介
    基于扩散模型的虚拟试穿方法可以实现逼真的试穿效果,但通常会将骨干网络复制为ReferenceNet或使用额外的图像编码器来处理条件输入,导致训练和推理成本高。在本文中,我们重新思考了ReferenceNet和图像编码器的必要性,并通过提出CatVTON来创新衣服和人之间的交互,这是一种简单高效的虚拟试穿扩散模型。CatVTON通过在空间维度上简单地将商店或已穿衣服的任何类别与目标人物连接起来作为输入,实现了无缝传输。我们的模型的效率体现在三个方面:(1)轻量级网络:仅使用原始扩散模块,没有额外的网络模块。去掉了骨干网络中用于注入文本的文本编码器和交叉注意力,将参数减少了167.02M。(2)参数高效的训练:我们通过实验确定了与试穿相关的模块,并通过仅训练49.57M参数(约为骨干网络参数的5.51%)实现了高质量的试穿效果。(3)简化推理:CatVTON消除了所有不必要的条件和预处理步骤,包括姿势估计、人体解析和文本输入,仅需要服装参考、目标人物图像和掩码进行虚拟试穿过程。广泛的实验表明,与基线方法相比,CatVTON具有更少的先决条件和可训练参数,实现了优异的定性和定量结果。此外,尽管使用的是仅有73K样本的开源数据集,CatVTON在野外场景中表现出良好的泛化能力。
  • 图表
  • 解决问题
    本论文旨在提出一种简单高效的虚拟试穿扩散模型,以解决现有模型中高昂的训练和推理成本的问题。
  • 关键思路
    CatVTON模型通过在空间维度上简单地将服装和人物拼接在一起作为输入,实现了轻量级网络、高效的参数训练和简化的推理过程,同时保持了高质量的试穿效果。
  • 其它亮点
    该模型在实验中展现出了优秀的定性和定量结果,且仅使用了开源数据集,可在野外环境中实现良好的泛化性能。此外,论文还强调了模型的轻量级和高效性,以及训练过程中的参数优化方法。
  • 相关研究
    在相关研究中,最近有一些工作探索了虚拟试穿的方法,例如:《Virtually Trying on New Clothes: A Multi-task Learning Framework》、《Towards Photo-Realistic Virtual Try-On by Adaptively Generating-Preserving Image Content》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论