- 简介时尚插画是设计师传达创意愿景并将设计概念转化为具体呈现,展示服装与人体之间相互作用的关键媒介。在时尚设计的背景下,计算机视觉技术有潜力增强和简化设计过程。本文不同于以往主要关注虚拟试穿的研究,而是解决了多模态条件下的时尚图像编辑任务。我们的方法旨在生成以人为中心的时尚图像,受到多模态提示的指导,包括文本、人体姿势、服装草图和面料纹理。为了解决这个问题,我们提出扩展潜在扩散模型以纳入这些多个模态,并修改去噪网络的结构,以多模态提示作为输入。为了将所提出的架构与面料纹理相结合,我们采用文本反演技术,并让去噪网络的不同交叉注意层关注文本和纹理信息,从而纳入不同的细节条件。鉴于缺乏此任务的数据集,我们扩展了两个现有的时尚数据集Dress Code和VITON-HD,加入了多模态注释。实验评估证明了我们提出的方法在关于所提供的多模态输入的逼真度和连贯性方面的有效性。
- 图表
- 解决问题论文旨在解决时尚设计中的多模态条件图像编辑问题,即如何生成由多种提示条件引导的人体中心时尚图像。同时,论文也扩展了现有时尚数据集,增加了多模态注释。
- 关键思路论文提出了一种基于扩展潜在扩散模型的多模态条件图像编辑方法,该方法能够将文本、人体姿势、服装草图和面料纹理等多种提示条件结合起来,生成逼真且具有连贯性的时尚图像。为了实现这一目标,论文修改了去噪网络的结构,将多模态提示作为输入,并利用文本反演技术和跨注意力层来将纹理信息融入到模型中。
- 其它亮点论文扩展了两个现有的时尚数据集,增加了多模态注释,为后续研究提供了基础。实验结果表明,该方法在逼真性和连贯性方面都表现出色。此外,论文还探讨了不同的条件提示对生成图像的影响,并进行了相应的定量分析。
- 最近在这个领域中,还有一些相关的研究,例如:'Dressing up to Face the Future: A Survey on Fashion and Technology', 'FashionGAN: A Generative Model for Fashion Images', 'Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms in Fashion Classification'等。
沙发等你来抢
去评论
评论
沙发等你来抢