DiCTI: Diffusion-based Clothing Designer via Text-guided Input

简介

最近深度生成模型的发展为图像合成开辟了广泛的机会，引起了包括时尚行业在内的各种创意领域的重大变革。虽然已经提出了许多方法来使买家受益，特别是在虚拟试衣应用中，但相对较少关注为寻求订购新设计的设计师和客户提供快速原型制作的便利。为了填补这一空白，我们介绍了DiCTI（基于文本引导输入的扩散式服装设计师），这是一种简单而高效的方法，允许设计师仅使用文本输入快速可视化与时尚相关的想法。给定一个人的图像和所需服装的描述作为输入，DiCTI自动生成多个高分辨率、逼真的图像，捕捉所表达的语义。通过利用一个强大的基于扩散的修复模型，该模型以文本输入为条件，DiCTI能够合成具有可行的各种服装设计的令人信服的高质量图像，这些设计遵循所提供的文本描述，同时能够处理非常多样化和具有挑战性的输入，这些输入在完全不受限制的情况下被捕捉到。我们在两个不同的数据集（VITON-HD和Fashionpedia）上进行了全面的实验，并与最先进的技术（SoTa）进行了比较。我们实验的结果表明，DiCTI在生成更精细的服装和更好的文本提示遵从度方面，无论是按照标准的定量评估措施还是按照用户研究生成的人类评分，都比SoTA竞争对手表现出更高的质量。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

论文旨在解决设计师和客户在快速原型设计时的视觉化问题，通过文本输入生成高分辨率、逼真的服装图像。

关键思路

DiCTI使用基于扩散的修复模型来生成服装图像，该模型以文本输入为条件，能够处理非常多样化和具有挑战性的输入。

其它亮点

论文在两个数据集上进行了全面的实验，证明了DiCTI在生成更精细的服装图像和更好地遵循文本提示方面优于现有技术。论文还提供了开源代码。

DiCTI: Diffusion-based Clothing Designer via Text-guided Input

提问交流

提问交流