MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation

向作者提问

NEW

简介

本文介绍了MMTryon，一种多模态多参考虚拟试衣(VITON)框架，可以通过输入文本指令和多个服装图像生成高质量的组合试穿结果。我们的MMTryon主要解决了先前文献中忽视的两个问题：1）支持多个试穿物品和着装风格，现有方法通常设计用于单品试穿任务（例如上/下装、连衣裙），在定制着装风格（例如拉链/解开、塞进/拿出等）方面效果不佳；2）分割依赖性，它们进一步严重依赖于类别特定的分割模型来识别替换区域，分割错误直接导致试穿结果中出现显著的伪影。对于第一个问题，我们的MMTryon引入了一种新颖的多模态和多参考注意机制，将来自参考图像的服装信息和来自文本指令的着装风格信息相结合。此外，为了消除分割依赖性，MMTryon使用无解析的服装编码器，并利用一种新颖的可扩展数据生成管道将现有的VITON数据集转换为一种形式，使得MMTryon可以在不需要任何显式分割的情况下进行训练。对高分辨率基准和野外测试集的广泛实验表明，MMTryon在定性和定量上均优于现有的SOTA方法。此外，MMTryon在多物品和可控制风格的虚拟试穿场景中表现出色，并且可以在任何来源图像的大量场景中试穿任何服装，为未来时尚社区的研究开辟了新的道路。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本文旨在解决多物品虚拟试衣场景中的多样性和分割依赖问题。目前的方法往往只能处理单个物品的试穿任务，且无法定制不同的着装风格。此外，它们还严重依赖于特定类别的分割模型，这会导致试穿结果出现明显的伪影。
关键思路

本文提出了一种多模态和多参考注意力机制，将来自参考图像的服装信息和来自文本指令的着装风格信息相结合。此外，为了消除分割依赖性，本文使用了一种无需解析的服装编码器，并利用一种可扩展的数据生成管道将现有的虚拟试衣数据集转换为一种形式，使得MMTryon可以在不需要任何显式分割的情况下进行训练。
其它亮点

本文在高分辨率基准测试和野外测试集上进行了广泛的实验，证明了MMTryon在质量和数量上均优于现有的SOTA方法。此外，MMTryon在多物品和样式可控的虚拟试衣场景中表现出色，其能力在任何来源图像的大量场景中试穿任何服装，为未来的研究开辟了新的道路。
相关研究

最近的相关研究包括："Towards Photo-Realistic Virtual Try-On by Adaptively Generating-Preserving Image Content"、"Learning Fashion Compatibility with Bidirectional LSTMs"、"Virtually Trying on New Clothing with Arbitrary Poses"等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问