1、概述
在数字化浪潮的今天,时尚电商已从简单的“货架式”陈列步入了“体验为王”的新时代。以模特为中心的内容素材是时尚行业的供给基础,我们探索“万物穿戴”的AIGC技术将为时尚供应链带来变化。
● 对于用户:从“想象”到“预见”,提升购物确定性。用户可以将衣服、配饰等商品"穿"在自己的数字形象上,直观了解商品的合身度和搭配效果,获得个性化的购物体验。
● 对于商家:从“高成本”到“高效率”,实现双重收益。一方面,商家可借助前沿AI技术快速生产高质量素材,避免传统电商拍摄耗时耗力的问题;另一方面,高退货率作为时尚电商的"阿喀琉斯之踵",通过虚拟试穿提升用户购物确定性,可从源头降低退货率,提升商家盈利能力。

我们推出淘宝星辰·服饰生图模型,该模型具备一键式生成模特展示商品素材的能力,涵盖多品类(服装、箱包、鞋靴等)、 多模特人群(男性、女性、儿童)和多样化输入形式(平铺图、非平铺图、Mask-Free)输入,支持多个业务场景,可在万象营造进行体验使用。相比以往类似技术方案,我们在三个核心维度实现突破:
● 更好的一致性:突破多个控制条件下模型对于条件输入的一致性保持能力,让生成的素材更“像”;
● 更美的图片内容:加强对于人物本身的刻画,提升人物肤感、姿态等自然度,让模特主体更“真”;
● 更广的业务支撑:包涵不同类目和素材展示形式,可从多个维度丰富素材,让技术落地场景更“广”;
2、方案
2.1 数据基建

高质量训练数据是驱动模型能力提升的核心引擎,我们进行了广泛的数据寻源工作。为了提高数据清洗效率,构筑了一套完整的自动化数据筛选链路,沉淀单图精筛、多图组对等多个阶段的清洗流程。在清洗过程中,我们主要从以下几个维度来定义高质量数据:
● 条件一致性:确保输入条件与生成结果的精准对应,避免多SKU错位匹配的情况,在颜色、款式、图案等细节上保持一致;
● 类别多样性:针对收集数据,从商品类目、模特姿态、背景总类、拍摄风格等多个维度进行深入打标与类别均衡,全面提升模型的泛化性和控制能力;
● 内容美观度:过滤存在质量问题的低质内容,从图像美学角度筛选出更加符合设计师审美的高质量图像内容,让模型有更加优质的训练监督信号;
经过上述流程,我们积累了一个高质量、高一致性、高多样性的百万级多模态时尚数据集,这份核心数据资产在快速提升模型能力的同时帮助我们承接多样业务场景。另外,在实际训练过程中,我们发现Capiton描述对于模型训练至关重要,为此我们从以下几个方面进行Capiton专项优化:
● Caption范式:面向以模特为中心的可控穿戴任务,我们设计了一套创新的“差异化解耦”Caption范式,该范式核心在于根据控制信号来源自适应调整描述详略程度。例如,对于由图像直接提供的元素(如人脸、服饰),我们采用摘要式简述以确保高保真度;相对地,对于仅由文本控制的元素,如模特姿势、场景背景等,我们则进行详尽且结构化的描述。
● Caption评估:为科学量化Caption质量并持续提供Caption优化方向,我们与未来生活实验室合作建立了一套自动化与人工评测相结合的双轨评测体系。该体系清晰地定义可量化的内容维度和分层的描述元素得分点,例如姿态描述的准确性、配件描述的融入自然度、背景氛围的渲染力等。通过这套评测基准,我们得以验证一个关键假设:Caption评测得分与下游生成模型的最终效果呈正相关。这成功地在“数据质量”与“模型效果”之间搭建起一座可度量的桥梁,使我们能够直接利用评测分数来指导ReCaption模型的迭代方向,为数据生产和模型优化形成了关键的闭环指导。
● Caption模型:为了将我们高标准的数据范式规模化应用于海量数据,我们通过一个高效的两阶段策略,构建了自研的FashionCaptioner模型。在第一阶段,我们利用业界顶尖的多模态大模型,并结合我们自研的、包含数十条细则的专家级指令,对一部分精选图像进行超精细标注,从而产出一个小规模、高密度、完全符合我们范式的“黄金”图文对数据集。在第二阶段,我们以此“黄金”数据集为核心训练数据,对我们自己的ReCaption模型进行微调,使其精准掌握我们独特的差异化标注范式,最终形成成熟的FashionCaptioner。
2.2 模型介绍

对于参考生图模型,多条件的一致性数据是极难获取的,通常我们能获取到的数据都只是单条件一致性数据,例如在一家商铺中,同时筛选出单件服饰平铺图数据和模特上身图数据是比较容易的,但如果想同时筛选出上下衣、人脸、鞋子、包包等配对数据则是十分困难的。因此我们设计了一种基于单参考图数据训练多参考图的框架,在这种架构下,我们可以方便地进行各种类目的扩展,并且由于大量单条件数据对的训练,我们的模型在不同类目的泛化方面也展现出了优秀的效果。另外,我们设计了多阶段的训练策略,来循序渐进地解决多参考生成中的一致性、美观度、稳定性问题。
Stage 1:一致性学习:通过大量的单条件混合数据训练模型,使得模型能够快速学习到一致性生成能力。
Stage 2:美观度微调:由于上个阶段训练数据混杂,模型生图美观度仍有进步空间。对此,我们收集了一部分高质量的美观数据进行精细化微调,使得模型生图的美观度和质感有较大提升。
Stage 3:强化训练:完成上述阶段训练后,我们发现在控制条件数量增多情况下人脸一致性有所下降,因此我们引入人脸一致性奖励进行强化训练。同时,由于淘宝星辰·服饰生图模型侧重于电商领域的人物穿戴应用,人体自然度对于成图效果至关重要,我们额外引入内部训练的人体畸形判断模型作为奖励来降低畸形人体的概率,提升模型生图稳定性。
3、效果展示
✅Model-Based(基于用户输入的模特图进行换装)
✅Model-Free(无需用户输入模特图)
多模特人群(男性、女性、儿童)
多样化输入形式(平铺服饰、非平铺服饰)
多品类(箱包、鞋子)
✅Pose-Transfer
注释:文中原始图片素材均来源于淘宝商家及开源网站,所有图文素材仅用于演示技术研发与应用效果,如有不当之处,请联系我们处理
作者:顾知、画槿、求是、麒霁、时情、曦昭、晓旗、也鹿(首字母排序)

💡 关于我们
我们是阿里妈妈智能创作与AI应用团队,专注于图片、视频、文案等各种形式创意的智能制作与投放,产品覆盖阿里妈妈内外多条业务线,欢迎各业务方关注与业务合作。同时,真诚欢迎具备CV、NLP相关背景同学加入,一起拥抱 AIGC 时代!感兴趣的同学欢迎投递简历加入我们。
📮 简历投递邮箱:
alimama_tech@service.alibaba.com
也许你还想看
精准一致,服务商家:阿里妈妈推出淘宝星辰·图像编辑
更真、更像、更美:阿里妈妈重磅升级淘宝星辰视频生成大模型 2.0
懂你,更懂电商:阿里妈妈推出淘宝星辰视频生成大模型及图生视频应用
尺寸魔方:AIGC赋能下的视觉创意智能延展
内容中包含的图片若涉及版权问题,请及时与我们联系删除




































评论
沙发等你来抢