一. 淘宝星辰 · 图像编辑: 精准一致电商编辑

当前图像编辑技术应用于电商场景时,往往会面临一个关键挑战——一致性。商家的核心需求通常是“在现有商品图基础上进行细微调整”,而非改变商品主体,更不希望精心设计的商品布局或背景发生显著变动。

为更好地满足商家对商品图像精准、可控编辑的迫切需求,我们推出【 淘宝星辰 · 图像编辑 】模型,以电商产品级高一致性为核心,实现了在商品主体和布局不变的前提下,精准、高保真的图像编辑体验。

模型通过严谨的数据工程与可插拔的高保真模型架构,有效解决了当前主流模型在编辑过程中常见的主体不一致、细节失真、布局发生变化等问题,真正实现“改得准”、“不变样”的精细化编辑效果。

二. 电商场景下图像编辑的“最后一公里”

如今,主流图像编辑技术的视觉效果已经“眼前一亮”,但在实际电商应用中,却总觉得有点“差那么一步”。电商商家在编辑商品图时,常常遇到这些难题:

  • 一致性不足:本来只想改个颜色、换个细节,结果商品主体突然变了样、背景也跟着变动。
  • 定位不准:想精准调整某个区域,模型却总是“猜错位置”,操作不够可控。
  • 电商领域能力缺失:像文字编辑、光照调节等实用功能,要么支持不佳,要么结果不理想,无法满足多样需求。

更重要的是,当前许多编辑工具都是为“通用场景”设计的,没有专门针对电商的优化,比如商品主体的稳定性、图片细节的高保真、商品与文字布局的绝对还原等关键专业需求。因此,尽管“效果酷炫”,却很难真正帮商家实现高效、精准、可控的编辑——这也就是电商图像编辑面临的“最后一公里”难题。

三. 围绕以一致性为核心的解决方案

1. 数据:构建电商场景下图像编辑的一致性数据集

电商图片编辑的核心并非“推倒重来”,而是在尊重原图设计和商品细节的基础上,实现精准、无损的增删和修改。因此,数据质量成了我们打磨模型的第一步,也是最重要的一步。

为了让模型学会真正有用、有价值的编辑能力,我们专门针对电商需求,设计并构建了业内首个高一致性电商图像编辑数据集。在整个数据工程过程中,一致性是我们始终坚守的标准。数据工程主要分为:数据收集、编辑图像对生产、一致性校验和指令增强四个部分。

通过上述方法,我们系统性地构建了涵盖20+种电商编辑任务,数量达到百万级的高质量数据集,覆盖了实际业务中可能遇到的多样化编辑情形。

2. 模型:可插拔、高一致性的编辑框架

设计理念: 基于先模式转换后聚焦一致性的想法,我们设计了“基座模型 + 模式转换模块 + 一致性增强模块”的分层框架,该框架在有效提升一致性的同时具备高度灵活性和可扩展性,能够便捷地适配不同的开源或自研的基础模型。

采用多阶段多语言训练策略,让模型更懂电商场景:

  • Stage 1(模式转换阶段):为了将文图生成模式转换为文图编辑模式,stage1使用开源数据和高质量电商数据同时训练模式转换模块和一致性增强模块,大大提升了模型的通用编辑任务处理能力,训练后模型能对广泛的编辑指令做出正确响应。
  • Stage 2(一致性增强阶段): 为了解决模式转换阶段遗留的一致性问题,聚焦电商专属编辑需求,stage2只用高质量电商数据对一致性增强模块进行精细调优,显著增强了模型在高一致性电商场景下的表现。
  • 中英文指令混合训练:让模型能精准响应各种形式的中英文指令,无论是商品名称、属性描述还是复杂操作都能轻松驾驭,满足用户多形式、中英文指令输入的需求。

四. 淘宝星辰 · 图像编辑让图片变化如你所愿

在传统图片编辑任务上,【淘宝星辰 · 图像编辑】表现出众:无论是背景替换、商品更换、颜色调整,还是物体添加、删除、文字修改,都能实现。

而我们更关注电商商家的实际经营需求,特别针对行业常见痛点,进行了功能升级和优化,包括:

  • 文字与文字框智能去除,变长文字修改。
  • 人像打光与细节优化,提升模特图片质感,突出商品卖点。
  • 发型、发色变化,人物表情(如微笑)调整,创造更具吸引力的展示形象。
  • 服饰及首饰自由替换或增加。
  • 专业化支持中文指令编辑:从文字到图片,精准理解并还原中文编辑请求。

通用任务

Prompt: 把冰淇淋杯换成巧克力纸杯蛋糕


Prompt: 去除她头上的耳罩


Prompt: 在右侧白色的架子上添加一台紫色iPad Air


Prompt: 把绿色玉石变成橙色的,保留原有的光泽效果

文字去除


Prompt: 删除图片右上角的文字


Prompt: 删除图片上所有文字


文字编辑


Prompt: 把“经典圆珠造型”改为“珠链设计感”


Prompt: 把"新中式佐餐酒"改成"东方美学佐餐佳酿"


文字颜色编辑


Prompt: 将"轻薄透气粉色衬衫"的颜色修改为镀金


人像打光


Prompt: 黄昏的光线从右侧照射进来


Prompt: 把场景变为傍晚时分


发型发色


Prompt: 把发型换成短款微卷波波头


Prompt: 把男生的头发颜色改为金色


表情编辑


Prompt: 让这个女生微笑


Prompt: 让这个女生微笑

服饰与首饰增加/替换


Prompt: 把这个女孩的牛仔裤换为黑色皮裤


Prompt: 在她的脖子上添加一条钻石项链

动作编辑


Prompt: 让她摆出双手叉腰的姿势


Prompt: 用抬起那只手触摸头发

换背景


Prompt: 将背景更改为天空晴朗、水面平静的海滩。背景呈现的是宁静的海滩景象,湛蓝的天空和平静的海水。

复杂编辑指令


Prompt: 将她的头发变为红色,让她戴上耳机,将斜挎包去除,并让她右边的手臂自然下垂


Prompt: 把黑色的长裤替换为黑色裙子,给图中的人物佩戴一副墨镜,同时将背景换成具有现代化气息的商业街


注释:文中原始图片素材均来源于淘宝商家及开源网站,所有图文素材仅用于演示技术研发与应用效果,如有不当之处,请联系我们处理


五. 总结与展望

当前图像编辑技术已能“看得见”,但尚未完全“控得住”。在电商场景,“改得准、不变样”才是真正的落地标准。

我们提出的【淘宝星辰 · 图像编辑】方案,以一致性为核心,通过高质量数据构建与可插拔的高保真模型架构,有效解决了主流模型在主体稳定性、编辑精准度和中文支持上的短板,在电商专用编辑任务上展现出显著优势。

未来,我们将持续深耕细粒度控制、多模态协同编辑与实时交互体验,推动模型从“可用”走向“好用”,成为商家拿来精准编辑的好助手。

👉技术报告地址:https://arxiv.org/abs/2510.04483

作者:良垣、湛泽、天扉、紫潍、绪缤、积流



END
图片

💡 关于我们

我们是阿里妈妈智能创作与AI应用团队,专注于图片、视频、文案等各种形式创意的智能制作与投放,产品覆盖阿里妈妈内外多条业务线,欢迎各业务方关注与业务合作。同时,真诚欢迎具备CV、NLP相关背景同学加入,一起拥抱 AIGC 时代!感兴趣的同学欢迎投递简历加入我们。

📮 简历投递邮箱

alimama_tech@service.alibaba.com

也许你还想看

广告深度学习计算:阿里妈妈智能创意服务优化
尺寸魔方:AIGC赋能下的视觉创意智能延展
懂你,更懂电商:阿里妈妈推出淘宝星辰视频生成大模型及图生视频应用
更真、更像、更美:阿里妈妈重磅升级淘宝星辰视频生成大模型 2.0

关注「阿里妈妈技术」了解更多~


内容中包含的图片若涉及版权问题,请及时与我们联系删除