一、概述

阿里妈妈推出淘宝星辰 · 图文海报2.0 （以下简称“图文海报2.0”）：一个以商品图为参考前景，具备原生中文理解与渲染能力的图文海报生成系统。为电商营销场景的图文海报带来三大核心突破：

更懂设计的文字渲染：突破传统AIGC文字样式的局限，实现灵活多样的营销文字视觉风格生成。无论是字体、大小、颜色还是特效，系统都能精准理解并呈现，让文案成为设计的点睛之笔。
更懂商品的场景融合：它不再是简单的背景替换，而是能够深度理解商品属性与文案氛围，生成与之高度和谐、浑然一体的丰富场景，让商品自然融入海报，显著提升画面整体质感。
更契合电商的生图模型：依托Qwen-Image等最新的中文原生基础模型，针对电商场景优化，为图文海报提供了坚实可靠的绘图能力。

图文创意Teaser.png — 图文海报2.0生成结果，图上商品均为淘宝真实商品

二、背景

于今年4月底，我们内部上线了图文海报1.0系统，探索利用AIGC技术，实现营销海报的全自动化、像素级精准生成，并已取得初步成效。在实践中我们发现，AIGC技术在电商海报领域的落地依然面临核心挑战：商品的真实还原、中文字符的精准呈现，以及版式布局的灵动多变。

由于技术选型和数据壁垒的限制，1.0系统在处理复杂中文语义和实现多样化文案排版方面的能力尚待完善。这一挑战促使我们思考，一个理想的电商海报AI生成系统，必须建立在对中文有深度理解，且具备强大文字生成能力的基础模型之上。因此，我们的第一步是自研了一款中文原生基础生图模型。在此期间，尽管社区相继开源了文字表现更强的生图基础模型，但其在电商的文字生成上没有经过专门优化，且无法直接使用商品图作为输入。即便是后续支持图像编辑的Edit模型，也难以在维持商品一致性的同时提供丰富的文字海报。为解决这一系列痛点，我们研发了图文海报2.0，一个旨在兼容不同中文基础模型，并专注于电商图文海报生成的升级版系统。

三、图文海报2.0系统

图文海报2.0架构如图所示，其核心由三大模块构成：创意生图专家、创意Prompt生成专家、以及营销文案专家。

创意生图专家: 此模块作为执行单元，它接收商品参考图和创意Prompt生成专家生成的Prompt，精准地渲染出符合设计要求且富有美感的图文海报。
创意Prompt生成专家: 融合了电商知识与设计原则，负责根据商品外观特色及选定的文案，对海报的整体布局、字体样式和元素排版进行设计规划，并最终将完整的设计方案转化为结构化的Prompt指令。
营销文案专家：以特定商品为输入，通过检索商品信息知识库，自动生成多条契合商品功能与特性的营销文案。

1. 创意生图专家

下面从数据建设 --> 基础模型 --> 应用模型三个方面介绍我们如何逐步构造出创意生图专家。

数据基建：视觉生成任务的成败，优质数据是关键。通过与数据团队的密切协作，我们成功构建了一套面向图文海报生成的“数据飞轮”。我们首先对主流的商品海报设计规范进行了广泛调研，并基于此设计并实现了一套完整的自动化数据清洗链路；同时，我们与设计师深度合作，共同制定了一套精品海报图像规范与打标流程。

经过这套自动化与人工精选的协同机制，我们从海量数据中沉淀出亿级的高质量通用图像，以及千万量级兼具高美感与多样性的精品海报，全面覆盖通用设计、平面广告、电商图文等多个场景。此外，为攻克生僻字、小尺寸文字及多样化文字属性绑定等生成难题，我们还专门构建了数据合成链路，通过大规模合成数据作为关键补充。

海报图文 Caption 构建：为精准驱动图文海报的生成，我们研发了PosterCaptioner模型，并为其精心设计了一套专属的图文描述范式，旨在产出高质量的训练数据。

精细化的描述范式：描述的精细度直接决定了生成效果的可控性。因此，这套范式的核心在于其前所未有的细粒度，我们将文本属性拆解为两个关键层面。行级 (textline-level) 属性：关注文本的整体构图、布局排列方式，以及与图中其他元素的空间互动关系。字符级 (char-level) 属性：深入到字体大小、风格、衬线、斜体、填充乃至描边颜色等具体的视觉细节。经过生图模型的训练验证，这套精细化的描述范式能显著提升模型对设计意图的语义理解力，从而实现对文字渲染及各类属性的精准可控生成。
可量化的评估体系：为确保描述数据的质量，我们与未来生活实验室的同学紧密合作，建立了一套名为PosterCaption Benchmark的评测体系。该体系采用自动化与人工评估相结合的双轨流程，通过清晰量化的内容维度和分层式的评分标准，将抽象的“描述质量”转化为具体分数。实践证明，该评测得分与最终的生成效果呈现出强正相关——即Caption得分越高，模型训练效果越好。这成功地在“数据质量”与“模型效果”之间搭建起一座坚实的桥梁，为PosterCaptioner模型的迭代优化提供了直接、可量化的指导，形成了高效的闭环。
先进的模型构建：在PosterCaptioner模型自身的构建上，我们采用多阶段后训练策略以持续优化其性能。数据层面：我们从主体、场景、构图等多个维度对通用图像进行均衡采样，为模型构建了多样化的ReCaption训练数据集。模型层面：我们特别针对文字渲染和属性精确控制这两大挑战，将任务拆解为“文字内容识别”与“文本属性描述”两个子模块。随后，我们运用GRPO等先进策略，通过设计基于规则的奖励机制 (rule-based reward) 来分别优化这两个专家模型，从而显著提升了PosterCaptioner在文字识别和属性描述上的综合精度。

在Qwen-Image发布前，市面上还空缺一款开源可用的支持中文理解与生成的生图模型。我们面临的首要挑战是巨大的算力资源需求，直接从头训练一个基础模型在当时并非最优选择。因此，我们制定了一套更轻量的技术路径：

1）选择基座：选用开源表现较好的HiDream-Full模型作为初始权重。

2）改造输入：我们对其进行了适配改造，使其能够成功接收并理解来自QwenVL的特征输入。

3）专项优化：最后，我们集中资源对该模型进行中文理解与生成任务的深度训练，从而构建出我们的核心基础模型。

模型结构如上图所示，使用一个connector桥接QwenVL和MMDiT，并通过OCR模型提取文字特征。整体训练阶段分为以下三个：

对齐阶段：让QwenVL模型替换T5并适配作为已有生图模型的文本编码器
继续训练：提升模型对于中英双语理解、中英文字生成能力
精调训练：提升整体生图、文字排版美观度

原图

对齐

继续训练

精调训练

文字❌ 美观度❌

文字✅ 美观度❌

文字✅ 美观度✅

文字❌ 人物❌

文字✅ 人物✅

Qwen-Image发布后，在中英文文本渲染方面已确立了SOTA标准，并能稳定应对小字、多行等复杂文本场景，但电商海报的设计目标与通用图形界面（如PPT/UI）有所不同。电商海报的核心功能是传递商品信息以驱动消费，因此，其文案排版和字体风格对营销沟通的有效性至关重要。为增强这一特定领域的能力，我们引入了大规模电商场景数据集进行模型的继续训练与强化学习，进一步优化Qwen-Image模型在生成电商海报的专业能力。

经过继续训练阶段，下方案例展示了我们的文生图模型（Ours）与 Qwen-Image 在电商场景下的生成效果对比。通过比较可见，我们的模型在文字排版、文案描述以及字号控制等方面的表现更为精准和优越。

原图	文案内容	Qwen-Image 生图	Ours 生图
	... 顶部出现醒目大号标题文本“深睡眠荞麦护颈”，黑色实心填充，无衬线粗体...其正下方...“拉链二合一设计”，文字为纯白实心填充，中等粗细无衬线，字号约为主标题三分之一...
	...对比柔和...一位东亚成年女性...发髻绾成半高髻...流苏自发髻垂落至肩上方，随微风轻摆。...一手屈肘于胸前执折扇...右侧竖排四字主标题“東京汴梁”...文字使用白色纯色填充...
	...两字主标题“花呗”...前方叠放...“24”...银灰渐变填充并带高光与暗部阴影...呈三维透视效果...蓝块与主标题之间产生轻微遮挡关系...

在强化学习阶段，针对模型存在的问题，我们基于改进的GRPO算法，使用多个奖励模型联合优化，进一步提高模型在语义跟随、文字精度等方面的效果。

		w/o 后训练	w/ 后训练
语义跟随↑	...并排七只卡通鸭子由大到小迈步，鸭身白、喙脚橙，点缀三株极小绿草...字底斜穿一条柔黄荧光笔感不规则带状色块...
文字精度↑	“18款妆前专业辣评”两行横排置于画面上半部中央，第一行“18”为超大号衬线体，浅卡其色实心填充，笔画粗壮；紧随的“款妆前”同色同体，字面略带立体阴影；第二行“专业辣评”纯白填充...“好用or踩雷”单行横排位于透明盒正前方，浅卡其色实心填充...

1.3 应用模型--图文创意生成模型

图文创意生成模型结构如上图所示，模型输入包含三个部分：prompt、噪声、商品前景图。在文生图底模的基础上，我们将商品前景图通过VAE编码作为额外的输入信号，以便模型能够准确保持商品细节，避免对商品进行篡改。对于噪声输入和商品前景图，我们设计不同的位置编码让模型得以正确区分这两个来源的输入。值得一提的是，该方式同时兼容自研底模和Qwen-Image底模，只需要调整商品前景图的位置编码设计就可以适配到不同底模上。

模型训练分为图生图任务适配、精调、强化学习三个阶段：

任务适配训练结果
精调训练结果

强化学习阶段：面向图文创意任务，我们在前述语义跟随、文字精度等奖励的基础上，引入了一致性奖励约束商品前景与原始图像的一致性。

任务适配阶段：为了让模型能够更好地创作商品海报，我们首先运用大量现有商品图和设计海报进行初步训练。通过这个阶段，模型掌握了如何自动调整商品主体的位置和尺寸，并根据文字描述生成相应的背景和文案，最终融合成一张和谐的电商海报。
精调阶段：我们选用了一批在美学和设计上更为出色的素材对模型进行针对性训练。这一步骤显著改善了商品与背景的融合效果，并增添了更具真实感的光影细节。以下是两个阶段生成结果的对比：

	输入	RL前	RL后
文字精度↑	... 左上区域出现主标题“蹭到爽”...
文字可读性↑	-
商品一致性↑

我们设计了一个基于VLM的智能Prompt生成模型，它能根据商品类目信息和视觉轮廓特点，生成与之匹配的背景Prompt。鉴于当前生图模型更强的指令遵循能力，这对Prompt生成模型的能力边界提出了更高要求。它一方面需要精准理解商品前景信息与图上文案，生成能突出商品卖点的场景描述；另一方面则要洞悉设计理念，确保背景的文字风格、颜色与商品调性和谐一致，必要时更能引导文案与商品在画面上形成巧妙的互动。为训练此模型，我们特别调整了Prompt的范式，同时规避了易导致画面出错的元素。我们收集了一批优质商品图进行训练，并通过数据清洗与改写，构建了更适合图文海报制作的训练数据。为进一步提升模型的稳定性与最终效果，我们还额外引入了偏好优化训练。

图文海报2.0

布局更合理

场景与卖点呼应

文字与商品和谐互动

场景与标题呼应，文字风格多样

文字风格多样

如上图所示，图文海报2.0中的prompt生成模型能够更好地规划文字与商品的布局，提升整体画面的和谐度。同时，该模型能基于商品核心卖点文案，生成更契合、更专业的场景表达。以李宁跑步鞋为例，针对“一步轻盈”的卖点，模型精准理解其内涵，并通过将鞋子置于云朵之上的创意呈现，充分展现了其在电商设计领域的专业水准。

3. 营销文案专家

为了解决初期文案质量不高、逻辑性欠佳的问题，我们首先采用了一种整体性策略，让模型能够一次性生成多条相互关联的文案，确保了内容上的连贯与协调。这一举措显著提高了文案的合格率，达到了“基本可用”的目标。为了进一步优化营销素材的实际投放表现，我们引入了一种更为先进的优化方法。该方法的核心是让系统从大量经过市场检验的成功文案范例中学习。在为新商品创作文案时，系统会参考这些优秀的范例，借鉴其风格与创意，从而生成更具吸引力的内容。我们希望通过这种方式，将成功的经验规模化地应用到所有商品上，有效提升最终的用户点击与转化效果。

商品	baseline（平平无奇，不犯错）	基于RAG的成套文案生成（更生动、更有吸引力）
	‒ 馥佩净颜面膜 ‒ 改善肌肤质地 ‒ 亲肤细腻更舒适	‒ 1抹见效肌肤更水嫩 ‒ 改善肌肤质地 ‒ 亲肤细腻更舒适
	‒ 福茗源铁观音 ‒ 七泡有余香 ‒ 叶底肥润绵软	‒ 兰花清香一饮回甘 ‒ 七泡有余香 ‒ 叶底肥润绵软

四、效果展示

1. 内部业务效果

使用线上商品数据进行批量评测，一次抽卡的素材优质率相比上一代模型提升20个百分点，同时大幅降低不合格率。上线万相营造*百变制图工具后，相比上一代模型和模板制图，图片粒度用户采纳率提升79.8%，以下是一些线上用户实际使用的样例。

另外，【淘宝星辰*图文海报2.0】已经应用于阿里妈妈营销业务场景规模化供给和覆盖，用于优化商品素材以及为商家自动制作新的优质素材，解决图文海报智能创作的视觉素材供给难题。经过投放实验验证，【淘宝星辰*图文海报2.0】产出的素材相比商家素材CTR+0.66%，以下是一些示例：

2. 外部效果横评

针对电商场景应用需求：给定一张商品图和文案内容生成图文海报。我们分别调用了GPT-Image-1、SeedEdit-3.0、Qwen-Image-Edit 模型进行人工盲评。调用方式为：

模型名称	调用方式	请求Prompt格式
GPT4o-Image-0415	使用API调用生图	"请为这张图里的商品生成一张电商海报。" + 生成的prompt内容
SeedEdit-3.0	使用API调用生图	"将图里的商品放到电商海报背景上。海报内容为：" + 图上文案内容
Qwen-Image-Edit	使用开源代码权重本地部署生图，官方编辑Rewritter（Qwen-vl-max）生成的prompt进行生图	"为这个商品制作一个电商海报，替换合适的背景展示出商品的特点，海报上写着文字内容：" + 图上文案内容

我们随机抽取了淘宝商品库中上百张真实商品图，并以“文字精度”与“整体效果”为维度，对“图文海报2.0”及其他模型进行了GSB（Good - Same - Bad）人工盲评。评测结果显示，“图文海报2.0”表现优异。相比之下，GPT-Image与SeedEdit3.0表现稍逊一筹。我们推测，这或许是因为这两个模型主要针对通用编辑任务进行训练，因此在图文创意这类特定任务上的泛化能力有所局限。

下面是部分评测的可视化对比case ：

输入	GPT	SeedEdit 3.0	Qwen-Image-Edit	图文海报2.0
["夕露金刚网纱门", "安心守护每一天"]
["TCL空调大1.5匹", "有空调需求的都在选"]
["法莱阿玛尼公文包", "包包太酷了！", "有品味"]