小记: 
自24年以来,生成式召回大模型的建设持续推进,三个各有侧重的方向逐渐形成体系化工作,GFlowGR、NEZHA 和 VALUE 发布多期,在阿里妈妈搜索广告主场景全面落地,累计贡献大盘营收+8%。

技术报告:LORE: A Large Generative Model for Search Relevance (https://arxiv.org/abs/2512.03025)


一、概览

生成式召回技术是搜推广系统在大模型时代的重要演进方向,其核心思想是将召回任务建模为序列生成问题,直接由用户查询(Query)或行为上下文生成候选物品的语义标识(如基于RQ-VAE的层次语义ID,简称SID),从而突破传统倒排索引或向量检索在泛化性与语义覆盖上的局限。近期业界工作如TIGER、LETTER等,已验证生成式召回在电商、广告等场景的可行性。然而依然有三个关键问题未被有效解决

  • 问题一:学习范式——如何高效支持带有价值反馈的集合生成?

    生成式召回建模本质上是集合生成任务,单个样本通常对应多个正例(以下简称正例集合)。当前主流方案采用"分而治之"的建模思路:在训练阶段通过最大化单个商品的概率进行建模,推理阶段则依据生成概率采用贪心策略选择Top-K商品作为最终输出。然而该方法存在显著局限性——当正例集合中商品存在价值层级差异(如pay>click>pv)时,这种均等化建模方式无法有效区分不同正例的实际价值。尽管DPO等对齐方法尝试通过显式约束解决该问题,但其效果高度依赖采样策略设计,这种敏感性使得模型在实际业务场景中面临较大的落地挑战。

  • 问题二:实时推理——效果无损下的毫秒级响应如何达成?

    在工业级高流量、低延迟的场景中,主流的基于语义id生成式召回方案(简称SID-based)因依赖大模型自回归解码,单次推理耗时难以满足线上严苛的RT要求(比如<50ms)。为了突破这一瓶颈,业界一般有离线缓存和实时推理两条优化路径:离线缓存方案,通过预计算生成结果并存储,虽可降低在线延迟但是生效范围大幅缩小(特别是用户点击主要集中在首页的搜索场景);实时推理方案,常见优化思路是模型压缩(如知识蒸馏、量化剪枝),检索量级缩减(限制候选集规模),GPU推理加速(利用硬件并行性)等。其中除了GPU推理加速外,其他解法一般对效果都有较大影响,那我们有没有更高效的解法呢?

  • 问题三:广告领域特有挑战——如何兼顾改写的语义质量与业务效率?

    Query改写作为搜索广告领域的核心特色技术,其本质是通过将用户搜索词(Query)转换为广告主购买的竞买词(Bidword),并基于倒排索引完成召回。在此过程中,需同时应对两大核心挑战:一方面,广告主竞买词库为有限集合,改写结果必须严格落在词库范围内;另一方面,在有限拉取数量下需优先召回高价值Bidword。当前主流方案采用"SFT+价值对齐+Trie约束"范式,这种方法的缺陷在于Bidword商业价值(比如广告收入)与语义呈弱相关,传统对齐训练易导致模型过度关注价值排序,遗忘语义相关性知识,引发过拟合。这引出两个关键问题:如何在价值导向中平衡语义相关性与商业价值?以及如何将离散词库约束自然融入生成过程,实现受限生成?

过去两年,我们围绕这三个问题展开大量探索,也取得了一些进展:

  • 应对问题1(如何高效支持带有价值反馈的集合生成?):我们提出新一代生成式召回学习范式 GFlowGR,有效解决正例集合内商品价值差异化度量问题。核心思路是:基于 GFlowNet 框架对召回集合的概率分布进行显式建模,使集合内每个商品的生成概率与其业务奖励成正比,这一范式突破了传统方法仅最大化“单商品期望奖励”的局限,首次实现正例集合内部商品间的价值差异化度量,为下游排序提供更优质的候选池。

  • 应对问题2(效果无损下的毫秒级响应如何达成?):我们提出了一种轻量级解码架构 NEZHA,显著降低推理计算开销,实现生成式召回大模型的在线实时推理。NEZHA轻量推理模块和GFlowGR生成范式可以叠加使用,核心思路是:模型结构设计上采用 RNN 替代 LLM 解码,结合工程侧深度优化引擎架构编排与GPU推理效率,将端到端延迟压缩至毫秒级,在工业级大流量、低延迟的严苛约束下,实现效果几乎无损的大模型生成式召回端到端实时推理。

  • 应对问题3(如何兼顾改写的语义质量与业务效率?): 我们提出了一种兼顾语义质量和业务效率的改写新方法VALUE,核心思路是:在Trie树构建时,将Bidword价值信息编码至解码路径的token节点,使每个token携带下游关键词的价值分布,在解码时,VALUE模块从加权Trie中提取下一个token的价值奖励信息,调整输出概率分布,最大化整体奖励(价值+相关性)。无需依赖价值对齐阶段的强化学习,直接在解码层实现价值感知,规避大模型对抽象价值概念的过度拟合,在保障语义质量下显著提高业务效率。

目前,三个工作都已经在阿里妈妈搜索广告主场景全量上线,带来了大盘消耗+8%的显著收益。在生成式召回的探索和迭代过程中,我们逐步积累了宝贵的见解和实践经验,期望能给生成式召回应用方向带来启发。目前相关论文已经挂载到arXiv,欢迎阅读和交流。

  • GFlowGR: Fine-tuning Generative Recommendation Frameworks with Generative Flow Networks(https://arxiv.org/pdf/2506.16114)

  • NEZHA: A Zero-sacrifice and Hyperspeed Decoding Architecture for Generative Recommendations(https://arxiv.org/pdf/2511.18793)

  • VALUE: Value-Aware Large Language Model for Query Rewriting via Weighted Trie in Sponsored Search. (https://arxiv.org/pdf/2504.05321v2,收录于KDD 2026

二、方向思考

1. GFlowGR:如何高效支持带有价值反馈的集合生成?

现有方法大多通过对齐方式(如DPO)优化集合内商品价值差异化度量问题,但对采样策略敏感,需精细调参才能稳定收敛,是否有更鲁棒、更优雅的解决方案呢?经过我们系统性的调研,GFlowNet(Generative Flow Network) 提供了一种优雅的替代方案,这一由Yoshua Bengio团队提出的生成框架,将生成过程建模为状态空间中的路径流,通过流量守恒原则直接保证采样概率与目标分布一致。基于这个特性,将GFlowNet引入生成式召回中,其优势在于:

  • 天然适配召回场景:在基于语义ID的主流生成式召回模型中,正例集合天然构成一个有向图结构(见下图),每个生成路径表示一个SID。GFlowNet通过路径流建模机制,使每个SID的生成概率与预定义的业务价值指标(如成交、点击价值等)形成正比关系。这种设计突破了传统召回模型对单个正例概率最大化的局限,转而通过流量分配实现集合级的概率分布建模,即高价值SID将获得更高的流量权重,低价值SID则自动收敛到合理比例,从而在集合维度实现商品间价值差异的显式建模。

  • 灵活扩展性且实现简单:该框架具备显著的可扩展性,通过动态调整Reward函数定义,即可灵活适配不同业务目标(如成交、收藏、加购等),无需设计复杂采样策略。这种机制既降低了多任务迁移成本,又因消除了采样策略的不确定性,使训练过程更加稳定高效。

image.png

该技术为集合价值差异化建模提供了理论支撑,基于GFlowNet框架,我们提出了新一代生成式召回学习范式GFlowGR,有效解决正例集合内商品价值差异化度量难题。核心方案设计如下:

1)任务重构:设计适配GFlowNet框架的生成任务,通过搜索词和用户行为(记作QU)输入LLM获取Last-Token表征,经奖励预估模块预估总奖励Z(反映QU下优质商品奖励总和),总奖励Z在SID有向图上进行路径传播,当抵达第三级SID时完成路径生成。

image.png

2)损失函数设计:基于流平衡条件约束推导出「总奖励」、「路径概率」与「路径奖励」的数学关系,并据此构建集合损失函数,具体推导过程详见下图 。该设计使模型能通过流量分配机制实现生成概率与奖励分布的正比关系,从而量化商品间价值差异。

image.png

经过上述优化,实现高价值广告曝光占比提升,带来广告消耗的显著效果。目前该技术已在搜索广告主场景完成全量上线,并在多个开源数据集上展现出优于主流对齐方法(如DPO)的性能提升,完整实验细节及理论分析详见我们的arXiv论文:

  • GFlowGR: Fine-tuning Generative Recommendation Frameworks with Generative Flow Networks

2. NEZHA:效果无损下的毫秒级响应如何达成?

在工业级大流量、低延迟的严苛约束下,目前业界生成式召回方案(SID-based)主要以离线计算和近线计算为主,通过设计合适的缓存机制,实现在线服务。为了满足在线实时推理要求,工业界常见解法:降低模型规模、缩小检索量级、GPU推理加速等,其中除了GPU推理加速外,其他解法一般对效果都有较大影响。那么我们有没有更高效地,效果几乎无损的解决方案呢?

经过实践,我们找到了一种对效果几乎无损的方法NEZHA,能够在效果几乎无损下实现毫秒级实时推理。核心方案设计如下:

  • 解码轻量化RNN 替代 LLM 解码,轻量解码实现高效推理。在推理阶段,仅需 1 次 LLM 前向计算 + 3 次 RNN 解码(见下图 NEZHA Block),并通过 Special Token 精巧引导生成过程。相比主流生成式召回方案,该设计显著提升解码效率,而实验表明,对最终效果的影响微乎其微。

  • 电商领域大模型:LUM-0.6B替代Qwen-7B,更小的领域模型取得相同的效果。我们构建了 淘天商品语义 ID 体系(TaoSID),为海量商品提供结构化、层次化的语义表示;同时,依托“淘宝星辰”电商大模型基座,打造面向搜索广告场景的用户理解大模型(LUM),实现领域知识的有效注入与泛化。

  • 工程系统协同优化为大模型推理打开 RT 空间。在引擎架构上,我们将生成式召回请求前置处理,释放宝贵的响应时间(RT);同时,服务框架从 Python 全面升级至 C++(Blaze-O1),构建出稳定、可靠的毫秒级大模型推理服务能力,支撑高并发线上场景。

image.png

经过上述优化,avg rt降到12ms,p99rt降到40ms,满足在线全量实时推理服务的要求,在搜索广告主场景完成全量上线,取得广告消耗的显著增长,更多细节参见我们的arXiv论文:

  • NEZHA:A Zero-sacrifice and Hyperspeed Decoding Architecture for Generative Recommendations

3. VALUE:如何兼顾改写的语义质量与业务效率?

搜索广告系统中,召回(Recall)作为连接BP与投放链路的核心环节,直接影响系统上限。其主流方案分为两类:关键词定向召回(领域特色技术)和端到端模型召回。前者通过将用户Query改写为广告主购买的Bidword,并基于倒排索引完成召回,核心挑战在于:1)受限生成:Bidword集合有限,需保证改写结果在词库范围内;2)价值感知:需在有限拉取数量下优先召回高价值Bidword。

当前主流方法遵循“SFT+价值对齐+Trie约束”的范式:SFT阶段,通过Prompt工程注入领域知识,利用LLM语义理解能力完成Query改写;价值对齐阶段,采用RLHF(如PPO/DPO/KTO)增强模型对Bidword商业价值的感知;Trie约束阶段,通过Trie树保障生成结果有效性。但现有方法存在两大缺陷:1)语义与价值的弱关联:Bidword商业价值(竞价)与语义呈弱相关,传统对齐训练易导致模型过度关注价值排序,遗忘语义相关性知识,引发过拟合;2)动态价值波动:广告主可实时调整竞价,训练阶段的价值序在生成阶段可能失效,影响改写准确性。

针对上述问题,我们提出奖励引导的推理框架VALUE(见下图),能够实现兼顾语义质量和业务效率的改写,核心方案设计如下:

1)带权Trie树设计:在Trie树构建时,将Bidword价值信息编码至解码路径的token节点,使每个token携带下游关键词的价值分布;设计轻量级Trie树更新机制,响应Bidword价值波动(如竞价调整),确保改写结果动态适配最新价值分布。

2)价值引导的解码过程:在解码时,VALUE模块从加权Trie中提取下一个token的价值奖励信息,调整输出概率分布,最大化整体奖励(价值+相关性);无需依赖价值对齐阶段的强化学习,直接在解码层实现价值感知,规避大模型对抽象价值概念的过度拟合。

3)DPO损失改造:通过调整损失权重,聚焦价值差异显著的关键词对,弱化易受价值波动影响的样本,降低对齐阶段的过拟合风险。

image.png

该方案在保证Query-Bidword语义相关性的前提下,优先召回高价值关键词,有效缓解了传统方法在价值感知与相关性间的冲突。目前该技术已经在搜索广告主场景完成全量上线,在展现相关性几乎无损的前提下取得广告消耗的显著增长,更多细节参见我们的arXiv论文:

  • VALUE: Value-Aware Large Language Model for Query Rewriting via Weighted Trie in Sponsored Search

三、演进路线

在搜索广告系统中,召回(Recall)是承前(BP)启后(投放链路)的关键环节,决定了系统的上限。自 ChatGPT 问世以来,我们便坚定地推进 大语言模型(LLM)对召回体系的重构,目前已完成 三个主要版本的迭代与上线。回顾技术演进路径,可将其归纳为以下 四大核心方向

  • 方向1:商品编码方式,从稀疏到高密度语义表达。编码的核心趋势是 用更少的 token 承载更丰富的商品语义与协同信息。演进路径为:文本编码(商品标题/属性) → 层次语义 ID 编码(基于 RQ-VAE) → 混合编码(TaoSID,融合语义 + 协同信号)。

  • 方向2:训练范式设计,从粗粒度匹配到细粒度价值建模。训练目标日益聚焦于 精准刻画候选集合内商品的价值差异。演进路径为:NTP(Next Token Prediction,直接沿用 LLM 预训练任务) → NTP + GFlowGR(引入 GFlowNet 实现集合级概率建模,支持差异化价值度量)。

  • 方向3:基座模型升级,从通用大模型到领域深度定制。模型能力逐步向 电商场景专业化 演进,持续强化领域知识注入。演进路径为:通用基座大模型(Qwen-7B)→ 电商基座大模型(Tbstar-15A/1.5B) → 用户理解基座大模型(LUM-0.6B)。

  • 方向4:推理范式升级,从离线缓存到毫秒级实时响应。推理模式不断向 在线化、低延迟、高收益 演进,最大化业务价值。演进路径为:离线缓存 → 异步推理 → 端到端实时推理。

方向模块生成式召回1期

(SeCGR)
生成式召回2期

(GFlowGR)
生成式召回3期

(NEZHA)
商品表征
商品tokenizer
LLM-CPV
SID(文本)
TaoSID(多模态)
模型训练
训练范式
NTP
NTP + GFlowGR
NTP + GFlowGR

模型基座
Qwen-7B
Tbstar-15A1.5B
LUM-0.6B
模型推理
推理范式
生成商品CPV+检索
端到端生成商品(Beam Search)
端到端生成商品
(NEZHA)

部署方案
离线缓存
离线缓存+异步推理
实时推理

在此基础上我们构建了一套系统化的生成式召回技术架构,从训练推理基础设施、数据资产体系、大模型基座能力、到上层应用范式四个维度全面推进技术升级,成功实现大模型在超大规模电商搜索广告场景中的高效落地,也为后续生成式召回技术的持续迭代提供了基础。整体技术架构如下图所示:

image.png

四、未来展望:迈向更智能、更高效的生成式广告召回体系

随着 GFlowGR、NEZHA、VALUE 等生成式召回技术的成功落地,我们正站在新一代搜索广告架构变革的起点。面向未来,我们将围绕 “确定性方向持续升级”、“广告业务深度耦合” 和 “投放漏斗架构重构” 三大维度,系统性推进生成式召回的演进:

  • 夯实基础:确定性技术方向的持续突破。Prompt Engineering 将成为新杠杆,借鉴 LLM 领域的 Chain-of-Thought(CoT)等先进范式,设计更有效的指令引导机制;同时,积极探索长序列建模能力,释放大模型对复杂查询意图的深层理解潜力。

  • 扎根业务:让生成式召回真正“懂广告”。当前方案在泛化性上仍面临挑战——无法生成未见过的语义 ID,导致新广告冷启动困难。未来,我们将探索如何将广告侧核心要素(如关键词策略、人群定向、智能出价等 BP 需求)显式融入生成过程,使模型不仅能“召回相关商品”,更能“理解商业意图”,实现从“语义匹配”到“价值对齐”的跃迁。

  • 重构架构:探索“召粗一体”的下一代漏斗。生成式检索已在语义相关性与模型表达能力上逼近甚至超越传统粗排。这为我们打开了一个大胆设想:是否可能跳过独立的相关性模块与粗排阶段,直接由生成式模型输出高精度、高价值的候选集,大幅压缩精排参竞规模? 我们将深入验证“生成即筛选”的可行性,推动投放漏斗从“多级串联”向“端到端生成”演进,实现效率与效果的双重突破。


🏷 关于我们

阿里妈妈搜索广告召回团队专注于广告系统核心召回算法的研发与创新,致力于在超大规模场景下,运用人工智能前沿技术打造高效、精准、智能的广告召回解决方案。团队在大模型、图学习、曲率表征等方向持续深耕,成果丰硕,近年来已在 NeurIPS、KDD、WWW、SIGIR等国际学术会议发表多篇论文。同时真诚欢迎对广告算法与AI技术充满热情的同学加入!

📮 简历投递邮箱:adam.lf@taobao.com


END
图片


 也许你还想看

生成式相关性大模型驱动新范式:实现搜索广告体验与营收双赢 | 搜索广告AI大模型创新实践
从算力迷途到范式新生:生成式预估模型的思考与实践 | 搜索广告AI大模型创新实践
视觉感知与认知跃迁:电商多模态表征建模新范式 | 搜索广告AI大模型创新实践
CIKM'25 | 联盟营销场景下,基于时空动态网络的两阶段传播规模预测


关注「阿里妈妈技术」了解更多~


图片

喜欢要“分享”,好看要“点赞”哦ღ~



内容中包含的图片若涉及版权问题,请及时与我们联系删除