- 简介生成式推荐因其在可扩展性与模型表征能力方面的显著优势,近期在工业界引发了广泛关注。然而,在大规模广告系统中实现实时生成式推荐,远不止套用大语言模型(LLM)式的训练与推理范式,还需在架构设计、学习范式与在线服务等多方面进行系统性协同优化。为此,我们提出了一套面向生产环境的生成式推荐系统——GR4AD(Generative Recommendation for ADvertising,面向广告的生成式推荐)。在分词(tokenization)层面,GR4AD创新性地提出了UA-SID(Unified Advertisement Semantic ID,统一广告语义标识符),以精准建模广告业务中高度复杂的多维语义信息。在解码器设计上,GR4AD引入了LazyAR(惰性自回归解码器),该解码器通过放松层间依赖关系,专为短序列、多候选生成任务而优化,在保持推荐效果的同时显著降低推理开销,从而在既定的服务资源预算下实现高效扩展。为使模型优化目标与真实商业价值深度对齐,GR4AD采用价值感知监督学习(VSL, Value-Aware Supervised Learning),并进一步提出RSPO(Ranking-Guided Softmax Preference Optimization,排序引导的Softmax偏好优化)算法——一种兼顾排序结构、面向列表(list-wise)的强化学习方法,它基于列表级评估指标(如CTR、CVR加权收益等)优化价值导向的奖励函数,并支持模型持续在线更新。在在线推理阶段,我们还设计了动态束搜索服务(dynamic beam serving)机制:该机制可根据生成的不同阶段以及实时负载情况,动态调整束宽(beam width),从而精细调控计算资源消耗。大规模线上A/B测试表明,相较于现有基于深度学习推荐模型(DLRM)的广告系统,GR4AD最高可带来4.2%的广告收入提升;这一增益稳定来源于模型规模扩展与推理时延/吞吐量优化两方面的协同效应。目前,GR4AD已在快手广告系统全面上线,服务于超4亿用户,并实现了高吞吐、低延迟的实时推荐服务。
-
- 图表
- 解决问题如何在大规模广告系统中实现实时、高吞吐、业务价值对齐的生成式推荐(而非传统判别式排序),同时克服LLM-style方法在低延迟、多候选生成、价值优化和 Serving 成本上的部署瓶颈。这是一个新兴且极具工业挑战性的问题——生成式推荐虽在学术界初现端倪,但在亿级用户实时广告场景下的端到端生产化(含tokenization、decoder设计、reward建模、动态Serving)尚属首次系统性攻关。
- 关键思路GR4AD并非简单套用LLM范式,而是面向广告生产全链路协同设计:1)UA-SID统一语义ID化广告/用户/上下文,替代原始文本tokenization,兼顾信息密度与业务可解释性;2)LazyAR解耦自回归层依赖,支持短序列(如Top-K候选)并行解码,在保持生成质量前提下显著降低延迟;3)RSPO将排序目标(如NDCG、value-weighted list reward)直接嵌入Softmax策略梯度,实现排名感知的列表级强化学习,替代传统pointwise监督或RLHF式偏好优化;4)动态beam serving根据在线负载与生成深度实时调整beam宽度,实现计算资源与效果的弹性权衡。
- 其它亮点• 大规模线上A/B测试(快手4亿+DAU广告系统)验证:相比成熟DLRM基线,提升广告收入4.2%,且增益随模型规模与推理规模同步放大;• 全栈生产就绪:已上线支撑实时CVR预估+创意生成+竞价协同,QPS超50K,P99延迟<80ms;• 无公开代码/数据集(工业敏感),但技术细节高度透明(如UA-SID编码规则、RSPO梯度推导、LazyAR计算图);• 值得深挖方向:UA-SID的跨域迁移能力、RSPO与离线评估指标(如IPS加权AUC)的一致性、动态beam与在线学习速率的联合控制。
- 1) Generative Recommenders: GenRec (KDD'23), GRec (WWW'24); 2) LLM-for-Rec: Recformer (SIGIR'23), LLaRA (ACL'24); 3) Advertising RL: DeepFM-RL (KDD'22), Value-Aware PPO (WSDM'24); 4) Efficient Decoding: Speculative Decoding (NeurIPS'23), Multi-Query Attention (ICML'23)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流