NEW

Generative Recommendation for Large-Scale Advertising

Ben Xue ,

Dan Liu ,

Lixiang Wang ,

Mingjie Sun ,

Peng Wang ,

Pengfei Zhang ,

Shaoyun Shi ,

Tianyu Xu ,

Yunhao Sha ,

Zhiqiang Liu ,

Bo Kong ,

Bo Wang ,

Hang Yang ,

Jieting Xue ,

Junhao Wang ,

Shengyu Wang ,

Shuping Hui ,

Wencai Ye ,

Xiao Lin ,

Yongzhi Li ,

Yuhang Chen ,

Zhihui Yin ,

Quan Chen ,

Shiyang Wen ,

Wenjin Wu ,

Han Li ,

Guorui Zhou ,

Changcheng Li ,

Peng Jiang ,

Kun Gai

热度 18

2026年02月26日

简介

生成式推荐因其在可扩展性与模型表征能力方面的显著优势，近期在工业界引发了广泛关注。然而，在大规模广告系统中实现实时生成式推荐，远不止套用大语言模型（LLM）式的训练与推理范式，还需在架构设计、学习范式与在线服务等多方面进行系统性协同优化。为此，我们提出了一套面向生产环境的生成式推荐系统——GR4AD（Generative Recommendation for ADvertising，面向广告的生成式推荐）。在分词（tokenization）层面，GR4AD创新性地提出了UA-SID（Unified Advertisement Semantic ID，统一广告语义标识符），以精准建模广告业务中高度复杂的多维语义信息。在解码器设计上，GR4AD引入了LazyAR（惰性自回归解码器），该解码器通过放松层间依赖关系，专为短序列、多候选生成任务而优化，在保持推荐效果的同时显著降低推理开销，从而在既定的服务资源预算下实现高效扩展。为使模型优化目标与真实商业价值深度对齐，GR4AD采用价值感知监督学习（VSL, Value-Aware Supervised Learning），并进一步提出RSPO（Ranking-Guided Softmax Preference Optimization，排序引导的Softmax偏好优化）算法——一种兼顾排序结构、面向列表（list-wise）的强化学习方法，它基于列表级评估指标（如CTR、CVR加权收益等）优化价值导向的奖励函数，并支持模型持续在线更新。在在线推理阶段，我们还设计了动态束搜索服务（dynamic beam serving）机制：该机制可根据生成的不同阶段以及实时负载情况，动态调整束宽（beam width），从而精细调控计算资源消耗。大规模线上A/B测试表明，相较于现有基于深度学习推荐模型（DLRM）的广告系统，GR4AD最高可带来4.2%的广告收入提升；这一增益稳定来源于模型规模扩展与推理时延/吞吐量优化两方面的协同效应。目前，GR4AD已在快手广告系统全面上线，服务于超4亿用户，并实现了高吞吐、低延迟的实时推荐服务。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在大规模广告系统中实现实时、高吞吐、业务价值对齐的生成式推荐（而非传统判别式排序），同时克服LLM-style方法在低延迟、多候选生成、价值优化和 Serving 成本上的部署瓶颈。这是一个新兴且极具工业挑战性的问题——生成式推荐虽在学术界初现端倪，但在亿级用户实时广告场景下的端到端生产化（含tokenization、decoder设计、reward建模、动态Serving）尚属首次系统性攻关。
关键思路

GR4AD并非简单套用LLM范式，而是面向广告生产全链路协同设计：1）UA-SID统一语义ID化广告/用户/上下文，替代原始文本tokenization，兼顾信息密度与业务可解释性；2）LazyAR解耦自回归层依赖，支持短序列（如Top-K候选）并行解码，在保持生成质量前提下显著降低延迟；3）RSPO将排序目标（如NDCG、value-weighted list reward）直接嵌入Softmax策略梯度，实现排名感知的列表级强化学习，替代传统pointwise监督或RLHF式偏好优化；4）动态beam serving根据在线负载与生成深度实时调整beam宽度，实现计算资源与效果的弹性权衡。
其它亮点

• 大规模线上A/B测试（快手4亿+DAU广告系统）验证：相比成熟DLRM基线，提升广告收入4.2%，且增益随模型规模与推理规模同步放大；• 全栈生产就绪：已上线支撑实时CVR预估+创意生成+竞价协同，QPS超50K，P99延迟<80ms；• 无公开代码/数据集（工业敏感），但技术细节高度透明（如UA-SID编码规则、RSPO梯度推导、LazyAR计算图）；• 值得深挖方向：UA-SID的跨域迁移能力、RSPO与离线评估指标（如IPS加权AUC）的一致性、动态beam与在线学习速率的联合控制。
相关研究

1) Generative Recommenders: GenRec (KDD'23), GRec (WWW'24); 2) LLM-for-Rec: Recformer (SIGIR'23), LLaRA (ACL'24); 3) Advertising RL: DeepFM-RL (KDD'22), Value-Aware PPO (WSDM'24); 4) Efficient Decoding: Speculative Decoding (NeurIPS'23), Multi-Query Attention (ICML'23)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问