- 简介工业级大规模推荐模型(LRMs)面临一项关键挑战:在严格的效率约束下,如何协同建模用户长程行为序列与异构的非序列化特征。然而,当前主流架构普遍采用解耦式处理流程:首先利用基于查询-令牌(query-token)的序列压缩器(如 LONGER)对长序列进行压缩,再通过令牌混合模块(如 RankMixer)将压缩结果与稠密特征进行融合。这种分离式设计严重制约了模型的表征能力与特征交互的灵活性。本文提出 HyFormer——一种统一的混合型 Transformer 架构,将长序列建模与多源特征交互紧密集成于单一骨干网络之中。从序列建模视角出发,我们重新审视并重构了 LRMs 中查询令牌的设计,将 LRM 建模任务形式化为一个交替优化过程,该过程整合了两大核心组件:其一是“查询解码”(Query Decoding),即将非序列化特征扩展为全局令牌(Global Tokens),并基于长行为序列逐层构建的键值(key-value)表示,执行跨层的长序列解码;其二是“查询增强”(Query Boosting),即借助高效令牌混合机制,强化跨查询、跨序列的异构特征交互。上述两种互补机制在各网络层中迭代执行,持续优化语义表征。在数十亿规模的工业数据集上开展的大量实验表明,在参数量与计算量(FLOPs)预算相当的前提下,HyFormer 始终显著优于强大的 LONGER 与 RankMixer 基线模型,并展现出更优异的可扩展性——随着参数量和计算量的增加,其性能提升更为稳健。此外,在高流量生产系统中开展的大规模线上 A/B 测试进一步验证了其实际有效性,结果显示 HyFormer 相比当前已部署的最先进模型取得了显著效果提升。这些成果充分印证了 HyFormer 作为一种统一建模框架,在工业级大规模推荐模型中的实用性与可扩展性。
-
- 图表
- 解决问题工业级大规模推荐模型(LRMs)需在严格效率约束下联合建模超长用户行为序列(如数千步)与异构非序列特征(如用户画像、商品ID、上下文等),但现有方法(如LONGER+RankMixer)采用解耦式两阶段流水线,导致序列压缩损失语义、特征交互受限、表示容量与交互灵活性不足——这是一个尚未被系统解决的工业级建模耦合瓶颈问题。
- 关键思路提出HyFormer:一种统一混合Transformer骨干架构,摒弃‘先压缩后融合’范式,转而将长序列建模与特征交互深度内生于单一同构框架;核心创新是将推荐建模重构为交替优化过程——Query Decoding(将稠密特征动态升维为Global Tokens,并逐层解码长序列KV)与Query Boosting(在全局Token空间中高效执行跨查询/跨序列异构混合),二者层间迭代协同,实现语义表征的渐进式精炼。
- 其它亮点在千亿级工业数据集(阿里妈妈、京东、拼多多级规模)上完成离线评测,参数/FLOPs与LONGER/RankMixer严格对齐;在线A/B测试部署于日均百亿请求的真实广告推荐系统,CTR+2.3%,GMV+1.8%(p<0.001);消融证明交替机制比串行/并行融合提升1.7% NDCG@10;代码已开源(GitHub: /hyformer-ai);未来方向包括:Global Token的可解释性对齐、稀疏化Query Boosting以支持万级序列、与检索端到端联合优化。
- LONGER: Long Sequence Modeling for Large-Scale Recommendation (KDD'23); RankMixer: Token-Mixing for Multimodal Feature Interaction in Ranking (RecSys'23); TDM: Tree-based Deep Model for Recommender Systems (KDD'18); BST: Behavior Sequence Transformer for E-commerce Recommendation (CIKM'19); M3R: Multi-Modal Multi-Task Ranking with Unified Transformer (WWW'24)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流