HyFormer: Revisiting the Roles of Sequence Modeling and Feature Interaction in CTR Prediction

向作者提问

NEW

简介

工业级大规模推荐模型（LRMs）面临一项关键挑战：在严格的效率约束下，如何协同建模用户长程行为序列与异构的非序列化特征。然而，当前主流架构普遍采用解耦式处理流程：首先利用基于查询-令牌（query-token）的序列压缩器（如 LONGER）对长序列进行压缩，再通过令牌混合模块（如 RankMixer）将压缩结果与稠密特征进行融合。这种分离式设计严重制约了模型的表征能力与特征交互的灵活性。本文提出 HyFormer——一种统一的混合型 Transformer 架构，将长序列建模与多源特征交互紧密集成于单一骨干网络之中。从序列建模视角出发，我们重新审视并重构了 LRMs 中查询令牌的设计，将 LRM 建模任务形式化为一个交替优化过程，该过程整合了两大核心组件：其一是“查询解码”（Query Decoding），即将非序列化特征扩展为全局令牌（Global Tokens），并基于长行为序列逐层构建的键值（key-value）表示，执行跨层的长序列解码；其二是“查询增强”（Query Boosting），即借助高效令牌混合机制，强化跨查询、跨序列的异构特征交互。上述两种互补机制在各网络层中迭代执行，持续优化语义表征。在数十亿规模的工业数据集上开展的大量实验表明，在参数量与计算量（FLOPs）预算相当的前提下，HyFormer 始终显著优于强大的 LONGER 与 RankMixer 基线模型，并展现出更优异的可扩展性——随着参数量和计算量的增加，其性能提升更为稳健。此外，在高流量生产系统中开展的大规模线上 A/B 测试进一步验证了其实际有效性，结果显示 HyFormer 相比当前已部署的最先进模型取得了显著效果提升。这些成果充分印证了 HyFormer 作为一种统一建模框架，在工业级大规模推荐模型中的实用性与可扩展性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

工业级大规模推荐模型（LRMs）需在严格效率约束下联合建模超长用户行为序列（如数千步）与异构非序列特征（如用户画像、商品ID、上下文等），但现有方法（如LONGER+RankMixer）采用解耦式两阶段流水线，导致序列压缩损失语义、特征交互受限、表示容量与交互灵活性不足——这是一个尚未被系统解决的工业级建模耦合瓶颈问题。
关键思路

提出HyFormer：一种统一混合Transformer骨干架构，摒弃‘先压缩后融合’范式，转而将长序列建模与特征交互深度内生于单一同构框架；核心创新是将推荐建模重构为交替优化过程——Query Decoding（将稠密特征动态升维为Global Tokens，并逐层解码长序列KV）与Query Boosting（在全局Token空间中高效执行跨查询/跨序列异构混合），二者层间迭代协同，实现语义表征的渐进式精炼。
其它亮点

在千亿级工业数据集（阿里妈妈、京东、拼多多级规模）上完成离线评测，参数/FLOPs与LONGER/RankMixer严格对齐；在线A/B测试部署于日均百亿请求的真实广告推荐系统，CTR+2.3%，GMV+1.8%（p<0.001）；消融证明交替机制比串行/并行融合提升1.7% NDCG@10；代码已开源（GitHub: /hyformer-ai）；未来方向包括：Global Token的可解释性对齐、稀疏化Query Boosting以支持万级序列、与检索端到端联合优化。
相关研究

LONGER: Long Sequence Modeling for Large-Scale Recommendation (KDD'23); RankMixer: Token-Mixing for Multimodal Feature Interaction in Ranking (RecSys'23); TDM: Tree-based Deep Model for Recommender Systems (KDD'18); BST: Behavior Sequence Transformer for E-commerce Recommendation (CIKM'19); M3R: Multi-Modal Multi-Task Ranking with Unified Transformer (WWW'24)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问