- 简介推导出能够准确刻画模型性能与计算投入之间关系的可预测缩放规律,对于大规模推荐系统的设计与资源分配至关重要。尽管此类规律已在大语言模型中得到确立,但在推荐系统(尤其是需同时处理用户历史行为与上下文特征的推荐系统)中仍难以实现。我们发现,缩放效率低下是阻碍其呈现可预测幂律缩放特性的主要瓶颈,其根源在于部分模块计算利用率(即模型浮点运算利用率,MFU)偏低,且整体资源分配不够优化。为此,我们提出了“昆仑”(Kunlun)——一种可扩展的新型架构,系统性地提升了模型效率与资源分配质量。在底层优化方面,我们引入了广义点积注意力机制(GDPA)、分层种子池化(HSP)以及滑动窗口注意力机制;在高层设计方面,则创新性地提出了计算跳过机制(CompSkip)和事件级个性化建模。上述改进使模型在NVIDIA B200 GPU上的MFU从17%显著提升至37%,并将缩放效率提升至当前最优方法的两倍。目前,“昆仑”架构已部署于Meta广告业务的多个核心推荐模型中,并在实际生产环境中产生了显著成效。
-
- 图表
- 解决问题推荐系统缺乏像大语言模型那样可预测的性能-计算投入幂律缩放规律,尤其在同时建模用户历史与多源上下文特征时;现有模型因模块效率低下(低MFU)和资源分配不均导致缩放不可预测、效率低下——这是一个尚未被系统解决的新问题。
- 关键思路提出Kunlun架构,通过软硬协同设计实现可预测高效缩放:低层创新(GDPA、HSP、滑动窗口注意力)提升算子级FLOPs利用率;高层机制(CompSkip动态跳过冗余计算、事件级个性化替代全局微调)实现数据感知的弹性计算分配——首次将MFU作为核心优化目标并系统性提升,使缩放效率从经验驱动转向可建模、可预测。
- 其它亮点在NVIDIA B200 GPU上MFU从17%→37%,缩放效率达SOTA方法的2×;已在Meta Ads全量生产部署,支撑数十亿日活用户的实时广告推荐;实验基于真实工业级流量(未公开数据集),强调端到端延迟/吞吐/ROI综合指标;无开源代码(工业敏感),但方法论具普适性;值得深入的方向:MFU-aware架构搜索、跨场景缩放定律迁移、事件级个性化与因果推断结合。
- Scaling Laws for Neural Recommender Systems (KDD'23); FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning (ICML'24); TRLRec: Temporal Representation Learning for Sequential Recommendation (WWW'24); Deep Interest Evolution Network (DIN/DIEN, KDD'18/'19); Feature Engineering for Large-Scale Recommenders (RecSys'22 Industry Track)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流