- 简介推导出能够准确刻画模型性能与计算投入之间关系的可预测缩放规律,对于大规模推荐系统的设计与资源分配至关重要。尽管此类规律已在大语言模型中得到确立,但在推荐系统(尤其是需同时处理用户历史行为与上下文特征的推荐系统)中仍难以实现。我们发现,缩放效率低下是阻碍其呈现可预测幂律缩放特性的主要瓶颈,其根源在于部分模块计算利用率(即模型浮点运算利用率,MFU)偏低,且整体资源分配不够优化。为此,我们提出了“昆仑”(Kunlun)——一种可扩展的新型架构,系统性地提升了模型效率与资源分配质量。在底层优化方面,我们引入了广义点积注意力机制(GDPA)、分层种子池化(HSP)以及滑动窗口注意力机制;在高层设计方面,则创新性地提出了计算跳过机制(CompSkip)与事件级个性化建模。上述技术进步将模型在NVIDIA B200 GPU上的MFU从17%显著提升至37%,并将缩放效率提升至当前最优方法的两倍。目前,“昆仑”架构已部署于Meta广告业务的多个核心推荐模型中,并在实际生产环境中产生了显著成效。
-
- 图表
- 解决问题推荐系统中缺乏可预测的性能-计算投入幂律缩放规律,尤其在同时处理用户历史和上下文特征的复杂场景下;现有模型因模块效率低(MFU低)和资源分配不合理,导致缩放效率差,难以指导大规模资源规划。该问题在推荐领域尚未建立类似大语言模型的可靠缩放定律,具有显著新颖性。
- 关键思路提出Kunlun架构,通过软硬协同优化实现高效可扩展:低层创新(GDPA、HSP、滑动窗口注意力)提升FLOPs利用率;高层机制(CompSkip动态跳过冗余计算、事件级个性化)实现细粒度资源适配;核心新意在于将MFU作为可优化的一等公民,并首次在工业级推荐系统中系统性打通从算子级到任务级的全栈效率优化链路。
- 其它亮点在NVIDIA B200 GPU上MFU从17%提升至37%,缩放效率达SOTA两倍;已在Meta Ads全量部署,支撑数十亿日活广告推荐;实验基于真实生产流量与千亿级稀疏特征数据,未公开代码但披露关键设计原则;值得深入的方向包括:MFU驱动的自动缩放控制器、跨事件类型的CompSkip泛化、HSP在长序列推荐中的理论边界分析。
- Scaling Laws for Neural Recommender Systems (WWW'23); Deep Learning Recommendation Models: Evolution and Performance (MLSys'22); TBSM: Time-Based Sequential Modeling for Large-Scale Recommendations (KDD'23); FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning (ICML'24); Sparrow: Efficient Sparse Attention for Recommendation (RecSys'23)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流