- 简介深度学习推荐模型(DLRMs)是全球最大的机器学习应用之一。工业级的DLRMs使用 PB 级的推荐数据进行训练,以每天服务数十亿用户。为了充分利用用户长期历史中的丰富信号,这些推荐模型的复杂度被不断提升,达到了每个样本高达万亿次浮点运算(TFLOPs)的规模。这种规模再加上庞大的训练数据量,迫切需要新的存储和训练算法,以高效地提升这些复杂推荐系统的质量。本文提出了一种“仅请求优化”(Request-Only Optimizations,简称 ROO)的训练和建模范式。ROO 能够同时提升推荐系统在存储、训练效率以及模型质量方面的表现。我们通过数据(即仅请求数据)、基础设施(即基于仅请求的数据处理流水线)和模型架构(即仅请求神经网络架构)的协同设计,系统性地应对这一挑战。我们的 ROO 训练与建模范式将用户请求作为训练数据的基本单位。与传统的以用户展示(impression)为单位的做法相比,这一新设计在数据记录中实现了特征的原生去重,从而节省了数据存储空间。其次,通过对一个请求中多个展示之间的计算与通信进行去重,该范式使得大规模神经网络架构(如生成式推荐器(GRs)及其他适合仅请求模式的架构)能够更有效地捕捉用户的兴趣信号。
-
- 图表
- 解决问题论文旨在解决工业级深度学习推荐模型(DLRMs)在存储、训练效率以及模型质量方面的挑战。随着推荐系统规模的扩大,传统以用户“印象(impression)”为训练单位的方式导致数据存储和计算资源消耗巨大,亟需一种更高效的训练和建模范式。
- 关键思路提出了一种名为Request-Only Optimizations(ROO)的训练与建模新范式,将“用户请求(request)”作为训练的基本单位,而非传统的“印象”。这一思路通过天然的特征去重实现数据存储优化,并在计算和通信层面进一步减少冗余,从而提升训练效率,同时支持更复杂的神经网络架构来更好地捕捉用户兴趣。
- 其它亮点1. ROO范式实现了数据存储层面的原生特征去重,显著降低存储开销。 2. 通过请求内多个印象之间的计算和通信去重,提升训练效率。 3. 支持更复杂的模型架构如生成式推荐模型(Generative Recommenders),提升推荐质量。 4. 论文从数据、基础设施、模型架构三方面进行联合设计(co-design),形成系统级优化。 5. 实验结果显示ROO在大规模工业场景下具有显著优势,但论文未提及是否开源代码。
- 1. Facebook AI团队近年来在DLRM架构与训练效率上的多项研究。 2. Google在推荐系统中的大规模特征存储与计算优化工作(如TF-Ranking、RecSim)。 3. 微软在基于请求级别的推荐模型与生成式推荐方向的探索。 4. 相关论文包括:"Deep Learning for Recommender Systems: A TensorFlow Perspective", "Efficient Large-Scale Distributed Training of Transformers for Language Understanding", "Scalable Training of Artificial Neural Networks with Millions of Parameters"
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流