Wukong: Towards a Scaling Law for Large-Scale Recommendation

简介

本文中，缩放定律在模型质量的可持续改进中起着重要作用。不幸的是，迄今为止的推荐模型并没有展现出类似于大型语言模型领域中观察到的这些定律，这是由于它们的扩展机制的低效性。这种限制在将这些模型应用于日益复杂的真实世界数据集时带来了重大挑战。本文提出了一种基于堆叠因子分解机的有效网络架构和一种协同扩展策略，统称为“悟空”，以在推荐领域建立缩放定律。悟空独特的设计使其能够通过更高和更宽的层来捕捉各种任意顺序的交互。我们在六个公共数据集上进行了广泛的评估，结果表明，悟空在质量方面始终优于最先进的模型。此外，我们在一个内部的大规模数据集上评估了悟空的可扩展性。结果表明，悟空在质量上保持其优越性，同时在模型复杂度的两个数量级上保持缩放定律，超越了100 Gflop或相当于大型语言模型（GPT-3）的训练计算规模，而之前的技术则无法做到。
图表
解决问题

本论文旨在解决推荐系统中模型扩展的效率问题，提出了一种基于堆叠因子分解机的网络架构和协同放大策略，以建立推荐领域的可扩展定律。
关键思路

论文提出了一种名为Wukong的网络架构，通过简单的更高和更宽的层来捕捉不同的、任意顺序的交互作用，以实现推荐模型的可扩展性。
其它亮点

论文使用六个公共数据集进行了广泛的评估，结果表明Wukong在质量方面始终优于现有的最先进的模型。此外，论文还在一个内部的大规模数据集上评估了Wukong的可扩展性，结果显示Wukong在模型复杂度上保持着优越性，并能在超过100 Gflop的范围内扩展，超越了现有技术。
相关研究

在推荐系统领域，还有一些相关的研究，如《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》和《Neural Collaborative Filtering》等。

Wukong: Towards a Scaling Law for Large-Scale Recommendation

评论