- 简介缩放定律在可持续提高模型质量方面起着关键作用。不幸的是,迄今为止的推荐模型并没有展现出类似于大型语言模型领域中观察到的那样的定律,这是由于它们的升级机制的低效性所致。这种限制在将这些模型适应于越来越复杂的真实世界数据集方面带来了重大挑战。在本文中,我们提出了一种基于堆叠因子分解机的有效网络架构和一种协同升级策略,统称为悟空,以在推荐领域建立缩放定律。悟空的独特设计使其能够通过更高和更宽的层来捕捉各种任意顺序的交互。我们在六个公共数据集上进行了广泛的评估,结果表明,悟空在质量方面始终优于最先进的模型。此外,我们在一个内部的大规模数据集上评估了悟空的可扩展性。结果表明,悟空在质量上保持了对最先进模型的优越性,并在模型复杂度跨越两个数量级时保持了缩放定律,超过了100 Gflop或相当于GPT-3/LLaMa-2的总训练计算规模,而之前的方法则无法做到。
- 图表
- 解决问题提出一种基于堆叠因子分解机的网络架构和协同升级策略,名为Wukong,以在推荐领域建立可扩展性规律。
- 关键思路Wukong的设计通过更高更宽的层来捕捉各种任意顺序的交互,从而实现了推荐模型的可扩展性规律。
- 其它亮点Wukong在六个公共数据集上进行了广泛的评估,结果表明在质量方面始终优于现有的最先进模型。在一个内部大型数据集上评估了Wukong的可扩展性,结果显示Wukong在质量上保持优越性,同时在模型复杂度方面具有可扩展性规律。
- 最近的相关研究包括:《Large Scale Distributed Deep Networks》、《Deep Learning with COTS HPC Systems》、《Scaling Distributed Machine Learning with the Parameter Server》等。
沙发等你来抢
去评论
评论
沙发等你来抢