- 简介大规模推荐系统的特点是依赖于高基数、异构特征,并且需要处理每天数十亿的用户操作。尽管在数千个特征上使用大量数据进行训练,但工业界中的大多数深度学习推荐模型(DLRMs)在计算方面无法扩展。受到语言和视觉领域中Transformer的成功启发,我们重新审视推荐系统的基本设计选择。我们在生成建模框架(“生成式推荐系统”)中将推荐问题重新表述为序列传导任务,并提出了一种新的架构HSTU,专为高基数、非平稳流推荐数据而设计。HSTU在合成和公共数据集上的表现优于基准模型,NDCG提高了高达65.8%,在8192长度序列上比基于FlashAttention2的Transformer快5.3倍至15.2倍。基于HSTU的生成式推荐系统具有1.5万亿参数,在在线A/B测试中改善了12.4%的指标,并已部署在拥有数十亿用户的大型互联网平台的多个界面上。更重要的是,生成式推荐系统的模型质量在训练计算方面经验性地呈现出三个数量级的幂律规律,达到了GPT-3 / LLaMa-2规模,这减少了未来模型开发所需的碳足迹,并进一步为推荐系统的第一个基础模型铺平了道路。
- 图表
- 解决问题本篇论文试图解决大规模推荐系统中深度学习模型无法扩展的问题,并提出了一种新的架构解决高基数、非静态流推荐数据的问题。
- 关键思路本文将推荐问题重新定义为生成建模框架中的序列传导任务,并提出了一种新的架构HSTU,它能够在8192长度序列上比基于FlashAttention2的Transformer快5.3倍至15.2倍,并且在合成和公共数据集上比基线模型提高了高达65.8%的NDCG。
- 其它亮点本文提出的HSTU架构在1.5万亿参数的情况下,比基线模型提高了12.4%的度量,并已经在拥有数十亿用户的大型互联网平台的多个表面上部署。此外,本文还探讨了模型质量如何随着训练计算量的增加而按幂律规律扩展,这有助于减少未来模型开发所需的碳足迹。
- 近年来,基于Transformer的推荐模型已经成为研究热点。相关的论文包括《BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer》和《Behavior Sequence Transformer for E-commerce Recommendation in Alibaba》等。
沙发等你来抢
去评论
评论
沙发等你来抢