- 简介大规模推荐系统的特点是依赖于高基数、异构特征以及需要处理每天数十亿的用户操作。尽管在数千个特征上训练了大量数据,但工业界大多数深度学习推荐模型(DLRMs)在计算方面无法扩展。受到语言和视觉领域Transformer的成功启发,我们重新审视推荐系统的基本设计选择。我们在生成建模框架下将推荐问题重新定义为序列传导任务(“生成式推荐系统”),并提出了一种新的架构HSTU,专为高基数、非平稳流推荐数据而设计。HSTU在合成和公共数据集上的表现优于基准模型,NDCG提高了高达65.8%,而在8192长度序列上,速度比基于FlashAttention2的Transformer快5.3倍至15.2倍。基于HSTU的生成式推荐系统,具有1.5万亿个参数,通过在线A/B测试提高了12.4%的指标,并已部署在一个拥有数十亿用户的大型互联网平台的多个界面上。更重要的是,生成式推荐系统的模型质量在三个数量级的训练计算中呈幂律尺度,达到了GPT-3 / LLaMa-2的规模,这减少了未来模型开发所需的碳足迹,并进一步为推荐系统的基础模型铺平了道路。
- 图表
- 解决问题本论文试图解决大规模推荐系统中深度学习模型无法扩展的问题,提出了一种新的生成式建议模型框架和相应的架构,旨在解决高基数、异构特征和处理每天数十亿个用户操作的问题。
- 关键思路本论文的关键思路是将推荐问题重新表述为生成建议模型框架中的序列转导任务,并提出了一种新的架构HSTU,专门为高基数、非静态流推荐数据设计,通过实验验证了该方法的有效性和可扩展性。
- 其它亮点本论文的亮点包括:在合成和公共数据集上,HSTU相比基线模型提高了多达65.8%的NDCG,并且比基于FlashAttention2的Transformer快5.3倍至15.2倍;基于HSTU的生成建议模型在在线A / B测试中提高了12.4%的度量标准,并已经部署在拥有数十亿用户的大型互联网平台的多个表面上;此外,生成建议模型的模型质量在训练计算方面经验性地呈现出三个数量级的幂律扩展,从而减少了未来模型开发所需的碳足迹。
- 在这个领域的相关研究包括:使用Transformer的推荐模型,如BERT4Rec和SASRec;使用生成模型的推荐模型,如Variational Autoencoders和GANs。
沙发等你来抢
去评论
评论
沙发等你来抢