Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations

简介

大规模推荐系统的特点是依赖于高基数、异构特征，并需要每天处理数十亿个用户操作。尽管在数千个特征上使用了大量的数据进行训练，但工业界中大多数深度学习推荐模型（DLRMs）在计算方面都无法扩展。受到语言和视觉领域中Transformer的成功启发，我们重新审视了推荐系统的基本设计选择。我们在生成建模框架中将推荐问题重新定义为序列传导任务（“生成式推荐”），并提出了一种新的架构HSTU，专为高基数、非平稳流式推荐数据设计。 HSTU在合成和公共数据集上的NDCG性能比基准提高了高达65.8％，而在8192长度序列上比基于FlashAttention2的Transformer快5.3倍至15.2倍。基于HSTU的生成式推荐器，具有1.5万亿个参数，在在线A / B测试中提高了12.4％的指标，并已部署在拥有数十亿用户的大型互联网平台的多个表面上。更重要的是，生成式推荐器的模型质量在三个数量级的训练计算中经验性地呈现出幂律规模，达到了GPT-3/LLaMa-2规模，这减少了未来模型开发所需的碳足迹，进一步为推荐领域的第一批基础模型铺平了道路。
图表
解决问题

本文试图解决大规模推荐系统中深度学习推荐模型无法随计算能力扩展的问题，提出了一种新的架构HSTU，并将推荐问题重新表述为生成建模框架中的序列传导任务。
关键思路

本文提出的HSTU架构在高基数、非平稳流推荐数据上表现优异，比基线模型在综合和公共数据集上的NDCG指标提高了高达65.8%，而且在8192长度序列上比基于FlashAttention2的Transformer快5.3倍到15.2倍。基于HSTU的生成推荐器在在线A/B测试中提高了12.4%的度量，并已经部署在一个拥有数十亿用户的大型互联网平台的多个表面。
其它亮点

本文提出的HSTU架构的模型质量随着训练计算量的增加呈现幂律规律，最多可以扩展到GPT-3/LLaMa-2规模，从而减少了未来模型开发所需的碳足迹，为推荐系统领域的基础模型开发铺平了道路。
相关研究

最近的相关研究包括使用Transformer架构的推荐模型，如BERT4Rec和SASRec。

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations

评论