TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou

向作者提问

NEW

简介

在大规模推荐系统中，对于点击率预测任务，建模用户长期兴趣的重要性正在逐渐受到研究人员和从业者的关注。现有的工作，例如SIM和TWIN，通常采用两阶段方法来模拟长期用户行为序列以提高效率。第一阶段通过名为General Search Unit (GSU) 的搜索机制快速从长序列中检索与目标项相关的序列子集，而第二阶段则使用Exact Search Unit (ESU) 计算所检索结果的兴趣分数。由于用户行为序列的长度非常广泛，可能达到10^6的规模，因此目前还没有有效的解决方案来完全模拟这种广泛的用户兴趣。为了解决这个问题，我们引入了TWIN-V2，这是TWIN的增强版，采用分治方法来压缩生命周期行为并揭示更准确和多样化的用户兴趣。具体而言，在离线阶段，采用分层聚类方法将具有相似生命周期行为特征的项分组为单个簇。通过限制簇的大小，我们可以将行为序列压缩到远远超过10^5的长度，以便在GSU检索中进行在线推理。簇感知目标关注提取了用户全面和多方面的长期兴趣，从而使最终的推荐结果更加准确和多样化。在多十亿规模的工业数据集和在线A/B测试上进行了广泛的离线实验，证明了TWIN-V2的有效性。在高效的部署框架下，TWIN-V2已成功部署到快手每天服务数亿活跃用户的主要流量中。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大规模推荐系统中长期用户兴趣建模对CTR预测任务的重要性问题，提出了一种TWIN-V2模型来解决长期行为序列的建模问题。
关键思路

TWIN-V2模型采用分而治之的方法对用户行为序列进行压缩，并使用层次聚类方法将具有相似特征的项目分组成一个簇，在离线阶段进行处理。通过限制簇的大小，可以将行为序列压缩到可在GSU检索中进行在线推断的长度。模型还使用簇感知目标注意力来提取用户的全面和多方面的长期兴趣，从而使最终的推荐结果更加准确和多样化。
其它亮点

论文在多个工业数据集上进行了广泛的离线实验和在线A / B测试，证明了TWIN-V2模型的有效性。该模型已成功部署到服务于数亿日活跃用户的主要流量中。
相关研究

相关研究包括SIM和TWIN等现有工作，这些工作通常采用两阶段方法来模拟长期用户行为序列以提高效率。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问