Discrete Semantic Tokenization for Deep CTR Prediction

2024年03月13日
  • 简介
    将商品内容信息融入点击率(CTR)预测模型仍然是一个挑战,特别是在工业场景下的时间和空间约束下。内容编码范式将用户和商品编码器直接整合到CTR模型中,优先考虑空间而非时间。相比之下,基于嵌入的范式将商品和用户语义转化为潜在嵌入,随后将它们缓存以优化处理时间,但以空间为代价。在本文中,我们引入了一种新的语义标记范式,并提出了一种离散语义标记化方法,即UIST,用于用户和商品表示。UIST在保持保守内存占用的同时,促进了快速训练和推断。具体而言,UIST将密集嵌入向量量化为长度较短的离散标记,并采用分层混合推理模块来衡量每个用户-商品标记对的贡献。我们在新闻推荐方面的实验结果展示了UIST在CTR预测方面的有效性和效率(约200倍空间压缩)。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决CTR预测模型中整合物品内容信息的挑战,提出了一种新的语义令牌范式UIST,以及一种离散语义标记化方法,以优化处理时间和内存占用。
  • 关键思路
    UIST将密集嵌入向量量化为较短的离散令牌,并使用分层混合推理模块来衡量每个用户-物品令牌对的贡献。
  • 其它亮点
    论文在新闻推荐领域进行了实验,证明了UIST对CTR预测的有效性和效率(空间压缩约200倍),并提供了开源代码。
  • 相关研究
    与该论文相关的研究包括:《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》、《Neural Collaborative Filtering》、《Wide & Deep Learning for Recommender Systems》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问