Breaking the Length Barrier: LLM-Enhanced CTR Prediction in Long Textual User Behaviors

2024年03月28日
  • 简介
    随着大型语言模型 (LLMs) 的崛起,最近的研究利用 LLMs 来提高点击率 (CTR) 预测的性能。然而,我们认为在实际应用中部署 LLMs 仍存在一个关键障碍:LLMs 处理长文本用户行为的效率。随着用户序列变得越来越长,当前 LLMs 的效率不足以处理数十亿个用户和项目的训练。为了突破 LLMs 的效率障碍,我们提出了行为聚合分层编码 (BAHE) 来增强基于 LLMs 的 CTR 建模的效率。具体而言,BAHE 提出了一种新颖的分层架构,将用户行为的编码与行为之间的交互解耦。首先,为了防止重复编码相同用户行为的计算冗余,BAHE 使用 LLM 的预训练浅层从广泛的用户序列中提取最粒度、原子级别的用户行为嵌入,并将其存储在离线数据库中。随后,LLM 的深层可训练层促进了复杂的行为之间的交互,从而生成全面的用户嵌入。这种分离使得高层次的用户表示学习独立于低层次的行为编码,从而显著降低了计算复杂度。最后,这些精细的用户嵌入与相应处理的项目嵌入一起,被纳入 CTR 模型以计算 CTR 分数。广泛的实验结果表明,BAHE 可以将使用 LLMs 的 CTR 模型的训练时间和内存减少五倍,特别是对于更长的用户序列。BAHE 已经部署在一个实际的系统中,允许在 8 个 A100 GPU 上每天更新 5000 万个 CTR 数据,使得 LLMs 在工业 CTR 预测中变得实用。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决利用大型语言模型(LLMs)进行点击率(CTR)预测时,处理长文本用户行为的效率问题。当前LLMs的效率不足以训练数十亿个用户和物品的模型。
  • 关键思路
    通过提出行为聚合分层编码(BAHE),将用户行为的编码与行为之间的交互分离,以提高LLMs的效率。BAHE采用LLM的预训练浅层来提取最细粒度的原子用户行为嵌入,并将其存储在离线数据库中,以避免重复计算。然后,通过使用可训练的深层来进行复杂的行为交互,生成全面的用户嵌入,从而实现高层次用户表示的学习与低层次行为编码的独立,显著降低计算复杂度。
  • 其它亮点
    实验结果表明,BAHE将使用LLMs的CTR模型的训练时间和内存占用减少了五倍,尤其是对于长用户序列。论文已在实际系统中部署,允许每天在8个A100 GPU上更新5000万个CTR数据,使LLMs在工业CTR预测中变得实用。
  • 相关研究
    最近的相关研究包括利用LLMs来提高CTR预测性能的工作,以及使用其他技术来提高CTR模型的效率,如采样和压缩技术。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问