- 简介随着大型语言模型 (LLMs) 的崛起,最近的研究利用 LLMs 来提高点击率 (CTR) 预测的性能。然而,我们认为在实际应用中部署 LLMs 仍存在一个关键障碍:LLMs 处理长文本用户行为的效率。随着用户序列变得越来越长,当前 LLMs 的效率不足以处理数十亿个用户和项目的训练。为了突破 LLMs 的效率障碍,我们提出了行为聚合分层编码 (BAHE) 来增强基于 LLMs 的 CTR 建模的效率。具体而言,BAHE 提出了一种新颖的分层架构,将用户行为的编码与行为之间的交互解耦。首先,为了防止重复编码相同用户行为的计算冗余,BAHE 使用 LLM 的预训练浅层从广泛的用户序列中提取最粒度、原子级别的用户行为嵌入,并将其存储在离线数据库中。随后,LLM 的深层可训练层促进了复杂的行为之间的交互,从而生成全面的用户嵌入。这种分离使得高层次的用户表示学习独立于低层次的行为编码,从而显著降低了计算复杂度。最后,这些精细的用户嵌入与相应处理的项目嵌入一起,被纳入 CTR 模型以计算 CTR 分数。广泛的实验结果表明,BAHE 可以将使用 LLMs 的 CTR 模型的训练时间和内存减少五倍,特别是对于更长的用户序列。BAHE 已经部署在一个实际的系统中,允许在 8 个 A100 GPU 上每天更新 5000 万个 CTR 数据,使得 LLMs 在工业 CTR 预测中变得实用。
-
- 图表
- 解决问题本论文旨在解决利用大型语言模型(LLMs)进行点击率(CTR)预测时,处理长文本用户行为的效率问题。当前LLMs的效率不足以训练数十亿个用户和物品的模型。
- 关键思路通过提出行为聚合分层编码(BAHE),将用户行为的编码与行为之间的交互分离,以提高LLMs的效率。BAHE采用LLM的预训练浅层来提取最细粒度的原子用户行为嵌入,并将其存储在离线数据库中,以避免重复计算。然后,通过使用可训练的深层来进行复杂的行为交互,生成全面的用户嵌入,从而实现高层次用户表示的学习与低层次行为编码的独立,显著降低计算复杂度。
- 其它亮点实验结果表明,BAHE将使用LLMs的CTR模型的训练时间和内存占用减少了五倍,尤其是对于长用户序列。论文已在实际系统中部署,允许每天在8个A100 GPU上更新5000万个CTR数据,使LLMs在工业CTR预测中变得实用。
- 最近的相关研究包括利用LLMs来提高CTR预测性能的工作,以及使用其他技术来提高CTR模型的效率,如采样和压缩技术。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流