- 简介生成式推荐系统通常利用语义标识符(Semantic Identifiers,简称SIDs),将每个物品表示为编码语义信息的令牌序列。然而,使用多个SIDs来表示物品ID会显著增加输入序列的长度,而序列长度是决定计算复杂度和内存消耗的主要因素。尽管现有研究主要集中在优化注意力计算和KV缓存上,我们提出了RASTP(Representation-Aware Semantic Token Pruning,即表征感知的语义令牌剪枝方法),该方法直接对输入序列中信息量较低的令牌进行剪枝。具体而言,RASTP通过结合语义显著性(基于表征幅度衡量)和注意力中心性(由累积注意力权重得出)来评估令牌的重要性。由于RASTP能够动态剪除信息量较低或无关的语义令牌,因此在三个真实世界的亚马逊数据集上的实验表明,RASTP可将训练时间减少26.7%,同时保持甚至略微提升了推荐性能。相关代码已开源,地址为 https://github.com/Yuzt-zju/RASTP。
-
- 图表
- 解决问题生成式推荐系统通常使用语义标识符(SIDs)来表示物品,每个物品由多个语义 token 组成,导致输入序列显著增长,从而带来高昂的计算开销和内存消耗。论文旨在解决因多SID表示带来的长序列输入问题,这是一个在生成式推荐系统中日益突出但尚未充分优化的问题。
- 关键思路提出RASTP(Representation-Aware Semantic Token Pruning),通过联合评估语义显著性(基于表征幅度)和注意力中心性(基于累积注意力权重)来衡量每个语义token的重要性,并动态剪枝低信息量或无关的token。与现有主要优化注意力计算或KV缓存的工作不同,RASTP直接从输入源头减少序列长度,是一种更根本的效率优化思路。
- 其它亮点在三个真实的Amazon数据集上验证了方法的有效性,实验显示训练时间减少了26.7%,同时保持甚至略微提升了推荐性能。代码已开源(https://github.com/Yuzt-zju/RASTP),增强了可复现性和社区贡献。未来可探索更精细化的token重要性评估机制,或将该剪枝思想扩展到其他序列推荐模型中。
- 1. Efficient Transformers: A Survey (2020) 2. Linformer: Self-Attention with Linear Complexity (2020) 3. FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022) 4. Sparse Sinkhorn Attention (ICML 2021) 5. Memory-Efficient Transformer with Hierarchical Recurrence (NeurIPS 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流