RASTP: Representation-Aware Semantic Token Pruning for Generative Recommendation with Semantic Identifiers

向作者提问

NEW

简介

生成式推荐系统通常利用语义标识符（Semantic Identifiers，简称SIDs），将每个物品表示为编码语义信息的令牌序列。然而，使用多个SIDs来表示物品ID会显著增加输入序列的长度，而序列长度是决定计算复杂度和内存消耗的主要因素。尽管现有研究主要集中在优化注意力计算和KV缓存上，我们提出了RASTP（Representation-Aware Semantic Token Pruning，即表征感知的语义令牌剪枝方法），该方法直接对输入序列中信息量较低的令牌进行剪枝。具体而言，RASTP通过结合语义显著性（基于表征幅度衡量）和注意力中心性（由累积注意力权重得出）来评估令牌的重要性。由于RASTP能够动态剪除信息量较低或无关的语义令牌，因此在三个真实世界的亚马逊数据集上的实验表明，RASTP可将训练时间减少26.7%，同时保持甚至略微提升了推荐性能。相关代码已开源，地址为 https://github.com/Yuzt-zju/RASTP。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

生成式推荐系统通常使用语义标识符（SIDs）来表示物品，每个物品由多个语义 token 组成，导致输入序列显著增长，从而带来高昂的计算开销和内存消耗。论文旨在解决因多SID表示带来的长序列输入问题，这是一个在生成式推荐系统中日益突出但尚未充分优化的问题。
关键思路

提出RASTP（Representation-Aware Semantic Token Pruning），通过联合评估语义显著性（基于表征幅度）和注意力中心性（基于累积注意力权重）来衡量每个语义token的重要性，并动态剪枝低信息量或无关的token。与现有主要优化注意力计算或KV缓存的工作不同，RASTP直接从输入源头减少序列长度，是一种更根本的效率优化思路。
其它亮点

在三个真实的Amazon数据集上验证了方法的有效性，实验显示训练时间减少了26.7%，同时保持甚至略微提升了推荐性能。代码已开源（https://github.com/Yuzt-zju/RASTP），增强了可复现性和社区贡献。未来可探索更精细化的token重要性评估机制，或将该剪枝思想扩展到其他序列推荐模型中。
相关研究

1. Efficient Transformers: A Survey (2020) 2. Linformer: Self-Attention with Linear Complexity (2020) 3. FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022) 4. Sparse Sinkhorn Attention (ICML 2021) 5. Memory-Efficient Transformer with Hierarchical Recurrence (NeurIPS 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问