TokenRec: Learning to Tokenize ID for LLM-based Generative Recommendation

2024年06月15日
  • 简介
    越来越多的人对利用大规模语言模型(LLMs)推进下一代推荐系统(RecSys)感兴趣,这是由于它们卓越的语言理解和上下文学习能力所驱动。在这种情况下,对用户和物品进行分词(即索引)对于确保LLMs与推荐的无缝对齐至关重要。虽然已经有几项研究通过文本内容或潜在表示法来表示用户和物品,但是有效地捕捉高阶协作知识并将其转化为与LLMs兼容的离散标记仍然存在挑战。此外,现有的大多数分词方法通常难以有效地推广到训练语料库中不存在的新用户或物品。为了解决这些挑战,我们提出了一个名为TokenRec的新框架,它不仅引入了一种有效的ID分词策略,还提出了一种基于LLMs的高效检索范式。具体而言,我们的分词策略,即掩码向量量化(MQ)分词器,涉及将从协作过滤中学习到的掩码用户/物品表示量化为离散标记,从而实现高阶协作知识的平滑整合以及基于LLMs的RecSys的可推广的用户和物品分词。同时,我们的生成式检索范式旨在为用户高效地推荐前K个物品,以消除LLMs使用耗时的自回归解码和束搜索过程的需要,从而显著减少推理时间。全面的实验验证了所提出方法的有效性,表明TokenRec优于竞争性基准,包括传统的推荐系统和新兴的基于LLMs的推荐系统。
  • 图表
  • 解决问题
    本论文旨在解决利用大规模语言模型(LLMs)推进下一代推荐系统(RecSys)的问题,其中关键在于如何将用户和物品进行索引,以确保LLMs与推荐相对齐。同时,还需要解决高阶协作知识的离散化令其与LLMs兼容的问题,以及如何有效地将推荐推广到新的/未见过的用户或物品的问题。
  • 关键思路
    论文提出了一种称为TokenRec的框架,其中包括一种名为Masked Vector-Quantized(MQ)Tokenizer的有效ID标记策略和一种高效的检索范例,以用于LLM-based RecSys。该策略将从协作过滤中学习的掩码用户/物品表示量化为离散标记,从而实现高阶协作知识的平稳融合,并提供了一种LLM-based RecSys中可推广的用户和物品标记化方案。同时,该检索范例旨在高效地为用户推荐前K个物品,以消除LLMs使用的耗时自回归解码和波束搜索过程的需要,从而显着减少推断时间。
  • 其它亮点
    论文通过综合实验验证了所提出方法的有效性,表明TokenRec优于竞争基准,包括传统的推荐系统和新兴的LLM-based推荐系统。
  • 相关研究
    最近在这个领域中,还有一些相关的研究正在进行,例如《BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer》和《Graph Neural Networks for Social Recommendation》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论