Towards LLM-RecSys Alignment with Textual ID Learning

简介

基于大型语言模型（LLMs）的生成式推荐已经将传统的基于排名的推荐方式转变为了文本生成范式。然而，与自然语言处理任务不同的是，生成式推荐需要将推荐项有效地编码为简明而有意义的ID表示，而这些ID表示必须与人类词汇表达式一致。为了更好地满足推荐需求，我们提出了IDGen，使用人类语言标记将每个项目表示为独特、简明、语义丰富、平台无关的文本ID。通过在LLM推荐器旁边训练文本ID生成器，实现了个性化推荐与自然语言生成的无缝集成。值得注意的是，由于用户历史记录是用自然语言表达的，并与原始数据集分离，因此我们的方法为基础生成式推荐模型提供了潜在的可能性。实验表明，在标准实验设置下，我们的框架始终优于现有的顺序推荐模型。接着，我们探讨了使用所提出的方法在19个不同数据集上训练基础推荐模型的可能性，并在完全零-shot设置下在6个不同平台上测试其推荐性能。结果表明，预训练的基础模型的零-shot性能与一些基于监督训练的传统推荐模型相当甚至更好，显示了IDGen范式作为生成式推荐基础模型的潜力。代码和数据已在https://github.com/agiresearch/IDGenRec上开源。
图表
解决问题

提出一种新的生成式推荐模型，解决当前基于大语言模型的推荐模型难以有效编码推荐项的问题。
关键思路

使用IDGen方法，将每个推荐项表示为一个独特的、简洁的、语义丰富的、平台无关的文本ID，通过训练文本ID生成器和基于LLM的推荐模型实现个性化推荐的自然语言生成。
其它亮点

实验结果表明，IDGen模型在标准实验设置下在序列推荐方面始终优于现有模型。在19个不同数据集上训练的基础推荐模型在完全零-shot设置下在6个不同平台上的推荐性能与一些基于监督训练的传统推荐模型相当甚至更好。
相关研究

在最近的研究中，也有一些关于生成式推荐模型的研究，例如《Neural Collaborative Filtering with Long- and Short-term User Representations》、《BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer》等。

Towards LLM-RecSys Alignment with Textual ID Learning

评论