Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning

2025年03月31日
  • 简介
    我们提出了 Rec-R1,这是一个通用的强化学习框架,通过闭环优化将大型语言模型(LLMs)与推荐系统连接起来。与提示工程和监督微调(SFT)不同,Rec-R1 直接利用来自固定黑盒推荐模型的反馈来优化 LLM 的生成结果,而无需依赖于如 GPT-4o 等专有模型生成的合成 SFT 数据。这避免了数据蒸馏所需的大量成本和精力。为了验证 Rec-R1 的有效性,我们在两个代表性任务上对其进行了评估:产品搜索和顺序推荐。实验结果表明,Rec-R1 不仅始终优于基于提示和 SFT 的方法,而且即使与简单的检索器(如 BM25)结合使用时,也对强大的判别性基线模型实现了显著超越。此外,与常常损害指令遵循能力和推理能力的 SFT 不同,Rec-R1 保留了 LLM 的通用能力。这些发现表明,Rec-R1 是一个有前景的基础框架,能够在不发生灾难性遗忘的情况下实现持续的任务特定适应。
  • 图表
  • 解决问题
    论文试图解决如何将大型语言模型(LLMs)与推荐系统有效结合的问题,特别是如何通过强化学习框架优化LLM生成能力以适应推荐任务,同时避免因数据蒸馏或监督微调导致的高昂成本和性能下降。这是一个新颖的研究方向,特别是在推荐系统的上下文中引入闭环优化。
  • 关键思路
    关键思路是提出Rec-R1框架,通过固定黑盒推荐模型的反馈直接优化LLM的生成行为,而不是依赖传统的提示工程或监督微调(SFT)。这种方法无需使用专有模型生成的合成数据,从而显著降低了数据准备的成本,并保留了LLM的多用途能力。相比现有方法,Rec-R1在不损害LLM通用性的同时提升了推荐效果。
  • 其它亮点
    实验设计包括两个代表性任务:产品搜索和顺序推荐。研究者在这些任务上验证了Rec-R1相对于提示工程、SFT以及强判别基线模型的优势。此外,实验表明即使使用简单的检索器(如BM25),Rec-R1也能实现显著增益。论文强调了该方法对持续任务特定适配的支持,同时避免灾难性遗忘。虽然论文未提及代码开源情况,但其提出的框架具有较高的可复现性和扩展潜力,未来可以探索更复杂的推荐场景及更大规模的数据集。
  • 相关研究
    近期相关研究包括:1) 使用LLMs进行文本到物品推荐的任务(例如,'Text-to-Item Recommendation with Large Language Models');2) 强化学习在对话推荐系统中的应用(例如,'Reinforcement Learning for Conversational Recommendation Systems');3) 基于微调的LLM在信息检索中的改进(例如,'Fine-tuning Language Models for Information Retrieval')。此外,还有一些工作专注于通过闭环优化提升模型性能(例如,'Closed-loop Optimization of Recommender Systems with Reinforcement Learning')。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论