- 简介基于强化学习(RL)的推荐系统通过学习从历史用户-物品交互中做出准确的下一项推荐来满足用户期望,已经展示出了有希望的性能。然而,现有的离线RL序列推荐方法面临着从环境中获取有效用户反馈的挑战。有效地建模用户状态和形成适当的推荐奖励仍然是一个挑战。在本文中,我们利用语言理解能力,将大型语言模型(LLMs)作为环境(LE)来增强基于RL的推荐系统。LE是从用户-物品交互数据的子集中学习的,因此减少了对大量训练数据的需求,并且可以通过以下方式为离线数据合成用户反馈:(i)作为状态模型,产生丰富用户表示的高质量状态;(ii)作为奖励模型,准确捕捉行动上微妙的用户偏好。此外,LE允许生成积极的行动,以增强有限的离线训练数据。我们提出了一种LE增强(LEA)方法,通过使用增强的行动和历史用户信号,联合优化监督组件和RL策略,进一步提高推荐性能。我们将LEA、状态模型和奖励模型与最先进的RL推荐器结合使用,并在两个公开可用的数据集上报告实验结果。
-
- 图表
- 解决问题如何使用语言理解能力和大型语言模型(LLMs)作为环境(LE)来增强基于强化学习(RL)的推荐系统,以解决现有离线RL推荐方法中的用户反馈不足的问题?
- 关键思路将大型语言模型作为环境,作为状态模型和奖励模型,以合成用户反馈并生成正向行为,从而增强基于强化学习的推荐系统。提出了LE增强方法,通过优化监督组件和RL策略来进一步提高推荐性能。
- 其它亮点论文使用两个公开数据集进行实验,并与最先进的RL推荐系统进行比较。实验结果表明,所提出的LE增强方法能够显著提高推荐性能。论文还开源了代码。
- 最近的相关研究包括:“Neural Collaborative Filtering”(He et al.,2017)、“Deep Reinforcement Learning for List-wise Recommendations”(Chen et al.,2018)和“BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer”(Sun et al.,2019)。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流