Reinforcement Learning-based Recommender Systems with Large Language Models for State Reward and Action Modeling

2024年03月25日
  • 简介
    基于强化学习(RL)的推荐系统通过学习从历史用户-物品交互中做出准确的下一项推荐来满足用户期望,已经展示出了有希望的性能。然而,现有的离线RL序列推荐方法面临着从环境中获取有效用户反馈的挑战。有效地建模用户状态和形成适当的推荐奖励仍然是一个挑战。在本文中,我们利用语言理解能力,将大型语言模型(LLMs)作为环境(LE)来增强基于RL的推荐系统。LE是从用户-物品交互数据的子集中学习的,因此减少了对大量训练数据的需求,并且可以通过以下方式为离线数据合成用户反馈:(i)作为状态模型,产生丰富用户表示的高质量状态;(ii)作为奖励模型,准确捕捉行动上微妙的用户偏好。此外,LE允许生成积极的行动,以增强有限的离线训练数据。我们提出了一种LE增强(LEA)方法,通过使用增强的行动和历史用户信号,联合优化监督组件和RL策略,进一步提高推荐性能。我们将LEA、状态模型和奖励模型与最先进的RL推荐器结合使用,并在两个公开可用的数据集上报告实验结果。
  • 作者讲解
  • 图表
  • 解决问题
    如何使用语言理解能力和大型语言模型(LLMs)作为环境(LE)来增强基于强化学习(RL)的推荐系统,以解决现有离线RL推荐方法中的用户反馈不足的问题?
  • 关键思路
    将大型语言模型作为环境,作为状态模型和奖励模型,以合成用户反馈并生成正向行为,从而增强基于强化学习的推荐系统。提出了LE增强方法,通过优化监督组件和RL策略来进一步提高推荐性能。
  • 其它亮点
    论文使用两个公开数据集进行实验,并与最先进的RL推荐系统进行比较。实验结果表明,所提出的LE增强方法能够显著提高推荐性能。论文还开源了代码。
  • 相关研究
    最近的相关研究包括:“Neural Collaborative Filtering”(He et al.,2017)、“Deep Reinforcement Learning for List-wise Recommendations”(Chen et al.,2018)和“BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer”(Sun et al.,2019)。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问