Reinforcement Learning-based Recommender Systems with Large Language Models for State Reward and Action Modeling

向作者提问

NEW

简介

基于强化学习（RL）的推荐系统通过学习从历史用户-物品交互中做出准确的下一项推荐来满足用户期望，已经展示出了有希望的性能。然而，现有的离线RL序列推荐方法面临着从环境中获取有效用户反馈的挑战。有效地建模用户状态和形成适当的推荐奖励仍然是一个挑战。在本文中，我们利用语言理解能力，将大型语言模型（LLMs）作为环境（LE）来增强基于RL的推荐系统。LE是从用户-物品交互数据的子集中学习的，因此减少了对大量训练数据的需求，并且可以通过以下方式为离线数据合成用户反馈：（i）作为状态模型，产生丰富用户表示的高质量状态；（ii）作为奖励模型，准确捕捉行动上微妙的用户偏好。此外，LE允许生成积极的行动，以增强有限的离线训练数据。我们提出了一种LE增强（LEA）方法，通过使用增强的行动和历史用户信号，联合优化监督组件和RL策略，进一步提高推荐性能。我们将LEA、状态模型和奖励模型与最先进的RL推荐器结合使用，并在两个公开可用的数据集上报告实验结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何使用语言理解能力和大型语言模型（LLMs）作为环境（LE）来增强基于强化学习（RL）的推荐系统，以解决现有离线RL推荐方法中的用户反馈不足的问题？
关键思路

将大型语言模型作为环境，作为状态模型和奖励模型，以合成用户反馈并生成正向行为，从而增强基于强化学习的推荐系统。提出了LE增强方法，通过优化监督组件和RL策略来进一步提高推荐性能。
其它亮点

论文使用两个公开数据集进行实验，并与最先进的RL推荐系统进行比较。实验结果表明，所提出的LE增强方法能够显著提高推荐性能。论文还开源了代码。
相关研究

最近的相关研究包括：“Neural Collaborative Filtering”（He et al.，2017）、“Deep Reinforcement Learning for List-wise Recommendations”（Chen et al.，2018）和“BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer”（Sun et al.，2019）。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问