ROLeR: Effective Reward Shaping in Offline Reinforcement Learning for Recommender Systems

2024年07月18日
  • 简介
    离线强化学习(RL)是实际推荐系统中有效的工具,它能够模拟用户的动态兴趣和互动性。大多数现有的离线RL推荐系统侧重于基于模型的RL,通过从离线数据中学习世界模型并通过与该模型的交互来构建推荐策略。虽然这些方法在推荐性能方面取得了进展,但是模型基础的离线RL方法的有效性通常受到奖励模型估计的准确性和模型不确定性的限制,主要是由于离线记录数据与用户在在线平台上的交互中的真实数据之间的极端差异。为了填补这一空白,需要更准确的奖励模型和不确定性估计来支持基于模型的RL方法。本文提出了一种新的基于模型的离线强化学习奖励塑造方法(ROLeR)用于推荐系统中的奖励和不确定性估计。具体来说,设计了一种非参数奖励塑造方法来精细化奖励模型。此外,设计了一种灵活且更具代表性的不确定性惩罚来适应推荐系统的需求。在四个基准数据集上进行的广泛实验表明,ROLeR与现有基线相比实现了最先进的性能。源代码可从https://github.com/ArronDZhang/ROLeR下载。
  • 图表
  • 解决问题
    提出了一种用于推荐系统的离线强化学习模型,旨在解决模型不确定性和奖励模型估计准确性的问题。
  • 关键思路
    该模型采用非参数奖励塑造方法来完善奖励模型,并设计了灵活且更具代表性的不确定性惩罚方法来适应推荐系统的需求。
  • 其它亮点
    在四个基准数据集上进行了广泛的实验,展示了ROLeR相对于现有基线模型的最新性能。研究开源代码可以在GitHub上下载。
  • 相关研究
    最近的相关研究包括《Off-policy Evaluation via Off-Policy Classification》和《Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论