Deep Pareto Reinforcement Learning for Multi-Objective Recommender System

2024年07月04日
  • 简介
    在推荐平台中同时优化多个目标是提高其在不同方面性能的重要任务。然而,由于不同消费者之间不同目标的关系是异构的,并且根据不同的上下文动态波动,因此这项任务尤其具有挑战性。特别是在目标之间产生冲突的情况下,推荐结果将形成帕累托前沿,其中任何目标的改进都会以另一个目标的性能下降为代价。不幸的是,现有的多目标推荐系统没有系统地考虑这种关系;相反,它们在静态和统一的方式之间平衡这些目标,导致性能明显低于帕累托最优性。在本文中,我们提出了一种深度帕累托强化学习(DeepPRL)方法,其中我们(1)全面地模拟推荐中多个目标之间的复杂关系;(2)有效地捕捉个性化和情境化的消费者对每个目标的偏好,并相应地更新推荐;(3)优化多目标推荐的短期和长期性能。因此,我们的方法在三个真实世界数据集上进行的广泛离线实验中,显著优于现有技术基线的帕累托优势。此外,我们在阿里巴巴的视频流平台进行了大规模的在线对照实验,其中我们的方法将点击率、视频观看和停留时间三个相互冲突的目标分别提高了2%、5%和7%,相对于最新的生产系统,展示了其在工业应用中的实际经济影响。
  • 图表
  • 解决问题
    解决多目标推荐系统中平衡不同目标之间关系的问题,使得推荐系统在不同场景下能够同时优化多个目标。
  • 关键思路
    提出了一种 Deep Pareto Reinforcement Learning (DeepPRL) 方法,通过建立多目标推荐系统中目标之间的关系模型,捕捉用户对每个目标的个性化和上下文偏好,并优化短期和长期推荐性能,从而实现在多个目标上的 Pareto 优化。
  • 其它亮点
    实验结果表明,该方法在三个真实数据集上实现了显著的 Pareto 支配。在阿里巴巴视频流媒体平台上进行的大规模在线控制实验中,该方法将点击率、视频观看量和停留时间这三个相互冲突的目标分别提高了2%、5%和7%,证明了其在工业应用中的实际经济效益。
  • 相关研究
    最近的相关研究包括 Multi-Objective Reinforcement Learning for Recommendation with Multiple Long-Term Objectives 和 Multi-Objective Reinforcement Learning for Online Recommendation of Complementary Products。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论