An Off-Policy Reinforcement Learning Algorithm Customized for Multi-Task Fusion in Large-Scale Recommender Systems

2024年04月19日
  • 简介
    推荐系统广泛应用于提供个性化推荐服务。作为推荐系统的最后关键阶段,多任务融合(MTF)负责将多任务学习(MTL)输出的多个分数组合成最终分数,以最大化用户满意度,从而决定最终的推荐结果。最近,为了优化推荐会话中的长期用户满意度,工业界使用强化学习(RL)来进行MTF。然而,迄今为止用于MTF的离线策略RL算法存在以下严重问题:1)为避免分布外(OOD)问题,它们的约束过于严格,严重损害了它们的性能;2)它们不知道用于生成训练数据的探索策略,并且从未与真实环境交互,因此只能学习到次优策略;3)传统的探索策略效率低下,损害用户体验。为解决上述问题,我们提出了一种定制化的离线策略RL算法,用于大规模RS中的MTF。我们的RL-MTF算法将离线策略RL模型与我们的在线探索策略集成在一起,以放松过于严格和复杂的约束条件,从而显着提高了我们的RL模型的性能。我们还设计了一种极其高效的探索策略,消除了低价值探索空间,并专注于探索潜在的高价值状态-动作对。此外,我们采用渐进式训练模式,借助我们的探索策略进一步增强了我们的RL模型的性能。我们在腾讯新闻的短视频频道进行了广泛的离线和在线实验。结果表明,我们的RL-MTF模型明显优于其他模型。我们的RL-MTF模型已经在腾讯新闻的短视频频道中全面部署了约一年。此外,我们的解决方案已经在腾讯的其他大规模RS中使用。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决推荐系统中多任务融合阶段的强化学习问题,提出了一种定制化的离线策略强化学习算法 RL-MTF,旨在提高推荐算法的性能和用户体验。
  • 关键思路
    RL-MTF 算法将离线策略强化学习模型与在线探索策略相结合,以放松过于严格的限制条件,提高模型性能。同时,该算法采用高效的探索策略,专注于探索潜在高价值的状态-动作对,并采用渐进式训练模式进一步提高模型性能。
  • 其它亮点
    论文在腾讯新闻短视频频道进行了离线和在线实验,证明了 RL-MTF 模型的显著性能优势。该模型已在腾讯新闻短视频频道全面部署了一年,并在腾讯的其他大规模推荐系统中使用。此外,该算法的探索策略高效,消除了低价值探索空间,专注于探索潜在高价值的状态-动作对。
  • 相关研究
    最近在该领域中,还有一些相关的研究,如 Deep Reinforcement Learning for List-wise Recommendations、Learning Multi-Objective Reward Functions for Recommendation、Multi-Task Learning for Recommender Systems 等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问