An Off-Policy Reinforcement Learning Algorithm Customized for Multi-Task Fusion in Large-Scale Recommender Systems

向作者提问

NEW

简介

推荐系统广泛应用于提供个性化推荐服务。作为推荐系统的最后关键阶段，多任务融合（MTF）负责将多任务学习（MTL）输出的多个分数组合成最终分数，以最大化用户满意度，从而决定最终的推荐结果。最近，为了优化推荐会话中的长期用户满意度，工业界使用强化学习（RL）来进行MTF。然而，迄今为止用于MTF的离线策略RL算法存在以下严重问题：1）为避免分布外（OOD）问题，它们的约束过于严格，严重损害了它们的性能；2）它们不知道用于生成训练数据的探索策略，并且从未与真实环境交互，因此只能学习到次优策略；3）传统的探索策略效率低下，损害用户体验。为解决上述问题，我们提出了一种定制化的离线策略RL算法，用于大规模RS中的MTF。我们的RL-MTF算法将离线策略RL模型与我们的在线探索策略集成在一起，以放松过于严格和复杂的约束条件，从而显着提高了我们的RL模型的性能。我们还设计了一种极其高效的探索策略，消除了低价值探索空间，并专注于探索潜在的高价值状态-动作对。此外，我们采用渐进式训练模式，借助我们的探索策略进一步增强了我们的RL模型的性能。我们在腾讯新闻的短视频频道进行了广泛的离线和在线实验。结果表明，我们的RL-MTF模型明显优于其他模型。我们的RL-MTF模型已经在腾讯新闻的短视频频道中全面部署了约一年。此外，我们的解决方案已经在腾讯的其他大规模RS中使用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决推荐系统中多任务融合阶段的强化学习问题，提出了一种定制化的离线策略强化学习算法 RL-MTF，旨在提高推荐算法的性能和用户体验。
关键思路

RL-MTF 算法将离线策略强化学习模型与在线探索策略相结合，以放松过于严格的限制条件，提高模型性能。同时，该算法采用高效的探索策略，专注于探索潜在高价值的状态-动作对，并采用渐进式训练模式进一步提高模型性能。
其它亮点

论文在腾讯新闻短视频频道进行了离线和在线实验，证明了 RL-MTF 模型的显著性能优势。该模型已在腾讯新闻短视频频道全面部署了一年，并在腾讯的其他大规模推荐系统中使用。此外，该算法的探索策略高效，消除了低价值探索空间，专注于探索潜在高价值的状态-动作对。
相关研究

最近在该领域中，还有一些相关的研究，如 Deep Reinforcement Learning for List-wise Recommendations、Learning Multi-Objective Reward Functions for Recommendation、Multi-Task Learning for Recommender Systems 等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问