【标题】Multi-Task Fusion via Reinforcement Learning for Long-Term User Satisfaction in Recommender Systems

【作者团队】Qihua Zhang, Junning Liu, Yuzhuo Dai, Yiyan Qi, Yifan Yuan, Kunlun Zheng, Fan Huang, Xianfeng Tan

【发表日期】2022.8.9

【论文链接】https://arxiv.org/pdf/2208.04560v2.pdf

【推荐理由】推荐系统 (RS) 是一个重要的在线应用程序,每天影响着数十亿用户。主流的 RS 排名框架由两部分组成:预测各种用户反馈的多任务学习模型(MTL),即点击、喜欢、分享,以及结合多任务的多任务融合模型(MTF)。为了优化长期的用户满意度,而不是贪婪地获得即时奖励,在推荐会话中将 MTF 任务制定为马尔可夫决策过程 (MDP),并提出了基于批量强化学习 (RL) 的多任务融合框架 (BatchRL-MTF),包括批量 RL 框架和在线探索。前者利用 Batch RL 从固定批次数据离线学习最优推荐策略以获得长期用户满意度,而后者在线探索潜在的高价值动作以突破局部最优困境。在十亿样本级别的真实世界数据集上进行了广泛的实验,以展示该模型的有效性。并提出了保守的离线策略估计器(Conservative-OPEstimator)来离线测试模型。最后在真实的推荐环境中进行在线实验作为少数成功应用于 MTF 任务的 Batch RL 研究之一,该模型也已部署在大型工业短视频平台上,为数亿用户提供服务。

内容中包含的图片若涉及版权问题,请及时与我们联系删除