- 简介推荐器在每个在线请求中选择和呈现给用户前K个物品,一个推荐会话由多个连续的请求组成。将推荐会话作为马尔可夫决策过程进行建模,并通过强化学习(RL)框架求解,已经引起学术界和工业界的越来越多的关注。在本文中,我们提出了一个基于RL的工业短视频推荐排名框架,通过协作多智能体公式化,在用户多方面偏好的环境中建模和最大化用户观看时间。此外,我们提出的框架采用基于模型的学习方法来减轻样本选择偏差,这是工业推荐系统中一个关键但难以解决的问题。广泛的离线评估和实时实验证实了我们提出的方法比其他方法更有效。我们提出的方法已经部署在我们的真实大规模短视频分享平台上,成功地为数亿用户提供服务。
- 图表
- 解决问题本论文提出了一种基于强化学习(RL)框架的工业级短视频推荐排名框架,旨在解决用户多方面偏好的环境中最大化用户观看时间的问题。
- 关键思路该框架采用协作多智能体模型,采用基于模型的学习方法来缓解工业级推荐系统中的样本选择偏差问题。
- 其它亮点论文通过离线评估和实时实验验证了该方法的有效性,并在实际的大规模短视频分享平台上成功部署,为超过数亿用户提供服务。
- 最近的相关研究包括“Deep Reinforcement Learning for List-wise Recommendations”和“Collaborative Multi-Agent Reinforcement Learning for Sequential Recommendation”,等等。
沙发等你来抢
去评论
评论
沙发等你来抢