Multi-Objective Recommendation via Multivariate Policy Learning

2024年05月03日
  • 简介
    实际的推荐系统在向用户展示推荐时通常需要平衡多个目标。这些目标包括行为信号(例如点击、分享、停留时间)以及更广泛的目标(例如多样性、公平性)。标量化方法通常用于处理这个平衡任务,其中每个目标奖励信号的加权平均值决定了用于排名的最终分数。自然地,如何计算这些权重对于任何在线平台的成功至关重要。我们将这视为一个决策任务,其中标量化权重是为了最大化整体的“北极星”奖励(例如长期用户保留或增长)而采取的行动。我们扩展了现有的策略学习方法,以连续的多元行动领域为基础,提出了最大化学习策略将产生的“北极星”奖励的悲观下限的方法。基于正态近似的典型下限存在覆盖不足的问题,我们提出了一种高效有效的策略相关校正方法。我们提供了设计随机数据收集策略以及高度敏感的奖励信号的指导。来自模拟、离线和在线实验的实证观察突出了我们部署方法的功效。
  • 作者讲解
  • 图表
  • 解决问题
    如何平衡多个目标并决定推荐给用户的内容是什么,如多样性和公平性?如何设计加权平均算法以实现这一目标?
  • 关键思路
    将加权平均算法的权重视为决策,通过最大化学习策略的悲观下限来实现平衡多个目标的目标函数。提出了一种有效的基于策略的校正方法,以解决正常逼近的不足之处。
  • 其它亮点
    论文提供了设计随机数据收集策略和高度敏感的奖励信号的指导。通过模拟、离线和在线实验,证明了该方法的有效性。开源了代码。
  • 相关研究
    在这个领域中,最近的相关研究包括“Multi-Objective Reinforcement Learning using Sets of Pareto Dominating Policies”和“Balancing Multiple Objectives with Multi-Agent Deep Reinforcement Learning”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问