Multi-Objective Recommendation via Multivariate Policy Learning

简介

实际的推荐系统在向用户展示推荐时通常需要平衡多个目标。这些目标包括行为信号（例如点击、分享、停留时间）以及更广泛的目标（例如多样性、公平性）。标量化方法通常用于处理这个平衡任务，其中每个目标奖励信号的加权平均值决定了用于排名的最终分数。自然地，如何计算这些权重对于任何在线平台的成功至关重要。我们将这视为一个决策任务，其中标量化权重是为了最大化整体的“北极星”奖励（例如长期用户保留或增长）而采取的行动。我们扩展了现有的策略学习方法，以连续的多元行动领域为基础，提出了最大化学习策略将产生的“北极星”奖励的悲观下限的方法。基于正态近似的典型下限存在覆盖不足的问题，我们提出了一种高效有效的策略相关校正方法。我们提供了设计随机数据收集策略以及高度敏感的奖励信号的指导。来自模拟、离线和在线实验的实证观察突出了我们部署方法的功效。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何平衡多个目标并决定推荐给用户的内容是什么，如多样性和公平性？如何设计加权平均算法以实现这一目标？
关键思路

将加权平均算法的权重视为决策，通过最大化学习策略的悲观下限来实现平衡多个目标的目标函数。提出了一种有效的基于策略的校正方法，以解决正常逼近的不足之处。
其它亮点

论文提供了设计随机数据收集策略和高度敏感的奖励信号的指导。通过模拟、离线和在线实验，证明了该方法的有效性。开源了代码。
相关研究

在这个领域中，最近的相关研究包括“Multi-Objective Reinforcement Learning using Sets of Pareto Dominating Policies”和“Balancing Multiple Objectives with Multi-Agent Deep Reinforcement Learning”。

Multi-Objective Recommendation via Multivariate Policy Learning

提问交流

提问交流