On (Normalised) Discounted Cumulative Gain as an Offline Evaluation Metric for Top-$n$ Recommendation
解决问题:本文旨在探讨离线评估指标在推荐系统中的应用,特别是排名指标中的(标准化)折扣累积增益(nDCG)是否可以作为在线实验结果的无偏估计。
关键思路:本文通过对DCG的推导,提出了一些假设来保证其作为在线奖励的无偏估计,同时指出了nDCG的一些缺陷,即在排名竞争方法时可能会反转它们的相对顺序。通过与大规模推荐平台上的在线实验进行相关分析,表明无偏DCG估计与在线奖励之间存在强烈的相关性,即使违反了一些指标的固有假设。但是nDCG的实用性可能会受到限制。
其他亮点:本文的实验结果表明,nDCG可能不是一个理想的离线评估指标。该研究没有使用特定的数据集或开源代码,但是提出的思路对于推荐系统中的评估指标研究具有重要意义。
关于作者:Olivier Jeunen和Ivan Potapov分别是比利时鲁汶大学和阿姆斯特丹大学的博士后研究员,他们的研究方向主要是机器学习和推荐系统。Aleksei Ustimenko是俄罗斯ITMO大学的博士生,他的研究方向包括机器学习和数据分析。在之前的代表作中,Olivier Jeunen曾发表过《推荐系统中的机器学习方法》一书,Ivan Potapov则曾发表过《基于用户行为的推荐系统》一文。
相关研究:近期其他相关的研究包括《Off-policy Evaluation for Slate Recommendation with Position Bias》(Y. Zhang, et al.,2021)和《Offline Evaluation Metrics for Learning to Rank Recommender Systems》(M. Färber, et al.,2020)。
论文摘要:本文旨在探讨推荐算法的离线评估方法,其目的是近似在线实验的结果。文献中引入了多种离线评估指标,这些指标受到信息检索领域排名指标的启发。其中,(标准化)折现累积增益(nDCG)是一种广泛采用的指标,多年来高(n)DCG值已被用来展示新方法在前n项推荐中的最新技术。 本文对这种方法进行了批判性的探讨,并研究了何时可以期望这些指标近似于在线实验的结果。我们正式提出了考虑DCG为在线奖励的无偏估计所必需的假设,并从基本原理上推导了这个指标,突出了我们与其在IR中的传统用法的偏差之处。重要的是,我们表明规范化该指标会使其不一致,即使DCG是无偏的,按其规范化DCG对竞争方法进行排名也会颠倒它们的相对顺序。通过对在大规模推荐平台上进行的离线和在线实验之间的相关性分析,我们表明我们的无偏DCG估计与在线奖励强烈相关,即使违反了该指标的一些固有假设。然而,对于其标准化变量,这种说法不再成立,这表明nDCG的实际效用可能受到限制。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢