Optimizing Novelty of Top-k Recommendations using Large Language Models and Reinforcement Learning

2024年06月20日
  • 简介
    给定一个查询输入,一个推荐模型通过使用用户反馈数据(例如点击数据)进行训练,输出一个排名列表。在实际系统中,除了准确性,一个新模型的一个重要考虑因素是其前k个推荐与现有部署模型的新颖性。然而,前k个项目的新颖性是一个难以优化模型的目标,因为它涉及到对模型预测的非可微分排序操作。此外,新颖的项目根据定义没有任何用户反馈数据。鉴于大型语言模型的语义能力,我们使用强化学习(RL)的公式来解决这些问题,其中大型语言模型为新颖项目提供反馈。然而,鉴于数百万个候选项目,标准RL算法的样本复杂度可能过高。为了减少样本复杂度,我们将前k个列表奖励降低到一组逐项奖励,并重新制定状态空间,由<查询,项目>元组组成,使行动空间减少到二进制决策,并表明这种重制导致当项目数大时,复杂度显著降低。我们评估了所提出的算法在大规模搜索引擎上改进查询广告推荐任务的新颖性。与最近<查询,广告>对的监督微调相比,所提出的基于RL的算法在最小化召回损失的同时,带来了显著的新颖性增益。我们在ORCAS查询-网页匹配数据集和基于Amazon评论的产品推荐数据集上获得了类似的结果。
  • 图表
  • 解决问题
    本论文试图解决的问题是如何提高推荐模型的新颖性,以便更好地满足用户需求。同时,论文还试图解决大规模数据集下标准强化学习算法的样本复杂度过高的问题。
  • 关键思路
    论文提出了一种基于强化学习的方法,利用大型语言模型提供对新颖物品的反馈信息,从而提高推荐模型的新颖性。同时,通过将top-k列表奖励转化为基于物品的奖励,以及重新定义状态空间和行动空间,降低了标准强化学习算法的样本复杂度。
  • 其它亮点
    论文在大规模搜索引擎的查询广告推荐任务、ORCAS查询网页匹配数据集和基于亚马逊评论的产品推荐数据集上进行了实验,并与监督微调算法进行了比较。结果表明,该算法在提高新颖性方面表现出色,且召回率损失较小。此外,论文还提供了开源代码。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如《Deep Reinforcement Learning for List-wise Recommendations》、《Reinforcement Learning to Rank in E-commerce Search Engine: Formalization, Analysis, and Application》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论