- 简介推荐系统旨在基于用户偏好数据预测个性化排名。随着语言模型(LM)的兴起,基于LM的推荐器因其广泛的世界知识和强大的推理能力而得到广泛探索。大多数基于LM的推荐器将历史互动转换为语言提示,与正面项目配对作为目标响应,并使用语言建模损失微调LM。然而,当前的目标未能充分利用偏好数据,并未针对个性化排名任务进行优化,这影响了基于LM的推荐器的性能。受到直接偏好优化(DPO)在人类偏好对齐方面的当前进展和softmax损失在推荐中的成功启发,我们提出了Softmax-DPO(S-DPO)来将排名信息注入LM,以帮助基于LM的推荐器区分首选项和负面项目,而不仅仅是关注正面项目。具体而言,我们在用户偏好数据中加入多个负面项目,并设计了一种针对基于LM的推荐器量身定制的DPO损失的替代版本,与softmax采样策略相连。从理论上讲,我们将S-DPO与负采样上的softmax损失联系起来,并发现它具有挖掘难负面项目的副作用,这保证了它在推荐任务中的卓越能力。从实证上讲,我们在三个真实世界的数据集上进行了大量实验,证明了S-DPO优于有效地建模用户偏好,并进一步提高了推荐性能,同时缓解了DPO的数据似然下降问题。我们的代码可在https://github.com/chenyuxin1999/S-DPO上获得。
- 图表
- 解决问题本论文旨在解决基于语言模型的推荐系统中存在的个性化排序问题,提出一种新的Softmax-DPO方法。
- 关键思路Softmax-DPO方法将多个负面数据引入到用户偏好数据中,并针对语言模型推荐系统设计了一种新的DPO损失函数,与softmax采样策略相连。理论上,Softmax-DPO方法将softmax损失与负采样结合起来,可以挖掘出困难负样本,从而提高推荐性能。
- 其它亮点论文在三个真实世界的数据集上进行了大量实验,证明了Softmax-DPO方法在建模用户偏好和提高推荐性能方面的优越性。此外,作者还开源了代码。
- 最近的相关研究包括:《Deep Learning for Recommender Systems》、《Neural Collaborative Filtering》、《BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer》等。
沙发等你来抢
去评论
评论
沙发等你来抢