On Softmax Direct Preference Optimization for Recommendation

2024年06月13日
  • 简介
    推荐系统旨在基于用户偏好数据预测个性化排名。随着语言模型(LM)的兴起,基于LM的推荐系统因其广泛的世界知识和强大的推理能力而得到广泛探索。大多数基于LM的推荐系统将历史交互转换为语言提示,将正面项目配对为目标响应,并使用语言建模损失对LM进行微调。然而,当前的目标未能充分利用偏好数据,并且未针对个性化排名任务进行优化,这阻碍了基于LM的推荐系统的性能。受人类偏好对齐中直接偏好优化(DPO)的当前进展和推荐中softmax损失的成功启发,我们提出了Softmax-DPO(S-DPO),将排名信息注入LM中,以帮助基于LM的推荐系统区分首选项目和负面项目,而不仅仅关注正面项目。具体来说,我们在用户偏好数据中并入多个负面项目,并设计了一种针对基于LM的推荐系统量身定制的DPO损失的替代版本,与softmax采样策略相连。理论上,我们将S-DPO与负采样上的softmax损失相连,并发现它具有挖掘困难负面项目的副作用,从而保证其在推荐任务中具有出色的能力。实证上,在三个真实世界数据集上进行的广泛实验表明,S-DPO优于其他方法,能够有效地建模用户偏好并进一步提高推荐性能,同时缓解DPO数据似然性下降问题。我们的代码可在https://github.com/chenyuxin1999/S-DPO找到。
  • 图表
  • 解决问题
    论文旨在解决LM-based推荐系统中存在的个性化排名问题,提出了一种新的Softmax-DPO方法。
  • 关键思路
    Softmax-DPO方法将多个负样本引入到用户偏好数据中,设计了一种适用于LM-based推荐系统的DPO损失函数,并连接了softmax采样策略,从而将排名信息融入到LM中。
  • 其它亮点
    论文在三个真实数据集上进行了广泛的实验,证明了S-DPO相对于其他方法的优越性,并且开源了代码。
  • 相关研究
    最近的相关研究包括:1.《BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer》;2.《Neural Collaborative Filtering》;3.《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论