Reinforced Prompt Personalization for Recommendation with Large Language Models

Wenyu Mao ,
Jiancan Wu ,
Weijian Chen ,
Chongming Gao ,
Xiang Wang ,
Xiangnan He
68
热度
2024年07月24日
  • 简介
    设计有效的提示可以使LLMs理解用户偏好并通过利用LLMs的意图理解和知识利用能力提供推荐。然而,现有的研究主要集中在任务提示上,开发由四种模式(即角色扮演、历史记录、推理指导和输出格式)组成的固定提示模板,并将它们应用于给定任务的所有用户。虽然方便,但任务提示忽略了个体用户之间的差异,导致在捕捉用户偏好方面存在潜在的不匹配。为了解决这个问题,我们引入了实例提示的概念,为个体用户个性化离散提示,并提出了强化提示个性化(RPP)来使用多智能体强化学习(MARL)优化提示中的四种模式。为了提高效率,RPP将提示个性化制定为全面选择四种模式中的最佳句子,而不是逐字逐句地优化。为了确保提示的质量,RPP精心制作了每个模式的多样表达,考虑了特定推荐任务的多个分析角度。除了RPP之外,我们提出了RPP+的建议,旨在通过在迭代过程中与LLMs动态优化行动来提高行动空间的可扩展性。我们评估了RPP/RPP+在各种数据集上的排名任务的有效性。实验结果表明,RPP/RPP+优于传统的推荐模型、少样本方法和其他基于提示的方法,强调了实例提示对于LLMs在推荐任务中的重要性,并验证了RPP/RPP+的有效性。我们的代码可在https://github.com/maowenyu-11/RPP上获得。
  • 图表
  • 解决问题
    本文旨在解决个性化推荐中固定模板提示的不足,提出了实例级提示的概念,并使用多智能体强化学习来优化提示模板,以满足用户个性化需求。
  • 关键思路
    本文提出了一种名为Reinforced Prompt Personalization(RPP)的方法,通过多智能体强化学习来优化四种提示模板的句子选择,从而实现个性化提示。此外,还提出了RPP+,通过动态调整动作空间来提高效率。
  • 其它亮点
    实验结果表明,与传统推荐模型、少样本方法和其他基于提示的方法相比,RPP/RPP+具有优越性。研究者还开源了代码,并提供了多个数据集。
  • 相关研究
    在个性化推荐领域,已经有很多相关研究。例如,'DeepFM: A Factorization-Machine based Neural Network for CTR Prediction'和'SASRec: Self-Attentive Sequential Recommendation'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论