Reinforced Prompt Personalization for Recommendation with Large Language Models

简介

设计有效的提示可以使LLMs理解用户偏好并通过利用LLMs的意图理解和知识利用能力提供推荐。然而，现有的研究主要集中在任务提示上，开发由四种模式（即角色扮演、历史记录、推理指导和输出格式）组成的固定提示模板，并将它们应用于给定任务的所有用户。虽然方便，但任务提示忽略了个体用户之间的差异，导致在捕捉用户偏好方面存在潜在的不匹配。为了解决这个问题，我们引入了实例提示的概念，为个体用户个性化离散提示，并提出了强化提示个性化（RPP）来使用多智能体强化学习（MARL）优化提示中的四种模式。为了提高效率，RPP将提示个性化制定为全面选择四种模式中的最佳句子，而不是逐字逐句地优化。为了确保提示的质量，RPP精心制作了每个模式的多样表达，考虑了特定推荐任务的多个分析角度。除了RPP之外，我们提出了RPP+的建议，旨在通过在迭代过程中与LLMs动态优化行动来提高行动空间的可扩展性。我们评估了RPP/RPP+在各种数据集上的排名任务的有效性。实验结果表明，RPP/RPP+优于传统的推荐模型、少样本方法和其他基于提示的方法，强调了实例提示对于LLMs在推荐任务中的重要性，并验证了RPP/RPP+的有效性。我们的代码可在https://github.com/maowenyu-11/RPP上获得。
图表
解决问题

本文旨在解决个性化推荐中固定模板提示的不足，提出了实例级提示的概念，并使用多智能体强化学习来优化提示模板，以满足用户个性化需求。
关键思路

本文提出了一种名为Reinforced Prompt Personalization（RPP）的方法，通过多智能体强化学习来优化四种提示模板的句子选择，从而实现个性化提示。此外，还提出了RPP+，通过动态调整动作空间来提高效率。
其它亮点

实验结果表明，与传统推荐模型、少样本方法和其他基于提示的方法相比，RPP/RPP+具有优越性。研究者还开源了代码，并提供了多个数据集。
相关研究

在个性化推荐领域，已经有很多相关研究。例如，'DeepFM: A Factorization-Machine based Neural Network for CTR Prediction'和'SASRec: Self-Attentive Sequential Recommendation'等。

Reinforced Prompt Personalization for Recommendation with Large Language Models

评论