- 简介推荐系统广泛用于建议吸引人的内容,而大型语言模型(LLMs)则催生了生成式推荐系统。这种系统可以直接生成项目,包括针对开放式任务的问题建议。虽然LLMs的世界知识能够提供良好的建议,但通过用户反馈来改善生成的内容是具有挑战性的,因为不断微调LLMs的成本过高。我们提出了一种无需训练的方法,通过将用户反馈环路连接到基于LLM的优化器来优化生成式推荐系统。我们提出了一种生成式探索-开发方法,不仅可以利用已知高参与度的生成项目,而且还可以积极探索和发现隐藏的人群偏好,以提高推荐质量。我们在两个领域(电子商务和常识知识)的问题生成上评估了我们的方法,并用点击率(CTR)来模拟用户反馈。实验表明,我们基于LLM的探索-开发方法可以迭代地改进推荐,并持续提高CTR。消融分析表明,生成式探索是学习用户偏好的关键,避免了贪婪的仅开发方法的缺陷。人类评估强烈支持我们的定量发现。
- 图表
- 解决问题论文尝试通过将用户反馈循环连接到基于LLM的优化器,提出一种无需训练的方法来优化生成式推荐系统。该方法可以通过探索和利用来改善推荐质量,但不需要昂贵的LLM微调。
- 关键思路论文提出了一种基于LLM的探索-利用方法,可以通过CTR模拟用户反馈来优化生成式推荐系统,同时避免了昂贵的LLM微调。
- 其它亮点论文在两个领域(电子商务和常识知识)的问题生成中评估了该方法,并使用CTR模拟了用户反馈。实验结果表明,该方法可以不断改善推荐质量,并且始终增加CTR。与贪婪的利用方法相比,探索方法是学习用户偏好的关键。人类评估支持了定量结果。
- 最近的相关研究包括基于LLM的生成式推荐系统,以及使用CTR模拟用户反馈来优化推荐系统的方法。例如,"Learning to Learn from Feedback: An Adversarial Retrosynthesis Approach for de Novo Drug Design"和"Deep Reinforcement Learning for Online Advertising in Recommender Systems"。
沙发等你来抢
去评论
评论
沙发等你来抢