NEW

RecGPT-V2 Technical Report

Chao Yi ,

Dian Chen ,

Gaoyang Guo ,

Jiakai Tang ,

Jian Wu ,

Jing Yu ,

Mao Zhang ,

Wen Chen ,

Wenjun Yang ,

Yujie Luo ,

Yuning Jiang ,

Zhujin Gao ,

Bo Zheng ,

Binbin Cao ,

Changfa Wu ,

Dixuan Wang ,

Han Wu ,

Haoyi Hu ,

Kewei Zhu ,

Lang Tian ,

Lin Yang ,

Qiqi Huang ,

Siqi Yang ,

Wenbo Su ,

Xiaoxiao He ,

Xin Tong ,

Xu Chen ,

Xunke Xi ,

Xiaowei Huang ,

Yaxuan Wu ,

Yeqiu Yang ,

Yi Hu ,

Yujin Yuan ,

Yuliang Yan ,

Zile Zhou

热度 39

2025年12月16日

简介

大型语言模型（LLM）在推动推荐系统从隐式的用户行为模式匹配转向显式的意图推理方面，展现出巨大的潜力。尽管RecGPT-V1通过将基于大模型的推理机制引入用户兴趣挖掘与物品标签预测，率先开创了这一范式，但仍存在四个根本性局限：（1）在多条推理路径中存在计算效率低下与认知冗余问题；（2）固定模板生成导致解释多样性不足；（3）在监督学习范式下泛化能力有限；（4）评估方式过于简单，仅关注最终结果，难以达到人类判断标准。为应对上述挑战，我们提出了RecGPT-V2，并实现了四项关键创新。首先，我们设计了一个分层多智能体系统，通过协调协作重构意图推理流程，在消除认知重复的同时实现更广泛的意图覆盖。结合混合表征推理机制对用户行为上下文进行压缩，该框架将GPU资源消耗降低了60%，专属召回率从9.39%提升至10.99%。其次，元提示（Meta-Prompting）框架能够动态生成与上下文适配的提示语，使解释多样性提升了7.3%。第三，采用约束性强化学习方法缓解多目标奖励之间的冲突，在标签预测准确率上提升24.1%，在解释可接受度上提升13.0%。第四，提出“智能体即评判者”（Agent-as-a-Judge）框架，将评估过程分解为多步骤推理，显著增强了与人类偏好的一致性。在淘宝平台开展的在线A/B测试表明，RecGPT-V2取得了显著效果提升：点击率（CTR）提升2.98%，页面浏览量（IPV）提升3.71%，成交总额（TV）提升2.19%，新用户留存率（NER）大幅提升11.46%。RecGPT-V2不仅验证了大规模部署基于大模型的意图推理在技术上的可行性，也证明了其在工业应用中的商业价值，成功弥合了认知探索与实际应用之间的鸿沟。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决当前基于大语言模型（LLM）的推荐系统在从行为模式匹配向意图推理转变过程中存在的四个关键问题：推理路径中的计算低效与认知冗余、固定模板生成导致的解释多样性不足、监督学习范式下的泛化能力有限，以及仅关注结果的简单评估机制无法对齐人类判断标准。这些问题限制了LLM在工业级推荐系统中实现真正认知层面的意图理解与可解释性，虽然已有工作如RecGPT-V1进行了初步探索，但尚未系统性优化效率、多样性、训练范式与评估体系，因此这是一个正在演进但尚未充分解决的新问题。
关键思路

提出RecGPT-V2，通过四大创新重构LLM驱动的推荐范式：1）构建分层多智能体系统，实现协同意图推理以消除冗余并提升覆盖；2）引入混合表征推断压缩用户行为上下文，显著降低计算开销；3）设计元提示（Meta-Prompting）框架动态生成上下文自适应提示，增强解释多样性；4）采用约束强化学习缓解多目标冲突，并提出‘智能体即裁判’（Agent-as-a-Judge）框架实现多步推理评估，提升与人类偏好的对齐度。相比现有研究，该工作首次将多智能体协作、动态提示生成、强化学习优化与智能体自我评估整合进推荐流程，实现了从‘被动预测’到‘主动认知推理’的系统性跃迁。
其它亮点

实验设计严谨，结合离线指标与大规模在线A/B测试验证效果。离线结果显示GPU资源消耗降低60%，专属召回率从9.39%提升至10.99%，标签预测和解释接受度分别提升24.1%和13.0%；在线测试在淘宝平台取得显著增益：CTR +2.98%，IPV +3.71%，TV +2.19%，NER +11.46%。工作证实了LLM用于工业级意图推理的可行性与商业价值。目前未提及代码是否开源，值得深入的方向包括多智能体系统的轻量化部署、Meta-Prompting在跨域推荐中的迁移能力，以及Agent-as-a-Judge在其他AI决策系统中的泛化应用。
相关研究

1. RecGPT: Generative Pre-trained Language Models are Recommender Systems 2. Towards Cognitive Exploration via On-Line Reinforcement Learning for Recommendation 3. Personalized Prompt Mining for Explainable Recommendation 4. Large Language Models Are Zero-Shot Rankers for Recommender Systems 5. Chat-REC: Towards Conversational Recommendation with Large-Scale Personalized Text Data

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问