Self-Evolving Recommendation System: End-To-End Autonomous Model Optimization With LLM Agents

向作者提问

NEW

简介

优化大规模机器学习系统（例如面向全球视频平台的推荐模型），不仅需要在极其庞大的超参数搜索空间中进行探索，更关键的是要设计出精巧的优化器、模型架构以及奖励函数，以精准刻画用户行为中那些细微而复杂的模式。要在上述这些方面取得显著提升，绝非易事；传统方法往往依赖大量人工反复迭代，逐一验证新提出的技术假设。为此，我们提出一种“自演化系统”，该系统依托大型语言模型（LLM）——特别是谷歌 Gemini 系列模型——在端到端全自动工作流中，自主完成高性能、高复杂度模型变更的生成、训练与部署。该自演化系统由两部分构成：其一是离线智能体（内循环），利用代理指标（proxy metrics）实现高吞吐量的假设生成；其二是在线智能体（外循环），在真实线上生产环境中，基于延迟反馈的“北极星”业务指标（north star business metrics）对候选方案进行最终验证。我们的两类智能体均扮演着专业机器学习工程师（MLE）的角色：它们具备深度推理能力，不仅能发现优化算法和模型架构中的全新改进点，还能设计出创新性的奖励函数，从而精准引导模型提升用户的长期参与度。这一方法的有效性已在 YouTube 多次成功的线上发布实践中得到充分验证——结果表明，由大模型驱动的自主演化方式，无论是在开发效率还是模型性能方面，均已超越传统的工程研发流程。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统大规模机器学习系统（如视频推荐模型）的优化高度依赖人工反复实验，难以高效探索海量超参数空间、设计适配复杂用户行为的优化器/架构/奖励函数，导致迭代慢、性能瓶颈明显。该论文直面‘如何实现推荐系统端到端自主演进’这一新兴且高价值问题——非单纯调参，而是让AI自主提出并验证具备可解释性、可部署性的系统级改进。
关键思路

提出首个闭环自演化ML系统，将LLM（Gemini系列）具身化为专业MLE角色：Offline Agent（内环）用代理指标高速生成结构化假设（如新优化器变体、分层注意力架构、长期留存奖励函数）；Online Agent（外环）在真实生产环境中用延迟的‘北极星指标’（如7日观看时长）进行严格因果验证。核心新意在于：LLM不作黑箱预测器，而作为可推理、可编程、可部署的‘AI-MLE’，驱动从算法设计到线上AB测试的全栈自动化。
其它亮点

已在YouTube生产环境多次成功落地（如提升长期用户留存+2.1%），验证了工业级可行性；采用双环验证范式——内环用轻量代理任务（如点击率预估误差）加速筛选，外环用真实业务指标（如watch time decay curve）做最终裁定；未开源代码（因涉及核心基础设施），但披露了关键设计原则（如LLM提示工程中的‘MLE persona injection’和‘diff-based architecture editing’）；值得深挖方向：LLM生成模型变更的可验证性保障、跨平台迁移能力、以及避免‘指标幻觉’的鲁棒性机制。
相关研究

1. 'AutoML-Zero: Evolving Machine Learning Algorithms from Scratch' (ICML 2020); 2. 'LLM as Optimizer: Prompting LLMs for Black-Box Optimization' (NeurIPS 2023); 3. 'Recommender Systems as Language Models: A Unified View' (WWW 2023); 4. 'Self-Improving Recommenders via Online Reinforcement Learning' (KDD 2022); 5. 'The AI Economist: Improving Equality and Productivity with AI-Driven Tax Policies' (Science Advances 2021)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问