- 简介优化大规模机器学习系统(例如面向全球视频平台的推荐模型),不仅需要在极其庞大的超参数搜索空间中进行探索,更关键的是要设计出精巧的优化器、模型架构以及奖励函数,以精准刻画用户行为中那些细微而复杂的模式。要在上述这些方面取得显著提升,绝非易事;传统方法往往依赖大量人工反复迭代,逐一验证新提出的技术假设。为此,我们提出一种“自演化系统”,该系统依托大型语言模型(LLM)——特别是谷歌 Gemini 系列模型——在端到端全自动工作流中,自主完成高性能、高复杂度模型变更的生成、训练与部署。该自演化系统由两部分构成:其一是离线智能体(内循环),利用代理指标(proxy metrics)实现高吞吐量的假设生成;其二是在线智能体(外循环),在真实线上生产环境中,基于延迟反馈的“北极星”业务指标(north star business metrics)对候选方案进行最终验证。我们的两类智能体均扮演着专业机器学习工程师(MLE)的角色:它们具备深度推理能力,不仅能发现优化算法和模型架构中的全新改进点,还能设计出创新性的奖励函数,从而精准引导模型提升用户的长期参与度。这一方法的有效性已在 YouTube 多次成功的线上发布实践中得到充分验证——结果表明,由大模型驱动的自主演化方式,无论是在开发效率还是模型性能方面,均已超越传统的工程研发流程。
-
- 图表
- 解决问题传统大规模机器学习系统(如视频推荐模型)的优化高度依赖人工反复实验,难以高效探索海量超参数空间、设计适配复杂用户行为的优化器/架构/奖励函数,导致迭代慢、性能瓶颈明显。该论文直面‘如何实现推荐系统端到端自主演进’这一新兴且高价值问题——非单纯调参,而是让AI自主提出并验证具备可解释性、可部署性的系统级改进。
- 关键思路提出首个闭环自演化ML系统,将LLM(Gemini系列)具身化为专业MLE角色:Offline Agent(内环)用代理指标高速生成结构化假设(如新优化器变体、分层注意力架构、长期留存奖励函数);Online Agent(外环)在真实生产环境中用延迟的‘北极星指标’(如7日观看时长)进行严格因果验证。核心新意在于:LLM不作黑箱预测器,而作为可推理、可编程、可部署的‘AI-MLE’,驱动从算法设计到线上AB测试的全栈自动化。
- 其它亮点已在YouTube生产环境多次成功落地(如提升长期用户留存+2.1%),验证了工业级可行性;采用双环验证范式——内环用轻量代理任务(如点击率预估误差)加速筛选,外环用真实业务指标(如watch time decay curve)做最终裁定;未开源代码(因涉及核心基础设施),但披露了关键设计原则(如LLM提示工程中的‘MLE persona injection’和‘diff-based architecture editing’);值得深挖方向:LLM生成模型变更的可验证性保障、跨平台迁移能力、以及避免‘指标幻觉’的鲁棒性机制。
- 1. 'AutoML-Zero: Evolving Machine Learning Algorithms from Scratch' (ICML 2020); 2. 'LLM as Optimizer: Prompting LLMs for Black-Box Optimization' (NeurIPS 2023); 3. 'Recommender Systems as Language Models: A Unified View' (WWW 2023); 4. 'Self-Improving Recommenders via Online Reinforcement Learning' (KDD 2022); 5. 'The AI Economist: Improving Equality and Productivity with AI-Driven Tax Policies' (Science Advances 2021)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流