报告主题:腾讯西雅图实验室:无需任何标注数据,大模型也可以自我提升

报告日期:09月10日(周三)10:30-11:30

报告要点:

自演进自提升 (Self-improvement / Self-evolving) 的大语言模型为实现超级智能提供了一条路径:它们能够自主生成、改进并从自身经验中学习。然而,现有的自演进训练方法仍然严重依赖于大量人工整理的任务和标注 (human annotation),通常通过微调或强化学习来实现,这就成为推动 AI 系统超越人类智能能力的一大根本瓶颈。

为突破这一限制,我们提出了 R-Zero。R-zero是一种从零开始自主生成训练数据的全自动框架。在这一框架中,首先从一个基础 LLM 出发,初始化两个具有不同角色的独立模型:一个是挑战者 (Challenger),另一个是解答者 (Solver)。这两个模型分别独立优化,并通过交互共同进化:挑战者的奖励来自于提出接近解答者能力边界的任务,而解答者的奖励则来自于不断解决挑战者提出的更具挑战性的任务。由此,模型能够在无需任何预先存在的任务和标注的情况下,获得一个有针对性、不断进化的自我改进课程。我们的实验表明在不同的基础 LLM 上显著提升了推理能力。例如,在数学推理基准上,Qwen3-4B-Base 提升了 +6.49,在通用领域推理基准上提升了 +7.54。

在这个talk中,我还将简略介绍腾讯AI实验室在这个方向 (利用大模型自我奖励的强化学习训练来实现自我演进的)的一系列工作和核心收获。

报告嘉宾:
于文豪是腾讯AI西雅图实验室的高级研究员,主要研究方向为自演进大模型和智能体 (Agent)。他的学术成果已被谷歌统计引用5700余次,并在 ICLR、NeurIPS、ACL 等机器学习与自然语言处理顶级会议上发表论文30余篇。其中多项研究工作(如 WebVoyager)已被 OpenAI、Google 等机构采用。他曾荣获 EMNLP 2023 杰出论文奖、Bloomberg PhD奖学金等荣誉。

扫码报名


更多热门报告


内容中包含的图片若涉及版权问题,请及时与我们联系删除