

关键词:合成数据; 大语言模型; 数据处理不等式

导 读
本文是 ICML 2026 入选论文 An Information-Theoretic Criterion for Efficient Data Synthesis 的解读。该工作由北京大学前沿计算研究中心邓小铁课题组完成,论文作者包括李翰禹(北京大学计算机学院前沿计算研究中心)、孙政奇(北京大学信息管理系)和邓小铁(北京大学计算机学院前沿计算研究中心)。本论文由北京大学通班必修课《AI 中的数学》期中作业扩展而成。
这篇文章讨论的是大模型训练中一个越来越实际的问题:当公开互联网上的高质量数据逐渐被用尽,模型还能不能依靠合成数据继续进步?这个问题之所以重要,是因为大模型的发展方式正在变化。早期的大模型主要从互联网上已有的文本中学习,例如网页、书籍、论坛和代码仓库。但今天我们希望模型完成的任务,已经不只是“读过类似文本然后回答”。长程推理、多步规划、工具调用、智能体交互,都需要模型在任务中尝试、犯错、得到反馈,再把这些过程变成新的训练材料。
于是,合成数据变成了一个绕不开的问题。一方面,数学和代码中的进展让人看到希望:代码可以运行和测试,数学答案可以验证,模型生成的大量候选解可以被筛选、校正,再重新用于训练。尤其是代码智能体的发展,让大模型进入了真实的软件开发工作流。Cursor、GitHub Copilot、Codex、Claude Code 等工具中,模型不只是回答编程问题,而是在读代码、改代码、运行测试、根据报错继续修改。另一方面,也有许多研究发现,如果模型反复学习自己的输出,可能出现分布收缩、长尾知识丢失,甚至模型崩塌。同样是合成数据,为什么有时能提升模型,有时反而会让模型退化?

← 扫码跳转论文
论文地址:
https://arxiv.org/abs/2605.16379
什么是合成数据
这里的“合成数据”并不是指“假数据”。在本文中,可以把它理解为一类新的训练材料:它们不是人类一开始就完整写好、标注好的,而是由模型、程序、工具或环境参与产生,然后再拿去训练模型。
例如,模型写出一道题的解法,程序检查答案是否正确;模型生成多个代码补丁,系统运行测试后保留通过的版本;智能体在环境里尝试多步操作,成功的轨迹被记录下来。这些材料不一定来自传统互联网文本,但它们都可能成为训练模型的数据。
信息从哪里来
论文的基本思想可以从一个简单例子理解。假设一个学生练习数学题。如果他只是自己编题、自己写答案、再把自己的答案当成标准答案复习,练习次数再多,也很难保证方向是对的。错误可能被重复,偏差也可能被放大。
另一种情况就不同。学生做完题后,如果有答案、老师、判题系统或实验结果告诉他哪里对、哪里错,那么每一轮练习都会被外部标准校正。练习仍然是学生自己完成的,但判断对错的信息不是学生自己凭空产生的。
模型训练中的合成数据也有类似区别。如果模型只是生成内容,再学习自己生成的内容,训练很容易变成自我循环。相反,如果模型生成的内容会被代码测试、数学验证器、真实环境、固定规则或专家判断筛选,它就接触到了模型自身输出之外的信息。
因此,本文关心的不是“数据是不是机器生成的”,而是训练过程中有没有新的判断标准参与进来。这个判断标准越稳定、越接近任务本身,合成数据越可能有用。不过,论文进一步指出,事情还不止于此。即使都有外部反馈,不同反馈对训练的帮助也可能差别很大。
为什么纯自我训练可能导致模型崩塌
本文用数据处理不等式解释纯自我训练的局限。直观地说,反复加工同一份信息,不能凭空产生新的信息。就像一张图片被反复截图、转发、压缩,通常不会越来越清晰,只会逐渐丢掉细节。
模型自己生成数据、再学习这些数据,也可能出现类似问题。生成时,一些低频但重要的内容可能被漏掉;训练时,常见模式又会被进一步强化。经过多轮循环之后,看起来数据越来越多,实际分布可能越来越窄。
这就是模型崩塌的一种直观解释。问题不在于模型生成了内容,而在于这些内容没有被新的信息持续校正。训练过程看似在扩充数据,实际上可能只是在把模型原有的偏差重复得更稳定。
代码和数学为什么更容易成功
代码和数学提供了最容易理解的对照。写程序时,模型可以生成很多版本,系统一运行就知道有没有报错、测试能不能通过。做数学题时,答案可以校验,证明也可以被检查。
在这些任务中,模型负责提出很多可能的答案,外部系统负责判断哪些答案真的有效。被保留下来的数据,不只是“模型又写了一遍东西”,而是经过了测试、验证或筛选。也正是这个过程,把模型原本没有的信息带回了训练。
这说明,合成数据的价值往往不在“生成”本身,而在生成之后的校正。接下来的问题是效率:为了让这些生成内容真的提升模型,我们到底需要注入多少新的、和任务相关的信息?如果每一条合成数据都需要大量人工标注,成本可能并不比真实数据低;如果只需要一个很简洁的判断信号就能让模型学到东西,合成数据才真正有扩展的可能。
信息注入效率:多少信息才够
论文指出,关键不只是有没有反馈,还要看反馈本身是否“划算”:为了获得一次有效训练,系统需要提供多少新的信息。如果一个简单的反馈就能排除大量错误方向,让模型更接近任务目标,那么它的信息注入效率就高;如果反馈里夹杂了很多和任务无关的细节,模型需要学很多表面形式才能得到一点真正能力,效率就低。
以数学题为例,这里可以对比两种常见训练范式。第一种是 SFT,也就是监督微调:给模型一个参考答案,让模型学习去模仿它。但同一道题可能有很多种正确解法。如果只模仿某一个参考答案,模型学到的不只是“什么是正确推理”,还会学到这个答案的措辞、步骤顺序和表达风格。也就是说,训练信号里包含了许多并不必要的信息。
第二种是 RLVR,也就是基于可验证奖励的强化学习。它不要求模型必须写得像某个参考答案,而是看模型给出的答案能不能通过验证。一个很简洁的对错信号,就能把不同写法的正确答案保留下来,把错误答案排除出去。这样的反馈用更少的信息,约束了更关键的方向:什么样的推理能得到正确结果。
代码测试也是类似的。一个程序可以有很多写法,只要通过测试并满足约束,它们都可以被视为可接受。因此,RLVR 等方法在数学和代码中有效,关键不只是“有奖励”,而是可验证奖励能用相对简洁的信号筛出大量有用样本,从而提高信息注入效率。
这也解释了信息注入效率和泛化性的关系。同样是用模型生成的数据训练,SFT 更容易把模型拉向某个具体答案的表面形式;RLVR 则把所有能通过验证的答案看作同一类,让模型学习“什么样的结果是可接受的”。因此,在同样的数据条件下,RLVR 的泛化性往往明显好于 SFT。论文也指出,这类高层级、可验证的信号不一定只服务于原来的任务。大量的实验已经验证,训练模型写代码和调试代码时,测试反馈会不断要求模型搜索可能方案、验证中间结果、根据错误修正路径;这些能力并不只属于编程,也能够迁移到数学解题、科学推理、逻辑判断和一般推理中,让模型在这些方面的能力发生显著的进步。
当反馈教错了方向
这个视角也解释了为什么模型训练会跑偏。信息注入效率高,本身并不保证注入的是我们想要的信息。如果反馈设计不好,或者训练过程中缺少专家校对,模型可能会把错误的简单信号学得非常快。论文用 reward hacking 来描述这类现象:模型没有真正学会目标本身,而是学会了如何利用评分规则中的捷径。
这类 hack 之所以容易广泛发生,恰恰是因为简单信号往往也有很强的泛化性。长度、格式、语气、自信程度、某些固定表达方式,可能出现在许多题目和许多领域中,比“答案是否真的正确”更容易识别、更稳定、更容易被模型捕捉。训练信号一旦把这些特征和高分绑定在一起,模型就会优先学习它们。
例如,训练本来希望奖励正确答案,但如果高分答案往往更长、更像某种格式,模型可能先学会“写得更长”或“看起来更专业”,而不是学会真正判断正确性。这并不是模型没有学习,而是模型学到了训练信号中最容易被利用、也最容易迁移的规律。
在高风险任务中,这类问题尤其值得警惕。一个回答可以语气自信、结构完整、格式专业,但这些表面特征并不等于判断正确。如果评价标准不够严谨,模型可能会越来越擅长生成“看起来对”的答案,而且这种“看起来对”的模式还可能跨任务复用,反而掩盖了真正能力的不足。
回到现实:从代码走向更多行业
代码智能体的成功还有一个特殊前提:软件开发本身有长期的开源文化,也有相对清晰的验证方式。互联网上有大量真实代码、真实项目、issue、pull request 和工程讨论;代码写完之后,还可以运行、测试、报错、回滚。模型不仅能看到代码,还能看到人类如何发现问题、修改问题、验证问题。这些材料天然构成了一个“生成-校正-再训练”的循环。
许多垂直领域没有这样的条件。病历、诊疗过程、法律咨询、企业合同、实验失败记录和内部研发流程,往往受到隐私、合规、商业秘密或专业伦理的限制。真正有价值的数据不一定公开,也不一定能直接拿来训练。更重要的是,这些领域的正确性往往不能靠一个简单程序判断,而需要专业经验、行业规范和真实场景中的后果反馈。
从本文的角度看,代码和其他行业的差异说明了一件事:合成数据不能替代外部世界本身。模型公司可以生成大量文本和轨迹,但如果这些材料没有被真实任务、专业判断和行业反馈校正,训练就容易变成模型自己生产、自己筛选、自己学习的闭环。这样的闭环看起来数据很多,实际上可能只是在放大已有偏差,让模型越来越擅长生成“像专业意见”的文本,却没有真正接近专业判断。
因此,法律、医疗、科研、金融等领域的模型进步,很难只靠模型公司自己完成。行业真正需要提供的,也不一定是未经处理的原始隐私数据,而是能够进入训练循环的校正信号:脱敏后的案例、专家审核规则、受控环境、标准化评测、真实工作流中的纠错记录,以及能够反映长期后果的评价机制。
论文也由此产生了一个很强的现实意义:合成数据要成为下一阶段模型进步的燃料,不能只在模型内部循环,必须重新接上真实世界的校正。大模型下一步能走多远,不只取决于模型公司能生成多少数据,也取决于社会共同的努力,各行各业能否把真实的专业判断组织成可学习的信号,积极拥抱与推动大模型的发展。没有这一步,合成数据越多,可能只是噪声越大;有了这一步,它才可能成为共同推动模型进步的入口。

图文 | 李翰禹
PKU daGAME Lab
算法博弈论实验室
Distributed and Automated Games and Managerial Economics Lab
算法博弈论实验室由邓小铁教授于2019年创立,研究方向为算法博弈论、互联网和区块链经济学、多智能体及强化深度学习理论。科研兴趣聚焦在人和智能体在互联网、物联网和区块链交互环境下多方博弈的理论与方法论建立,包括数据信息的认识论刻画、均衡和动力学分析、计算复杂性和算法设计。关注计算与通讯技术兴起中应用领域的问题,特别关注互联网广告机制设计、共享经济中的激励分析和合作竞争,以及区块链的高效共识、声誉机制和跨链机制设计。

↑↑扫码转实验室主页↑↑
实验室 PI 简介:邓小铁 讲席教授
实验室相关新闻:#PKU daGAME
daGAME近期动态


— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。

点“阅读原文”转论文链接
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢