ICML 2026 | 一种高效数据合成的信息论判据

关键词：合成数据; 大语言模型; 数据处理不等式

导读

本文是 ICML 2026 入选论文 An Information-Theoretic Criterion for Efficient Data Synthesis 的解读。该工作由北京大学前沿计算研究中心邓小铁课题组完成，论文作者包括李翰禹（北京大学计算机学院前沿计算研究中心）、孙政奇（北京大学信息管理系）和邓小铁（北京大学计算机学院前沿计算研究中心）。本论文由北京大学通班必修课《AI 中的数学》期中作业扩展而成。

这篇文章讨论的是大模型训练中一个越来越实际的问题：当公开互联网上的高质量数据逐渐被用尽，模型还能不能依靠合成数据继续进步？这个问题之所以重要，是因为大模型的发展方式正在变化。早期的大模型主要从互联网上已有的文本中学习，例如网页、书籍、论坛和代码仓库。但今天我们希望模型完成的任务，已经不只是“读过类似文本然后回答”。长程推理、多步规划、工具调用、智能体交互，都需要模型在任务中尝试、犯错、得到反馈，再把这些过程变成新的训练材料。

于是，合成数据变成了一个绕不开的问题。一方面，数学和代码中的进展让人看到希望：代码可以运行和测试，数学答案可以验证，模型生成的大量候选解可以被筛选、校正，再重新用于训练。尤其是代码智能体的发展，让大模型进入了真实的软件开发工作流。Cursor、GitHub Copilot、Codex、Claude Code 等工具中，模型不只是回答编程问题，而是在读代码、改代码、运行测试、根据报错继续修改。另一方面，也有许多研究发现，如果模型反复学习自己的输出，可能出现分布收缩、长尾知识丢失，甚至模型崩塌。同样是合成数据，为什么有时能提升模型，有时反而会让模型退化？

← 扫码跳转论文

论文地址：

https://arxiv.org/abs/2605.16379

什么是合成数据

这里的“合成数据”并不是指“假数据”。在本文中，可以把它理解为一类新的训练材料：它们不是人类一开始就完整写好、标注好的，而是由模型、程序、工具或环境参与产生，然后再拿去训练模型。

例如，模型写出一道题的解法，程序检查答案是否正确；模型生成多个代码补丁，系统运行测试后保留通过的版本；智能体在环境里尝试多步操作，成功的轨迹被记录下来。这些材料不一定来自传统互联网文本，但它们都可能成为训练模型的数据。

信息从哪里来

论文的基本思想可以从一个简单例子理解。假设一个学生练习数学题。如果他只是自己编题、自己写答案、再把自己的答案当成标准答案复习，练习次数再多，也很难保证方向是对的。错误可能被重复，偏差也可能被放大。

另一种情况就不同。学生做完题后，如果有答案、老师、判题系统或实验结果告诉他哪里对、哪里错，那么每一轮练习都会被外部标准校正。练习仍然是学生自己完成的，但判断对错的信息不是学生自己凭空产生的。

模型训练中的合成数据也有类似区别。如果模型只是生成内容，再学习自己生成的内容，训练很容易变成自我循环。相反，如果模型生成的内容会被代码测试、数学验证器、真实环境、固定规则或专家判断筛选，它就接触到了模型自身输出之外的信息。

因此，本文关心的不是“数据是不是机器生成的”，而是训练过程中有没有新的判断标准参与进来。这个判断标准越稳定、越接近任务本身，合成数据越可能有用。不过，论文进一步指出，事情还不止于此。即使都有外部反馈，不同反馈对训练的帮助也可能差别很大。

为什么纯自我训练可能导致模型崩塌

本文用数据处理不等式解释纯自我训练的局限。直观地说，反复加工同一份信息，不能凭空产生新的信息。就像一张图片被反复截图、转发、压缩，通常不会越来越清晰，只会逐渐丢掉细节。

模型自己生成数据、再学习这些数据，也可能出现类似问题。生成时，一些低频但重要的内容可能被漏掉；训练时，常见模式又会被进一步强化。经过多轮循环之后，看起来数据越来越多，实际分布可能越来越窄。

这就是模型崩塌的一种直观解释。问题不在于模型生成了内容，而在于这些内容没有被新的信息持续校正。训练过程看似在扩充数据，实际上可能只是在把模型原有的偏差重复得更稳定。

代码和数学为什么更容易成功

代码和数学提供了最容易理解的对照。写程序时，模型可以生成很多版本，系统一运行就知道有没有报错、测试能不能通过。做数学题时，答案可以校验，证明也可以被检查。

在这些任务中，模型负责提出很多可能的答案，外部系统负责判断哪些答案真的有效。被保留下来的数据，不只是“模型又写了一遍东西”，而是经过了测试、验证或筛选。也正是这个过程，把模型原本没有的信息带回了训练。

这说明，合成数据的价值往往不在“生成”本身，而在生成之后的校正。接下来的问题是效率：为了让这些生成内容真的提升模型，我们到底需要注入多少新的、和任务相关的信息？如果每一条合成数据都需要大量人工标注，成本可能并不比真实数据低；如果只需要一个很简洁的判断信号就能让模型学到东西，合成数据才真正有扩展的可能。

信息注入效率：多少信息才够

论文指出，关键不只是有没有反馈，还要看反馈本身是否“划算”：为了获得一次有效训练，系统需要提供多少新的信息。如果一个简单的反馈就能排除大量错误方向，让模型更接近任务目标，那么它的信息注入效率就高；如果反馈里夹杂了很多和任务无关的细节，模型需要学很多表面形式才能得到一点真正能力，效率就低。

以数学题为例，这里可以对比两种常见训练范式。第一种是 SFT，也就是监督微调：给模型一个参考答案，让模型学习去模仿它。但同一道题可能有很多种正确解法。如果只模仿某一个参考答案，模型学到的不只是“什么是正确推理”，还会学到这个答案的措辞、步骤顺序和表达风格。也就是说，训练信号里包含了许多并不必要的信息。

第二种是 RLVR，也就是基于可验证奖励的强化学习。它不要求模型必须写得像某个参考答案，而是看模型给出的答案能不能通过验证。一个很简洁的对错信号，就能把不同写法的正确答案保留下来，把错误答案排除出去。这样的反馈用更少的信息，约束了更关键的方向：什么样的推理能得到正确结果。

代码测试也是类似的。一个程序可以有很多写法，只要通过测试并满足约束，它们都可以被视为可接受。因此，RLVR 等方法在数学和代码中有效，关键不只是“有奖励”，而是可验证奖励能用相对简洁的信号筛出大量有用样本，从而提高信息注入效率。

这也解释了信息注入效率和泛化性的关系。同样是用模型生成的数据训练，SFT 更容易把模型拉向某个具体答案的表面形式；RLVR 则把所有能通过验证的答案看作同一类，让模型学习“什么样的结果是可接受的”。因此，在同样的数据条件下，RLVR 的泛化性往往明显好于 SFT。论文也指出，这类高层级、可验证的信号不一定只服务于原来的任务。大量的实验已经验证，训练模型写代码和调试代码时，测试反馈会不断要求模型搜索可能方案、验证中间结果、根据错误修正路径；这些能力并不只属于编程，也能够迁移到数学解题、科学推理、逻辑判断和一般推理中，让模型在这些方面的能力发生显著的进步。

当反馈教错了方向

这个视角也解释了为什么模型训练会跑偏。信息注入效率高，本身并不保证注入的是我们想要的信息。如果反馈设计不好，或者训练过程中缺少专家校对，模型可能会把错误的简单信号学得非常快。论文用 reward hacking 来描述这类现象：模型没有真正学会目标本身，而是学会了如何利用评分规则中的捷径。

这类 hack 之所以容易广泛发生，恰恰是因为简单信号往往也有很强的泛化性。长度、格式、语气、自信程度、某些固定表达方式，可能出现在许多题目和许多领域中，比“答案是否真的正确”更容易识别、更稳定、更容易被模型捕捉。训练信号一旦把这些特征和高分绑定在一起，模型就会优先学习它们。

例如，训练本来希望奖励正确答案，但如果高分答案往往更长、更像某种格式，模型可能先学会“写得更长”或“看起来更专业”，而不是学会真正判断正确性。这并不是模型没有学习，而是模型学到了训练信号中最容易被利用、也最容易迁移的规律。

在高风险任务中，这类问题尤其值得警惕。一个回答可以语气自信、结构完整、格式专业，但这些表面特征并不等于判断正确。如果评价标准不够严谨，模型可能会越来越擅长生成“看起来对”的答案，而且这种“看起来对”的模式还可能跨任务复用，反而掩盖了真正能力的不足。

回到现实：从代码走向更多行业

代码智能体的成功还有一个特殊前提：软件开发本身有长期的开源文化，也有相对清晰的验证方式。互联网上有大量真实代码、真实项目、issue、pull request 和工程讨论；代码写完之后，还可以运行、测试、报错、回滚。模型不仅能看到代码，还能看到人类如何发现问题、修改问题、验证问题。这些材料天然构成了一个“生成-校正-再训练”的循环。

许多垂直领域没有这样的条件。病历、诊疗过程、法律咨询、企业合同、实验失败记录和内部研发流程，往往受到隐私、合规、商业秘密或专业伦理的限制。真正有价值的数据不一定公开，也不一定能直接拿来训练。更重要的是，这些领域的正确性往往不能靠一个简单程序判断，而需要专业经验、行业规范和真实场景中的后果反馈。

从本文的角度看，代码和其他行业的差异说明了一件事：合成数据不能替代外部世界本身。模型公司可以生成大量文本和轨迹，但如果这些材料没有被真实任务、专业判断和行业反馈校正，训练就容易变成模型自己生产、自己筛选、自己学习的闭环。这样的闭环看起来数据很多，实际上可能只是在放大已有偏差，让模型越来越擅长生成“像专业意见”的文本，却没有真正接近专业判断。

因此，法律、医疗、科研、金融等领域的模型进步，很难只靠模型公司自己完成。行业真正需要提供的，也不一定是未经处理的原始隐私数据，而是能够进入训练循环的校正信号：脱敏后的案例、专家审核规则、受控环境、标准化评测、真实工作流中的纠错记录，以及能够反映长期后果的评价机制。

论文也由此产生了一个很强的现实意义：合成数据要成为下一阶段模型进步的燃料，不能只在模型内部循环，必须重新接上真实世界的校正。大模型下一步能走多远，不只取决于模型公司能生成多少数据，也取决于社会共同的努力，各行各业能否把真实的专业判断组织成可学习的信号，积极拥抱与推动大模型的发展。没有这一步，合成数据越多，可能只是噪声越大；有了这一步，它才可能成为共同推动模型进步的入口。

图文 | 李翰禹

PKU daGAME Lab

算法博弈论实验室

Distributed and Automated Games and Managerial Economics Lab

算法博弈论实验室由邓小铁教授于2019年创立，研究方向为算法博弈论、互联网和区块链经济学、多智能体及强化深度学习理论。科研兴趣聚焦在人和智能体在互联网、物联网和区块链交互环境下多方博弈的理论与方法论建立，包括数据信息的认识论刻画、均衡和动力学分析、计算复杂性和算法设计。关注计算与通讯技术兴起中应用领域的问题，特别关注互联网广告机制设计、共享经济中的激励分析和合作竞争，以及区块链的高效共识、声誉机制和跨链机制设计。

↑↑扫码转实验室主页↑↑

实验室 PI 简介：邓小铁讲席教授

实验室相关新闻：#PKU daGAME

daGAME近期动态

本微信公众号所有内容，由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料，版权属北京大学前沿计算研究中心微信所有；从公开渠道收集、整理及授权转载的文字、图片和音视频资料，版权属原作者。本公众号内容原作者如不愿意在本号刊登内容，请及时通知本号，予以删除。

点“阅读原文”转论文链接

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ICML 2026 | 一种高效数据合成的信息论判据

评论列表

评论