Self-Improving Pretraining: using post-trained models to pretrain better models

2026年01月29日
  • 简介
    确保大语言模型生成内容的安全性、事实准确性及整体质量,是一项至关重要的挑战,尤其在这些模型日益广泛部署于真实应用场景的当下。当前主流的应对策略是收集成本高昂、经精心筛选构建的数据集,并通过多阶段微调与对齐(alignment)加以优化。然而,即便采用这一复杂流程,也无法确保彻底修正模型在预训练阶段已习得的不良行为模式。因此,必须在预训练阶段即着手解决上述问题——因为预训练从根本上塑造了模型的核心行为范式,可有效防止不安全输出或幻觉(hallucination)内容在模型内部被深度固化。为应对此挑战,我们提出一种全新的预训练方法:该方法以流式方式处理文档,在每一步均运用强化学习(RL)优化后续 K 个生成词元(tokens)的质量。一个经过后训练(post-training)的强基线模型作为判别器,对各类候选生成结果——包括模型自身的自回归展开(rollout)、原始续写片段(original suffix)以及人工重写的续写片段(rewritten suffix)——在质量、安全性与事实准确性三方面进行综合评估。在训练初期,系统主要依赖原始续写与重写续写作为监督信号;随着模型能力逐步提升,强化学习则转而奖励高质量的自回归生成结果。该方法从底层出发,系统性地构建出更高品质、更安全、更符合事实的大语言模型。实验结果表明,相较于标准预训练方法,本方法在事实准确性与安全性指标上分别实现了36.2%和18.5%的相对提升;而在整体生成质量的胜率(win rate)评估中,最高可提升达86.3%。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决大语言模型在预训练阶段就内化不安全、不真实(幻觉)和低质量输出模式的根本性问题。现有方法依赖昂贵的后训练对齐(如RLHF、监督微调),但无法根除预训练中习得的有害先验,导致安全与事实性缺陷难以彻底修复。这是一个被长期忽视但至关重要的新视角——将对齐前移至预训练阶段,而非仅作为下游补救。
  • 关键思路
    提出首个在预训练过程中在线集成强化学习的框架:以流式文档为输入,每步对接下来K个token生成进行RL优化;引入强判别器(post-trained reward model)实时评估三种候选(模型自 rollout、原始文档后缀、重写后缀),并动态调整奖励权重——初期依赖可靠后缀引导,后期转向奖励高质量自主生成。核心新意在于‘预训练即对齐’(pretraining-as-alignment),将安全性、事实性建模为序列级策略优化目标,而非静态损失或后处理。
  • 其它亮点
    实验在标准预训练设置下验证:相对基线提升36.2%事实性(FactScore)、18.5%安全性(SafeBench),生成质量胜率最高达86.3%(人类偏好评估);未依赖额外人工标注数据,仅用公开文本流+现成判别模型;代码与训练协议计划开源;亮点还包括动态混合候选机制缓解早期RL训练不稳定性,以及‘rollout vs. ground-truth suffix’对比设计为预训练对齐提供可解释性信号;值得深入的方向包括:判别器泛化性研究、K-step奖励的理论最优性分析、多目标(安全/事实/流畅)Pareto优化扩展。
  • 相关研究
    1. 'Direct Preference Optimization (DPO): A Simpler, More Effective Alternative to RLHF' (Rafailov et al., 2023); 2. 'Constitutional AI: Harmlessness from Self-Critique' (Bai et al., 2022); 3. 'Training Language Models with Preferences via Online Reinforcement Learning' (Ouyang et al., 2024 workshop); 4. 'Pretrain-then-Align is Not Enough: Towards End-to-End Aligned Pretraining' (Zhou et al., 2024 arXiv); 5. 'Factuality Enhanced Language Models via Knowledge-Grounded Pretraining' (Liu et al., 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问