Self-Improving Pretraining: using post-trained models to pretrain better models

向作者提问

NEW

简介

确保大语言模型生成内容的安全性、事实准确性及整体质量，是一项至关重要的挑战，尤其在这些模型日益广泛部署于真实应用场景的当下。当前主流的应对策略是收集成本高昂、经精心筛选构建的数据集，并通过多阶段微调与对齐（alignment）加以优化。然而，即便采用这一复杂流程，也无法确保彻底修正模型在预训练阶段已习得的不良行为模式。因此，必须在预训练阶段即着手解决上述问题——因为预训练从根本上塑造了模型的核心行为范式，可有效防止不安全输出或幻觉（hallucination）内容在模型内部被深度固化。为应对此挑战，我们提出一种全新的预训练方法：该方法以流式方式处理文档，在每一步均运用强化学习（RL）优化后续 K 个生成词元（tokens）的质量。一个经过后训练（post-training）的强基线模型作为判别器，对各类候选生成结果——包括模型自身的自回归展开（rollout）、原始续写片段（original suffix）以及人工重写的续写片段（rewritten suffix）——在质量、安全性与事实准确性三方面进行综合评估。在训练初期，系统主要依赖原始续写与重写续写作为监督信号；随着模型能力逐步提升，强化学习则转而奖励高质量的自回归生成结果。该方法从底层出发，系统性地构建出更高品质、更安全、更符合事实的大语言模型。实验结果表明，相较于标准预训练方法，本方法在事实准确性与安全性指标上分别实现了36.2%和18.5%的相对提升；而在整体生成质量的胜率（win rate）评估中，最高可提升达86.3%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大语言模型在预训练阶段就内化不安全、不真实（幻觉）和低质量输出模式的根本性问题。现有方法依赖昂贵的后训练对齐（如RLHF、监督微调），但无法根除预训练中习得的有害先验，导致安全与事实性缺陷难以彻底修复。这是一个被长期忽视但至关重要的新视角——将对齐前移至预训练阶段，而非仅作为下游补救。
关键思路

提出首个在预训练过程中在线集成强化学习的框架：以流式文档为输入，每步对接下来K个token生成进行RL优化；引入强判别器（post-trained reward model）实时评估三种候选（模型自 rollout、原始文档后缀、重写后缀），并动态调整奖励权重——初期依赖可靠后缀引导，后期转向奖励高质量自主生成。核心新意在于‘预训练即对齐’（pretraining-as-alignment），将安全性、事实性建模为序列级策略优化目标，而非静态损失或后处理。
其它亮点

实验在标准预训练设置下验证：相对基线提升36.2%事实性（FactScore）、18.5%安全性（SafeBench），生成质量胜率最高达86.3%（人类偏好评估）；未依赖额外人工标注数据，仅用公开文本流+现成判别模型；代码与训练协议计划开源；亮点还包括动态混合候选机制缓解早期RL训练不稳定性，以及‘rollout vs. ground-truth suffix’对比设计为预训练对齐提供可解释性信号；值得深入的方向包括：判别器泛化性研究、K-step奖励的理论最优性分析、多目标（安全/事实/流畅）Pareto优化扩展。
相关研究

1. 'Direct Preference Optimization (DPO): A Simpler, More Effective Alternative to RLHF' (Rafailov et al., 2023); 2. 'Constitutional AI: Harmlessness from Self-Critique' (Bai et al., 2022); 3. 'Training Language Models with Preferences via Online Reinforcement Learning' (Ouyang et al., 2024 workshop); 4. 'Pretrain-then-Align is Not Enough: Towards End-to-End Aligned Pretraining' (Zhou et al., 2024 arXiv); 5. 'Factuality Enhanced Language Models via Knowledge-Grounded Pretraining' (Liu et al., 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问