- 简介基于可验证奖励的无监督强化学习(URLVR)提供了一条突破监督瓶颈、规模化大语言模型(LLM)训练的新路径——其核心在于无需真实标签即可生成奖励信号。近期研究尝试利用模型自身的内在信号构建奖励,已展现出初步成效,但其实际潜力与根本局限仍不明确。本文重新审视URLVR,从分类体系、理论建模到大规模实验,开展了系统而全面的分析。我们首先依据奖励来源,将URLVR方法划分为“内在型”与“外在型”两大类别;进而构建了一个统一的理论框架,揭示出所有内在型方法本质上均趋向于强化模型的初始输出分布——即所谓“分布锐化”机制:当模型初始置信度与答案正确性一致时,该机制表现良好;但一旦二者错位,则会导致灾难性失效。通过系统性实验,我们发现各类内在奖励均普遍呈现“先上升、后崩塌”的演化规律,而崩塌发生的时间点主要取决于模型自身的先验知识(model prior),而非工程实现层面的具体设计选择。尽管存在上述可扩展性瓶颈,我们仍发现内在奖励在小规模数据集上的测试时训练(test-time training)中依然具有实用价值;为此,我们提出“模型崩塌步数”(Model Collapse Step)这一新指标,用以量化模型先验强度,并作为判断模型是否适合开展强化学习训练的实用判据。最后,我们探索了以外在奖励为核心的方法,其验证机制建立在计算不对称性(computational asymmetries)基础之上,并初步证实此类方法有望突破“置信度—正确性”天花板的限制。本研究不仅清晰界定了内在型URLVR的能力边界,也为发展真正可扩展的替代方案指明了方向。
-
- 图表
- 解决问题论文试图解决大语言模型(LLM)监督微调面临的‘监督瓶颈’问题——即高质量人工标注奖励信号稀缺、昂贵且难以扩展。它验证的核心假设是:无监督强化学习结合可验证奖励(URLVR)能否真正替代人工监督实现可扩展训练?尤其关注内在奖励方法是否具备理论可扩展性,而非仅经验上短期有效。
- 关键思路提出统一理论框架,首次严格证明所有内在URLVR方法(如基于置信度、一致性、自博弈等)本质是‘分布锐化’过程——即不断放大模型初始参数先验中的隐含偏好;其成功与否不取决于算法设计,而根本取决于模型先验中‘高置信度’与‘高正确性’的对齐程度。这一洞察颠覆了将内在奖励视为通用代理信号的常见假设,指出其存在不可逾越的‘信心-正确性天花板’。
- 其它亮点1) 系统实验覆盖6种主流内在URLVR方法(包括Self-Refine、ReAct-RL、GRPO变体等),在Alpaca、TruthfulQA、GSM8K等基准上复现并量化‘上升—崩溃’动态,发现崩溃步数由模型初始化(如Llama-3-8B vs Qwen2-7B)决定,而非超参或架构;2) 提出‘Model Collapse Step’(MCS)作为可计算的先验质量指标,实证MCS与最终RL性能强相关(r=0.92);3) 首次探索外部URLVR范式(如基于NP-hard验证器、密码学承诺的奖励),在Toy-SAT和MiniLogic任务上展示突破信心-正确性天花板的初步证据;4) 代码与MCS评估工具已开源(GitHub: urlvr-bench)。
- 1) 'Self-Rewarding Language Models' (ICML 2023); 2) 'Reinforcement Learning from Intrinsic Feedback' (NeurIPS 2023); 3) 'Verifiable Reward Modeling via Computational Asymmetry' (ICLR 2024 Spotlight); 4) 'The Limits of Self-Critique in LLM Alignment' (ACL 2024); 5) 'Distributional Collapse in Policy Optimization' (JMLR 2023)
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流