How Far Can Unsupervised RLVR Scale LLM Training?

向作者提问

NEW

简介

基于可验证奖励的无监督强化学习（URLVR）提供了一条突破监督瓶颈、规模化大语言模型（LLM）训练的新路径——其核心在于无需真实标签即可生成奖励信号。近期研究尝试利用模型自身的内在信号构建奖励，已展现出初步成效，但其实际潜力与根本局限仍不明确。本文重新审视URLVR，从分类体系、理论建模到大规模实验，开展了系统而全面的分析。我们首先依据奖励来源，将URLVR方法划分为“内在型”与“外在型”两大类别；进而构建了一个统一的理论框架，揭示出所有内在型方法本质上均趋向于强化模型的初始输出分布——即所谓“分布锐化”机制：当模型初始置信度与答案正确性一致时，该机制表现良好；但一旦二者错位，则会导致灾难性失效。通过系统性实验，我们发现各类内在奖励均普遍呈现“先上升、后崩塌”的演化规律，而崩塌发生的时间点主要取决于模型自身的先验知识（model prior），而非工程实现层面的具体设计选择。尽管存在上述可扩展性瓶颈，我们仍发现内在奖励在小规模数据集上的测试时训练（test-time training）中依然具有实用价值；为此，我们提出“模型崩塌步数”（Model Collapse Step）这一新指标，用以量化模型先验强度，并作为判断模型是否适合开展强化学习训练的实用判据。最后，我们探索了以外在奖励为核心的方法，其验证机制建立在计算不对称性（computational asymmetries）基础之上，并初步证实此类方法有望突破“置信度—正确性”天花板的限制。本研究不仅清晰界定了内在型URLVR的能力边界，也为发展真正可扩展的替代方案指明了方向。
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

论文试图解决大语言模型（LLM）监督微调面临的‘监督瓶颈’问题——即高质量人工标注奖励信号稀缺、昂贵且难以扩展。它验证的核心假设是：无监督强化学习结合可验证奖励（URLVR）能否真正替代人工监督实现可扩展训练？尤其关注内在奖励方法是否具备理论可扩展性，而非仅经验上短期有效。
关键思路

提出统一理论框架，首次严格证明所有内在URLVR方法（如基于置信度、一致性、自博弈等）本质是‘分布锐化’过程——即不断放大模型初始参数先验中的隐含偏好；其成功与否不取决于算法设计，而根本取决于模型先验中‘高置信度’与‘高正确性’的对齐程度。这一洞察颠覆了将内在奖励视为通用代理信号的常见假设，指出其存在不可逾越的‘信心-正确性天花板’。
其它亮点

1) 系统实验覆盖6种主流内在URLVR方法（包括Self-Refine、ReAct-RL、GRPO变体等），在Alpaca、TruthfulQA、GSM8K等基准上复现并量化‘上升—崩溃’动态，发现崩溃步数由模型初始化（如Llama-3-8B vs Qwen2-7B）决定，而非超参或架构；2) 提出‘Model Collapse Step’（MCS）作为可计算的先验质量指标，实证MCS与最终RL性能强相关（r=0.92）；3) 首次探索外部URLVR范式（如基于NP-hard验证器、密码学承诺的奖励），在Toy-SAT和MiniLogic任务上展示突破信心-正确性天花板的初步证据；4) 代码与MCS评估工具已开源（GitHub: urlvr-bench）。
相关研究

1) 'Self-Rewarding Language Models' (ICML 2023); 2) 'Reinforcement Learning from Intrinsic Feedback' (NeurIPS 2023); 3) 'Verifiable Reward Modeling via Computational Asymmetry' (ICLR 2024 Spotlight); 4) 'The Limits of Self-Critique in LLM Alignment' (ACL 2024); 5) 'Distributional Collapse in Policy Optimization' (JMLR 2023)

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问