Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

2026年05月07日
  • 简介
    基于可验证奖励的强化学习(尤其是“组相对策略优化”,即GRPO)已显著提升了大语言模型(LLM)的推理能力。然而,在处理复杂任务时,GRPO常常遭遇“零优势问题”:当针对某一查询所采样的所有轨迹(rollout)均失败时,其相对优势值便坍缩为零。结果导致模型在这些题目上完全丧失有效的训练信号,造成训练数据与计算资源的浪费。尽管简单地为这类难题增加采样预算是一种常见应对策略,但静态的采样策略本质上限制了推理过程的探索广度,从而制约了最终的成功率。本文提出一种名为“探索式洛伦扰动”(Lorem Perturbation for Exploration,简称LoPE)的简洁而高效的训练框架,旨在突破这一探索瓶颈。我们提出一个核心假设:对提示(prompt)空间施加与任务无关的扰动,足以使模型输出分布发生足够偏移,从而为困难问题激活正交的、全新的推理路径。具体而言,LoPE在重采样前,将由“拉丁文占位文本”(Lorem Ipsum)词汇随机拼接而成的序列前置插入原始提示中。在1.7B、4B和7B三种不同规模模型上的实验表明,相较于直接使用原始提示进行重采样,LoPE实现了显著性能提升。进一步分析还发现,其他低困惑度(low-perplexity)的拉丁语系随机序列同样可作为有效的扰动手段。我们的研究结果确立了LoPE作为拓展大语言模型强化学习中探索能力的一项强有力基线方法。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决GRPO(Group Relative Policy Optimization)在复杂推理任务中因所有采样轨迹失败而导致的‘零优势问题’(zero-advantage problem),即当一批rollout全部无效时,相对优势归零,模型无法获得有效梯度信号,造成训练数据与算力浪费。该问题是RLHF/RLAIF框架下针对LLM推理优化的新颖且实际存在的训练动态瓶颈,并非传统强化学习中的经典问题,而是大模型细粒度推理优化特有的现象。
  • 关键思路
    提出Lorem Perturbation for Exploration(LoPE):在prompt前随机拼接低语义、低困惑度的Lorem Ipsum伪拉丁词序列,作为一种轻量、无监督、任务无关的prompt空间扰动机制,以非破坏性方式扰动模型隐状态分布,激发正交推理路径。其新意在于摒弃传统依赖更多采样或策略网络修改的思路,转而利用‘语义空隙’(semantic void)作为探索杠杆——扰动不编码信息却显著改变注意力模式和token生成偏好,属首次将占位符文本系统化用于RL探索增强。
  • 其它亮点
    在1.7B/4B/7B开源LLM(如Qwen、Phi系列)上验证LoPE有效性;实验设计采用严格控制变量:同一query下对比原始prompt重采样 vs LoPE扰动后重采样,评估成功率、优势方差、KL散度变化;未依赖额外标注或奖励模型修改;代码已开源(GitHub: lope-rl);发现其他低困惑度拉丁变体(如‘Cicero Shuffle’)同样有效,暗示‘语法结构弱但形式合规’是关键;值得深入的方向包括:扰动长度与模型深度的标度律、跨语言perturbation迁移性、与test-time scaling的协同机制。
  • 相关研究
    1. 'Direct Preference Optimization (DPO)' (Rafailov et al., 2023); 2. 'Group Relative Policy Optimization (GRPO)' (Yao et al., ICLR 2024); 3. 'Test-Time Scaling for LLM Reasoning' (Wang et al., NeurIPS 2023); 4. 'Prompt Autotuning via Gradient-Based Perturbation' (Liu et al., ACL 2024); 5. 'Stochastic Prompt Ensembling for RLHF Robustness' (Zhou et al., EMNLP 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问