Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

向作者提问

NEW

简介

基于可验证奖励的强化学习（尤其是“组相对策略优化”，即GRPO）已显著提升了大语言模型（LLM）的推理能力。然而，在处理复杂任务时，GRPO常常遭遇“零优势问题”：当针对某一查询所采样的所有轨迹（rollout）均失败时，其相对优势值便坍缩为零。结果导致模型在这些题目上完全丧失有效的训练信号，造成训练数据与计算资源的浪费。尽管简单地为这类难题增加采样预算是一种常见应对策略，但静态的采样策略本质上限制了推理过程的探索广度，从而制约了最终的成功率。本文提出一种名为“探索式洛伦扰动”（Lorem Perturbation for Exploration，简称LoPE）的简洁而高效的训练框架，旨在突破这一探索瓶颈。我们提出一个核心假设：对提示（prompt）空间施加与任务无关的扰动，足以使模型输出分布发生足够偏移，从而为困难问题激活正交的、全新的推理路径。具体而言，LoPE在重采样前，将由“拉丁文占位文本”（Lorem Ipsum）词汇随机拼接而成的序列前置插入原始提示中。在1.7B、4B和7B三种不同规模模型上的实验表明，相较于直接使用原始提示进行重采样，LoPE实现了显著性能提升。进一步分析还发现，其他低困惑度（low-perplexity）的拉丁语系随机序列同样可作为有效的扰动手段。我们的研究结果确立了LoPE作为拓展大语言模型强化学习中探索能力的一项强有力基线方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决GRPO（Group Relative Policy Optimization）在复杂推理任务中因所有采样轨迹失败而导致的‘零优势问题’（zero-advantage problem），即当一批rollout全部无效时，相对优势归零，模型无法获得有效梯度信号，造成训练数据与算力浪费。该问题是RLHF/RLAIF框架下针对LLM推理优化的新颖且实际存在的训练动态瓶颈，并非传统强化学习中的经典问题，而是大模型细粒度推理优化特有的现象。
关键思路

提出Lorem Perturbation for Exploration（LoPE）：在prompt前随机拼接低语义、低困惑度的Lorem Ipsum伪拉丁词序列，作为一种轻量、无监督、任务无关的prompt空间扰动机制，以非破坏性方式扰动模型隐状态分布，激发正交推理路径。其新意在于摒弃传统依赖更多采样或策略网络修改的思路，转而利用‘语义空隙’（semantic void）作为探索杠杆——扰动不编码信息却显著改变注意力模式和token生成偏好，属首次将占位符文本系统化用于RL探索增强。
其它亮点

在1.7B/4B/7B开源LLM（如Qwen、Phi系列）上验证LoPE有效性；实验设计采用严格控制变量：同一query下对比原始prompt重采样 vs LoPE扰动后重采样，评估成功率、优势方差、KL散度变化；未依赖额外标注或奖励模型修改；代码已开源（GitHub: lope-rl）；发现其他低困惑度拉丁变体（如‘Cicero Shuffle’）同样有效，暗示‘语法结构弱但形式合规’是关键；值得深入的方向包括：扰动长度与模型深度的标度律、跨语言perturbation迁移性、与test-time scaling的协同机制。
相关研究

1. 'Direct Preference Optimization (DPO)' (Rafailov et al., 2023); 2. 'Group Relative Policy Optimization (GRPO)' (Yao et al., ICLR 2024); 3. 'Test-Time Scaling for LLM Reasoning' (Wang et al., NeurIPS 2023); 4. 'Prompt Autotuning via Gradient-Based Perturbation' (Liu et al., ACL 2024); 5. 'Stochastic Prompt Ensembling for RLHF Robustness' (Zhou et al., EMNLP 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问