- 简介大型语言模型(LLMs)正越来越多地应用于需具备可靠长上下文理解能力的场景,例如检索增强生成(RAG)与多文档推理。一种常见策略是对预训练的短上下文模型,在目标序列长度上进行微调。然而,我们发现,标准的长上下文适配方法仍存在明显脆弱性:模型准确率高度依赖于相关证据在输入中的绝对位置,即使在严格控制任务格式与难度的前提下,其性能仍表现出显著的位置敏感性(即位置方差较大)。 为此,我们提出“RoPE扰动自蒸馏”(RoPE-Perturbed Self-Distillation)——一种旨在提升位置鲁棒性的训练正则化方法。该方法的核心思想是:对同一训练样本构造多个不同的“视角”(views),具体做法是扰动其旋转位置编码(RoPE)索引,从而将上下文中的部分内容“移位”至不同位置;随后通过自蒸馏机制,强制模型在这些不同视角下输出一致的预测结果。这一过程可有效引导模型更多依赖语义线索,而非易受干扰、泛化性差的位置依赖关系。在Llama-3-8B与Qwen-3-4B模型上的长上下文适配实验表明,该方法在多项长上下文基准测试中均带来稳定提升:其中,Llama-3-8B在RULER-64K基准上经监督微调(SFT)后提升达12.04%,Qwen-3-4B在RULER-256K基准上提升2.71%;此外,模型在训练上下文窗口之外的长度外推能力亦得到同步增强。
-
- 图表
- 解决问题大型语言模型在长上下文(如64K/256K tokens)场景下进行微调时,性能对关键信息的绝对位置高度敏感(即 positional variance),导致推理鲁棒性差——即使语义内容不变,仅因证据出现在开头、中间或结尾而显著影响准确率。这不是新问题(位置偏差早被观察到),但本文首次系统揭示其在现代长上下文SFT中的主导性与顽固性,且指出标准RoPE微调无法缓解。
- 关键思路提出RoPE-Perturbed Self-Distillation:在监督微调(SFT)中,对同一输入序列多次生成RoPE位置索引的随机扰动(如平移、局部重排),构造语义一致但位置分布不同的‘视图’;强制模型在这些视图上输出一致的logits(通过KL散度自蒸馏)。核心创新在于将位置鲁棒性建模为*同一语义输入下的跨位置预测一致性约束*,而非修改RoPE结构或增加位置插值,轻量、即插即用、兼容任何RoPE基模型。
- 其它亮点在Llama-3-8B和Qwen-3-4B上验证:RULER-64K提升12.04%(Llama)、RULER-256K提升2.71%(Qwen);显著改善长度外推(如训64K,测128K/256K仍稳定);仅需SFT阶段添加,不改变架构、不增加推理开销;实验控制严格(固定prompt格式、难度分层、消融位置扰动强度);代码已开源(GitHub仓库名:rope-perturb-distill);未来方向:扰动策略的理论最优性、与检索增强中chunk位置偏置的联合优化、扩展至多模态长序列。
- 1. 'RoPE: Rotary Position Embedding' (Su et al., 2021); 2. 'Extending Context Window of LLMs via Position Interpolation' (Chen et al., ICLR 2024); 3. 'LongLoRA: Efficient Fine-tuning of Long-Context LLMs' (Ding et al., 2024); 4. 'Positional Bias in Retrieval-Augmented QA' (Lewis et al., EMNLP 2023); 5. 'Self-Distillation for Robust Language Modeling' (Zhang et al., NeurIPS 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流