Shuffle the Context: RoPE-Perturbed Self-Distillation for Long-Context Adaptation

向作者提问

NEW

简介

大型语言模型（LLMs）正越来越多地应用于需具备可靠长上下文理解能力的场景，例如检索增强生成（RAG）与多文档推理。一种常见策略是对预训练的短上下文模型，在目标序列长度上进行微调。然而，我们发现，标准的长上下文适配方法仍存在明显脆弱性：模型准确率高度依赖于相关证据在输入中的绝对位置，即使在严格控制任务格式与难度的前提下，其性能仍表现出显著的位置敏感性（即位置方差较大）。为此，我们提出“RoPE扰动自蒸馏”（RoPE-Perturbed Self-Distillation）——一种旨在提升位置鲁棒性的训练正则化方法。该方法的核心思想是：对同一训练样本构造多个不同的“视角”（views），具体做法是扰动其旋转位置编码（RoPE）索引，从而将上下文中的部分内容“移位”至不同位置；随后通过自蒸馏机制，强制模型在这些不同视角下输出一致的预测结果。这一过程可有效引导模型更多依赖语义线索，而非易受干扰、泛化性差的位置依赖关系。在Llama-3-8B与Qwen-3-4B模型上的长上下文适配实验表明，该方法在多项长上下文基准测试中均带来稳定提升：其中，Llama-3-8B在RULER-64K基准上经监督微调（SFT）后提升达12.04%，Qwen-3-4B在RULER-256K基准上提升2.71%；此外，模型在训练上下文窗口之外的长度外推能力亦得到同步增强。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

大型语言模型在长上下文（如64K/256K tokens）场景下进行微调时，性能对关键信息的绝对位置高度敏感（即 positional variance），导致推理鲁棒性差——即使语义内容不变，仅因证据出现在开头、中间或结尾而显著影响准确率。这不是新问题（位置偏差早被观察到），但本文首次系统揭示其在现代长上下文SFT中的主导性与顽固性，且指出标准RoPE微调无法缓解。
关键思路

提出RoPE-Perturbed Self-Distillation：在监督微调（SFT）中，对同一输入序列多次生成RoPE位置索引的随机扰动（如平移、局部重排），构造语义一致但位置分布不同的‘视图’；强制模型在这些视图上输出一致的logits（通过KL散度自蒸馏）。核心创新在于将位置鲁棒性建模为*同一语义输入下的跨位置预测一致性约束*，而非修改RoPE结构或增加位置插值，轻量、即插即用、兼容任何RoPE基模型。
其它亮点

在Llama-3-8B和Qwen-3-4B上验证：RULER-64K提升12.04%（Llama）、RULER-256K提升2.71%（Qwen）；显著改善长度外推（如训64K，测128K/256K仍稳定）；仅需SFT阶段添加，不改变架构、不增加推理开销；实验控制严格（固定prompt格式、难度分层、消融位置扰动强度）；代码已开源（GitHub仓库名：rope-perturb-distill）；未来方向：扰动策略的理论最优性、与检索增强中chunk位置偏置的联合优化、扩展至多模态长序列。
相关研究

1. 'RoPE: Rotary Position Embedding' (Su et al., 2021); 2. 'Extending Context Window of LLMs via Position Interpolation' (Chen et al., ICLR 2024); 3. 'LongLoRA: Efficient Fine-tuning of Long-Context LLMs' (Ding et al., 2024); 4. 'Positional Bias in Retrieval-Augmented QA' (Lewis et al., EMNLP 2023); 5. 'Self-Distillation for Robust Language Modeling' (Zhang et al., NeurIPS 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问