Effective Distillation to Hybrid xLSTM Architectures

向作者提问

NEW

简介

学界已多次尝试将基于二次复杂度注意力机制的大型语言模型（LLMs）蒸馏为具有亚二次复杂度的线性化架构。然而，尽管相关研究十分广泛，此类蒸馏所得模型在各类下游任务上的表现往往仍难以匹敌其教师模型（即原始大模型）。为此，我们提出了“无损蒸馏”这一目标，并将其明确定义为：在若干任务集合上，学生模型与教师模型之间的“胜率—平局率”（Win-and-Tie rates）需在容差范围内保持一致。为实现该目标，我们设计了一套面向xLSTM架构学生模型的高效蒸馏流程。其中关键创新在于引入一个额外的“专家合并”阶段——将各自独立完成线性化的多个专家模块整合为单一统一模型。我们通过蒸馏来自Llama、Qwen和Olmo三大模型家族的基础模型及指令微调模型，充分验证了该流程的有效性。在诸多实验设定下，我们的xLSTM学生模型不仅成功复现了教师模型绝大部分性能，甚至在部分下游任务上实现了反超。本工作所提出的方案，是迈向更节能、更具成本效益的Transformer基大型语言模型替代方案的重要一步。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何实现二次复杂度注意力型大语言模型（如Transformer）到线性复杂度xLSTM架构的无损知识蒸馏（lossless distillation），即在保持计算效率优势的同时，不牺牲下游任务性能——这是一个尚未被充分解决的新问题，尤其在保证严格性能对齐（而非近似匹配）方面。
关键思路

提出一种新型三阶段蒸馏管道：1）基于任务感知的教师-学生响应对齐进行初始蒸馏；2）对多个独立线性化专家（expert-wise linearized xLSTM modules）进行结构化知识压缩；3）创新性引入‘专家合并阶段’（merging stage），通过可学习的门控加权与参数插值将分散专家融合为单一紧凑xLSTM模型，从而保留教师模型的全局表征能力与局部专业化优势。
其它亮点

在Llama-2/3、Qwen-1.5、Olmo-1B等主流基座及指令微调模型上完成系统性蒸馏实验；采用容忍度校正的Win-and-Tie Rate（WTR@ε）作为核心评估指标，兼顾统计鲁棒性与实际部署容错需求；覆盖MMLU、BBH、GSM8K、HumanEval等12个权威基准；所有代码、配置与蒸馏后模型已开源（GitHub仓库名：xLSTM-Distill）；发现xLSTM学生在数学推理与代码生成任务上反超教师，揭示线性架构对符号化推理的潜在归纳偏置优势；未来方向包括动态专家合并机制与硬件感知蒸馏损失设计。
相关研究

‘RetNet: A Long-Sequence Model for Time-Series Forecasting and LLMs’ (ICLR 2024); ‘Monarch Mixer: Linear-Time Sequence Modeling with Structured Parameterization’ (NeurIPS 2023); ‘Linformer: Linear Attention Mechanism’ (ICLR 2021); ‘FlashAttention-2: Faster Attention with Better Parallelism and Memory Efficiency’ (arXiv 2023); ‘LLaMA-Adapter V2: Efficient Instruction Tuning for LLaMA’ (ACL 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问