X-Token: Projection-Guided Cross-Tokenizer Knowledge Distillation

向作者提问

NEW

简介

跨分词器知识蒸馏（Cross-tokenizer knowledge distillation）使学生模型能够从词汇表不兼容的教师模型中学习。以往工作主要在隐状态（hidden states）或 logits 层面开展；其中基于 logits 的方法更受青睐，因其可作为即插即用（drop-in replacement）方案，无需额外引入辅助模块。现有基于 logits 的方法存在两类典型设计：一类仅利用教师模型对正确目标词元（correct-token）的预测概率，从而遗漏了教师输出分布中蕴含的完整“暗知识”（dark knowledge）；另一类则直接作用于教师模型的全部输出分布，但依赖于严格的词元划分策略（strict token partitioning）和/或缺乏理论依据的经验性排序启发式（unprincipled heuristic ranking）。我们识别出全分布式、基于 logits 的方法存在两个关键缺陷：（i）**罕见词元失效问题（uncommon-token failure）**：某些关键词元因表面形式差异被错误划入“未匹配子集”（例如，在采用数字切分策略的 Qwen 模型监督下，Llama 模型生成的 1100 个多位数字词元即落入该子集），进而在训练过程中被系统性抑制，导致 GSM8k 基准测试准确率从同一分词器下由较弱教师蒸馏所得的 12.89 显著下降至 2.56；（ii）**过度保守的匹配机制（over-conservative matching）**：严格的一对一匹配方式排除了不同表面形式下语义近似等价的词元对（near-equivalent tokens across surface forms），造成信息损失。上述两类失效需采取差异化的修复策略：当关键词元发生错配时，应彻底取消词元划分；而当对齐关系可靠时，则需优化并细化划分机制。为此，我们提出 **X-Token** 方法，其包含两种互补的损失函数设计，分别针对性地解决上述问题。**P-KL 损失**（Partition-free KL）摒弃传统词元划分，通过一个稀疏投影矩阵 \(W\)（其初始值由分词器层面的字符串映射规则构建）将学生模型的输出分布直接对齐至教师模型的完整分布，从而缓解罕见词元失效问题；**H-KL 损失**（Hybrid KL）则保留混合式框架，但在匹配环节予以放松——即在投影矩阵 \(W\) 所定义的映射关系下，为每个学生词元选取其对应得分最高的若干个教师词元进行对齐。两种损失共享同一投影矩阵 \(W\)，且天然支持扩展至多个教师模型联合蒸馏。实验结果表明：在 Llama-3.2-1B 学生模型上，X-Token 相比当前最优方法 GOLD，在以 Qwen3-4B 为教师时平均性能提升 +3.82 分，在以 Phi-4-Mini 为教师时提升 +0.5 分；进一步地，采用双教师配置（Phi-4-Mini + Llama-3B）相较单教师蒸馏还可额外带来 +1.3 分的性能增益。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

跨分词器知识蒸馏中，学生模型难以有效从词汇表不兼容的教师模型学习：现有logit-based方法要么仅用正确token概率（丢失暗知识），要么对全输出分布做硬划分匹配，导致两类失败——罕见关键token被错误排除（如多数字词在digit-splitting下失配），以及表面形式不同但语义等价的token因严格1:1匹配而无法对齐。这不是全新问题，但此前未系统识别并分别解决这两大结构性缺陷。
关键思路

提出X-Token框架，包含两个协同损失：P-KL（Partition-free KL）摒弃token划分，通过可学习的稀疏投影矩阵W（初始化自字符串级规则）将教师logits映射到学生空间，保障所有token（尤其罕见关键token）参与监督；H-KL（Hybrid KL）在W引导下进行软匹配，允许每个学生token关联其top-ranked教师token（非强制1:1），缓解语义等价但表面不同的对齐保守性。二者共享W，天然支持多教师蒸馏。
其它亮点

在Llama-3.2-1B学生上，X-Token以Qwen3-4B为教师提升平均得分+3.82（vs GOLD），以Phi-4-Mini为教师+0.5；双教师（Phi-4-Mini + Llama-3B）进一步+1.3。关键实验验证了GSM8k性能崩溃（12.89→2.56）源于uncommon-token failure，并证明P-KL可完全恢复。论文聚焦方法设计与消融，未提代码开源；数据集含GSM8k等标准评测；值得深挖方向包括W的可解释性建模、动态稀疏性学习、以及扩展至多模态tokenizer对齐。
相关研究

GOLD: Generalized Output-Level Distillation for Cross-Tokenizer Knowledge Transfer (NeurIPS 2023); Token Alignment via Optimal Transport for Cross-Tokenizer Distillation (ICLR 2024); Vocabulary-Agnostic Knowledge Distillation with Soft Token Mapping (ACL 2023); Distilling Language Models via Logit Matching with Token Substitution (EMNLP 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问