Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

简介

参数高效的微调（PEFT）对于使用有限资源定制大型语言模型（LLM）至关重要。虽然已经有各种针对密集架构LLM的PEFT方法，但对于稀疏架构LLM的PEFT仍未得到充分探索。本文研究了用于混合专家（MoE）架构LLM的PEFT方法，本文的内容主要有三个方面：（1）我们调查了定制任务中激活专家的分散程度，并发现特定任务的路由分布往往高度集中，而激活的专家分布在不同任务之间变化很大。（2）我们提出了专家专用微调（ESFT），它在冻结其他专家和模块的同时微调与下游任务最相关的专家；实验结果表明，我们的方法不仅提高了微调效率，而且与全参数微调的性能相匹配甚至超过。（3）我们进一步分析了MoE架构对专家专用微调的影响。我们发现，细粒度专家的MoE模型更有优势，可以选择与下游任务最相关的专家组合，从而提高训练效率和效果。我们的代码可在https://github.com/deepseek-ai/ESFT上获得。
图表
解决问题

本论文探讨如何在资源受限的情况下，对稀疏架构的大型语言模型进行参数高效的微调（PEFT）。
关键思路

论文提出了专家专业化微调（ESFT）的方法，即在微调过程中冻结不相关的专家和模块，只微调与下游任务最相关的专家，以提高微调效率和性能。
其它亮点

论文发现，虽然对于特定任务，路由分布趋向高度集中，但激活的专家分布在不同任务中变化显著。实验结果表明，ESFT不仅提高了微调效率，而且与全参数微调相当甚至更好。研究还发现，MoE模型中更细粒度的专家对于选择与下游任务最相关的专家组合更有优势，从而提高了训练效率和效果。代码已经开源。
相关研究

最近的相关研究包括对密集架构的大型语言模型进行PEFT的方法。

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

评论