Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

向作者提问

NEW

简介

参数高效的微调（PEFT）对于在资源受限的情况下定制大型语言模型（LLM）至关重要。尽管对于密集架构的LLM已经有了各种PEFT方法，但对于稀疏架构的LLM，PEFT仍未被充分探索。在这项工作中，我们研究了Mixture-of-Experts（MoE）架构LLM的PEFT方法，本文的内容主要有三个方面：（1）我们研究了定制任务中激活的专家的分散程度，并发现特定任务的路由分布往往高度集中，而激活的专家分布在不同任务之间有很大差异。（2）我们提出了专家专业化微调（ESFT），它调整与下游任务最相关的专家，同时冻结其他专家和模块；实验结果表明，我们的方法不仅提高了微调效率，而且与全参数微调的性能相当甚至更好。（3）我们进一步分析了MoE架构对专家专业化微调的影响。我们发现，细粒度专家的MoE模型更有优势，因为它们能够选择与下游任务最相关的专家组合，从而增强训练效率和效果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决稀疏结构的大型语言模型在参数有效微调方面的问题，提出了一种专家特定微调的方法。
关键思路

论文提出了一种名为ESFT的方法，该方法可以在保持其他专家和模块不变的情况下，调整与下游任务最相关的专家，以提高微调效率和性能。
其它亮点

论文研究了Mixture-of-Experts（MoE）架构中激活专家的分散程度，并发现特定任务的路由分布往往高度集中，而激活专家的分布在不同任务之间变化显著。实验结果表明，ESFT不仅提高了微调效率，而且与全参数微调相匹配甚至超过了其性能。此外，论文还分析了MoE架构对专家特定微调的影响，并发现细粒度专家的MoE模型更有优势，可以选择与下游任务最相关的专家组合，从而增强训练效率和效果。
相关研究

在这个领域中，最近的相关研究包括：Efficient Task-Specific Fine-Tuning of Pretrained Transformers和Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问