- 简介我们提出了Expert-Token-Routing,这是一个统一的通用框架,可以无缝地集成多个专家LLM。我们的框架将专家LLM表示为元LLM词汇中的特殊专家令牌。元LLM可以像生成新令牌一样路由到专家LLM。Expert-Token-Routing不仅支持从现有的指令数据集中学习专家LLM的隐含专业知识,还允许以即插即用的方式动态扩展新的专家LLM。它还从用户的角度隐藏了详细的协作过程,使交互就像是单一的LLM一样。我们的框架在包括六个不同专家领域的基准测试中优于各种现有的多LLM协作范例,展示了通过协同多个专家LLM来构建通用LLM系统的有效性和稳健性。
-
- 图表
- 解决问题该论文旨在解决如何将多个专家语言模型(Expert LLMs)无缝集成到一个通用的框架中,以构建一个更强大的通用语言模型(Generalist LLM)的问题。
- 关键思路论文提出了Expert-Token-Routing框架,将专家LLMs表示为元LLM词汇中的特殊专家令牌,并通过生成新的令牌来路由到专家LLM。该框架不仅支持从现有的指令数据集中学习专家LLMs的隐式专业知识,还允许以即插即用的方式动态扩展新的专家LLMs。该框架还将详细的协作过程从用户的角度隐藏起来,使交互就像是一个单一的LLM一样。
- 其它亮点该论文通过六个不同的专家领域的基准测试,证明了Expert-Token-Routing框架在构建通用LLM系统方面的有效性和鲁棒性。实验设计了多种数据集,并在多个评估指标上进行了评估。此外,论文还提供了开源代码,方便其他研究人员进行进一步的研究。
- 最近在这个领域中,还有一些相关的研究被进行。例如,基于Transformer的模型已经在语言建模中取得了显著的成功。另外,一些研究探索了如何将多个语言模型组合起来以提高性能。例如,MARGE和XLNet都是在这个方向上的一些尝试。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流