CCoE: A Compact LLM with Collaboration of Experts

简介

在大型语言模型（LLM）领域中，LLMs展示了在自然语言理解和生成方面的显著能力。随着在各个领域应用LLMs的需求增长，如何高效地训练和构建一个具有不同领域专业知识但训练成本低的模型是一个研究问题。我们提出了CCoE架构，这是一个易于将多个强大的领域专家耦合在一起融合成一个大型LLM的框架，提供了一种利用不同领域专家LLMs的集体方式。此外，训练多个专家LLMs的大型协作需要对训练源的高要求。CCoE通过隔离其他专家并单独训练每个专家来解决这个问题。CCoE的设计通过专家协作层（CoE）组装多个专家LLMs。每个CoE层可以有一个或多个专家LLMs。专家LLMs具有不同数量的层，并已经针对不同的领域任务进行了良好的训练。每个专家都被微调以能够达到与SOTA领域LLMs相当的结果。我们从代码、数学、法律、文本到SQL和医学领域的5个专家开始。结果表明，我们的CCoE框架可以轻松高效地提高原始基础模型在不同领域中近10%-20%的性能，同时使用更少的训练资源和推理。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

如何高效地训练和构建具有多个领域专家能力的大型语言模型？
关键思路

提出了CCoE架构，通过CoE层将多个专家LLM组合在一起，每个专家分别进行训练，从而实现低成本的多领域专家LLM的构建。
其它亮点

CCoE架构可以在不增加训练资源的情况下，显著提高不同领域的原始基础模型性能；实验中使用了5个领域专家LLM，包括Code、Math、Law、text-to-SQL和Medical；每个专家LLM都经过精细调整，能够达到与SOTA领域LLM可比的结果。
相关研究

最近的相关研究包括GPT-3和XLNet等大型语言模型的研究。

CCoE: A Compact LLM with Collaboration of Experts

提问交流

提问交流