- 简介自然语言、编程代码和数学符号的底层数据分布差异巨大,这给大型语言模型(LLM)带来了复杂的挑战,因为它们努力在这三个领域同时实现高性能。在特定领域内实现LLM的高水平熟练度通常需要使用相关语料库进行广泛的训练,这通常伴随着在其他领域中性能的牺牲。在本文中,我们提出了将已经高度专业化的模型直接融合的方法。所提出的融合框架UltraFuser由三个不同的专家组成,它们已经在语言、编码和数学方面接受了充分的训练。引入了一个基于令牌级别的门控机制来混合专家的输出。为了确保稳定性,设计了一个两阶段的训练策略,并进行了平衡抽样。为了有效地训练融合模型,我们进一步构建了一个高质量的监督指令调整数据集UltraChat 2,其中包括文本、代码和数学内容。该数据集包括约30万条指令,并涵盖了每个领域的广泛主题。实验表明,我们的模型可以同时掌握这三个关键领域。
-
- 图表
- 解决问题该论文旨在解决大语言模型在自然语言、编程代码和数学符号三个领域的性能差异问题,提出了一种融合已经高度专业化的模型的框架,即UltraFuser。
- 关键思路UltraFuser框架由三个已经充分训练的专家组成,分别针对语言、编码和数学。通过引入基于令牌的门控机制来混合专家的输出。该论文的关键思路是将已经专门训练的模型直接融合,从而使得模型在三个领域中都能达到高水平的表现。
- 其它亮点该论文构建了一个高质量的监督指令调整数据集UltraChat 2,其中包括文本、代码和数学内容,涵盖了每个领域的广泛主题。实验表明,该模型可以同时掌握三个关键领域。该论文的亮点包括两个阶段的训练策略、平衡采样以及使用的数据集和代码。
- 近期在该领域的相关研究包括:1.《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》;2.《MathBERT: Pre-trained models for mathematical language understanding》。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流