Pretrained Hybrids with MAD Skills

简介

虽然Transformer是现代大型语言模型的基础，但越来越多的替代架构具有新的功能、承诺和权衡。这使得选择合适的语言模型架构变得具有挑战性。最近提出的$\textit{混合架构}$采用了最佳方案，充分利用了所有架构的优势。混合设计之所以困难，是因为它需要手动专家驱动的搜索，并且新的混合模型必须从头开始训练。我们提出了$\textbf{Manticore}$，这是一个解决这些挑战的框架。Manticore $\textit{自动化混合架构的设计}$，同时重复使用预训练模型来创建$\textit{预训练}$混合模型。我们的方法结合了可微分神经架构搜索(NAS)的思想，并加入了简单的投影器，将来自不同架构的预训练块之间的特征进行转换。然后，我们微调将来自不同架构家族的预训练模型组合成的混合模型，例如GPT系列和Mamba，使其端到端地运行。通过Manticore，我们可以在不训练多个模型的情况下实现LM的选择，构建从现有预训练模型中创建的预训练混合模型，并且能够$\textit{编程}$预训练混合模型以具有某些功能。Manticore混合模型优于现有的手动设计的混合模型，在长距离竞技场(LRA)任务上表现出强大的性能，并且可以改进预训练的transformers和状态空间模型。

图表

解决问题

论文旨在解决如何自动设计混合体系结构的问题，以及如何利用预训练模型创建预训练混合模型的问题。

关键思路

Manticore框架通过将来自不同体系结构的预训练块之间的特征进行简单的投影，实现了自动设计混合体系结构的功能，并创建了预训练混合模型。

其它亮点

论文的实验表明，Manticore混合模型的性能优于手动设计的混合模型，在Long Range Arena (LRA)任务上表现出色，并且可以改善预训练变压器和状态空间模型的性能。

Pretrained Hybrids with MAD Skills

评论