Towards smaller, faster decoder-only transformers: Architectural variants and their implications

简介

最近，大型语言模型（LLMs）的研究呈指数增长，主要集中在由[1]引入的基于Transformer的体系结构上，并在[2]中进一步发展为仅解码器的变体。当代研究通常旨在通过增加体系结构的复杂性和训练数据的数量来提高模型能力。然而，探索如何在保持性能的同时减小模型大小的研究是有限的。本研究引入了三种修改后的仅解码器Transformer架构：ParallelGPT（p-gpt）、LinearlyCompressedGPT（lc-gpt）和ConvCompressedGPT（cc-gpt）。这些变体在代码生成任务中实现了与传统架构相当的性能，同时受益于减小的模型大小和更快的训练时间。我们开源了模型权重和代码库，以支持未来在这一领域的研究和发展。
图表
解决问题

论文尝试解决如何在保持性能的同时减小模型大小的问题，这是否是一个新问题？
关键思路

论文提出了三种修改decoder-only transformer架构的方法，以实现减小模型大小和加快训练速度的目的，同时在代码生成任务中实现与传统架构相当的性能。
其它亮点

论文开源了模型权重和代码库，以支持未来在这个领域的研究和开发。实验设计合理，使用了多个数据集进行测试，证明了所提出的三种变体的有效性和可行性。
相关研究

最近的相关研究主要集中在增加模型复杂性和训练数据量方面，如[1]和[2]，而减小模型大小的研究相对较少。

Towards smaller, faster decoder-only transformers: Architectural variants and their implications

评论