GoldFinch: High Performance RWKV/Transformer Hybrid with Linear Pre-Fill and Extreme KV-Cache Compression

2024年07月16日
  • 简介
    我们介绍了GoldFinch,这是一种混合的线性注意力/Transformer序列模型,它使用一种新技术以线性时间和空间相对于序列长度高效生成高度压缩和可重复使用的KV-Cache。GoldFinch在增强版本的Finch(RWKV-6)架构之上堆叠了我们的新GOLD Transformer。我们训练了Finch、Llama和GoldFinch架构的1.5B参数级模型,并发现相对于Finch和Llama,模型建模性能得到了显著提高。我们的缓存大小节省随着模型层数的增加呈线性增长,对于常见的大小,比传统Transformer缓存小756-2550倍,即使在有限的硬件上也能推断极大的上下文长度。虽然由于注意力,自回归生成每个标记的时间复杂度为O(n),但由于使用递归神经网络(RNN)生成此缓存的整个初始状态的预填充计算仅需要O(1)的时间每个标记。我们在Apache 2.0许可下发布我们的训练权重和训练代码供社区使用。
  • 图表
  • 解决问题
    GoldFinch论文试图解决如何在序列模型中高效生成高度压缩和可重用的KV-Cache的问题,以及如何提高模型性能。
  • 关键思路
    GoldFinch模型采用了新的技术,在序列长度的时间和空间上实现了高效生成KV-Cache。在Finch架构的基础上,GoldFinch将新的GOLD Transformer堆叠在一起,通过训练1.5B参数级模型,实现了比Finch和Llama架构更好的建模性能。
  • 其它亮点
    GoldFinch模型的缓存大小节省可达到传统Transformer缓存的756-2550倍。论文开源了训练权重和代码供社区使用。
  • 相关研究
    在这个领域中,还有一些相关的研究被进行,比如《Attention is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论