- 简介我们提出了Eagle(RWKV-5)和Finch(RWKV-6)这两种序列模型,这些模型改进了RWKV(RWKV-4)的架构。我们的架构设计改进包括多头矩阵值状态和动态循环机制,这些改进提高了表达能力,同时保持了RNN推理效率的特性。我们引入了一个新的多语言语料库,包含1.12万亿个标记,并基于贪婪匹配设计了一个快速的分词器,以增强多语言性能。我们训练了四个Eagle模型,参数范围从0.46到75亿个,以及两个Finch模型,参数范围为1.6和3.1亿个,并发现它们在各种基准测试中都取得了竞争性能。我们在HuggingFace上发布了所有模型,采用Apache 2.0许可证。模型位于:https://huggingface.co/RWKV,训练代码位于:https://github.com/RWKV/RWKV-LM,推理代码位于:https://github.com/RWKV/ChatRWKV,时间并行训练代码位于:https://github.com/RWKV/RWKV-infctx-trainer。
- 图表
- 解决问题本文旨在改进RWKV(RWKV-4)架构,提出Eagle(RWKV-5)和Finch(RWKV-6)序列模型,以提高表达能力并保持RNN的推理效率特性。
- 关键思路本文的关键思路包括多头矩阵值状态和动态递归机制,以提高表达能力。
- 其它亮点本文使用了一个新的多语言语料库,拥有1.12万亿个标记,并使用基于贪婪匹配的快速分词器,以增强多语言性能。实验表明,Eagle模型和Finch模型在多个基准测试中均取得了竞争性能。
- 最近在这个领域中,还有一些相关的研究,例如GPT-3和Turing-NLG。
沙发等你来抢
去评论
评论
沙发等你来抢