Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

简介

我们提出了Eagle（RWKV-5）和Finch（RWKV-6）这两种序列模型，这些模型改进了RWKV（RWKV-4）的架构。我们的架构设计改进包括多头矩阵值状态和动态循环机制，这些改进提高了表达能力，同时保持了RNN推理效率的特性。我们引入了一个新的多语言语料库，包含1.12万亿个标记，并基于贪婪匹配设计了一个快速的分词器，以增强多语言性能。我们训练了四个Eagle模型，参数范围从0.46到75亿个，以及两个Finch模型，参数范围为1.6和3.1亿个，并发现它们在各种基准测试中都取得了竞争性能。我们在HuggingFace上发布了所有模型，采用Apache 2.0许可证。模型位于：https://huggingface.co/RWKV，训练代码位于：https://github.com/RWKV/RWKV-LM，推理代码位于：https://github.com/RWKV/ChatRWKV，时间并行训练代码位于：https://github.com/RWKV/RWKV-infctx-trainer。
图表
解决问题

本文旨在改进RWKV（RWKV-4）架构，提出Eagle（RWKV-5）和Finch（RWKV-6）序列模型，以提高表达能力并保持RNN的推理效率特性。
关键思路

本文的关键思路包括多头矩阵值状态和动态递归机制，以提高表达能力。
其它亮点

本文使用了一个新的多语言语料库，拥有1.12万亿个标记，并使用基于贪婪匹配的快速分词器，以增强多语言性能。实验表明，Eagle模型和Finch模型在多个基准测试中均取得了竞争性能。
相关研究

最近在这个领域中，还有一些相关的研究，例如GPT-3和Turing-NLG。

Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

评论