Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

2024年04月08日
  • 简介
    我们推出了Eagle(RWKV-5)和Finch(RWKV-6)这两个序列模型,它们改进了RWKV(RWKV-4)的架构。我们的架构设计改进包括多头矩阵值状态和动态递归机制,这些改进提高了表达能力,同时保持了RNN的推理效率特性。我们引入了一个新的多语言语料库,包含1120亿个标记,并基于贪婪匹配提供了快速的分词器,以增强多语言性。我们训练了四个Eagle模型,参数范围从46亿到75亿不等,以及两个Finch模型,分别有16亿和31亿个参数,并发现它们在各种基准测试中都具有竞争力的表现。我们在HuggingFace上以Apache 2.0许可证发布了所有模型。模型位于:https://huggingface.co/RWKV 训练代码位于:https://github.com/RWKV/RWKV-LM 推理代码位于:https://github.com/RWKV/ChatRWKV 时间并行训练代码位于:https://github.com/RWKV/RWKV-infctx-trainer。
  • 图表
  • 解决问题
    本文旨在通过引入多头矩阵状态和动态重复机制来提高RNN的表达能力,同时保持推理效率特征,以解决自然语言处理中的序列建模问题。
  • 关键思路
    本文的关键思路是引入多头矩阵状态和动态重复机制来增强RNN的表达能力,同时保持推理效率特征,并在新的多语言语料库上进行训练和测试。
  • 其它亮点
    本文在新的多语言语料库上训练了4个Eagle模型和2个Finch模型,并在广泛的基准测试中取得了竞争性的性能。本文还提供了快速的多语言分词器和开源代码。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如GPT-3和BERT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论