Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

2024年04月08日
  • 简介
    我们提出了Eagle(RWKV-5)和Finch(RWKV-6)这两种序列模型,这些模型改进了RWKV(RWKV-4)的架构。我们的架构设计改进包括多头矩阵值状态和动态循环机制,这些改进提高了表达能力,同时保持了RNN推理效率的特性。我们引入了一个新的多语言语料库,包含1.12万亿个标记,并基于贪婪匹配设计了一个快速的分词器,以增强多语言性能。我们训练了四个Eagle模型,参数范围从0.46到75亿个,以及两个Finch模型,参数范围为1.6和3.1亿个,并发现它们在各种基准测试中都取得了竞争性能。我们在HuggingFace上发布了所有模型,采用Apache 2.0许可证。模型位于:https://huggingface.co/RWKV,训练代码位于:https://github.com/RWKV/RWKV-LM,推理代码位于:https://github.com/RWKV/ChatRWKV,时间并行训练代码位于:https://github.com/RWKV/RWKV-infctx-trainer。
  • 图表
  • 解决问题
    本文旨在改进RWKV(RWKV-4)架构,提出Eagle(RWKV-5)和Finch(RWKV-6)序列模型,以提高表达能力并保持RNN的推理效率特性。
  • 关键思路
    本文的关键思路包括多头矩阵值状态和动态递归机制,以提高表达能力。
  • 其它亮点
    本文使用了一个新的多语言语料库,拥有1.12万亿个标记,并使用基于贪婪匹配的快速分词器,以增强多语言性能。实验表明,Eagle模型和Finch模型在多个基准测试中均取得了竞争性能。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如GPT-3和Turing-NLG。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论