RULER: What's the Real Context Size of Your Long-Context Language Models?

2024年04月09日
  • 简介
    这篇文章介绍了针对长文本语言模型的评估方法。作者指出,传统的针在草堆(NIAH)测试只能评估模型表面层次的长文本理解能力。为了提供更全面的评估,作者创建了一个新的综合性基准测试RULER,该测试可以根据需要自定义序列长度和任务复杂度。RULER不仅扩展了传统的NIAH测试,包括了各种类型和数量的针,还引入了新的任务类别,如多跳追踪和聚合,以测试模型在超出上下文搜索的行为方面的表现。作者使用13个代表性任务对10个长文本语言模型进行了评估,并发现尽管这些模型在传统的NIAH测试中表现接近完美,但随着上下文长度的增加,它们的性能都出现了大幅下降。虽然这些模型都声称支持32K个令牌或更大的上下文大小,但只有四个模型(GPT-4、Command-R、Yi-34B和Mixtral)能够在32K长度的上下文下保持令人满意的性能。作者对支持200K上下文长度的Yi-34B进行了分析,发现在增加输入长度和任务复杂度方面,该模型还有很大的改进空间。为了促进长文本语言模型的全面评估,作者开源了RULER基准测试。
  • 图表
  • 解决问题
    本论文旨在提供一种更全面的评估长文本语言模型的方法,通过创建一个新的合成基准RULER,其中包括多种类型和数量的针以及新的任务类别,来扩展传统的NIAH测试。
  • 关键思路
    RULER基准测试扩展了传统的NIAH测试,包括不同类型和数量的针,以及新的任务类别multi-hop追踪和聚合,以测试超出从上下文中搜索的行为,通过对10个长文本语言模型进行13个代表性任务的评估,发现所有模型在上下文长度增加时都表现出大幅度的性能下降,只有四个模型能够在32K长度下保持令人满意的性能。
  • 其它亮点
    RULER基准测试提供了一种更全面的评估长文本语言模型的方法,实验使用了10个长文本语言模型和13个代表性任务,发现所有模型在上下文长度增加时都表现出大幅度的性能下降,只有四个模型能够在32K长度下保持令人满意的性能。研究开源了RULER基准测试,以促进长文本语言模型的全面评估。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》和《RoBERTa: A Robustly Optimized BERT Pretraining Approach》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论