RULER: What's the Real Context Size of Your Long-Context Language Models?

简介

这篇文章介绍了针对长文本语言模型的评估方法。作者指出，传统的针在草堆（NIAH）测试只能评估模型表面层次的长文本理解能力。为了提供更全面的评估，作者创建了一个新的综合性基准测试RULER，该测试可以根据需要自定义序列长度和任务复杂度。RULER不仅扩展了传统的NIAH测试，包括了各种类型和数量的针，还引入了新的任务类别，如多跳追踪和聚合，以测试模型在超出上下文搜索的行为方面的表现。作者使用13个代表性任务对10个长文本语言模型进行了评估，并发现尽管这些模型在传统的NIAH测试中表现接近完美，但随着上下文长度的增加，它们的性能都出现了大幅下降。虽然这些模型都声称支持32K个令牌或更大的上下文大小，但只有四个模型（GPT-4、Command-R、Yi-34B和Mixtral）能够在32K长度的上下文下保持令人满意的性能。作者对支持200K上下文长度的Yi-34B进行了分析，发现在增加输入长度和任务复杂度方面，该模型还有很大的改进空间。为了促进长文本语言模型的全面评估，作者开源了RULER基准测试。
图表
解决问题

本论文旨在提供一种更全面的评估长文本语言模型的方法，通过创建一个新的合成基准RULER，其中包括多种类型和数量的针以及新的任务类别，来扩展传统的NIAH测试。
关键思路

RULER基准测试扩展了传统的NIAH测试，包括不同类型和数量的针，以及新的任务类别multi-hop追踪和聚合，以测试超出从上下文中搜索的行为，通过对10个长文本语言模型进行13个代表性任务的评估，发现所有模型在上下文长度增加时都表现出大幅度的性能下降，只有四个模型能够在32K长度下保持令人满意的性能。
其它亮点

RULER基准测试提供了一种更全面的评估长文本语言模型的方法，实验使用了10个长文本语言模型和13个代表性任务，发现所有模型在上下文长度增加时都表现出大幅度的性能下降，只有四个模型能够在32K长度下保持令人满意的性能。研究开源了RULER基准测试，以促进长文本语言模型的全面评估。
相关研究

最近在这个领域中，还有一些相关的研究，例如《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》和《RoBERTa: A Robustly Optimized BERT Pretraining Approach》等。

RULER: What's the Real Context Size of Your Long-Context Language Models?

评论