- 简介这篇文章介绍了针对长文本语言模型的评估方法。作者指出,传统的针在草堆(NIAH)测试只能评估模型表面层次的长文本理解能力。为了提供更全面的评估,作者创建了一个新的综合性基准测试RULER,该测试可以根据需要自定义序列长度和任务复杂度。RULER不仅扩展了传统的NIAH测试,包括了各种类型和数量的针,还引入了新的任务类别,如多跳追踪和聚合,以测试模型在超出上下文搜索的行为方面的表现。作者使用13个代表性任务对10个长文本语言模型进行了评估,并发现尽管这些模型在传统的NIAH测试中表现接近完美,但随着上下文长度的增加,它们的性能都出现了大幅下降。虽然这些模型都声称支持32K个令牌或更大的上下文大小,但只有四个模型(GPT-4、Command-R、Yi-34B和Mixtral)能够在32K长度的上下文下保持令人满意的性能。作者对支持200K上下文长度的Yi-34B进行了分析,发现在增加输入长度和任务复杂度方面,该模型还有很大的改进空间。为了促进长文本语言模型的全面评估,作者开源了RULER基准测试。
- 图表
- 解决问题本论文旨在提供一种更全面的评估长文本语言模型的方法,通过创建一个新的合成基准RULER,其中包括多种类型和数量的针以及新的任务类别,来扩展传统的NIAH测试。
- 关键思路RULER基准测试扩展了传统的NIAH测试,包括不同类型和数量的针,以及新的任务类别multi-hop追踪和聚合,以测试超出从上下文中搜索的行为,通过对10个长文本语言模型进行13个代表性任务的评估,发现所有模型在上下文长度增加时都表现出大幅度的性能下降,只有四个模型能够在32K长度下保持令人满意的性能。
- 其它亮点RULER基准测试提供了一种更全面的评估长文本语言模型的方法,实验使用了10个长文本语言模型和13个代表性任务,发现所有模型在上下文长度增加时都表现出大幅度的性能下降,只有四个模型能够在32K长度下保持令人满意的性能。研究开源了RULER基准测试,以促进长文本语言模型的全面评估。
- 最近在这个领域中,还有一些相关的研究,例如《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》和《RoBERTa: A Robustly Optimized BERT Pretraining Approach》等。
沙发等你来抢
去评论
评论
沙发等你来抢