L-Eval: Instituting Standardized Evaluation for Long Context Language Models
解决问题:该论文试图解决评估长上下文语言模型的问题,以确定它们是否能在实际下游任务中提供实质性的收益。
关键思路:该论文的关键思路是建立一个标准化的评估体系,即L-Eval,用于评估长上下文语言模型。该评估体系包含了411个长文档和2000多个查询-响应对,覆盖了法律、金融、学校讲座、长时间对话、新闻、长篇小说和会议等领域。L-Eval采用了多种评估方法和指令样式,可以更可靠地评估长上下文语言模型。与当前领域的研究相比,该论文的思路在于提出了一个全面的评估体系,旨在更准确地评估长上下文语言模型的性能。
其他亮点:该论文的实验结果表明,虽然开源模型通常落后于商业模型,但它们仍然表现出令人印象深刻的性能。在开放式任务中,LLaMA2在只有4k上下文长度的情况下取得了最佳结果(与turbo-16k相比,胜率为45%),而在封闭式任务中,ChatGLM2在8k输入令牌的情况下取得了最佳结果。该论文还开源了评估套件、代码和所有生成结果,包括来自所有开源LCLMs、GPT4-32k、Cluade-100k的预测。
关于作者:该论文的主要作者分别是Chenxin An、Shansan Gong、Ming Zhong、Mukai Li、Jun Zhang、Lingpeng Kong、Xipeng Qiu。他们来自中国科学技术大学、北京大学、南京大学和清华大学等机构。他们之前的代表作包括“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”(Jacob Devlin等)和“ERNIE: Enhanced Language Representation with Informative Entities”(Yu Sun等)等。
相关研究:近期其他相关的研究包括“Reformer: The Efficient Transformer”(Nikita Kitaev等,Google Research)和“Longformer: The Long-Document Transformer”(Iz Beltagy等,Allen Institute for AI)等。
最近,人们越来越关注扩展指令跟随模型的上下文长度,以有效地处理单轮长输入(例如论文摘要)和具有更广泛历史记录的对话。虽然专有模型如GPT-4和Claude已经展示了处理数万个上下文标记的显著进展,但开源模型仍处于试验的早期阶段。同时,开发这些长上下文模型是否能够在实际的下游任务中提供实质性的收益,超过基于检索的方法或仅在分块上下文上训练的模型,仍然不清楚。为了解决这个挑战,我们提出了为长上下文语言模型制定标准化评估的建议。具体而言,我们开发了L-Eval,其中包含411个长文档和2000多个由作者手动注释和检查的查询-响应对,涵盖法律、金融、学校讲座、长对话、新闻、长篇小说和会议等领域。L-Eval还采用了多样化的评估方法和指导风格,使得对长上下文语言模型(LCLMs)进行更可靠的评估成为可能。我们的研究结果表明,虽然开源模型通常落后于商业模型,但它们仍然展现出令人印象深刻的性能。在只有4k上下文长度的开放式任务中,LLaMA2取得了最佳结果(胜利率为45%与turbo-16k相比),而ChatGLM2在8k输入标记的封闭式任务中取得了最佳结果。我们发布了我们的新评估套件、代码和所有生成结果,包括来自所有开源LCLMs、GPT4-32k、Cluade-100k的预测,网址为{\url{https://github.com/OpenLMLab/LEval}}。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢