- 简介指令跟随是大型语言模型(LLMs)的基本能力之一。随着LLMs的能力不断提高,它们越来越多地被应用于处理现实场景中的复杂人类指令。因此,如何评估LLMs对复杂指令的跟随能力已成为一个关键的研究问题。现有的基准主要集中在对人类指令中不同类型的约束进行建模,而忽略了不同约束的组合,这是复杂指令中不可或缺的组成部分。为此,我们提出了ComplexBench,一个用于全面评估LLMs跟随由多个约束组成的复杂指令能力的基准。我们提出了一个复杂指令的分层分类法,包括4种约束类型、19个约束维度和4种组合类型,并相应地手动收集了高质量的数据集。为了使评估可靠,我们使用规则增强了基于LLM的评估器,以有效验证生成的文本是否能满足每个约束和组合。此外,我们根据不同组合类型确定的依赖结构获得最终的评估分数。ComplexBench发现现有的LLMs在处理由多个约束组成的复杂指令时存在显著的不足。
- 图表
- 解决问题提出了一个用于综合评估LLMs遵循由多个约束组成的复杂指令的能力的基准测试,以解决现有基准测试中缺乏对多个约束组合的考虑的问题。
- 关键思路提出了一个复杂指令的层次分类法,包括4种约束类型、19种约束维度和4种组合类型,并手动收集了一个高质量的数据集。通过将基于LLM的评估器与规则相结合,有效验证生成的文本是否满足每个约束和组合,并基于不同组合类型确定的依赖结构获得最终评估分数。
- 其它亮点该论文提出了一个新的基准测试ComplexBench,用于全面评估LLMs遵循由多个约束组成的复杂指令的能力。通过ComplexBench测试,发现现有的LLMs在处理多个约束组合的复杂指令时存在显著不足。该论文还提出了一个复杂指令的层次分类法,为研究者提供了一个更好地理解复杂指令的框架。
- 近期的相关研究包括:1)ACL 2020的论文“Learning to Follow Natural Language Directions with Conditional Generative Networks”;2)EMNLP 2020的论文“Evaluating Generalization in Neural Language Models”。
沙发等你来抢
去评论
评论
沙发等你来抢