- 简介为了使大型语言模型(LLMs)在复杂的实际应用中能够理解和遵循自然语言指令,它们的熟练程度至关重要。现有的评估主要集中在片段化的约束条件或狭窄的场景上,但它们忽略了用户视角下约束条件的全面性和真实性。为了弥补这一差距,我们提出了CFBench,一个大规模的综合约束条件遵循基准测试,包括1000个经过精心策划的样本,涵盖200多个真实场景和50多个自然语言处理任务。CFBench精心编制了来自实际指令的约束条件,并构建了一个创新的约束类型系统框架,包括10个主要类别和25个子类别,并确保每个约束条件无缝地集成在指令中。为了确保LLM输出的评估与用户感知相一致,我们提出了一种先进的方法,将多维评估标准与需求优先级结合起来,涵盖约束条件、指令和需求履行的各个方面。在CFBench上评估当前领先的LLMs揭示了约束条件遵循方面的改进空间,我们进一步研究了影响因素和增强策略。数据和代码可在https://github.com/PKU-Baichuan-MLSystemLab/CFBench上公开获取。
-
- 图表
- 解决问题论文旨在解决大型语言模型在理解和遵循自然语言指令方面的问题,特别是从用户角度考虑约束的全面性和真实性。
- 关键思路提出了CFBench,一个大规模的全面约束遵循基准测试,包括1000个样本,涵盖200多种真实场景和50多个NLP任务。使用真实世界的指令约束构建了创新的系统框架,确保每个约束都无缝集成在指令中。提出了先进的方法论,将多维评估标准与需求优先级结合起来,涵盖了约束、指令和需求实现的各种视角。
- 其它亮点CFBench是一个全面的基准测试,覆盖了各种真实场景和NLP任务,评估了当前领先的LLMs在约束遵循方面的表现,并揭示了改进的空间。研究者还探讨了影响因素和增强策略,并公开了数据和代码。
- 最近的相关研究包括:1. Measuring Compositional Generalization: A Comprehensive Method on Realistic Data(ACL2021);2. NaturalLI: Natural Language Inference with Synthetic Training Data(EMNLP2020);3. Probing Pretrained Language Models for Lexical Semantics: A Unified Framework(EMNLP2020)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流