CFBench: A Comprehensive Constraints-Following Benchmark for LLMs

向作者提问

NEW

简介

为了使大型语言模型（LLMs）在复杂的实际应用中能够理解和遵循自然语言指令，它们的熟练程度至关重要。现有的评估主要集中在片段化的约束条件或狭窄的场景上，但它们忽略了用户视角下约束条件的全面性和真实性。为了弥补这一差距，我们提出了CFBench，一个大规模的综合约束条件遵循基准测试，包括1000个经过精心策划的样本，涵盖200多个真实场景和50多个自然语言处理任务。CFBench精心编制了来自实际指令的约束条件，并构建了一个创新的约束类型系统框架，包括10个主要类别和25个子类别，并确保每个约束条件无缝地集成在指令中。为了确保LLM输出的评估与用户感知相一致，我们提出了一种先进的方法，将多维评估标准与需求优先级结合起来，涵盖约束条件、指令和需求履行的各个方面。在CFBench上评估当前领先的LLMs揭示了约束条件遵循方面的改进空间，我们进一步研究了影响因素和增强策略。数据和代码可在https://github.com/PKU-Baichuan-MLSystemLab/CFBench上公开获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大型语言模型在理解和遵循自然语言指令方面的问题，特别是从用户角度考虑约束的全面性和真实性。
关键思路

提出了CFBench，一个大规模的全面约束遵循基准测试，包括1000个样本，涵盖200多种真实场景和50多个NLP任务。使用真实世界的指令约束构建了创新的系统框架，确保每个约束都无缝集成在指令中。提出了先进的方法论，将多维评估标准与需求优先级结合起来，涵盖了约束、指令和需求实现的各种视角。
其它亮点

CFBench是一个全面的基准测试，覆盖了各种真实场景和NLP任务，评估了当前领先的LLMs在约束遵循方面的表现，并揭示了改进的空间。研究者还探讨了影响因素和增强策略，并公开了数据和代码。
相关研究

最近的相关研究包括：1. Measuring Compositional Generalization: A Comprehensive Method on Realistic Data（ACL2021）；2. NaturalLI: Natural Language Inference with Synthetic Training Data（EMNLP2020）；3. Probing Pretrained Language Models for Lexical Semantics: A Unified Framework（EMNLP2020）

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问