- 简介随着大型语言模型(LLMs)的不断进步,开发公平可靠的评估方法成为备受关注的关键问题。特别是,主观或非主观作弊现象的出现,如测试集泄漏和提示格式过拟合,给LLMs的可靠评估带来了重大挑战。由于评估框架通常利用正则表达式(RegEx)进行答案提取,因此一些模型可能会调整其响应以符合RegEx易于提取的特定格式。然而,基于RegEx的关键答案提取模块经常遭受提取错误的困扰。本文对整个LLM评估链进行了全面分析,证明优化关键答案提取模块可以提高提取准确性,减少LLMs对特定答案格式的依赖,并提高LLM评估的可靠性。为了解决这些问题,我们提出了xFinder,这是一个专门设计用于关键答案提取的模型。作为这一过程的一部分,我们创建了一个专门的数据集,即关键答案查找器(KAF)数据集,以确保有效的模型训练和评估。通过在实际场景中进行一般化测试和评估,结果表明,仅有5亿个参数的最小xFinder模型的平均答案提取准确率达到93.42%。相比之下,最佳评估框架中的RegEx准确率为74.38%。xFinder相对于现有评估框架表现出更强的鲁棒性和更高的准确性。xFinder的所有资源均可在\url{https://github.com/IAAR-Shanghai/xFinder}上获得。
-
- 图表
- 解决问题提高大型语言模型(LLMs)的可靠评估方法,解决评估中的作弊问题,特别是测试集泄漏和提示格式过拟合等问题。
- 关键思路通过优化关键答案提取模块,提高提取准确性,减少对特定答案格式的依赖,从而提高LLMs的可靠性。
- 其它亮点论文提出了xFinder模型,专门用于关键答案提取,并创建了Key Answer Finder(KAF)数据集进行模型训练和评估。xFinder在现实场景中的泛化测试和评估中表现出更强的鲁棒性和更高的准确性,最小的xFinder模型只有5亿个参数,提取准确率达到93.42%,比现有评估框架的RegEx准确率74.38%更高。xFinder的所有资源都在GitHub上开源。
- 最近的相关研究包括《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》和《The Case for Few-Shot Learning with Large Language Models: A Position Paper》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流