Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset

The 62nd Annual Meeting of the Association for Computational Linguistics(ACL),2024
2024年05月17日
  • 简介
    鉴于最近大语言模型(LLMs)的突破已经彻底改变了自然语言处理(NLP),迫切需要新的基准来跟上LLMs的快速发展。本文提出了CFLUE,即中文金融语言理解评估基准,旨在评估LLMs在各个方面的能力。具体而言,CFLUE提供了专为知识评估和应用评估量身定制的数据集。在知识评估方面,它包括38K+个带有解决方案说明的多项选择题。这些问题具有双重目的:答案预测和问题推理。在应用评估方面,CFLUE涵盖了16K+个测试实例,涉及文本分类、机器翻译、关系提取、阅读理解和文本生成等不同的NLP任务组。在CFLUE上,我们对代表性的LLMs进行了全面评估。结果显示,只有GPT-4和GPT-4-turbo在知识评估中达到了超过60%的准确率,表明当前LLMs仍有很大的改进空间。在应用评估方面,尽管GPT-4和GPT-4-turbo是排名前两位的表现者,但它们与轻量级LLMs之间的显着差距已经明显减小。与CFLUE相关的数据集和脚本可在https://github.com/aliyun/cflue上公开获取。
  • 图表
  • 解决问题
    提出 CFLUE(Chinese Financial Language Understanding Evaluation)基准数据集,旨在评估大型语言模型(LLMs)的能力,以适应LLMs快速发展的步伐。数据集包括38K+多项选择题和16K+测试实例,用于知识评估和应用评估。
  • 关键思路
    CFLUE基准数据集旨在评估LLMs在各个维度上的能力,包括知识评估和应用评估。其中,知识评估包括38K+多项选择题和解释,应用评估包括16K+测试实例,涵盖文本分类、机器翻译、关系抽取、阅读理解和文本生成等不同的NLP任务。通过CFLUE的评估,论文发现当前仅有GPT-4和GPT-4-turbo在知识评估中的准确率超过60%,表明当前LLMs仍有很大的提升空间。
  • 其它亮点
    CFLUE提供了一个全面的评估基准,包括知识评估和应用评估。论文进行了大量的实验评估,发现当前LLMs仍有很大的提升空间。数据集和脚本均已开源。
  • 相关研究
    近期的相关研究包括:1.《XL-NBT: A Cross-lingual Pre-trained Model with Ner and Back-Translation for Chinese Financial Text Processing》;2.《A Large-scale Chinese Short-text Classification Dataset: From Online Discussion Forums to Microblog》;3.《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论