StructBench: An Autogenerated Benchmark for Evaluating Large Language Model's Ability in Structure-Rich Text Understanding

简介

许多公司持有大量结构化数据，使得让大型语言模型（LLMs）能够直接理解非结构化形式的结构化文本，可以显著提高它们在各种商业场景下的能力。为此，我们提出了一种评估数据生成方法，用于评估LLM理解结构丰富文本的能力，该方法基于手动制作的问题模板和生成规则生成可控复杂度的结构化数据。基于这种生成方法，我们介绍了StructBench，这是一个基准测试，包括8种不同的结构化语言和29个特定任务的6,032个问题。此外，考虑到人类在基于规则的任务中的熟练程度，我们还提出了StructBench-Hard，其中包括3,016个问题，旨在进一步检查LLMs和人类表现之间的差距。结果表明，目前表现最佳的LLMs在StructBench-Hard上的准确率达到65.0％，而人类准确率高达95.7％。此外，虽然使用StructBench进行微调可以增强现有LLMs对所有结构化语言的理解，但并不一定提高所有任务类型的性能。该基准测试和生成代码已在https://github.com/MikeGu721/StructBench上开源。
图表
解决问题

评估大型语言模型（LLMs）在理解结构化文本方面的能力，以及与人类表现之间的差距。
关键思路

提出了一种评估数据生成方法，基于手工制作的问题模板和生成规则生成可控复杂度的结构化数据，建立了StructBench基准测试，包括8种不同的结构化语言和29个具体任务，同时提出了StructBench-Hard用于检查LLMs和人类表现之间的差距。
其它亮点

实验结果表明，目前表现最好的LLMs在StructBench-Hard上的准确率为65.0％，而人类准确率可达95.7％。此外，使用StructBench进行微调可以增强现有LLMs对所有结构化语言的理解，但不一定能提高所有任务类型的性能。研究代码和基准测试数据集已在GitHub上开源。
相关研究

最近的相关研究包括：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT-2: Language Models are Unsupervised Multitask Learners》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。

StructBench: An Autogenerated Benchmark for Evaluating Large Language Model's Ability in Structure-Rich Text Understanding

评论