微软 | BenchCLAMP: A Benchmark for Evaluating Language Models on Semantic Parsing（评估语义分析语言模型的基准）

作者：Subhro Roy , Sam Thomson , Tongfei Chen ,等

简介：作者介绍了 BenchCLAMP，这是一个评估约束语言模型解析的基准，它通过对提示或微调语言模型的约束解码，基于对输入文本的分析产生语义输出。预训练的开发人员语言模型目前对分类、跨度提取和自由文本生成任务进行基准测试。由于处理特定任务架构和表示的复杂性，语义分析在语言模型评估中被忽略。最近的工作表明，当输出被限制为有效的语义表示时，从提示或微调的语言模型生成可以很好地进行语义解析。BenchCLAMP 包括用于六个语义解析数据集的上下文无关语法，具有不同的输出含义表示，以及一个受约束的解码接口以生成这些语法所涵盖的输出。作者为每个数据集提供低、中、高资源分割，允许在不同数据机制下准确比较各种语言模型。

论文下载：https://arxiv.org/pdf/2206.10668.pdf