CoverBench: A Challenging Benchmark for Complex Claim Verification

2024年08月06日
  • 简介
    目前有越来越多的研究致力于验证语言模型输出的正确性。同时,语言模型被用于解决需要推理的复杂问题。我们介绍了CoverBench,这是一个专注于在复杂推理环境中验证语言模型输出的具有挑战性的基准测试。可以用于此目的的数据集通常是为其他复杂推理任务(例如问答)设计的,针对特定用例(例如财务表格),需要进行转换、负采样和选择困难样本以收集此类基准测试。CoverBench提供了多样化的评估,用于在各种领域、推理类型、相对较长的输入和各种标准化情况下进行复杂的声明验证,例如,对于可用的表格,提供了多种表示方法和一致的模式。我们手动审核数据以确保标签噪声水平低。最后,我们报告了各种有竞争力的基线结果,以展示CoverBench具有挑战性并且有非常显著的提升空间。数据可在https://huggingface.co/datasets/google/coverbench上获取。
  • 作者讲解
  • 图表
  • 解决问题
    CoverBench是一个针对语言模型输出正确性验证的挑战性基准测试。该基准测试专注于验证复杂推理设置中的语言模型输出,目的是解决当前缺乏多样化、质量高、难度大的语言模型输出验证数据集的问题。
  • 关键思路
    CoverBench提供了多样化的数据集,包括不同领域、不同类型的推理、相对较长的输入等,同时还进行了数据质量的人工审核。该基准测试的关键思路是提供一个更加全面、多样化、高质量的语言模型输出验证数据集。
  • 其它亮点
    CoverBench的实验结果表明该基准测试非常具有挑战性,同时也具有很大的研究价值。论文还提供了一些基线结果和数据集的开源代码,方便研究者进行进一步的研究。
  • 相关研究
    最近在这个领域中,也有一些相关的研究。例如,GLUE、SuperGLUE等基准测试旨在评估自然语言处理模型的性能;而ComQA则是一个针对复杂问题的基准测试。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问