SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation

2024年06月21日
  • 简介
    我们介绍了SpreadsheetBench,这是一个挑战性的电子表格操作基准测试,专门从真实场景中衍生出来,旨在让当前的大型语言模型(LLM)沉浸在电子表格用户的实际工作流程中。与现有的基准测试不同,后者依赖于合成的查询和简化的电子表格文件,SpreadsheetBench是基于从在线Excel论坛收集的912个真实问题构建的,这些问题反映了用户的复杂需求。论坛中的相关电子表格包含各种表格数据,例如多个表格、非标准关系表和丰富的非文本元素。此外,我们提出了一种更可靠的评估指标,类似于在线评测平台,每个指令都会创建多个电子表格文件作为测试用例,确保评估能够处理不同值的电子表格的强大解决方案。我们对各种LLM进行了全面评估,包括单轮和多轮推理设置,揭示了最先进的(SOTA)模型和人类表现之间的实质差距,突出了该基准测试的难度。
  • 图表
  • 解决问题
    论文旨在提出一种新的电子表格操作基准,以测试当前大型语言模型(LLMs)在实际电子表格用户工作流程中的表现。该基准使用912个来自在线Excel论坛的真实问题和相关电子表格构建,以反映用户的复杂需求。同时,提出了一种更可靠的评估指标,以确保评估能够处理具有不同值的电子表格的强大解决方案。
  • 关键思路
    论文的关键思路是使用真实的电子表格问题和数据集来测试当前大型语言模型(LLMs)的性能,并提出一种更可靠的评估指标。
  • 其它亮点
    论文使用了912个真实的电子表格问题和相关电子表格构建基准,提出了一种更可靠的评估指标。实验结果表明,当前的大型语言模型在电子表格操作方面与人类表现存在较大差距。论文还提出了一些值得关注的问题和方向,如如何进一步提高基准的难度和如何将其应用于其他领域。
  • 相关研究
    最近的相关研究包括使用合成查询和简化电子表格文件的基准,以及使用合成数据集进行电子表格单元格分类的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论