电子表格以其广阔的二维网格、各种布局和多样化的格式选项,对大型语言模型(LLMs)提出了显著的挑战。为此,我们介绍了SpreadsheetLLM,开创了一种高效的编码方法,旨在释放和优化LLMs在电子表格上强大的理解和推理能力。最初,我们提出了一种基本的序列化方法,将单元格地址、值和格式结合起来。然而,由于LLMs的标记限制,这种方法受到了限制,对于大多数应用来说是不切实际的。为了解决这个挑战,我们开发了SheetCompressor,这是一个创新的编码框架,可以有效地压缩电子表格以适应LLMs。它包括三个模块:基于结构锚点的压缩、反向索引翻译和数据格式感知聚合。它在电子表格表格检测任务中显著提高了性能,在GPT4的上下文学习设置中,比基本方法提高了25.6%。此外,使用SheetCompressor微调的LLM具有平均压缩比为25倍,但实现了最先进的78.9% F1得分,超过了现有最佳模型12.3%。最后,我们提出了Chain of Spreadsheet,用于电子表格理解的下游任务,并在一个新的、苛刻的电子表格QA任务中进行了验证。我们系统地利用电子表格的固有布局和结构,证明了SpreadsheetLLM在各种电子表格任务中都非常有效。
提问交流