SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

简介

电子表格以其广阔的二维网格、各种布局和多样化的格式选项，对大型语言模型(LLMs)提出了显著的挑战。为此，我们介绍了SpreadsheetLLM，开创了一种高效的编码方法，旨在释放和优化LLMs在电子表格上强大的理解和推理能力。最初，我们提出了一种基本的序列化方法，将单元格地址、值和格式结合起来。然而，由于LLMs的标记限制，这种方法受到了限制，对于大多数应用来说是不切实际的。为了解决这个挑战，我们开发了SheetCompressor，这是一个创新的编码框架，可以有效地压缩电子表格以适应LLMs。它包括三个模块：基于结构锚点的压缩、反向索引翻译和数据格式感知聚合。它在电子表格表格检测任务中显著提高了性能，在GPT4的上下文学习设置中，比基本方法提高了25.6%。此外，使用SheetCompressor微调的LLM具有平均压缩比为25倍，但实现了最先进的78.9% F1得分，超过了现有最佳模型12.3%。最后，我们提出了Chain of Spreadsheet，用于电子表格理解的下游任务，并在一个新的、苛刻的电子表格QA任务中进行了验证。我们系统地利用电子表格的固有布局和结构，证明了SpreadsheetLLM在各种电子表格任务中都非常有效。
图表
解决问题

解决基于电子表格的自然语言处理中，大型语言模型在处理电子表格时面临的挑战，提高其性能。
关键思路

提出了一种电子表格编码方法，名为SheetCompressor，包含三个模块：基于结构锚点的压缩、逆向索引翻译和数据格式感知的聚合，可以显著提高大型语言模型在电子表格任务中的性能。
其它亮点

通过实验验证了SheetCompressor的有效性，证明其在电子表格理解任务中表现出色。同时，还提出了Chain of Spreadsheet用于电子表格理解的下游任务，并在新的电子表格QA任务中进行了验证。论文开源了代码和数据集。
相关研究

近期的相关研究包括：《TabNet: Attentive Interpretable Tabular Learning》、《TabTransformer: Tabular Data Modeling Using Contextual Embeddings》等。

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

评论