SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

2024年07月12日
  • 简介
    电子表格以其广阔的二维网格、各种布局和多样化的格式选项,对大型语言模型(LLMs)提出了显著的挑战。为此,我们介绍了SpreadsheetLLM,开创了一种高效的编码方法,旨在释放和优化LLMs在电子表格上强大的理解和推理能力。最初,我们提出了一种基本的序列化方法,将单元格地址、值和格式结合起来。然而,由于LLMs的标记限制,这种方法受到了限制,对于大多数应用来说是不切实际的。为了解决这个挑战,我们开发了SheetCompressor,这是一个创新的编码框架,可以有效地压缩电子表格以适应LLMs。它包括三个模块:基于结构锚点的压缩、反向索引翻译和数据格式感知聚合。它在电子表格表格检测任务中显著提高了性能,在GPT4的上下文学习设置中,比基本方法提高了25.6%。此外,使用SheetCompressor微调的LLM具有平均压缩比为25倍,但实现了最先进的78.9% F1得分,超过了现有最佳模型12.3%。最后,我们提出了Chain of Spreadsheet,用于电子表格理解的下游任务,并在一个新的、苛刻的电子表格QA任务中进行了验证。我们系统地利用电子表格的固有布局和结构,证明了SpreadsheetLLM在各种电子表格任务中都非常有效。
  • 图表
  • 解决问题
    解决基于电子表格的自然语言处理中,大型语言模型在处理电子表格时面临的挑战,提高其性能。
  • 关键思路
    提出了一种电子表格编码方法,名为SheetCompressor,包含三个模块:基于结构锚点的压缩、逆向索引翻译和数据格式感知的聚合,可以显著提高大型语言模型在电子表格任务中的性能。
  • 其它亮点
    通过实验验证了SheetCompressor的有效性,证明其在电子表格理解任务中表现出色。同时,还提出了Chain of Spreadsheet用于电子表格理解的下游任务,并在新的电子表格QA任务中进行了验证。论文开源了代码和数据集。
  • 相关研究
    近期的相关研究包括:《TabNet: Attentive Interpretable Tabular Learning》、《TabTransformer: Tabular Data Modeling Using Contextual Embeddings》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论