StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

简介

结构化数据源，如表格、图表和数据库，是无处不在的知识来源。尽管大型语言模型（LLM）在处理纯文本方面表现出了出色的能力，但它们在解释和利用结构化数据方面的熟练程度仍然有限。我们的调查揭示了LLM在处理结构化数据方面的明显不足，例如，ChatGPT的平均落后于最先进的模型达35%。为了增强LLM的结构化知识基础（SKG）能力，我们开发了一个包括110万个示例的全面指令调整数据集。利用这个数据集，我们训练了一系列模型，称为StructLM，基于Code-LLaMA架构，参数范围从7B到34B。我们的StructLM系列在18个评估数据集中有14个超越了任务特定模型，并在7个SKG任务上建立了新的最先进成果。此外，StructLM在6个新的SKG任务上展现出了出色的泛化能力。与预期相反，我们观察到模型规模的扩大只带来了微小的好处，StructLM-34B仅比StructLM-7B略有改进。这表明，结构化知识基础仍然是一个具有挑战性的任务，需要更多的创新设计来推向一个新的水平。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提高大型语言模型在处理结构化数据方面的能力
关键思路

通过使用一个新的训练数据集，开发一系列基于Code-LLaMA架构的模型，命名为StructLM，来提高大型语言模型在处理结构化数据方面的能力
其它亮点

使用了一个包含1.1百万个示例的训练数据集，实验结果表明StructLM在14个评估数据集中超过了任务特定模型，在7个SKG任务上建立了新的SoTA成果，并在6个新的SKG任务中展现了出色的泛化能力。此外，研究还发现模型规模的扩大只带来了微小的改进
相关研究

最近的相关研究包括GPT-3和其他大型语言模型，以及一些针对结构化数据的特定模型，如TabNet和DeepSET。

StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

提问交流

提问交流