- 简介结构化数据源,如表格、图表和数据库,是无处不在的知识来源。尽管大型语言模型(LLM)在处理纯文本方面表现出了出色的能力,但它们在解释和利用结构化数据方面的熟练程度仍然有限。我们的调查揭示了LLM在处理结构化数据方面的明显不足,例如,ChatGPT的平均落后于最先进的模型达35%。为了增强LLM的结构化知识基础(SKG)能力,我们开发了一个包括110万个示例的全面指令调整数据集。利用这个数据集,我们训练了一系列模型,称为StructLM,基于Code-LLaMA架构,参数范围从7B到34B。我们的StructLM系列在18个评估数据集中有14个超越了任务特定模型,并在7个SKG任务上建立了新的最先进成果。此外,StructLM在6个新的SKG任务上展现出了出色的泛化能力。与预期相反,我们观察到模型规模的扩大只带来了微小的好处,StructLM-34B仅比StructLM-7B略有改进。这表明,结构化知识基础仍然是一个具有挑战性的任务,需要更多的创新设计来推向一个新的水平。
-
- 图表
- 解决问题提高大型语言模型在处理结构化数据方面的能力
- 关键思路通过使用一个新的训练数据集,开发一系列基于Code-LLaMA架构的模型,命名为StructLM,来提高大型语言模型在处理结构化数据方面的能力
- 其它亮点使用了一个包含1.1百万个示例的训练数据集,实验结果表明StructLM在14个评估数据集中超过了任务特定模型,在7个SKG任务上建立了新的SoTA成果,并在6个新的SKG任务中展现了出色的泛化能力。此外,研究还发现模型规模的扩大只带来了微小的改进
- 最近的相关研究包括GPT-3和其他大型语言模型,以及一些针对结构化数据的特定模型,如TabNet和DeepSET。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流