StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

2024年02月26日
  • 简介
    结构化数据源,如表格、图表和数据库,是无处不在的知识来源。尽管大型语言模型(LLM)在处理纯文本方面表现出了出色的能力,但它们在解释和利用结构化数据方面的熟练程度仍然有限。我们的调查揭示了LLM在处理结构化数据方面的明显不足,例如,ChatGPT的平均落后于最先进的模型达35%。为了增强LLM的结构化知识基础(SKG)能力,我们开发了一个包括110万个示例的全面指令调整数据集。利用这个数据集,我们训练了一系列模型,称为StructLM,基于Code-LLaMA架构,参数范围从7B到34B。我们的StructLM系列在18个评估数据集中有14个超越了任务特定模型,并在7个SKG任务上建立了新的最先进成果。此外,StructLM在6个新的SKG任务上展现出了出色的泛化能力。与预期相反,我们观察到模型规模的扩大只带来了微小的好处,StructLM-34B仅比StructLM-7B略有改进。这表明,结构化知识基础仍然是一个具有挑战性的任务,需要更多的创新设计来推向一个新的水平。
  • 作者讲解
  • 图表
  • 解决问题
    提高大型语言模型在处理结构化数据方面的能力
  • 关键思路
    通过使用一个新的训练数据集,开发一系列基于Code-LLaMA架构的模型,命名为StructLM,来提高大型语言模型在处理结构化数据方面的能力
  • 其它亮点
    使用了一个包含1.1百万个示例的训练数据集,实验结果表明StructLM在14个评估数据集中超过了任务特定模型,在7个SKG任务上建立了新的SoTA成果,并在6个新的SKG任务中展现了出色的泛化能力。此外,研究还发现模型规模的扩大只带来了微小的改进
  • 相关研究
    最近的相关研究包括GPT-3和其他大型语言模型,以及一些针对结构化数据的特定模型,如TabNet和DeepSET。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问