CityGPT: Empowering Urban Spatial Cognition of Large Language Models

2024年06月20日
  • 简介
    大型语言模型(LLMs)具有强大的语言生成和推理能力,在许多领域(如数学和代码生成)已经取得了成功。然而,由于在训练过程中缺乏物理世界的语料库和知识,它们通常无法解决城市空间中许多实际任务。在本文中,我们提出了CityGPT,这是一个系统性的框架,通过在模型中构建一个城市规模的世界模型,增强LLMs对城市空间的理解和解决相关城市任务的能力。首先,我们构建了一个多样化的指令调整数据集CityInstruction,用于有效注入城市知识和增强空间推理能力。通过使用CityInstruction和一般指令数据的混合,我们微调了各种LLMs(例如ChatGLM3-6B,Qwen1.5和LLama3系列),增强它们的能力而不损失一般能力。为了进一步验证所提出方法的有效性,我们构建了一个全面的基准测试CityEval,以评估LLMs在不同的城市场景和问题上的能力。广泛的评估结果表明,使用CityInstruction训练的小型LLMs在CityEval的综合评估中可以与商业LLMs实现竞争性表现。源代码可以通过https://github.com/tsinghua-fib-lab/CityGPT向研究社区公开获取。
  • 图表
  • 解决问题
    论文旨在通过构建城市规模的世界模型,提高大型语言模型(LLMs)在理解城市空间和解决相关城市任务方面的能力。这是一个新问题。
  • 关键思路
    通过构建一个多样化的指令调整数据集CityInstruction,将城市知识注入LLMs中,从而提高其空间推理能力。通过使用CityInstruction和通用指令数据的混合,对各种LLMs进行微调,以增强它们的能力而不损害其通用能力。
  • 其它亮点
    论文构建了一个全面的基准测试CityEval,用于评估LLMs在各种城市场景和问题上的能力。实验结果表明,使用CityInstruction训练的小型LLMs在CityEval的全面评估中可以取得与商业LLMs相竞争的性能。研究人员开放了源代码,可供研究社区使用。
  • 相关研究
    最近的相关研究包括GPT、BERT等大型语言模型的发展和应用,以及在城市领域中使用机器学习和人工智能的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论