UrbanVLP: A Multi-Granularity Vision-Language Pre-Trained Foundation Model for Urban Indicator Prediction

2024年03月25日
  • 简介
    城市指标预测旨在利用数据驱动方法推断不同城市景观中的社会经济指标。然而,现有的预训练模型,特别是那些依赖卫星图像的模型,面临着双重挑战。首先,仅集中在卫星数据的宏观模式可能会引入偏见,缺乏微观层面的细节,如某个地方的建筑细节。其次,预训练模型的解释性不足限制了它们在提供城市规划透明证据方面的实用性。为了解决这些问题,本文提出了一种新颖的视觉语言预训练模型(UrbanVLP)。我们的UrbanVLP无缝集成了来自宏观(卫星)和微观(街景)层面的多粒度信息,克服了先前预训练模型的局限性。此外,它引入了自动生成文本和校准,通过生成高质量的城市图像描述,提高了下游应用程序的解释性。在六个社会经济任务上进行的严格实验强调了UrbanVLP的卓越性能。我们还部署了一个Web平台来验证其实用性。
  • 图表
  • 解决问题
    本文旨在解决城市指标预测中卫星图像预训练模型存在的局限性,即缺乏微观层面的细节和解释性差的问题。
  • 关键思路
    本文提出了一种新的视觉-语言预训练模型(UrbanVLP),可以无缝地整合来自卫星和街景图像的多粒度信息,同时引入自动生成文本和校准,提高了下游应用的解释性。
  • 其它亮点
    本文的实验结果表明UrbanVLP在六项社会经济任务中表现出卓越的性能,并且作者还部署了一个Web平台来验证其实用性。
  • 相关研究
    在这个领域中,最近还有一些相关研究,例如“Multi-Modal Urban Data Analytics: A Survey”和“Socio-economic indicators prediction from satellite imagery using machine learning: A systematic review”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论