MuseCL: Predicting Urban Socioeconomic Indicators via Multi-Semantic Contrastive Learning

2024年06月23日
  • 简介
    在城市和人类聚居地中,预测社会经济指标对于促进包容性、弹性和可持续性至关重要。虽然先驱性研究已经尝试利用多模态数据进行社会经济预测,但是共同探索它们的基础语义仍然是一个重大挑战。为了填补这一空白,本文介绍了一种多语义对比学习(MuseCL)框架,用于精细的城市区域分析和社会经济预测。在这个框架内,我们通过构建街景和遥感图像的对比样本对来启动过程,利用人类移动性和兴趣点(POI)分布的相似性,从视觉模态中提取语义特征。此外,我们从这些区域嵌入的POI文本中提取语义信息,使用预训练的文本编码器。为了合并所获得的视觉和文本特征,我们设计了一种创新的跨模态注意力融合模块,利用对比机制进行整合。多个城市和指标的实验结果一致地展示了MuseCL的优越性,相对于各种竞争基线模型,展示了10%的平均$R^2$提高。本研究的代码可在https://github.com/XixianYong/MuseCL上公开获取。
  • 图表
  • 解决问题
    本论文旨在解决城市地区社会经济预测的语义联合探索问题,提出了一种Multi-Semantic Contrastive Learning (MuseCL)框架。
  • 关键思路
    该框架利用对比学习构建街景和遥感图像的对比样本对,并从视觉模态中获取语义特征,同时从这些区域内嵌入的POI文本中提取语义信息,并使用预训练文本编码器。为了合并获取的视觉和文本特征,设计了一种基于注意力融合模块的跨模态对比机制。
  • 其它亮点
    论文在多个城市和指标上进行了实验,结果表明MuseCL相对于各种竞争基线模型平均提高了10%的$R^2$。此外,该论文的代码公开在GitHub上。
  • 相关研究
    相关研究包括:1. Multi-Modal Multi-Task Learning for Autonomous Driving;2. Multi-Modal Learning with Unpaired Text to Image Generation;3. Semantic Segmentation of Urban Scenes with Dense Multitask Embedding Network。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论