Zero-shot Building Age Classification from Facade Image Using GPT-4

向作者提问

NEW

简介

建筑物的建造年代对于支持许多地理空间应用非常重要。目前许多研究集中在使用深度学习从立面图像中估计建筑年龄。然而，建立一个准确的深度学习模型需要大量标记的训练数据，而训练出的模型通常具有地理限制。最近，大型预训练视觉语言模型（VLMs）例如GPT-4 Vision，展示出了潜在的无需训练工具，用于处理特定的视觉任务，但它们在建筑信息方面的适用性和可靠性尚未被探索。在本研究中，使用包含逻辑指令的提示开发了一种零样本建筑立面图像年龄分类器。以伦敦为测试案例，引入了一个新的数据集FI-London，其中包括立面图像和建筑年代。虽然这个无需训练的分类器仅实现了39.69%的准确率，但0.85个十年的平均绝对误差表明该模型可以成功地预测建筑年代，尽管存在一定的偏差。随后的讨论表明，该分类器难以预测非常古老建筑物的年龄，并且在两个十年内的精细预测方面存在挑战。总的来说，利用GPT-4 Vision的分类器能够从单个立面图像中预测建筑物的大致年代，而无需任何训练。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

开发一种使用GPT-4 Vision的零样本建筑年龄分类器，以单个正面图像为输入，预测建筑年龄纪元。
关键思路

使用预训练的VLMs作为训练免费工具，使用逻辑提示来开发零样本分类器，可以成功预测建筑年龄纪元，但在预测非常老的建筑物的年龄和精细的预测方面存在一定的偏差。
其它亮点

使用GPT-4 Vision开发了一种零样本建筑年龄分类器，可以在没有任何训练的情况下预测建筑年龄纪元。作者介绍了一个新的数据集FI-London，用于测试该分类器。分类器的平均绝对误差为0.85个年代，实验结果表明，该模型可以成功地预测建筑年龄纪元，但在预测非常老的建筑物的年龄和精细的预测方面存在一定的偏差。
相关研究

最近的研究集中在使用深度学习从正面图像估计建筑年龄，但需要大量标记的训练数据。使用预训练的VLMs如GPT-4 Vision可以作为训练免费工具，但其在建筑信息方面的适用性和可靠性尚未得到探索。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问