Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition

简介

最近的多模态大语言模型（MLLM），如GPT-4o和GPT-4v，已经展示了在自动驾驶方面的巨大潜力。本文提出了一种基于MLLM的跨领域少样本上下文学习方法，以增强交通标志识别（TSR）的能力。我们首先基于Vision Transformer Adapter和一个提取模块构建了一个交通标志检测网络，从原始道路图像中提取交通标志。为了减少对训练数据的依赖性并提高跨国家TSR的性能稳定性，我们引入了一种基于MLLM的跨领域少样本上下文学习方法。为了增强MLLM对交通标志的细粒度识别能力，所提出的方法使用模板交通标志生成相应的描述文本。这些描述文本包含交通标志的形状、颜色和组成的关键信息，可以激发MLLM感知细粒度交通标志类别的能力。通过使用描述文本，我们的方法减少了模板和真实交通标志之间的跨领域差异。我们的方法只需要简单而统一的文本指示，无需大规模的交通标志图像和标签。我们在德国交通标志识别基准数据集、比利时交通标志数据集和两个来自日本的真实世界数据集上进行了全面评估。实验结果表明，我们的方法显著提高了TSR的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种基于多模态大语言模型的跨域少样本上下文学习方法，以增强交通标志识别（TSR）的性能稳定性和跨国性能力。同时，试图解决少量样本和跨域识别的问题。
关键思路

本文提出了一种基于多模态大语言模型的跨域少样本上下文学习方法，该方法利用模板交通标志生成对应的描述文本，以提高模型的细粒度识别能力和减少跨域差异。
其它亮点

本文提出的方法在多个数据集上进行了全面评估，证明了其在交通标志识别方面的显著性能提升。同时，该方法不需要大规模的交通标志图像和标签，仅需要简单和统一的文本指示即可。
相关研究

最近的相关研究包括：《Few-Shot Learning with Global Class Representations》、《Few-shot Learning via Embedding Adaptation with Set-to-Set Functions》等。

Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition

提问交流

提问交流