Simple Yet Efficient: Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment

2024年06月17日
  • 简介
    本文介绍了一种名为细粒度基于草图的图像检索(FG-SBIR)的方法,旨在在嵌入空间中最小化草图和相应图像之间的距离。然而,由于细粒度草图的抽象性质,解决方案的复杂性越来越高,从而影响了可扩展性。本文提出了一种简单而高效的方法来缩小两种模式之间的差距。它主要促进了样本内部和样本间的统一互信息共享,而不是将它们视为模态之间的单一特征对齐问题。具体而言,我们的方法包括:(i)采用双重权重共享网络来优化草图和图像领域内的对齐,这也有效地缓解了模型学习饱和问题。(ii)引入基于对比损失的目标优化函数,以增强模型对特征的样本内部和样本间对齐能力。(iii)提出了可学习的TRSM,结合了自注意力和交叉注意力,以促进标记之间的特征表示,进一步增强嵌入空间中的样本对齐。我们的框架在基于CNN和ViT的主干上取得了出色的结果。广泛的实验证明了它优于现有方法。我们还介绍了Cloths-V1,这是第一个专业的时装草图和图像数据集,用于验证我们的方法,并将有益于其他应用。
  • 图表
  • 解决问题
    本文旨在解决Fine-Grained Sketch-Based Image Retrieval (FG-SBIR)中的模态差异问题,提出一种简单有效的方法来缩小两种模态之间的差距。
  • 关键思路
    本文的关键思路是采用双权重共享网络来优化对齐,引入基于对比损失的目标优化函数来增强模型对样本内部和样本之间的特征对齐能力,以及引入可学习的TRSM结构来进一步提高样本在嵌入空间中的对齐性。
  • 其它亮点
    论文在CNN和ViT的基础上实现了优秀的结果。作者还提出了Cloths-V1数据集,这是第一个专业的时装草图和图像数据集,可用于验证本方法,也将有益于其他应用。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Sketch-based Image Retrieval via Siamese Convolutional Neural Network》、《Sketch-based Image Retrieval Using Convolutional Neural Network and Similarity Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论