Simple Yet Efficient: Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment

2024年06月17日
  • 简介
    本文提出了一种简单而有效的方法,旨在缩小细粒度草图与相应图像之间在嵌入空间中的距离差距。然而,细粒度草图的抽象特性导致了解决方案的复杂性增加,从而阻碍了可扩展性。我们的方法主要促进了样本内和样本间的统一互信息共享,而不是将它们视为模态之间单一特征对齐问题。具体而言,我们的方法包括:(i)采用双重权重共享网络来优化草图和图像领域内的对齐,这也有效地缓解了模型学习饱和问题。(ii)引入基于对比损失的目标优化函数,以增强模型在样本内和样本间对齐特征的能力。(iii)提出了可学习的TRSM,结合了自注意力和交叉注意力,以促进标记之间的特征表示,进一步增强了嵌入空间中的样本对齐。我们的框架在基于CNN和ViT的骨干网络上取得了出色的结果。广泛的实验表明,它优于现有方法。我们还介绍了Cloths-V1,这是第一个专业的时装草图和图像数据集,用于验证我们的方法,并将有助于其他应用。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决细粒度基于草图的图像检索(FG-SBIR)中由于草图的抽象性而导致的可扩展性问题。
  • 关键思路
    本论文提出了一种简单而高效的方法,通过在样本内部和样本之间进行统一的相互信息共享,而不是将它们视为模态之间的单一特征对齐问题来缩小两种模式之间的差距。
  • 其它亮点
    论文的亮点包括:(i)采用双重权重共享网络来优化草图和图像领域内的对齐,这也有效地缓解了模型学习饱和问题。(ii)引入基于对比损失的目标优化函数,增强模型在样本内部和样本之间对齐的能力。(iii)提出了可学习的TRSM,结合了自注意力和交叉注意力,以促进令牌之间的特征表示,进一步增强了嵌入空间中的样本对齐。论文在CNN和ViT的基础上取得了出色的结果。实验表明,本方法优于现有方法。此外,本文介绍了Cloths-V1,第一个专业的时尚草图和图像数据集,可用于验证我们的方法,并有益于其他应用。
  • 相关研究
    在这个领域中,最近还有一些相关的研究,例如:"Sketch-based Image Retrieval with Multi-Scale Convolutional Neural Networks"、"Sketch-Based Image Retrieval via Siamese Convolutional Neural Network with Similarity Fusion"、"Deep Sketch Hashing: Fast Free-Hand Sketch-Based Image Retrieval"等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问