- 简介细粒度视觉分类(FGVC)涉及对密切相关的子类进行分类。由于类别之间的细微差异和类内方差高,这项任务很难完成。此外,FGVC数据集通常很小且难以收集,因此需要有效的数据增强方法。最近,文本到图像扩散模型的进展为分类数据集的增强提供了新的可能性。虽然这些模型已被用于为分类任务生成训练数据,但它们在完整数据集训练FGVC模型方面的有效性仍未得到充分探索。最近的依赖于文本到图像生成或图像到图像方法的技术通常难以生成准确表示类别的图像,同时又将它们修改到足以显著增加数据集多样性的程度。为了解决这些挑战,我们提出了SaSPA:结构和主题保持增强。与最近的方法相反,我们的方法不使用真实图像作为指导,从而增加了生成的灵活性并促进了更大的多样性。为确保准确的类别表示,我们采用了调节机制,具体来说是通过对图像边缘和主题表示进行调节。我们进行了大量实验,并将SaSPA与传统和最近的生成数据增强方法进行了基准测试。SaSPA在多个设置下始终优于所有已建立的基准线,包括完整数据集训练、上下文偏差和少样本分类。此外,我们的结果揭示了使用合成数据进行FGVC模型的有趣模式;例如,我们发现使用真实数据的数量与合成数据的最佳比例之间存在关系。代码可在https://github.com/EyalMichaeli/SaSPA-Aug上获得。
-
- 图表
- 解决问题本文旨在解决细粒度视觉分类(FGVC)中数据量小,类别间差异细微,类内方差大的问题,提出了一种新的数据增强方法。
- 关键思路本文提出了一种名为SaSPA的数据增强方法,通过条件机制,包括基于图像边缘和主体表示的条件,来确保生成的图像准确地表示所属类别,同时不使用真实图像作为生成的指导,从而提高了生成灵活性和数据集多样性。
- 其它亮点实验结果表明,SaSPA在多种设置下均优于传统和最新的数据增强方法,包括整个数据集训练、上下文偏差和少样本分类。此外,本文发现了使用合成数据进行FGVC模型训练的有趣模式,例如发现了真实数据使用量与合成数据最佳比例之间的关系。代码已在Github上开源。
- 最近的相关研究包括基于文本到图像扩散模型的数据增强方法和Img2Img方法,但这些方法在生成准确表示类别的图像的同时增加了数据集的多样性方面仍存在困难。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流